精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福博士一己之力讓Attention提速9倍!FlashAttention燃爆顯存,Transformer上下文長度史詩級提升

人工智能
速度上快2倍,意味著研究人員可以用與之前訓練8k上下文模型相同的成本,來訓練16k上下文長度的模型。這些模型可以理解長篇書籍和報告、高分辨率圖像、音頻和視頻。

繼超快且省內存的注意力算法FlashAttention爆火后,升級版的2代來了。

FlashAttention-2是一種從頭編寫的算法,可以加快注意力并減少其內存占用,且沒有任何近似值。

比起第一代,FlashAttention-2速度提升了2倍。

甚至,相較于PyTorch的標準注意力,其運行速度最高可達9倍。

一年前,StanfordAILab博士Tri Dao發布了FlashAttention,讓注意力快了2到4倍,如今,FlashAttention已經被許多企業和研究室采用,廣泛應用于大多數LLM庫。

如今,隨著長文檔查詢、編寫故事等新用例的需要,大語言模型的上下文以前比過去變長了許多——GPT-4的上下文長度是32k,MosaicML的MPT上下文長度是65k,Anthropic的Claude上下文長度是100k。

但是,擴大Transformer的上下文長度是一項極大的挑戰,因為作為其核心的注意力層的運行時間和內存要求,是輸入序列長度的二次方。

Tri Dao一直在研究FlashAttention-2,它比v1快2倍,比標準的注意力快5到9倍,在A100上已經達到了225 TFLOP/s的訓練速度!

圖片圖片

論文地址:https://tridao.me/publications/flash2/flash2.pdf

項目地址:https://github.com/Dao-AILab/flash-attention

FlashAttention-2:更好的算法、并行性和工作分區

端到端訓練GPT模型,速度高達225 TFLOP/s

雖說FlashAttention在發布時就已經比優化的基線快了2-4倍,但還是有相當大的進步空間。

比方說,FlashAttention仍然不如優化矩陣乘法(GEMM)運算快,僅能達到理論最大FLOPs/s的25-40%(例如,在A100 GPU上的速度可達124 TFLOPs/s)。

圖片圖片

GEMM如何用于卷積

在過去的幾個月里,研究人員一直在開發FlashAttention-2,它的性能指標比第一代更強。

研究人員表示,2代相當于完全從頭重寫,使用英偉達的CUTLASS 3.x及其核心庫CuTe。從速度上看,FlashAttention-2比之前的版本快了2倍,在A100 GPU上的速度可達230 TFLOPs/s。

當使用端到端來訓練GPT之類的語言模型時,研究人員的訓練速度高達225 TFLOPs/s(模型的FLOP利用率為72%)。

對注意力計算重新排序

我們知道,FlashAttention是一種對注意力計算進行重新排序的算法,利用平鋪、重新計算來顯著加快計算速度,并將序列長度的內存使用量從二次減少到線性。

圖片圖片

研究人員將輸入塊從HBM(GPU內存)加載到SRAM(快速緩存),并對該模塊執行注意,更新HBM中的輸出。

由于沒有將大型中間注意力矩陣寫入HBM,內存的讀/寫量也跟著減少,進而帶來了2-4倍的執行時間加速。

下圖是FlashAttention的前向傳遞圖:通過平鋪和softmax重新縮放,研究人員人員按模塊進行操作,避免從HBM讀取或是寫入,同時獲得正確輸出,無需近似。

圖片圖片

然而,FlashAttention仍然存在一些低效率的問題,這是由于不同線程塊之間的工作劃分并不理想,以及GPU上的warp——導致低占用率或不必要的共享內存讀寫。

更少的non-matmul FLOP(非矩陣乘法浮點計算數)

研究人員通過調整FlashAttention的算法來減少non-matmul FLOP的次數。這非常重要,因為現代GPU有專門的計算單元(比如英偉達GPU上的張量核心),這就使得matmul的速度更快。

例如,A100 GPU FP16/BF16 matmul的最大理論吞吐量為312 TFLOPs/s,但non-matmul FP32的理論吞吐量僅為 19.5 TFLOPs/s。

另外,每個非matmul FLOP比matmul FLOP要貴16倍。

所以為了保持高吞吐量,研究人員希望在matmul FLOP上花盡可能多的時間。

研究人員還重新編寫了FlashAttention中使用的在線softmax技巧,以減少重新縮放操作的數量,以及邊界檢查和因果掩碼操作,而無需更改輸出。

更好的并行性

FlashAttention v1在批大小和部數量上進行并行化處理。研究人員使用1個線程塊來處理一個注意力頭,共有 (batch_size * head number) 個線程塊。

圖片圖片

在前向處理(左圖)中,研究者將Worker(線程塊)并行化,每個Worker負責處理注意力矩陣的一個行塊。在后向處理過程中(右圖),每個Worker處理注意力矩陣的一個列塊

每個線程塊都在流式多處理器 (SM)運行,例如,A100 GPU上有108個這樣的處理器。當這個數字很大(比如 ≥80)時,這種調度是有效的,因為在這種情況下,可以有效地使用GPU上幾乎所有的計算資源。

在長序列的情況下(通常意味著更小批或更少的頭),為了更好地利用GPU上的多處理器,研究人員在序列長度的維度上另外進行了并行化,使得該機制獲得了顯著加速。

更好的工作分區

即使在每個線程塊內,研究人員也必須決定如何在不同的warp(線程束)之間劃分工作(一組32個線程一起工作)。研究人員通常在每個線程塊使用4或8個warp,分區方案如下圖所示。

研究人員在FlashAttention-2中改進了這種分區,減少了不同warp之間的同步和通信量,從而減少共享內存讀/寫。

圖片圖片

對于每個塊,FlashAttention將K和V分割到4個warp上,同時保持Q可被所有warp訪問。這稱為「sliced-K」方案。

然而,這樣做的效率并不高,因為所有warp都需要將其中間結果寫入共享內存,進行同步,然后再將中間結果相加。

而這些共享內存讀/寫會減慢FlashAttention中的前向傳播速度。

在FlashAttention-2中,研究人員將Q拆分為4個warp,同時保持所有warp都可以訪問K和V。

在每個warp執行矩陣乘法得到Q K^T的一個切片后,它們只需與共享的V切片相乘,即可得到相應的輸出切片。

這樣一來,warp之間就不再需要通信。共享內存讀寫的減少就可以提高速度。

新功能:頭的維度高達256,多查詢注意力

FlashAttention僅支持最大128的頭的維度,雖說適用于大多數模型,但還是有一些模型被排除在外。

FlashAttention-2現在支持256的頭的維度,這意味著GPT-J、CodeGen、CodeGen2以及Stable Diffusion 1.x等模型都可以使用FlashAttention-2來獲得加速和節省內存。

v2還支持多查詢注意力(MQA)以及分組查詢注意力(GQA)。

圖片圖片

GQA為每組查詢頭共享單個key和value的頭,在多頭和多查詢注意之間進行插值

這些都是注意力的變體,其中多個查詢頭會指向key和value的同一個頭,以減少推理過程中KV緩存的大小,并可以顯著提高推理的吞吐量。

注意力基準


研究人員人員在A100 80GB SXM4 GPU 上測量不同設置(有無因果掩碼、頭的維度是64或128)下不同注意力方法的運行時間。

圖片圖片

研究人員發現FlashAttention-2比第一代快大約2倍(包括在xformers庫和Triton中的其他實現)。

與PyTorch中的標準注意力實現相比,FlashAttention-2的速度最高可達其9倍。

圖片圖片

A100 GPU上的前向+后向速度

只需在H100 GPU上運行相同的實現(不需要使用特殊指令來利用TMA和第四代Tensor Core等新硬件功能),研究人員就可以獲得高達335 TFLOPs/s的速度。

圖片圖片

H100 GPU上的前向+后向速度

當用于端到端訓練GPT類模型時,FlashAttention-2能在A100 GPU上實現高達225TFLOPs/s的速度(模型FLOPs利用率為72%)。

與已經非常優化的FlashAttention模型相比,端到端的加速進一步提高了1.3倍。

圖片圖片

未來的工作

速度上快2倍,意味著研究人員可以用與之前訓練8k上下文模型相同的成本,來訓練16k上下文長度的模型。這些模型可以理解長篇書籍和報告、高分辨率圖像、音頻和視頻。

同時,FlashAttention-2還將加速現有模型的訓練、微調和推理。

在不久的將來,研究人員還計劃擴大合作,使FlashAttention廣泛適用于不同類型的設備(例如H100 GPU、AMD GPU)以及新的數據類型(例如fp8)。

下一步,研究人員計劃針對H100 GPU進一步優化FlashAttention-2,以使用新的硬件功能(TMA、第四代Tensor Core、fp8等等)。

將FlashAttention-2中的低級優化與高級算法更改(例如局部、擴張、塊稀疏注意力)相結合,可以讓研究人員用更長的上下文來訓練AI模型。

研究人員也很高興與編譯器研究人員合作,使這些優化技術更好地應用于編程。

作者介紹

Tri Dao曾在斯坦福大學獲得了計算機博士學位,導師是Christopher Ré和Stefano Ermon。

根據主頁介紹,他將從2024年9月開始,任職普林斯頓大學計算機科學助理教授。

圖片圖片

Tri Dao的研究興趣在于機器學習和系統,重點關注高效訓練和長期環境:

- 高效Transformer訓練和推理 - 遠程記憶的序列模型 - 緊湊型深度學習模型的結構化稀疏性。

值得一提的是,Tri Dao今天正式成為生成式AI初創公司Together AI的首席科學家。

圖片圖片

參考資料:

https://princeton-nlp.github.io/flash-atttention-2/

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-10-18 09:25:08

模型推理

2025-10-11 08:52:06

2013-09-10 15:06:30

2025-10-31 16:06:19

AI參數微調

2022-06-17 14:28:16

算法模型

2024-06-06 16:16:00

2022-10-20 15:38:02

谷歌模型

2016-05-06 18:26:08

2021-09-06 14:53:15

人工智能機器學習技術

2023-12-08 13:22:00

數據模型

2024-05-13 12:58:30

2024-03-14 08:11:45

模型RoPELlama

2023-07-18 14:50:15

2023-07-11 10:02:23

2023-07-28 12:13:28

模型語言性能

2023-09-16 13:47:47

人工智能數據

2023-06-09 13:19:34

模型AI

2024-04-07 08:50:00

谷歌框架

2017-05-11 14:00:02

Flask請求上下文應用上下文

2021-07-26 07:47:36

Cpu上下文進程
點贊
收藏

51CTO技術棧公眾號

香蕉大人久久国产成人av| 欧洲亚洲精品视频| 韩国亚洲精品| 亚洲精品自在久久| 国产超碰在线播放| 性国产高清在线观看| 91麻豆精东视频| 成人h片在线播放免费网站| 欧美日韩中文字幕在线观看 | 在线视频国产一区| 在线观看成人免费| 日本电影一区二区在线观看| 精品午夜久久福利影院| 668精品在线视频| 日韩在线不卡av| 亚瑟一区二区三区四区| 欧美一区二区在线播放| 欧美一级片中文字幕| 97影院秋霞午夜在线观看| 久久女同互慰一区二区三区| 国产欧美精品一区二区| 欧美在线观看不卡| 国产成人调教视频在线观看 | 国产精品久在线观看| 精品在线免费观看视频| 93在线视频精品免费观看| 国产视频一区在线| 亚洲日本久久久| 国产精品一级在线观看| 欧美色精品在线视频| 99精品人妻少妇一区二区 | 日韩av二区| 日韩精品极品毛片系列视频| 26uuu国产| 9999在线精品视频| 欧美男人的天堂一二区| www.xxx亚洲| 波多野结衣久久精品| 午夜久久久影院| 成年丰满熟妇午夜免费视频| 毛片在线播放a| 国产精品久久久久久妇女6080 | 欧美小视频在线观看| youjizz.com在线观看| caoporm免费视频在线| 国产精品超碰97尤物18| 亚洲激情图片| freemovies性欧美| 欧美激情一区二区三区在线| 日韩精品久久久免费观看| 亚洲人妻一区二区三区| 不卡视频免费播放| 精品中文字幕人| 日本一区高清| 久久蜜桃香蕉精品一区二区三区| 国产主播一区二区三区四区| 手机av免费在线观看| www.亚洲激情.com| 久久精品日产第一区二区三区| 欧美在线精品一区二区三区| 99久久久久免费精品国产| 精品日产一区2区三区黄免费| 五月婷婷在线播放| 91麻豆成人久久精品二区三区| 久久久久久久有限公司| 精品av中文字幕在线毛片| 国产三级精品在线| 一本久道久久综合| 性网站在线观看| 亚洲国产成人av网| 国产在线青青草| 国产成人精品一区二三区在线观看 | 国产福利精品一区| 国产精品一区二区欧美| 青青草视频在线观看| 国产清纯在线一区二区www| 午夜精品一区二区三区在线观看 | 日本精品久久中文字幕佐佐木| 欧美特黄aaaaaa| 欧美aⅴ一区二区三区视频| 成人激情黄色网| 亚洲AV无码精品色毛片浪潮| 97久久超碰国产精品电影| 色综合久久av| 羞羞污视频在线观看| 欧美日韩免费一区| 色片在线免费观看| 超碰成人福利| 亚洲欧美日韩综合| 国产稀缺精品盗摄盗拍| 国产精品普通话对白| 国产精品入口尤物| 性做久久久久久久久久| 国产日韩综合av| 777久久精品一区二区三区无码| 欧美大胆a人体大胆做受| 欧美日韩国产电影| xxxwww国产| 99精品视频精品精品视频| 国外色69视频在线观看| 丰满熟女人妻一区二区三| 成人精品一区二区三区四区| 欧美一区2区三区4区公司二百| 浪潮av一区| 日本韩国精品在线| 9.1在线观看免费| 日韩电影免费网址| 2019亚洲男人天堂| 精品国产av一区二区| 久久久www成人免费毛片麻豆| 国产免费xxx| 欧美在线va视频| 亚洲精品第一国产综合精品| 午夜精品一区二区三区视频| 美女黄色成人网| dy888夜精品国产专区| 永久免费av在线| 日韩欧美精品中文字幕| 韩国av中国字幕| 在线精品国产| 国产欧美日韩中文字幕| 免费在线黄色电影| 激情av一区二区| www.欧美com| 亚洲成av人片一区二区密柚 | 国产精品一区二区精品视频观看| 亚洲精品乱码久久久久久金桔影视 | 亚洲色偷精品一区二区三区| 亚洲精品成人少妇| 日韩av一卡二卡三卡| av一区二区高清| 国产97色在线|日韩| 色婷婷激情五月| 亚洲国产一区二区在线播放| 爱豆国产剧免费观看大全剧苏畅| 精品国产一区一区二区三亚瑟| 亲爱的老师9免费观看全集电视剧| 亚洲精品无amm毛片| 亚洲激情图片小说视频| 国产大片一区二区三区| 欧美好骚综合网| 国产精品亚洲自拍| 五月婷婷在线视频| 欧美乱妇20p| 99久久99久久精品国产| 国产精品一区在线观看你懂的| 中文字幕人成一区| 青青在线精品| 久久综合色影院| 99热这里只有精品99| 亚洲欧美日韩久久| 亚洲911精品成人18网站| 国产精品99免费看| 国产成人成网站在线播放青青| 欧美hdxxxx| 亚洲国产91精品在线观看| 国产特黄大片aaaa毛片| 91污片在线观看| 日本www高清视频| 日本精品三区| 亚洲综合社区网| 日本在线观看大片免费视频| 亚洲国产精品99| 黄瓜视频在线免费观看| 日本一区二区免费在线 | 亚洲黄色免费观看| 国产婷婷一区二区| 色一情一区二区三区| 欧美激情aⅴ一区二区三区| 懂色一区二区三区av片| 欧美男男激情videos| 国产亚洲精品一区二555| 真实的国产乱xxxx在线91| 国产精品第五页| 欧美午夜精品一区二区| 久久av在线| 一区二区国产日产| jizz久久精品永久免费| 日韩女优在线播放| 国产在线一区二区视频| 亚洲国产精品久久| 欧美另类高清videos的特点| 亚洲欧美日韩久久精品| 男女黄床上色视频| 国产一区91精品张津瑜| 国产免费黄色小视频| 欧美一区电影| 动漫3d精品一区二区三区| 天天综合网站| 久久久久久久久中文字幕| 国产在线视频资源| 日韩欧美成人一区二区| 波多野结衣啪啪| 亚洲特级片在线| 大又大又粗又硬又爽少妇毛片| 精品无人区卡一卡二卡三乱码免费卡 | 亚洲在线免费视频| 91精品产国品一二三产区| 精品国产一区二区三区久久久狼 | 久久精品在这里| 国产又粗又猛大又黄又爽| 欧美专区18| 日韩精品在线视频免费观看| 欧美日韩国产一区二区三区不卡| 成人精品水蜜桃| 欧美日韩精品一区二区三区视频| 欧美精品电影在线| 秋霞a级毛片在线看| 亚洲精品中文字幕av| 亚洲第一色视频| 欧美色图12p| 精品国产一区二区三区四| 一区二区不卡在线播放 | 国产综合内射日韩久| 免费人成网站在线观看欧美高清| 免费看又黄又无码的网站| 欧美在线高清| 精品久久免费观看| re久久精品视频| 免费久久一级欧美特大黄| ccyy激情综合| 3d动漫啪啪精品一区二区免费| 欧美天堂一区| 国产精品成人观看视频国产奇米| 超级白嫩亚洲国产第一| 欧美激情精品在线| 亚洲小说区图片| 久久久精品美女| 岛国大片在线观看| 亚洲欧洲午夜一线一品| 日韩一级片免费观看| 日韩精品一区二区三区四区| 国产精品主播一区二区| 欧美日韩免费一区二区三区视频| 国产中文字幕视频| 精品久久久一区| 日韩欧美一级视频| 婷婷丁香激情综合| 国产无遮挡又黄又爽| 亚洲图片欧美色图| 伊人365影院| 亚洲v中文字幕| 亚洲精品视频在线观看免费视频| 精品美女永久免费视频| 日韩av在线播放观看| 天天综合天天做天天综合| 日韩三级小视频| 精品久久久久久久久国产字幕| 国产无遮无挡120秒| 五月婷婷激情综合网| 午夜毛片在线观看| 91久久精品国产91性色tv | 91超碰国产在线| 97成人超碰免| 韩国三级一区| 国产在线精品自拍| 麻豆国产一区二区三区四区| 亚洲xxxx视频| 国产精品极品在线观看| 国产伦理久久久| 全球av集中精品导航福利| 久久爱av电影| 欧美综合在线视频观看 | 亚洲免费黄色| 成人久久久久久久久| 人人狠狠综合久久亚洲| 国产永久免费网站| 国产91丝袜在线观看| 人妻在线日韩免费视频| 亚洲国产精品激情在线观看| 尤物在线免费视频| 亚洲一区二区偷拍精品| 国产成人无码av| 8v天堂国产在线一区二区| 午夜精品一二三区| 精品呦交小u女在线| 午夜视频成人| 欧美日韩aaaa| 超碰超碰人人人人精品| 成人春色激情网| 久久国产精品色av免费看| 日韩区国产区| 欧美日韩一视频区二区| 中文字幕乱码人妻综合二区三区| 蜜桃av一区二区在线观看| 亚洲麻豆一区二区三区| 久久久99免费| 欧美精品一级片| 欧美性猛交xxxx乱大交蜜桃| 国产伦精品一区二区三区四区 | 人妻 丝袜美腿 中文字幕| 久久久亚洲精品石原莉奈| 99精品久久久久| 一本在线高清不卡dvd| 99久久夜色精品国产亚洲| 国产婷婷色综合av蜜臀av| dy888亚洲精品一区二区三区| 日韩免费不卡av| 一区二区在线免费播放| 亚州欧美一区三区三区在线 | 天天操天天干天天操| 国产亚洲欧美日韩一区二区| 久久亚洲导航| 成人黄色激情网| 亚洲国产精品嫩草影院久久av| 91成人在线视频观看| 老牛嫩草一区二区三区日本| 日本精品一二三区| 中文av一区二区| 99久久精品国产亚洲| 日韩三级免费观看| 日本天堂在线观看| 国产成人aa精品一区在线播放| av综合网址| 在线丝袜欧美日韩制服| 日韩成人一级大片| 亚洲av无码国产精品久久| 亚洲影视在线播放| 国产精品无码免费播放| 自拍亚洲一区欧美另类| 在线免费三级电影网站| 国产伦精品一区| 欧美日韩a区| 青青草原播放器| 国产精品高潮呻吟久久| 亚洲精品国产欧美在线观看| 日韩电影中文字幕一区| 第一福利在线视频| y111111国产精品久久婷婷| 婷婷激情综合| 17c国产在线| 国产精品毛片久久久久久| 制服丝袜在线一区| 在线观看久久久久久| 99亚洲伊人久久精品影院| 日本精品免费| 日日摸夜夜添夜夜添精品视频 | 乱色精品无码一区二区国产盗| 久久久精品影院| 中文幕av一区二区三区佐山爱| 亚洲欧美日韩精品在线| 美女视频一区二区| 91制片厂在线| 91精品蜜臀在线一区尤物| 在线观看三级视频| 成人xxxxx色| 亚洲午夜极品| 中文成人无字幕乱码精品区| 五月综合激情婷婷六月色窝| 手机看片福利在线| 热草久综合在线| 国产影视精品一区二区三区| 色一情一乱一伦一区二区三区日本| 国产色一区二区| 中文字幕av资源| www国产亚洲精品久久网站| 精品国产不卡一区二区| 国产freexxxx性播放麻豆| 成人av午夜电影| 中文字幕精品三级久久久| 一区二区三区 在线观看视| 亚洲久草在线| 国产肉体ⅹxxx137大胆| av一区二区三区在线| 99久久久久久久久| 日韩中文字幕视频| 99国产精品免费网站| 成人小视频在线看| 中文字幕电影一区| 国产黄色片av| 日本欧美爱爱爱| 国产精品久久久久一区二区三区厕所| 一级 黄 色 片一| 欧美日韩亚洲系列| 成人欧美亚洲| y111111国产精品久久婷婷| 免费日韩av片| 色哟哟一一国产精品| 亚洲精品wwww| 国产原创一区| 一二三四视频社区在线| 欧美国产一区在线| 亚洲第一大网站| 国产精品久久999| 欧美午夜影院| 九九九视频在线观看| 欧美不卡一区二区三区| 日韩经典一区| 高清欧美精品xxxxx| 亚洲欧美一区二区在线观看| 色噜噜在线播放| 成人有码视频在线播放| 亚洲国产清纯| 国产精品99久久久久久成人| 日韩成人在线视频网站| 精品视频一二| 我要看一级黄色大片| 亚洲成人你懂的| 国产秀色在线www免费观看| 蜜桃日韩视频|