精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

FlashAttention3:“苗條”的就是比較好! 原創(chuàng)

發(fā)布于 2024-7-16 08:54
瀏覽
0收藏

?1.加速Hopper GPU

注意力機(jī)制是Transformer架構(gòu)的核心能力,也是大型語言模型和長(zhǎng)上下文應(yīng)用的瓶頸。FlashAttention(和 FlashAttention-2)開創(chuàng)了一種通過最小化內(nèi)存讀/寫來加速 GPU 注意力的方法,現(xiàn)在大多數(shù)庫(kù)都使用它來加速 Transformer 訓(xùn)練和推理。

這導(dǎo)致了過去兩年上下文LLM長(zhǎng)度的大幅增加,從2-4K(GPT-3,OPT)增加到128K(GPT-4),甚至1M(Llama 3)。然而,盡管取得了成功,但 FlashAttention 尚未利用現(xiàn)代硬件中的新功能,F(xiàn)lashAttention-2在H100 GPU上僅實(shí)現(xiàn)了35%的理論最大FLOP 利用率。

在這篇博文中介紹了三種主要技術(shù)來加快對(duì)Hopper GPU的關(guān)注:利用 Tensor Core和TMA的異步性來

1) 通過扭曲專業(yè)化重疊整體計(jì)算和數(shù)據(jù)移動(dòng)

2)交錯(cuò)塊matmul和softmax操作

3)利用硬件支持實(shí)現(xiàn) FP8 低精度的非連貫處理

2.快速了解

FlashAttention-3比使用FP16的FlashAttention-2快1.5-2.0倍,高達(dá)740 TFLOPS,即H100理論最大FLOPS利用率為 75%。使用FP8時(shí),F(xiàn)lashAttention-3達(dá)到接近 1.2 PFLOPS,誤差比基線FP8注意小2.6倍。

  • 更高效的GPU利用率:新技術(shù)可利用高達(dá)75%的H100 GPU最大功能,而之前僅為35%。這導(dǎo)致在訓(xùn)練和運(yùn)行大型語言模型方面,比以前的版本快得多(1.5-2 倍LLMs)。
  • 以較低的精度獲得更好的性能:FlashAttention-3可以處理精度較低的數(shù)字FP8,同時(shí)保持精度。這樣可以實(shí)現(xiàn)更快的處理速度,并可能降低內(nèi)存使用率,從而為運(yùn)行大規(guī)模AI操作的客戶節(jié)省成本并提高效率。
  • 能夠在以下位置LLMs使用更長(zhǎng)的上下文:通過加速注意力機(jī)制,F(xiàn)lashAttention-3使AI模型能夠更有效地處理更長(zhǎng)的文本片段。這可以使應(yīng)用程序能夠在不減慢速度的情況下理解和生成更長(zhǎng)、更復(fù)雜的內(nèi)容。

3.GEMM和SOFTMAX

注意力有兩個(gè)主要操作GEMMs(GEMMs是指廣義矩陣乘法General Matrix Multiply),例如注意力機(jī)制中Q和K之間以及注意力矩陣P和V之間的矩陣乘法。

GPU上面現(xiàn)代加速器上,非matmul操作比matmul操作慢得多。例如softmax中的指數(shù)運(yùn)算等特殊函數(shù)的吞吐量遠(yuǎn)遠(yuǎn)低于浮點(diǎn)乘加。這些特殊運(yùn)算(函數(shù))SF一般是由多功能(計(jì)算)單元負(fù)責(zé),多功能(計(jì)算)單元是獨(dú)立于浮點(diǎn)乘-加(例如y=wx+b)或矩陣乘加之外。

例如,H100 GPU SXM5具有989TFLOPS的FP16矩陣乘法,但對(duì)于特殊的函數(shù)SF,只有 3.9TFLOPS的吞吐,吞吐量低 256 倍。

CUDA 編程指南規(guī)定,特殊函數(shù)的吞吐量為每個(gè)時(shí)鐘周期每個(gè)流式多處理器 (SM) 16次操作。將16乘以132SM和1830 Mhz(用于計(jì)算 FP16 matmul 的989TFLOPS 的時(shí)鐘速度)得到 3.9TFLOPS!

假如注意力機(jī)制的head維度為128,matmul FLOPS比指數(shù)運(yùn)算多512倍,這意味著與matmul運(yùn)算相比,花費(fèi)在指數(shù)運(yùn)算的時(shí)間需要比矩陣運(yùn)算多50%的時(shí)間。Matmul在FP8的精度下速度比FP16還要快多兩倍,這樣一來就被指數(shù)運(yùn)算嚴(yán)重的拖后腿!能有魔法棒實(shí)現(xiàn)兩者并行么?

上面文縐縐的話翻譯成白話就是:GEMM比Softmax快,如何讓兩者并駕齊驅(qū)?

Warp是SM中的基本概念,可以先回去溫習(xí)下GPU的組成。Warp其實(shí)已經(jīng)做了一些調(diào)度的事宜,某些Warp被阻塞,其他翹曲可以運(yùn)行。?

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

例如存在 2個(gè)warpgroup(標(biāo)記為 1 和 2),每個(gè)warpgroup是4個(gè)warp 的組),這時(shí)候通過使用同步屏障 (bar.sync),以便warpgroup 1首先執(zhí)行它的GEMM。例如,一次迭代的GEMM1和下一次迭代的 GEMM0。然后warpgroup 2執(zhí)行它的GEMM,而warpgroup 1執(zhí)行它的softmax, 等等。這個(gè)類似乒乓球的調(diào)度方式,確保了兩者并駕齊驅(qū)。上圖相同顏色的為相同的迭代。

這種方式在實(shí)踐中,調(diào)度并不是真的這么妥帖,但是這樣的調(diào)度可以將 FP16 注意力前向傳遞從大約 570 TFLOPS提高到620 TFLOPS(頭部head 128維,序列長(zhǎng)度8K)。

即使在一個(gè)Warpgroup中,可以在這個(gè)群組運(yùn)行GEMM的時(shí)候運(yùn)行softmax的某些部分。如下圖所示:

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

<非工科讀者跳過!>具體的原理在于在注意力算法中,內(nèi)部循環(huán)(主循環(huán))內(nèi)的操作具有順序依賴性,這些依賴性會(huì)阻礙單次迭代中的并行化。例如,(本地)softmax 18-19行依賴于第一個(gè) GEMM 的輸出,而第二個(gè) GEMM 將其結(jié)果作為操作數(shù)。實(shí)際上,算法 1 的第 17- 21行中的等待語句序列化了softmax 和GEMM的執(zhí)行。但是可以通過寄存器中的額外緩沖區(qū)在迭代之間流水線來打破這些依賴關(guān)系。遵循這一思路,F(xiàn)L3提出了以下兩階段GEMM-softmax流水線算法:

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

<繼續(xù)>這種流水線將吞吐量從大約620 TFLOPS提高到大約640-660 TFLOPS,用于FP16注意力向前轉(zhuǎn)移,但代價(jià)是更高的寄存器壓力,因?yàn)樾枰嗟募拇嫫鱽砣菁{GEMM的累加器和softmax的輸入/輸出。

擴(kuò)展上述 2 階段算法,F(xiàn)L3繼續(xù)提出了一個(gè)3階段變體,該變體將進(jìn)一步重疊第二個(gè)WGMMA與softmax。雖然這種方法提供了更高的 Tensor Core 利用率的潛力,但它需要更多的寄存器。

4.FP8的量化支持?

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FP8和FP32在寄存器中的存儲(chǔ)布局的不一致給FL3的算法帶來了挑戰(zhàn)。

對(duì)于 FP8 FlashAttention-3, ??在將分片加載到SMEM后進(jìn)行內(nèi)核內(nèi)轉(zhuǎn)置。對(duì)于內(nèi)核內(nèi)轉(zhuǎn)置,我們利用了LDSM ( ldmatrix ) 和STSM ( stmatrix )指令,它們涉及一系列線程共同加載 SMEM到RMEM,并以 128 字節(jié)的粒度存儲(chǔ) RMEM 到 SMEM。

LDSM/STSM指令都是高效的,允許在warpgroup中執(zhí)行,并且能夠在執(zhí)行內(nèi)存復(fù)制時(shí)轉(zhuǎn)置布局。在第一次迭代之后,可以在前一個(gè)??切片和當(dāng)前 ??切片的WGMMA運(yùn)算中,加入下一個(gè)??切片的轉(zhuǎn)置。

使用 FP8 (e4m3) 格式,僅使用3位來存儲(chǔ)尾數(shù),使用4位來存儲(chǔ)指數(shù)。這導(dǎo)致比FP16/BF16更高的數(shù)值誤差。此外,大型模型通常具有異常值,它的量級(jí)比大多數(shù)其他值大得多,這使得量化變得困難。為了減少 FP8中注意力機(jī)制的誤差,F(xiàn)L3采用了兩種技術(shù):

  • 塊量化:為每個(gè)塊保留一個(gè)標(biāo)量,以便對(duì)于每個(gè)Q,K,V 將其張量拆分為大小????×?? ????×?? 塊,然后獨(dú)立量化。這種量化可以與注意力之前的操作融合,而不會(huì)額外減慢速度。由于FlashAttention-3算法都是基于快進(jìn)行計(jì)算,因此可以縮放每個(gè)S塊進(jìn)行量化,而無需計(jì)算成本。
  • 利用QuIP的非相干處理,將Q和K與隨機(jī)正交矩陣相乘,以“分散”異常值并減少量化誤差。<不明白可以跳過,后面專欄介紹這種算法>。

在實(shí)驗(yàn)中,Q、K、V是由標(biāo)準(zhǔn)正態(tài)分布生成的,但0.1%的條目具有較大的量級(jí)(模擬異常值),我們發(fā)現(xiàn)非相干處理可以將量化誤差減少 2.6倍。下表為數(shù)值誤差比較。

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

5.性能對(duì)比

下面展示了FlashAttention-3的一些結(jié)果,并將其與FlashAttention-2以及 Triton和cuDNN中的實(shí)現(xiàn)進(jìn)行了比較(兩者都已經(jīng)使用了Hopper GPU 的新硬件功能)。對(duì)于FP16,F(xiàn)lashAttention-2的加速約為1.6倍至 2.0倍。

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产午夜精品一区理论片| 亚洲一二三四五六区| av第一福利在线导航| 青草av.久久免费一区| 在线播放日韩欧美| 爽爽爽在线观看| 四虎影视国产在线视频| 成人精品视频一区二区三区 | 黄色特一级视频| 成 人片 黄 色 大 片| 一区二区三区网站| 亚洲国产黄色片| 成年人小视频网站| 国产成人无吗| 91首页免费视频| 国产精品三级网站| 亚洲精品天堂网| 国产精品第10页| 国产永久免费网站| 91香蕉在线观看| av不卡免费电影| 国产精品h片在线播放| 国产又粗又长又黄的视频| 日本亚州欧洲精品不卡| 色综合av在线| 黄网站色视频免费观看| 男人天堂网在线观看| 久久精品人人| 欧美精品免费看| 91中文字幕永久在线| avtt久久| 在线观看日韩毛片| 国产精品久久国产| 成人三级黄色免费网站| 国产成人精品综合在线观看| 久久久久久久一区二区三区| 人妻无码一区二区三区免费| 亚洲天堂av资源在线观看| 在线亚洲一区观看| 欧美亚洲黄色片| 日本在线视频网| xf在线a精品一区二区视频网站| 欧美专区中文字幕| 久久av高潮av无码av喷吹| 国产日产精品_国产精品毛片| 欧美性猛交xxxxxxxx| 久久国产精品网| 黄色的网站在线观看| 久久精品网站免费观看| 国产欧美一区二区三区另类精品 | 久久久亚洲精品一区二区三区| 国产成人一区二区| 国产中文字字幕乱码无限| 精品理论电影在线| 欧美成人综合网站| 一级黄色片在线免费观看| 日韩国产网站| 欧美性生交xxxxx久久久| 18禁裸男晨勃露j毛免费观看 | 日韩一区国产二区欧美三区| 精品久久久久久久无码| 国内激情视频在线观看| 亚洲欧美aⅴ...| 日本黄色播放器| 国产高清视频在线| 91网站黄www| 久久国产精品久久| 欧美综合视频在线| av爱爱亚洲一区| 国产精品视频免费一区二区三区 | 91福利视频久久久久| 男女日批视频在线观看| 日本欧美电影在线观看| 综合在线观看色| 色乱码一区二区三区熟女| av天在线观看| 国产精品天美传媒沈樵| 日韩欧美精品一区二区三区经典| 亚洲人午夜射精精品日韩| 成人av影院在线| 国产伦精品一区二区| 亚洲国产日韩在线观看| 国产成人福利片| 电影午夜精品一区二区三区| www.成人精品| 国产**成人网毛片九色| 成人免费看片网址| 日韩在线观看视频一区二区三区| 国产精品亚洲成人| 国产手机精品在线| 国产区在线视频| 国产欧美一区二区精品性 | 自拍自偷一区二区三区| 亚洲精品自在久久| 99久久99久久精品免费看小说. | 欧美日韩第一区日日骚| 中文字幕 欧美日韩| 久久伊人影院| 欧美成人激情免费网| 黄色污在线观看| 欧美肉体xxxx裸体137大胆| 色噜噜狠狠狠综合曰曰曰88av| 日本高清黄色片| 欧美一区91| 国产91对白在线播放| 久久国产香蕉视频| 国产经典欧美精品| 欧美在线视频一区二区三区| 午夜视频在线| 午夜免费久久看| 国产 porn| 综合成人在线| 亚洲性无码av在线| 日本精品人妻无码77777| 欧美成人日韩| 992tv成人免费影院| 无码人妻久久一区二区三区| 国内精品久久久久影院一蜜桃| 51精品国产人成在线观看| 欧美男男激情freegay| 亚洲日本va午夜在线影院| 欧美图片激情小说| 高清av一区| 精品第一国产综合精品aⅴ| www在线观看免费视频| 欧美一区二区三区久久精品| 国产精品27p| 精品国产伦一区二区三区| 久久中文娱乐网| 91传媒免费视频| 欧美www.| 亚洲国产成人在线播放| 最新一区二区三区| 国产日韩欧美一区| av观看久久| 91精品大全| 洋洋av久久久久久久一区| 黑人糟蹋人妻hd中文字幕| 精品一区二区三区免费看| 亚洲网在线观看| 99精品久久久久| 男人的天堂久久精品| 国产精品毛片一区视频| a视频在线观看| 欧美久久婷婷综合色| 成都免费高清电影| 黄色亚洲大片免费在线观看| 91精品国产综合久久香蕉922| 好吊色一区二区三区| 亚洲欧美日韩国产另类专区| 999精彩视频| 国产伦精品一区二区三区千人斩| 欧美激情精品久久久久| 国产日韩欧美一区二区东京热| 99久久免费视频.com| 日韩欧美精品免费| 24小时成人在线视频| 中文字幕亚洲一区在线观看| 久久久久久不卡| 99re6这里只有精品视频在线观看| 裸体裸乳免费看| 色狠狠一区二区三区| 一区二区三区天堂av| 国产黄网在线观看| 久久久久久亚洲综合影院红桃| 中文字幕一区二区三区乱码| 亚洲一区导航| 久久黄色av网站| 国产精品综合在线| 亚洲女与黑人做爰| 操人视频免费看| 欧美激情一级片一区二区| 成人春色激情网| 欧美r级在线| 91麻豆精品国产91久久久使用方法| 五月婷婷综合在线观看| 亚洲欧美日韩国产一区| 久久亚裔精品欧美| 成人午夜精品| 中文字幕不卡av| 亚洲天堂aaa| 亚洲欧美福利一区二区| 9191在线视频| 亚洲人体大胆视频| 欧美高清性xxxxhd| av有声小说一区二区三区| 伊人久久久久久久久久久| 真实的国产乱xxxx在线91| 国产精品久久久久婷婷| 在线免费看污网站| 在线看片成人| 欧美在线视频二区| 男人亚洲天堂| 欧美日韩福利在线观看| 天天色综合久久| 午夜精品久久久久久久99水蜜桃| 国产精品一区二区人妻喷水| 亚洲永久免费| 亚洲欧美久久234| ww久久综合久中文字幕| 欧美大尺度激情区在线播放| 亚州av在线播放| 精品视频免费看| 丰满少妇被猛烈进入一区二区| 日韩精品欧美成人高清一区二区| 亚洲图片都市激情| 日韩08精品| 日本亚洲欧美成人| 粗大黑人巨茎大战欧美成人| 亚洲精品美女免费| 亚洲天堂中文网| 一区二区三区四区国产精品| 少妇大叫太粗太大爽一区二区| 日韩一区精品字幕| 日本成人在线不卡| 国产剧情一区| 国产精品yjizz| 播放一区二区| 久久人人爽人人| 婷婷国产在线| 欧美一级理论片| 特级毛片www| 亚洲女性喷水在线观看一区| a视频免费观看| 日本不卡不码高清免费观看 | 99久久.com| 精品国产乱码久久久久软件 | 国产精品一区二区在线观看网站| 久久久久免费看黄a片app| 日韩在线中文| 国内一区在线| 精品伊人久久| 国产精品久久久久久一区二区| 在线中文字幕第一页| 亚洲色图25p| 天堂中文在线官网| 51精品国自产在线| 正在播放木下凛凛xv99| 精品日韩美女的视频高清 | 国产精品视频yy9299一区| 99久久免费看精品国产一区| 国产精品资源网| 色一情一区二区| 日本一区中文字幕| 欧美激情成人网| 国产精品日本欧美一区二区三区| 伊人色综合影院| 国产探花一区| 久久久国产精品一区二区三区| 国产电影一区二区| 国产精品电影观看| 亚洲永久av| 久久久亚洲网站| 欧美卡一卡二| 久久91亚洲精品中文字幕奶水| 成人综合影院| 亚洲人成电影网| 青青草视频在线免费观看| 亚洲精品成人免费| 网站黄在线观看| 亚洲精品国产suv| 国产99久一区二区三区a片| 91精品国产欧美一区二区| 亚洲综合五月天婷婷丁香| 欧美在线色视频| 精品一区二三区| 欧洲日韩一区二区三区| 国产精品久久久久久久久夜色| 依依成人综合视频| 国产精品不卡av| 亚洲h动漫在线| 国产亚洲精品码| 亚洲成a天堂v人片| 国产情侣在线视频| 午夜不卡av免费| 在线天堂中文字幕| 91久久一区二区| 亚洲天堂一区在线| 国产丝袜美腿一区二区三区| 永久免费av无码网站性色av| 中文字幕在线一区免费| 国产无遮挡又黄又爽| 在线视频你懂得一区| 国产精品视频在线观看免费| 亚洲第一精品福利| 成人影视在线播放| 色综合久久88| 欧美色网在线| av一区二区在线看| 欧美手机视频| 国产日本在线播放| 日本在线不卡视频一二三区| 黑人性生活视频| 久久久91精品国产一区二区三区| 国产黄色录像片| 精品久久久久久| 国产欧美日韩成人| 精品亚洲一区二区三区四区五区| 成人福利在线| 久久久之久亚州精品露出| 成人不卡视频| 精品产品国产在线不卡| 天天做综合网| 麻豆av免费在线| 成人免费观看视频| 91动漫免费网站| 精品久久久久久久久久久久| 一区二区三区亚洲视频| 亚洲国模精品一区| a毛片在线观看| 国产成人在线亚洲欧美| 视频一区视频二区欧美| 日韩高清三级| 亚洲伊人观看| 中文在线字幕观看| 国产精品第一页第二页第三页| 日本中文字幕网| 日韩一级片在线观看| 成人精品一区二区| 欧美一区二三区| av不卡一区二区| 日韩国产精品毛片| 人禽交欧美网站| 大又大又粗又硬又爽少妇毛片 | 久草在线视频资源| 成人国产精品久久久久久亚洲| 亚洲视频分类| 日韩欧美不卡在线| 国产1区2区3区精品美女| 黑人操日本美女| 欧美三级视频在线| 九色视频在线播放| 2021国产精品视频| 久久午夜影院| 91.com在线| 国产不卡视频在线观看| www.99re7| 制服丝袜亚洲播放| 麻豆视频在线免费观看| 国产日韩欧美黄色| 久久裸体网站| 日本高清久久久| 国产精品国产三级国产| 中文字幕av网站| 最近2019好看的中文字幕免费| 免费电影日韩网站| 欧美区高清在线| 久久综合图片| 免费观看a级片| 欧美日韩综合色| 日本视频不卡| 成人福利视频网| 欧美激情日韩| 中文字幕99页| 午夜不卡av免费| 黄色免费在线播放| 国产精品美女久久| 久久精品播放| 熟妇无码乱子成人精品| 一区二区三区 在线观看视频| 国产99999| 午夜免费日韩视频| 亚洲品质自拍| 日韩肉感妇bbwbbwbbw| 国产精品白丝在线| 亚洲精品97久久中文字幕无码| 精品中文字幕在线2019| 极品一区美女高清| 超碰网在线观看| 国产精品灌醉下药二区| 99国产精品欲| 7777精品视频| 超碰成人久久| 日批视频在线看| 狠狠躁夜夜躁人人爽天天天天97 | 一区二区三区 在线观看视| 国产a亚洲精品| 精品免费久久久久久久| 91在线小视频| 亚洲一卡二卡在线| 欧美精品www| 精品av一区二区| 日本特黄在线观看| 都市激情亚洲色图| 9191在线| 国产一区二区精品免费| 日本在线观看不卡视频| 久青草免费视频| 在线观看亚洲视频| 豆花视频一区二区| 精品日韩久久久| 亚洲一区二区综合| 成人av毛片| 国产欧美日韩综合一区在线观看| 日日嗨av一区二区三区四区| 欧美激情图片小说| 亚洲乱码av中文一区二区| 久久在线观看| 日本熟妇人妻中出| 亚洲丶国产丶欧美一区二区三区|