精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4比特量化三倍加速不掉點!清華即插即用的SageAttention迎來升級

新聞 人工智能
近日,陳鍵飛團隊進一步提出了 4-Bit 的即插即用 Attention(SageAttention2),相較于 FlashAttention2 和 xformers 分別實現了 3 倍以及 4.5 倍的即插即用的推理加速,且在視頻、圖像、文本生成等大模型上均保持了端到端的精度表現。

論文共同第一作者張金濤、黃浩峰分別來自清華大學計算機系和交叉信息研究院,論文通訊作者陳鍵飛副教授及其他合作作者均來自清華大學計算機系。

大模型中,線性層的低比特量化已經逐步落地。然而,對于注意力模塊,目前幾乎各個模型都還在用高精度(例如 FP16 或 FP32)的注意力運算進行訓練和推理。并且,隨著大型模型需要處理的序列長度不斷增加,Attention(注意力運算)的時間開銷逐漸成為主要開銷。

此前,清華大學陳鍵飛團隊提出的 8-Bit 的即插即用 Attention(SageAttention),將 Attention 中的 QK^T 量化至 INT8,將 PV 保持為 FP16 精度并使用 FP16 精度的矩陣乘法累加器,同時提出 Smooth K 技術保持了量化 Attention 的精度,實現了 2 倍加速于 FlashAttention2,且在各類大模型上均保持了端到端的精度表現。

目前,SageAttention 已經被業界及社區廣泛地使用于各種開源及商業大模型中,比如 CogvideoX、Mochi、Flux、Llama3、Qwen 等。

近日,陳鍵飛團隊進一步提出了 4-Bit 的即插即用 Attention(SageAttention2),相較于 FlashAttention2 和 xformers 分別實現了 倍以及 4.5 倍的即插即用的推理加速,且在視頻、圖像、文本生成等大模型上均保持了端到端的精度表現

圖片

  • 論文標題:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
  • 論文鏈接:https://arxiv.org/abs/2411.10958
  • 開源代碼:https://github.com/thu-ml/SageAttention

即插即用舉例

SageAttention2 實現了高效的 Attention 算子,可以實現即插即用的推理加速。輸入任意 Q, K, V 矩陣,SageAttention2 可以快速返回 Attention Output (O)。

圖片

具體來說,SageAttention2 使用起來很方便,克隆倉庫(git clone https://github.com/thu-ml/SageAttention)并執行 python setup.py install 后,只需一行代碼便可以得到 Attention 的輸出,可以使用該接口方便地替換任意模型中的 Attention 函數:

圖片

效果上,以開源視頻生成模型 CogvideoX-1.5-5B 為例,使用 SageAttention2 可以端到端加速 1.8 倍,且生成的視頻無損:

使用全精度 Attention

使用 SageAttention2

更重要的是,SageAttention2 提供了比 SageAttention 更廣泛的硬件支持。除了在 RTX 4090 上可以 3 倍加速于 FlashAttention 外,在 L20、L40、L40S 可以實現 2 倍的加速,在 A100、A800、A6000 上可以實現 1.45-1.6 倍的加速(基于 SageAttention)。

接下來,研究團隊將從前言、挑戰、方法以及實驗效果四個方面介紹 SageAttention2(總體流程圖如下圖)。

圖片

前言

隨著大模型需要處理的序列長度越來越長,Attention 的速度優化變得越來越重要。下圖展示了一個標準的 Transformer 模型中各運算的時間占比隨序列長度的變化:

圖片

為了方便指代注意力運算中的矩陣,我們先回顧一下注意力的計算公式:

圖片

盡管 SageAttention 提出將 Q,K 量化至 INT8,將 P,V 保持 FP16 精度且采用 FP16 的矩陣乘法累加器來加快 Attention 的速度。然而,這樣做的缺點是:1)INT8 的矩陣乘法只達到了一半的 INT4 矩陣乘法的速度,2)使用 FP16 的乘法累加器的 FP16 的矩陣乘法的加速只在 RTX4090 和 RTX3090 顯卡上有效。

為了克服上述缺點,SageAttention2 提出將 Q, K 量化至 INT4,并將 P, V 量化至 FP8 來加速 Attention。然而,這樣做的挑戰是很大的。

4-Bit 注意力量化有什么問題?

研究團隊發現直接將注意力運算中的 Q, K 量化為 INT4 后將會導致在幾乎所有模型和任務上都會得到極差的結果,例如,在 CogVideoX 文生視頻模型中,會得到完全模糊的視頻;Llama2-7B 進行四選一選擇題任務上得到 25% 的準確率。

圖片

經過仔細分析后,研究團隊發現主要是兩個原因導致了量化注意力的不準確:

(1)INT4 的數值范圍相比 INT8 非常小,導致其量化誤差在 Q,K 矩陣中出現一些異常值時會變得十分明顯,恰好大多模型都在 Q, K 中表現出來了較大的通道維度的異常值。這極大削減了 QK^?矩陣乘法的精度。

圖片

(2)研究團隊發現 Nvidia 的顯卡上,FP8 的矩陣乘法指令 (mma.f32.f8.f8.f32) 的乘法累加器并不是官方宣稱的 FP32 精度,而是只有 FP22 精度,這導致了 PV 矩陣乘法出現較大的累加誤差。

圖片

技術方案

為了解決上述的兩個挑戰,研究團隊提出了對應的解決辦法。

(1)保留 SageAttention 中對 K 進行平滑處理的同時,提出對 Q 進行平滑處理:Q – mean (Q)。其中 mean (Q) 是沿著通道維度的平均值向量。完成該平滑操作后需要在 Attention 計算過程中將 mean (Q) 和 K^T 的向量與矩陣乘法的結果補償到 S 中。

圖片

這使得相比直接量化 Q, K 至 INT4 的準確度有質的改變,如下表展示了對比了該方法和直接量化 Q, K 至 INT4 在 Cogvideo 和 Llama3.1 上的端到端表現。

圖片

矩陣 Q 平滑前后的數據分布可視化的結果如下,可以發現平滑后的 Q 對 INT4 數據范圍的利用度更高:

圖片

(2)對 Q, K 進行 Per-thread 量化。對于矩陣 Q, K,SageAttention2 采用了根據 mma 指令對矩陣內存排布的要求,對 Q,K 中的 Token 按照 GPU 線程進行分組,使量化粒度比 SageAttention 中的 per-block 細化 16 倍,極大提高了 4Bit 的 QK^?乘法準確度的同時不引入任何額外開銷。

具體來說,在 SageAttention 中,每個 Q 的塊將被劃分為 c_w 個段,由 GPU 流處理器(SM)中的 c_w 個 GPU warp 處理。然后,每個包含 32 個線程的 warp 會使用 NVIDIA 的 mma.m16n8k64 PTX 指令來執行 QK^?運算。根據這一指令的布局要求,研究團隊發現一個 warp 內的 Q [8×(n%8)] 可以共用一個量化縮放參數,而一個 warp 內的 K [8×(n%8)] 和 K [8×(n%8+1)] 也可以共用一個量化縮放參數,其中 n 是 token 索引。

這種量化方法更為細致且不增加額外開銷。這是因為它根據 MMA 指令的布局將不同的 GPU 線程分配到不同的量化 Token 組,每個線程只對應一個量化縮放參數進行反量化。而非 Per-token 量化那樣,每個線程對應多個量化縮放參數。

圖片

如下表所示,可以發現 per-thread 量化的準確度比 SageAttention 中采用的 per-block 量化高得多,準確度和 per-token 量化幾乎沒有差別。

圖片

(3)對 FP8 的 PV 矩陣乘法采用 FP32 的寄存器將每次 FlashAttention 分塊粒度的 PV 的 FP22 的乘法結果累加起來。這種做法可以有效地避免 FP22 的乘法累加器沿著序列長度累積過多的誤差,將 FP22 累加器帶來的誤差控制在 FlashAttention 分塊的粒度中,提高了 FP8 的 PV 乘法的準確度。

(4)針對 P 和 V,研究團隊對比了多種量化的數據類型,對比發現使用 E4M3 數據格式的 FP8 精度最準確,基本接近了 FP16 的準確度。因此采用將 P 和 V 量化至 E4M3。

圖片

下圖展示了 SageAttention2 的算法流程:

圖片

SageAttention2 共實現了兩種 Kernel,區別在于對 Q, K 進行 INT4 量化還是 INT8 量化:

圖片

此外,SageAttention2 還提出一種可選的對矩陣 V 進行平滑處理的技術,可以進一步提高 PV 矩陣乘法的準確度。具體來說,當某些模型中 V 矩陣具有通道維度的偏移時,可以將 V 減去其通道維度的平均值 mean (V) 來去除偏移,之后進行正常的量化 Attention 運算。只需要對最終 Attention 的 Output 加上 mean (V) 即可保持計算的正確性。

圖片

圖片

這種做法可以提升準確度的原因如下圖所示。在 FP22 的表示范圍內,數值越大,相比 FP32 的誤差越大。而 P 的范圍是 0~1 之間,那么當 V 矩陣的列有較大的數值偏移時,PV 的 FP22 累加器的精度就越差,通過平滑 V 去除偏移后,就可以加強 PV 矩陣乘法的準確度。

圖片

實驗效果

SageAttention 實現了底層的 GPU CUDA Kernel,在算子速度以及各個模型端到端準確度上都有十分不錯的表現。

具體來說,算子速度相比于 FlashAttention2 和 xformers 有大約 3 倍以及 4.5 倍的加速:

圖片

圖片

算子的準確度方面也是比對 Q, K 進行 SmoothQuant 和 Hadamard 變換要更加準確:

圖片

各模型在真實場景的端到端精度表現中,在視頻、圖像、文本生成等大模型上均保持了端到端的精度表現:

下圖是在 HunyuanVideo 中的可視化實例:

圖片

下圖是在 Cogvideo 中的可視化實例:

圖片

下表展示了各個語言、視頻、圖像生成模型中 SageAttention2 的端到端精度表現:

圖片

圖片

端到端的速度表現上,SageAttention2 兩個 Kernel 的實現均可以有效地對長序列模型進行加速,比如可以端到端 1.8 倍加速 CogVideoX1.5-5B,其他模型上也均有 1.6 到 1.8 倍的提速。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-19 09:07:00

2024-10-21 12:10:00

模型訓練

2025-07-08 09:10:00

2025-06-30 08:42:00

模型訓練AI

2025-06-30 14:02:00

視覺模型AI

2009-06-30 19:12:16

云計算SOAIT

2018-11-26 14:56:15

云計算UCloud云主機

2021-09-08 08:00:00

PyPolars數據開源

2025-04-03 10:29:06

2025-10-14 10:03:11

CompLLMLLMRAG

2022-05-24 20:00:56

XR(VR/AR)亞馬遜云科技

2021-10-25 17:57:08

數據技術架構

2009-07-24 17:08:02

IBMPower

2014-05-09 11:14:51

電調天線

2019-06-06 10:19:33

谷歌開源計算庫

2012-11-15 09:46:22

Xeon PhiIntel加速性能

2025-04-07 08:35:00

3DAI生成

2014-07-17 14:08:37

阿里云

2025-07-01 09:21:33

2025-07-11 08:54:00

點贊
收藏

51CTO技術棧公眾號

国产精品亚洲欧美在线播放| av电影网站在线观看| а√中文在线8| 久久99久国产精品黄毛片色诱| 亚洲色图狂野欧美| 久久久久国产精品熟女影院| 在线日本中文字幕| 国内精品写真在线观看| 欧美高清videos高潮hd| 日韩www视频| 亚洲mmav| 亚洲三级在线免费观看| 国产精品麻豆免费版| 久久亚洲天堂网| 精品国产91乱码一区二区三区四区 | 国产精品视频大全| 国产探花在线免费观看| 加勒比色老久久爱综合网| 欧美在线一区二区三区| 久久久久久久久影视| 青草久久伊人| 国产精品综合视频| 日韩av免费在线播放| 日本高清不卡免费| 亚洲国产合集| 日韩欧美黄色影院| 老司机午夜av| 黄页网站大全在线免费观看| 久久久99精品久久| 国产精品毛片va一区二区三区| 中文字幕91爱爱| 亚洲精品欧洲| 久久综合久久88| av无码av天天av天天爽| 豆花视频一区| 91国产精品成人| 欧美这里只有精品| 色综合久久久久综合一本到桃花网| 成人黄色777网| 成人av.网址在线网站| 97久久久久久久| 欧美啪啪一区| www.亚洲成人| 日本少妇xxxxx| 好吊妞视频这里有精品| 在线播放日韩导航| 亚洲一区在线不卡| 国模冰冰炮一区二区| 亚洲777理论| 男同互操gay射视频在线看| 大地资源中文在线观看免费版| av亚洲精华国产精华| 成人91免费视频| 999av视频| 久久国产视频网| 国产精品激情av在线播放| 色一情一乱一伦| 国产一区二区三区久久| 97免费中文视频在线观看| 久久久久久久久久久网| 欧美二区视频| 欧美成人免费观看| 色欲人妻综合网| 国产精品久久久久久久久久10秀 | 99久久婷婷国产综合精品| 成人毛片网站| 性一交一乱一透一a级| 国产一区在线观看麻豆| 成人在线激情视频| 国产三级按摩推拿按摩| 国内精品在线播放| 99久久无色码| 人妻一区二区三区免费| k8久久久一区二区三区| 精品国产一区二区三| 天天干在线观看| 97久久精品人人做人人爽 | 国产一区二区麻豆| 国产一区二区美女诱惑| 91精品国自产在线观看| 好吊色视频一区二区| 懂色av一区二区三区免费看| 国产精品9999久久久久仙踪林| 黄色美女一级片| 26uuu亚洲综合色欧美| 欧美日本国产精品| 97在线观看免费观看高清| 中文字幕亚洲一区二区av在线 | 大桥未久女教师av一区二区| 亚洲黄色av网站| 在线免费看黄视频| 久久国产综合| 精品少妇一区二区30p| 国产污视频在线观看| 香蕉久久国产| 国产精品永久免费视频| 精品欧美一区二区精品少妇| aaa亚洲精品| 青青草国产精品| 日本激情视频在线观看| 亚洲综合久久久| a√天堂在线观看| 成人高清一区| 日韩精品一区二区三区中文精品| 亚洲av成人片色在线观看高潮| 激情五月综合网| 久久av.com| 欧美激情亚洲综合| 久久精品999| 激情伦成人综合小说| youjizz在线播放| 亚洲欧洲三级电影| 日韩免费一级视频| 国产高清亚洲| 亚洲摸下面视频| 亚洲天堂网av在线| 亚洲欧美视频| 亚洲精品日韩av| 男人的天堂在线免费视频| 亚洲天天做日日做天天谢日日欢| 黄页免费在线观看视频| 日韩欧乱色一区二区三区在线| 亚洲精品wwww| 国精品无码一区二区三区| 久久久久.com| 国产精品一区二区三区四区五区| 免费黄色在线观看| 日韩欧美精品网址| 丰满人妻一区二区三区免费视频棣| 精品成人影院| 韩国福利视频一区| 国内精品久久久久久久久久| 日本一区二区三区在线观看| 日韩精品 欧美| 精品一区二区三区在线观看视频| 亚洲人成电影网站| 日韩欧美一区二区一幕| 国产精品综合视频| 在线看无码的免费网站| 美女一区网站| 日韩精品免费视频| 国产精品自拍视频一区| 国产精品69久久久久水密桃| 日韩av图片| 亚洲性色av| 亚洲成人网久久久| 在线免费日韩av| 精品一区二区三区av| 欧美一区少妇| 都市激情亚洲一区| 日韩hd视频在线观看| 精品无码人妻一区二区三| 国产一区二区在线影院| 永久免费精品视频网站| 99久久综合国产精品二区| 亚洲欧美色婷婷| 中文在线第一页| 9人人澡人人爽人人精品| 欧美亚洲黄色片| 麻豆精品久久| 久久69精品久久久久久久电影好| 国产人妻精品一区二区三| 日韩美女视频一区二区| 亚洲一区二区福利视频| 久久久久美女| 亚洲综合小说区| 操你啦在线视频| 日韩视频在线你懂得| 欧美成人黄色网| 福利视频网站一区二区三区| www.国产在线播放| 久久动漫网址| 欧美一级大胆视频| 国产午夜在线观看| 欧美日韩一区二区欧美激情 | 91影院在线播放| 亚洲日本青草视频在线怡红院 | 大陆成人av片| 18黄暴禁片在线观看| 精品精品国产三级a∨在线| 51精品国产黑色丝袜高跟鞋| 美丽的姑娘在线观看免费动漫| 一本久久精品一区二区| 天堂在线中文视频| 国产伦精品一区二区三区视频青涩 | 婷婷开心久久网| 国产精品无码午夜福利| 视频一区视频二区在线观看| 亚洲色图自拍| 亚洲国产欧美国产第一区| 国色天香2019中文字幕在线观看| 天堂a√在线| 欧美午夜片在线观看| 欧美激情图片小说| 91麻豆文化传媒在线观看| 国产又猛又黄的视频| 一区二区中文| 久久精品国产第一区二区三区最新章节 | 精品国产电影| 亚洲欧美在线成人| 久久99视频免费| 青青青手机在线视频观看| 欧美日韩亚洲不卡| 国产一级片久久| 国产夜色精品一区二区av| 中文字幕色网站| 国产精品夜夜夜| 自拍偷拍99| 日韩精品福利一区二区三区| 成人国产精品av| 欧美男男激情videos| 久久韩剧网电视剧| 五月婷中文字幕| 欧美精品久久99久久在免费线| 日本在线观看中文字幕| 国产精品久久精品日日| 一起草在线视频| 精品一区二区在线免费观看| 日本十八禁视频无遮挡| 99久久综合| 免费亚洲一区二区| 一区二区三区四区高清视频 | 青草在线视频| 国产午夜精品一区二区三区| 免费观看毛片网站| 欧美日韩高清影院| 男人午夜免费视频| 亚洲网友自拍偷拍| 手机在线免费看毛片| 国产三级精品三级在线专区| 中文字幕在线视频播放| 国产精品白丝av| 午夜两性免费视频| 久久亚洲综合| 成年人午夜免费视频| 中文字幕亚洲精品乱码| 日韩三级电影网站| 西瓜成人精品人成网站| 国产精品一区而去| 日本一区精品视频| 成人黄色片在线| 97精品国产综合久久久动漫日韩| 青青久久aⅴ北条麻妃| 91色在线看| 欧美日韩国产999| 快射视频在线观看| 色青青草原桃花久久综合| 精品欧美不卡一区二区在线观看 | 91蝌蚪视频在线| 理论电影国产精品| 91精品无人成人www| 久久中文精品| 日韩av播放器| 日日噜噜夜夜狠狠视频欧美人| 男人天堂1024| 国产一区二区你懂的| 欧美 日韩 激情| 国产精品乱看| 色欲av无码一区二区人妻| 99日韩精品| 欧美在线观看www| 麻豆精品91| 欧美少妇性生活视频| 久久综合婷婷| av网站在线不卡| 久久国产夜色精品鲁鲁99| theporn国产精品| 国产精品一区二区久激情瑜伽| 91在线第一页| 国产高清成人在线| 在线xxxxx| 91在线播放网址| 欧美 日韩 国产 成人 在线观看| 久久久久久久综合狠狠综合| 中国女人特级毛片| 国产精品国产三级国产专播品爱网| www.99re6| 一区二区在线免费观看| 久久久一区二区三区四区| 午夜精品爽啪视频| 无码人妻久久一区二区三区 | 性欧美超级视频| 国产精品视频不卡| 精品国产亚洲一区二区三区在线| 51午夜精品| 欧美三级午夜理伦三级小说| 欧洲亚洲一区二区三区四区五区| 久久美女精品| 国产91在线亚洲| 亚洲综合日韩| 男人添女人下面免费视频| 国产精品白丝av| 成人片黄网站色大片免费毛片| 中文字幕不卡在线观看| 老女人性淫交视频| 狠狠干狠狠久久| 又骚又黄的视频| 精品福利一二区| 久久综合九色综合久| 日韩视频在线观看免费| av中文在线资源| 国产精品狼人色视频一区| 日韩精品三级| 热re99久久精品国99热蜜月| 久久久久亚洲| 国产成人在线免费看| 久久成人精品无人区| 少妇一级淫片免费放播放| 国产精品理论在线观看| 国产无遮挡又黄又爽在线观看| 在线精品视频一区二区| 亚洲欧美激情另类| 中文在线不卡视频| 国产精品论坛| 成人乱色短篇合集| 国产精品一区高清| 无码中文字幕色专区| 精品一区二区在线观看| 性欧美丰满熟妇xxxx性仙踪林| 综合中文字幕亚洲| 国产精品午夜一区二区| 亚洲国产精品va在线| 麻豆影视在线观看_| 日本国产精品视频| 国产一级成人av| 成年人三级视频| 视频一区二区中文字幕| 日韩综合第一页| 亚洲日韩欧美一区二区在线| 国产又大又黄又粗| 欧美精品一区二区三区蜜桃视频| 日本在线人成| 国产精品wwww| 天堂俺去俺来也www久久婷婷| 日本福利视频在线观看| 久久av资源网| 国产精品国产三级国产专业不 | 欧美午夜一区| 在线播放av中文字幕| 久久亚洲免费视频| 日韩字幕在线观看| 欧美成va人片在线观看| а√中文在线8| 成人在线播放av| 国产精品99一区二区三| 日韩肉感妇bbwbbwbbw| 91老师片黄在线观看| 日本网站免费观看| 精品福利av导航| 青春草在线视频| 超碰97人人人人人蜜桃| 欧美精品麻豆| 色婷婷狠狠18禁久久| 一区二区国产盗摄色噜噜| 国产夫妻自拍av| 久久6精品影院| 凹凸成人在线| 免费拍拍拍网站| 本田岬高潮一区二区三区| 精品无码免费视频| 日韩av综合网| 欧美二三四区| 日韩精品久久久| 美女诱惑一区二区| 91精品少妇一区二区三区蜜桃臀| 欧美日韩精品三区| 黄网站免费在线观看| 亚洲一区二区三区乱码aⅴ| 中文字幕日韩欧美精品高清在线| 麻豆传媒在线看| 亚洲高清一区二区三区| 婷婷婷国产在线视频| 日本成熟性欧美| 日韩专区精品| 超碰在线免费av| 亚洲成人av中文| 三级视频在线| 国产精品男人爽免费视频1| 欧美国产小视频| 亚洲精品乱码久久久久久9色| 亚洲午夜在线视频| 深夜福利视频一区| 国产精品久久久久久久久免费看 | 国产免费xxx| 国产成人aaaa| 九九热精品视频在线| 在线a欧美视频| 久久视频免费| 精品少妇一区二区三区在线| 国产亚洲欧美日韩俺去了| 国产精品一级视频| 97免费视频在线播放| 不卡中文字幕| 亚洲精品久久久久久| 精品成人国产在线观看男人呻吟| 国产三级在线看| 91免费看片网站| 久久福利一区| 动漫性做爰视频| 亚洲毛片一区二区|