精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華SageAttention3,F(xiàn)P4量化5倍加速!且首次支持8比特訓(xùn)練

人工智能 新聞
近日,清華大學(xué)陳鍵飛團(tuán)隊(duì)進(jìn)一步提出了針對(duì) BlackWell 架構(gòu)的首個(gè)全 FP4 量化的即插即用注意力算子(SageAttention3)。

隨著大型模型需要處理的序列長度不斷增加,注意力運(yùn)算(Attention)的時(shí)間開銷逐漸成為主要開銷。此前,清華大學(xué)陳鍵飛團(tuán)隊(duì)提出的即插即用的 SageAttention 和 SageAttention2 已經(jīng)被業(yè)界及社區(qū)廣泛的使用于各種開源及商業(yè)的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,F(xiàn)lux,Llama3,Qwen 等。

近日,清華大學(xué)陳鍵飛團(tuán)隊(duì)進(jìn)一步提出了針對(duì) BlackWell 架構(gòu)的首個(gè)全 FP4 量化的即插即用注意力算子(SageAttention3)。實(shí)現(xiàn)了 5 倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分別達(dá)到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 達(dá)到了 1040 TOPS 的速度,甚至是比 RTX 5090 昂貴十幾倍的 H100 上使用 Hopper 獨(dú)有的 FlashAttention3 還要快 1.65 倍!SageAttention3 在多種視頻和圖像生成等大模型上(包括 HunyuanVideo,CogVideoX,Mochi 和各類圖像生成模型)均保持了端到端的精度表現(xiàn)。同時(shí)還首次提出可訓(xùn)練的 8 比特注意力(SageBwd)用于大模型的訓(xùn)練加速(注:FlashAttention3 的 FP8 版本也只支持前向傳播),在各項(xiàng)微調(diào)任務(wù)中均保持了與全精度注意力相同的結(jié)果。

圖片

  • 論文標(biāo)題:SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training
  • 論文鏈接:https://arxiv.org/abs/2505.11594
  • 開源代碼:https://github.com/thu-ml/SageAttention

效果預(yù)覽

圖片

SageAttention3 實(shí)現(xiàn)了高效的 Attention 算子,可以實(shí)現(xiàn)即插即用的 5 倍于 FlashAttention 的推理加速。即輸入任意 Q, K, V 矩陣,可以快速返回 Attention Output (O),真正做到了兩行代碼加速任意模型推理。(注:按照官方倉庫中的開源計(jì)劃,SageAttention2++ 的代碼將于6月20日左右開源,SageAttention3 的代碼將于7月15日左右開源。)

效果上,以 HunyuanVideo 為例,在 RTX5090 上 SageAttention3 可以 3 倍加速端到端的生成,且視頻質(zhì)量幾乎無損:

視頻 1(使用 FlashAttention2,490s)        

視頻 2(使用 SageAttention3,164s)

(注:FlashAttention2 已經(jīng)是在 RTX5090 上最優(yōu)的 FlashAttention 實(shí)現(xiàn)。)

接下來,將從前言,挑戰(zhàn),方法,以及實(shí)驗(yàn)效果四個(gè)方面介紹 SageAttention3。

圖片

SageAttention3 總體流程圖

前言

隨著大模型需要處理的序列長度越來越長,Attention 的速度優(yōu)化變得越來越重要。下圖展示了一個(gè)標(biāo)準(zhǔn)的 Transformer 模型中各運(yùn)算的時(shí)間占比隨序列長度的變化:

圖片

為了方便指代注意力運(yùn)算中的矩陣,我們先回顧一下注意力的計(jì)算公式:

圖片

研究動(dòng)機(jī):(1)Blackwell 架構(gòu)有著速度極快的 FP4 Tensor Core,以 RTX5090 為例,其速度是 FP16 Tensor Core 的 8 倍。(2)訓(xùn)練階段的注意力運(yùn)算開銷也同樣重要,在此之前并沒有工作嘗試過低比特注意力加速模型訓(xùn)練,包括 FlashAttention3 的 FP8 版本也只有 Forward 過程。我們還希望同時(shí)量化注意力的前向 + 反向過程來加速訓(xùn)練。

FP4 注意力量化有什么問題?

(1)FP4 數(shù)值類型僅有 15 個(gè)有效數(shù)值,這使得以 Tensor(Per-tensor)或以 Token(Per-token)粒度的量化都難以有效保證量化的準(zhǔn)確度。

(2)P 矩陣的值分布在 [0, 1] 之間,直接的 FP4 量化會(huì)使量化縮放因子被限制在一個(gè)狹窄的范圍內(nèi)。然而,硬件要求這些量化因子必須采用 FP8 數(shù)據(jù)類型表示。此時(shí),將縮放因子轉(zhuǎn)為 FP8 時(shí)會(huì)導(dǎo)致顯著的精度損失。

8-Bit 注意力用于訓(xùn)練有什么問題?

(1)P 矩陣的梯度對(duì)量化誤差過于敏感,并且在反向過程中還會(huì)沿著序列長度對(duì) Q 和 K 的梯度造成誤差累積。

技術(shù)方案

為了解決上述的挑戰(zhàn),研究團(tuán)隊(duì)提出了對(duì)應(yīng)的解決辦法。

(1)為了提高 FP4 的量化精度。研究團(tuán)隊(duì)采用了 Microscaling FP4 量化,這是 BlackWell 硬件層面支持的一種量化方式。即可以采用  或  的量化粒度進(jìn)行矩陣量化,NIVIDA 在硬件層面自動(dòng)支持了反量化過程。此外,Microscaling FP4 有兩種數(shù)據(jù)表示的形式,一種是 MXFP4, 另外一種是 NVFP4。兩種格式都采用了 E2M1 的 FP4 數(shù)據(jù)類型。不同的是,NVFP4 的量化的塊大小為,縮放因子的數(shù)據(jù)類型為 E4M3。MXFP4 的量化的塊大小為,縮放因子的數(shù)據(jù)格式為 E8M0。研究團(tuán)隊(duì)采用了 NVFP4 數(shù)據(jù)格式,因?yàn)槠淞炕瘻?zhǔn)確率遠(yuǎn)高于 MXFP4:

圖片

(2)針對(duì) P 的縮放因子范圍狹窄的問題,研究團(tuán)隊(duì)提出了兩階段量化(Two-level Quantization)的辦法。FlashAttention 中的 P 矩陣的值在 [0, 1] 的范圍內(nèi),導(dǎo)致 P 的縮放因子的范圍也只在 0~0.167 之間。把縮放因子直接轉(zhuǎn)換為 FP8 格式會(huì)帶來極大的精度損失。

圖片

于是研究團(tuán)隊(duì)決定先把 P 通過 Per-token 量化到 [0, ] 的范圍內(nèi),再進(jìn)行 FP4 的量化:

圖片

下表展示了 Two-Level Scaling 對(duì)精度的提升:

圖片

下圖展示了 SageAttention3 的算法流程:

圖片

(3)在 8-Bit 訓(xùn)練 Attention 當(dāng)中,研究團(tuán)隊(duì)對(duì) Q,K,V 采用了 Per-block INT8 量化,對(duì) P 巧妙地采用了無量化 Overhead 的 Per-token 量化。前向過程的算法如下:

圖片

在反向傳播的過程中總共涉及到 5 個(gè)矩陣乘法:

圖片

研究團(tuán)隊(duì)發(fā)現(xiàn)是否量化 dOVT 對(duì)精度有著較大的影響:

圖片

于是研究團(tuán)隊(duì)將 dOVT 保留為 FP16 精度,而對(duì)其它四個(gè)矩陣乘法進(jìn)行了量化。以下是反向傳播的算法:

圖片

實(shí)驗(yàn)效果

SageAttention3 實(shí)現(xiàn)了 GPU 底層的 CUDA Kernel,在算子速度以及各個(gè)模型端到端準(zhǔn)確度上都有十分不錯(cuò)的表現(xiàn)。

具體來說,算子速度相比于 FlashAttention2(5090 上最快的 FlashAttention) 和 xformers 有大約 5 倍以及 10 倍的加速:

圖片

各模型在真實(shí)場景的端到端精度表現(xiàn)中,在視頻、圖像生成等大模型上均保持了端到端的精度表現(xiàn):

圖片

下圖是在 HunyuanVideo 當(dāng)中的可視化實(shí)例:

圖片

下圖是在 Flux 上的可視化實(shí)例:

圖片

下圖是在 Cogvideo 中的可視化實(shí)例:

下表展示了各個(gè)視頻、圖像生成模型中 SageAttention3 的端到端精度表現(xiàn):

圖片

端到端的速度表現(xiàn)上,SageAttention3 的實(shí)現(xiàn)均可以有效地對(duì)長序列的模型進(jìn)行加速,比如可以端到端 3 倍加速 HunyuanVideo:

圖片

8-Bit 訓(xùn)練 Attention 在 Base Model 微調(diào)到 Instruct Model 的任務(wù)上展現(xiàn)出與 BF16 的注意力完全一致的精度表現(xiàn),下表是在多個(gè)不同的任務(wù)以及模型上微調(diào)的結(jié)果:

圖片

圖片

并且在訓(xùn)練速度上也能起到較好的加速效果:

圖片

圖片

研究團(tuán)隊(duì)還發(fā)現(xiàn),目前的 8 比特用于訓(xùn)練的 Attention 雖然在微調(diào)任務(wù)上完全無損,但是在預(yù)訓(xùn)練任務(wù)上與全精度的 Attention 在 Loss 上還有一定差距,需要未來進(jìn)一步的研究:



責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-08 09:10:00

2024-12-27 09:30:00

AI數(shù)據(jù)訓(xùn)練

2025-04-17 14:11:10

視覺AI模型

2025-08-28 09:16:00

2025-06-30 14:02:00

視覺模型AI

2024-10-21 12:10:00

模型訓(xùn)練

2023-07-03 09:41:12

算法AI

2018-11-26 14:56:15

云計(jì)算UCloud云主機(jī)

2024-05-22 08:27:57

數(shù)據(jù)AI

2025-04-07 08:35:00

3DAI生成

2025-03-07 10:02:10

2024-08-29 10:47:27

2024-05-23 13:50:00

2020-05-03 13:52:27

深度學(xué)習(xí)開源人工智能

2024-08-01 08:40:00

2022-10-31 15:35:16

開源引擎

2025-10-14 10:03:11

CompLLMLLMRAG

2022-06-15 11:27:15

開源代碼項(xiàng)目

2025-11-12 04:10:00

阿里ROLL FlashChatGPT

2021-10-25 17:57:08

數(shù)據(jù)技術(shù)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久精品一区二区国产| 国产乱论精品| 亚洲免费观看在线视频| 国产精品乱子乱xxxx| 国产成人综合欧美精品久久| 欧美美乳视频| 欧美一区二区免费| 久久9精品区-无套内射无码| 日p在线观看| 成人av在线看| 国产日韩欧美日韩| 日韩欧美国产亚洲| 性欧美69xoxoxoxo| 亚洲精品美女久久久久| 欧美日韩一区二区三区69堂| 丁香花电影在线观看完整版| 中文字幕欧美激情| 国产精品推荐精品| 91亚洲国产成人精品一区| 在线成人黄色| 大量国产精品视频| 国产探花视频在线播放| 岛国精品一区| 538在线一区二区精品国产| 国产在线观看福利| 四虎av在线| 中文字幕亚洲一区二区av在线| 精品免费视频123区| 国产乱子伦精品无码码专区| 久久狠狠婷婷| 国内精品视频久久| 黄页网站免费观看| 99精品全国免费观看视频软件| 日韩精品中文字幕在线| 久久久久无码国产精品一区李宗瑞| 国产精品久久久久久妇女| 黄色91在线观看| 亚洲国产一二三精品无码 | 成人做爰视频网站| 国产成人黄色| 日韩av最新在线观看| 真实乱偷全部视频| 日韩网站中文字幕| 欧美午夜宅男影院在线观看| 夜夜添无码一区二区三区| 香蕉久久aⅴ一区二区三区| 中文字幕亚洲电影| 亚洲乱码国产乱码精品天美传媒| 精品欧美不卡一区二区在线观看| 91在线播放网址| 激情小说综合网| 手机在线观看毛片| 不卡视频在线观看| 国产亚洲欧美一区二区三区| 国产综合在线播放| 国产成人免费视频精品含羞草妖精 | 青青草一区二区三区| 国产精品久久久久不卡| 天天干,天天干| 青青草国产精品亚洲专区无| 国产精品丝袜视频| 国产又黄又猛又爽| 国产一级精品在线| 亚洲在线第一页| www.97av.com| 成人97人人超碰人人99| 好吊妞www.84com只有这里才有精品| 六月婷婷中文字幕| 99re视频精品| 日本欧洲国产一区二区| 在线免费黄色| 亚洲品质自拍视频| 嫩草影院中文字幕| segui88久久综合| 一本久道久久综合中文字幕| 黑人糟蹋人妻hd中文字幕| 天天综合网站| 91麻豆精品国产91久久久久久| 成人性生交视频免费观看| 91精品国产乱码久久久竹菊| 亚洲第一网站男人都懂| 一区二区三区少妇| jizzjizz欧美69巨大| 久久精品国产v日韩v亚洲| 国产女人被狂躁到高潮小说| 亚洲黄色精品| 国产精品v日韩精品| 国产美女无遮挡永久免费| 国产不卡高清在线观看视频| 欧美精彩一区二区三区| 在线观看免费版| 一区二区三区产品免费精品久久75 | 黄色小视频在线免费观看| 中文乱码免费一区二区| 成人毛片100部免费看| 秋霞伦理一区| 在线不卡免费av| 国产高清成人久久| 日韩一区二区三区免费播放| 欧美国产日韩一区二区| 日韩视频在线观看一区| 激情亚洲综合在线| 你懂的视频在线一区二区| 高潮毛片在线观看| 日韩欧美国产免费播放| 波多野结衣网页| 国产一区二区三区天码| 欧美激情乱人伦一区| 影音先锋国产在线| 99国产麻豆精品| www.午夜色| 成人欧美大片| 亚洲成avwww人| 黄大色黄女片18免费| 亚洲青涩在线| 91在线视频免费| 精品久久av| 精品久久久久久久久久久| 中文字幕 日韩 欧美| 网曝91综合精品门事件在线| 久久伊人色综合| 五月婷婷六月婷婷| 99re在线视频这里只有精品| 老司机午夜网站| 欧美亚洲综合视频| 国产亚洲成精品久久| 亚洲精品77777| 国产91丝袜在线播放九色| 亚洲精品9999| 日韩国产激情| 亚洲欧美一区二区三区情侣bbw| 强行糟蹋人妻hd中文| 久久成人免费日本黄色| 日韩欧美在线观看强乱免费| 午夜激情电影在线播放| 亚洲成人精品视频| 国产在线观看免费视频今夜| 国产精品一品视频| 四虎影院一区二区| 日本中文字幕视频一区| 曰本色欧美视频在线| 无码日韩精品一区二区| 久久嫩草精品久久久久| 国产欧美在线一区| 欧美91在线| 69av在线播放| 亚洲欧美日韩动漫| 欧美色播在线播放| 亚洲最大的黄色网| 99精品视频免费观看视频| 国产精品一 二 三| 国产高清在线a视频大全 | 佐山爱在线视频| 91成人精品视频| 成人在线视频福利| 成人短视频在线观看| 4438亚洲最大| 免费人成在线观看| 成人免费看视频| 亚洲熟妇无码一区二区三区导航| www.爱久久| 97在线视频免费| 天堂成人在线观看| 日韩欧美福利视频| 老司机福利在线观看| 国产中文一区二区三区| 国产欧美123| 久久精品66| 国产精品爱啪在线线免费观看| 国产www.大片在线| 7777精品伊人久久久大香线蕉经典版下载| 日韩成人短视频| 国产成人精品免费网站| 欧美二区在线视频| 精品国产一区二区三区久久久樱花 | 精品视频成人| 国模视频一区二区三区| 亚洲av成人无码网天堂| 欧美丝袜丝nylons| 538任你躁在线精品视频网站| 福利一区在线观看| 欧美性猛交久久久乱大交小说| 日韩大片在线| 懂色av一区二区三区在线播放| 超级碰碰久久| 日韩有码在线电影| 色婷婷av一区二区三| 一本久久a久久免费精品不卡| 黄色激情小视频| 成人av免费在线观看| 三级a在线观看| 欧美日韩三级| 日本一区网站| 欧一区二区三区| 国产99久久精品一区二区| 黄视频网站在线看| 亚洲欧美制服综合另类| jizz中国女人| 色88888久久久久久影院按摩| 一级免费黄色录像| av日韩在线网站| 91视频这里只有精品| 国产美女诱惑一区二区| 国产福利片一区二区| 妖精视频一区二区三区免费观看 | 日韩视频一区二区三区四区| 国产97在线|日韩| 蜜臀av在线播放| 中文字幕亚洲一区| 天堂影院在线| 欧美一区二区三区免费| 在线观看你懂的网站| 亚洲成人高清在线| 亚洲成人生活片| 国产清纯白嫩初高生在线观看91| 无码人妻丰满熟妇区毛片蜜桃精品| 日韩精品一区第一页| 国产曰肥老太婆无遮挡| 天天综合久久| 亚洲激情电影在线| 国产精品三级| 精品国产中文字幕| 中文字幕一区日韩精品| 国产一区香蕉久久| 日韩电影免费观| 欧美亚洲免费电影| 激情影院在线| 欧美老女人xx| a级网站在线播放| www.欧美三级电影.com| 国产黄色片在线播放| 日韩大片免费观看视频播放| 亚洲精品一级片| 日韩一区二区三区三四区视频在线观看| 波多野结衣一本一道| 欧美日韩国产一区二区三区| 国产一级一片免费播放| 亚洲免费在线观看| 强乱中文字幕av一区乱码| 国产精品美女久久久久久| a资源在线观看| 中文在线一区二区 | 免费看日韩av| 日韩女优视频免费观看| 国产免费高清视频| 3atv一区二区三区| 国产av一区二区三区精品| 91精品国产入口| 国产精品无码在线播放| 91精品国产高清一区二区三区蜜臀| 国产精品久久婷婷| 欧美一区欧美二区| 国产999久久久| 欧美xxxx老人做受| 天堂中文在线资源| 亚洲男人天堂手机在线| 你懂的视频在线免费| 国产午夜精品视频| av在线播放网| 久久久精品日本| 3d玉蒲团在线观看| 欧美精品www| 亚洲天堂手机| 国产精品成人v| 欧美视频免费看| 成人午夜在线影院| julia中文字幕一区二区99在线| 国产精品日韩欧美一区二区三区 | 亚洲精品视频久久| jizz在线观看| 久久成人免费视频| 国产高潮在线| 国产精品美女久久久久久免费| 亚洲国产天堂| 国产欧美日韩亚洲| 欧美亚洲国产一区| 路边理发店露脸熟妇泻火| 在线日本成人| 99热手机在线| 成人性生交大合| 精品人妻无码一区二区三区换脸| 国产精品久久久久久久裸模| 久草网在线观看| 日韩欧美大尺度| 国产成人精品白浆久久69| 亚洲国产成人久久综合一区| 国产黄色片在线播放| 欧美高清videos高潮hd| 欧美动物xxx| 97超碰最新| 欧美色女视频| 97超碰在线人人| 久久国产免费看| 免费看黄色aaaaaa 片| 国产精品福利一区| 亚洲精品午夜国产va久久成人| 欧美日韩国产小视频在线观看| 欧洲av在线播放| 日韩一区二区欧美| 在线视频超级| 99re视频在线播放| 手机在线电影一区| jizzjizz国产精品喷水| 国内成+人亚洲+欧美+综合在线 | 亚洲av色香蕉一区二区三区| 亚洲欧美日韩精品久久亚洲区| 成人免费网站在线观看视频| 国产成人福利视频| 好吊妞国产欧美日韩免费观看网站| 亚洲精品一卡二卡三卡四卡| 亚洲女同同性videoxma| 国产又粗又猛大又黄又爽| 国产欧美视频一区二区| 国产一级精品视频| 精品日韩欧美在线| 国产一二区在线| 国产精品日韩电影| 羞羞色国产精品网站| www.xxx麻豆| 国产大陆精品国产| 小早川怜子一区二区的演员表| 欧美日韩一二三四五区| 欧美自拍偷拍一区二区| 欧美精品一区二区免费| 亚洲毛片在线免费| 亚洲人成影视在线观看| 日韩在线一区二区三区| 能免费看av的网站| 黑人巨大精品欧美一区二区| 日本精品一二区| 欧美日韩第一视频| 亚洲一区 二区| 日本大片免费看| 国产成人av福利| 青青草原在线免费观看视频| 91精品婷婷国产综合久久性色 | 色综合久综合久久综合久鬼88| 天天综合在线观看| 亚洲欧美一二三| 国产一区三区三区| 九九精品视频免费| 欧美一级一级性生活免费录像| 老司机在线视频二区| 国产原创欧美精品| 久久久五月天| 日本55丰满熟妇厨房伦| 日韩一区中文字幕| 国产白浆在线观看| 欧美黑人又粗大| 国产精品2023| 欧美日韩成人免费视频| 97se亚洲国产综合自在线| 日韩特级黄色片| 亚洲欧美日韩国产成人| 粉嫩av一区二区三区四区五区| 在线观看国产一区| 国产激情一区二区三区四区| 久久免费在线观看视频| 亚洲精品电影在线| 成人福利视频| 中文字幕在线中文字幕日亚韩一区 | 黄色av一区二区三区| 91国在线精品国内播放| 亚洲制服一区| 亚洲免费黄色网| 亚洲综合色自拍一区| 人成网站在线观看| 日本精品免费一区二区三区| 欧美日韩一二| aaaaaaaa毛片| 婷婷综合久久一区二区三区| 久久天堂电影| 91久久嫩草影院一区二区| 亚洲无线视频| 国产美女免费网站| 欧美一级片在线看| 欧美久久天堂| 一区二区免费在线观看| 国产91精品入口| 久久精品视频2| 久久av中文字幕| 久久成人av| 色哟哟免费视频| 一本色道久久综合亚洲aⅴ蜜桃| 黄色成人在线观看| 国产综合动作在线观看| 青草av.久久免费一区| 久久久久成人网站| 一区二区欧美久久| 国产精品色呦| 手机免费av片| 欧美日韩亚洲91| 在线观看免费视频你懂的| 欧美日韩精品免费在线观看视频| 国产一区亚洲一区| 日本熟女毛茸茸| 久久久久久亚洲| 手机亚洲手机国产手机日韩| 狠狠人妻久久久久久综合蜜桃| 91精品国产入口|