精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Cursor為Blackwell從零構建MXFP8內核,MoE層提速3.5倍,端到端訓練提速1.5倍

人工智能 新聞
該團隊開發了一個自定義的 MXFP8 量化內核,他們稱這是目前用于 MoE 訓練的最快內核。

在構建更強大的 AI 模型的這場競賽中,傳統路徑很簡單:升級到最新最強大的硬件。但 Cursor 發現釋放下一代 GPU 的真正潛力遠非即插即用那么簡單。

在從 NVIDIA 的 Hopper H100s 升級到新旗艦 Blackwell B200s 后,該團隊遇到了一個「升級陷阱」:硬件性能翻倍,但實際訓練速度卻被 MoE 層的效率拖慢,新架構的設計反而放大了數據搬運和量化的開銷。

這就像給一輛賽車換上了動力翻倍的新引擎,卻發現原有的輪胎完全無法承載這股力量,導致速度反而下降。

他們的解決方案是回歸基礎,自己定制「賽車胎」:在 GPU 內核級別從零開始重寫整個混合專家(MoE)訓練層。

Cursor 不僅解決了瓶頸問題,還徹底釋放了 Blackwell 架構的潛能。通過拋棄對現有 CUDA 庫的依賴,他們能夠:

  • 直接針對 TMEM 的新特性設計數據流管線,避免無謂的寄存器搬運開銷;
  • 將量化與反量化邏輯融入內核計算流程,大幅壓縮了內存帶寬占用;
  • 優化 MXFP8 的 microscaling 實現,在保證訓練收斂質量的同時,把性能推到極限。

最終效果是:MoE 層在前向和反向傳播中都實現了 3.5 倍提速,端到端訓練速度在 Blackwell 上快了 1.5 倍,相比最初的 Hopper GPU 方案實現了 2 倍的加速。

飛書文檔 - 圖片

與 BF16 相比,MXFP8 MoE 的相對加速(歸一化為 1.0)。

Cursor 團隊在博客中詳細介紹了相關技術細節,并分享了他們的工程經驗和性能數據。

  • 博客地址:https://cursor.com/en/blog/kernels

為什么現有 MoE 內核在 Blackwell 上失效?

為了降低計算成本,模型訓練普遍采用低精度數據格式(如 FP8)。但簡單地將高精度數字(如 0.0001)轉換為 FP8 會導致其被四舍五入為零,丟失信息。

微縮放(MX)通過將張量(Tensor)分割成許多小數據塊(例如每 32 個元素一塊),并為每個塊計算一個獨立的縮放因子(scale factor)來解決這個問題。

MXFP8 量化示例:每個 1x32 塊共享一個縮放因子。

這樣,每個塊內的數據都能被有效縮放到 FP8 的可表示范圍內,從而在保留精度的同時享受低精度計算帶來的性能優勢。Cursor 使用的 MXFP8 就是這樣一種格式。

張量內存(TMEM)瓶頸

在 Hopper (H100) 架構上,張量核心的計算結果直接累積在寄存器中,后續的「反量化」等操作可以流暢地進行。

然而,Blackwell (B200) 引入了新的張量內存(TMEM)來存儲累加結果。這意味著任何自定義的算術操作都必須經歷一次低效的數據往返:TMEM → 寄存器 → CUDA 核心處理 → TMEM。

這種異步數據傳輸會在張量核心的計算管線中產生「氣泡」,大幅降低執行效率。更關鍵的是,盡管 Blackwell 的 FP8 張量核心吞吐量翻倍,其 CUDA 核心性能僅提升了約 33%,導致反量化速度嚴重滯后于計算速度。

該甘特圖截取自我們定制的 Blackwell 注意力核。第一行顯示了張量核心(QKT)的活動情況;第二行顯示了 CUDA 核心的活動情況(數據從 TMEM 加載至寄存器,然后執行 softmax)。從 TMEM 到寄存器的加載延遲,導致了張量核心出現流水線氣泡。

數據顯示,在特定配置下,Blackwell 上的反量化耗時是矩陣乘法本身的 1.76 倍,遠高于 Hopper 上的 1.03 倍。

Hopper 與 Blackwell 上的相對反量化成本。

被忽視的「量化稅」

除了 TMEM 瓶頸,數據「量化」過程本身也成了性能殺手。

以一個典型的 MoE 矩陣乘法為例,計算本身可能僅需 1.16 毫秒,但將輸入矩陣量化為 MXFP8 格式并寫回內存就需要搬運近 2.9 GB 的數據,耗時約 0.44 毫秒,占到計算時間的近 40%。

在反向傳播中,這個開銷因需要轉置-量化而翻倍,達到 0.88 毫秒,占比高達 76%。這意味著,如果優化不當,MXFP8 帶來的性能提升可能被完全抵消。

此外,現有的開源量化內核不僅帶寬利用率低,其生成的縮放因子(scale factor)布局還與 Blackwell 的硬件指令不兼容,需要額外的、拖慢性能的重塑操作。

Cursor 如何從零重寫MoE 層?

面對這些挑戰,并發現現有的開源庫(如 NVIDIA 的 TransformerEngine)并非最佳選擇,Cursor 團隊選擇放棄高層依賴,使用純 CUDA 和 PTX 匯編語言親自編寫 MoE 層的 GPU 代碼。

優化策略
  • 擁抱原生硬件指令

他們沒有與 TMEM 架構對抗,而是圍繞原生的 tcgen05.mma 指令構建內核。這使得 GPU 硬件自身能夠處理 MXFP8 所需的縮放,完全消除了 TMEM 和 CUDA 核心之間低效的數據移動。

  • 設計高效的數據流水線

他們實現了一個復雜的流水線,采用了諸如「Warp 專精」(將特定任務分配給不同的線程組)和 2-CTA(協同線程陣列)模式等技術。

Warp 專精將特定的任務分配給不同的線程組(Warp)。例如,Warp 0 負責從主內存加載數據到共享內存,Warp 1 負責加載縮放因子,Warp 2 負責將縮放因子從共享內存移至 TMEM,而 Warp 3 則專門負責啟動矩陣乘法計算。這使得各個環節可以高度并行。

2-CTA 模式允許兩個 GPU 流式多處理器(SM)協同完成單個矩陣乘法,通過共享 B 矩陣來減少內存流量,帶來了 15-20% 的性能提升。

  • 針對 MoE 工作負載進行優化

對于 MoE 訓練中特有的分組矩陣乘法,他們應用了一種名為「專家級超分組」的 L2 緩存優化啟發式算法。這確保了內存訪問模式保持高效,將標準矩陣乘法與分組矩陣乘法之間的性能下降限制在僅 4%。

「秘密武器」:量化內核與低精度配方

該團隊開發了一個自定義的 MXFP8 量化內核,他們稱這是目前用于 MoE 訓練的最快內核。微基準測試顯示,其內核持續的內存帶寬超過 6.2 TB/s,相比他們從現有開源工具測得的約 4.5 TB/s 有了顯著提升。

至關重要的是,他們的內核輸出的數據內存布局與 tcgen05.mma 指令所要求的完全一致,避免了其他工具所必需的、耗時的額外「重塑」步驟。

基于內存帶寬利用率的 MXFP8 量化內核比較(E4M3,32 塊大小的縮放)。

團隊還確定了一種特定的低精度「配方」,能夠在不影響訓練質量的情況下提供最高速度。通過使用元素類型為 FP8E4M3、塊大小為 32 的 MXFP8 格式,他們能夠使訓練損失的收斂情況與速度慢得多的 BF16 格式幾乎完全匹配。

團隊公布的訓練損失曲線顯示,兩種方法幾乎沒有區別,證明了性能的提升并未以犧牲準確性為代價。

BF16 與 MXFP8 訓練損失超過 10k 步:幾乎無法區分。

更多技術細節請閱讀原博客。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-02-17 13:20:51

forpandas語言

2020-05-01 12:35:31

C++Python編程

2018-03-28 14:10:10

GoPython代碼

2016-10-08 16:02:37

WIFIMegaMIMO系統

2021-03-18 15:29:10

人工智能機器學習技術

2016-03-21 10:16:06

RedisSpark大數據處理

2013-02-28 10:35:59

hadoop大數據Hortonworks

2014-09-25 21:53:30

戴爾

2022-08-09 09:10:31

TaichiPython

2013-09-24 09:40:41

Java圖形加速

2020-05-14 14:21:50

谷歌AI數據

2023-07-12 14:28:45

谷歌模型

2016-02-18 09:36:52

光纖wifi

2009-12-16 11:43:28

卡巴斯基NVIDIA Tesl

2025-06-03 17:37:49

模型訓練AI

2013-10-17 09:34:56

企業郵箱海外訪問提速

2021-05-17 09:57:42

Python 開發編程語言

2019-03-27 13:45:44

MySQL優化技巧數據庫

2010-12-01 14:36:16

趨勢科技Web信譽查詢

2022-07-18 17:37:27

字節跳動人工智能AI模型
點贊
收藏

51CTO技術棧公眾號

亚洲影院在线观看| 国产在线精品国自产拍免费| 亚洲精品成人久久电影| 成年人黄色片视频| 成人精品一区| 国产成人午夜精品影院观看视频| 国内精品久久久久影院优| 18禁裸乳无遮挡啪啪无码免费| 忘忧草在线www成人影院| 国产精品婷婷午夜在线观看| 99视频免费观看蜜桃视频| 国产精品乱子伦| 婷婷伊人综合| 国产手机视频精品| 性色av浪潮av| 性欧美freehd18| 亚洲在线成人精品| 午夜视频久久久| 蜜桃视频在线观看www| 日韩成人一级大片| 久久久久五月天| a资源在线观看| 久久久久久毛片免费看| 欧美日韩精品福利| 人妻有码中文字幕| 色av手机在线| 综合亚洲深深色噜噜狠狠网站| 精品国产一区二区三区免费| 自拍偷拍色综合| 亚洲三级影院| 久久在精品线影院精品国产| 91精彩刺激对白露脸偷拍| 蜜桃精品视频| 欧美美女激情18p| 男女啪啪网站视频| 小早川怜子影音先锋在线观看| 一区二区三区视频在线观看| 一区二区三区四区视频在线| 国产小视频在线播放| proumb性欧美在线观看| 成人黄色在线免费观看| 国产手机视频在线| 国产在线日韩欧美| 国产精品视频自拍| 波多野结衣在线电影| 免费看的黄色欧美网站| 午夜精品久久久久久久男人的天堂 | 欧美性猛交一区二区三区精品| 国产免费毛卡片| а√在线中文网新版地址在线| 一区二区三区欧美日韩| 日韩视频在线观看视频| 久久精品视频免费看 | 成人欧美一区二区三区黑人一 | 国产毛片aaa| 亚洲国产专区校园欧美| 久久久亚洲国产天美传媒修理工| 久操免费在线视频| 伊人久久亚洲美女图片| 久久免费高清视频| 在线看成人av| 久久久成人网| 国产精品高潮呻吟久久av无限 | 老鸭窝91久久精品色噜噜导演| 2019中文字幕在线观看| 亚洲午夜18毛片在线看| 国产农村妇女精品一区二区| 欧美亚洲免费电影| 久久精品偷拍视频| 美美哒免费高清在线观看视频一区二区| 国产精品国产三级国产aⅴ9色| 国产一级片一区二区| 老司机一区二区| 91精品在线国产| 超碰在线观看99| 99久久久国产精品免费蜜臀| 欧美日韩亚洲免费| 色综合久久影院| 一区二区三区四区亚洲| www在线观看免费| 丝袜美腿一区| 日韩三级电影网址| 超碰97在线资源站| 国产日产一区| 裸体女人亚洲精品一区| 国产在线视频二区| 视频一区中文字幕| 91成人免费视频| 色就是色亚洲色图| 成人免费一区二区三区在线观看| 国产欧美久久久久| 欧美日韩国产v| 制服丝袜一区二区三区| 妖精视频一区二区| 欧美裸体在线版观看完整版| 欧美精品在线第一页| 久久久久久久久久久久久av| 久久精品99久久久| 九色91国产| 欧美三级黄网| 欧美视频在线观看 亚洲欧| 欧美美女一级片| 国产精品丝袜在线播放| 在线播放日韩欧美| 久久久久香蕉视频| 日本中文字幕一区二区视频| 成人h视频在线观看| 在线看av的网址| 亚洲一级二级在线| 亚洲小视频网站| 久久97视频| 久久久女人电视剧免费播放下载 | 黄色激情在线播放| 制服丝袜成人动漫| 性欧美13一14内谢| 在线成人av| 91免费看网站| 色综合久久影院| 色综合咪咪久久| 午夜影院福利社| 国产精品久久久久久| 国产精品扒开腿爽爽爽视频| 色香蕉在线视频| 亚洲男人的天堂在线aⅴ视频| 免费黄色一级网站| 亚洲+变态+欧美+另类+精品| 欧美激情xxxx性bbbb| 一本色道久久综合无码人妻| 久久女同精品一区二区| 97超碰人人澡| 我要色综合中文字幕| 中国china体内裑精亚洲片| 欧美videossex极品| 成人免费视频网站在线观看| 手机看片日韩国产| 色综合视频一区二区三区日韩| 亚洲人午夜精品| 国产一区二区99| 99久久免费精品| 国产二区视频在线| 亚洲综合色婷婷在线观看| 久热精品视频在线| 97成人免费视频| 国产精品欧美一级免费| 中文字幕国产传媒| 成人激情视频| 成人xvideos免费视频| 亚洲精品承认| 欧美精选一区二区| 无码人妻精品中文字幕| 久久91精品久久久久久秒播| 亚洲国产日韩欧美| 国产人妖一区| 最近免费中文字幕视频2019| 中文字幕你懂的| 中文字幕在线不卡国产视频| 色一情一区二区| 欧美一区二区三区免费看| 91人成网站www| 日韩电影免费观看| 亚洲国产91精品在线观看| 日本少妇性生活| 91在线小视频| 男女无套免费视频网站动漫| 色先锋久久影院av| 国产成人一区三区| 成人在线免费视频| 亚欧色一区w666天堂| 免费看91视频| 亚洲精品久久| 国产区精品在线观看| 番号集在线观看| 欧美猛男男办公室激情| 少妇人妻丰满做爰xxx| 福利91精品一区二区三区| 国产www免费| 国产免费久久| 91夜夜未满十八勿入爽爽影院| 天堂av中文在线| 国产偷亚洲偷欧美偷精品| 国产精品无码一区| 亚洲一区二区三区视频在线播放 | 免费a级片在线观看| 欧美日韩色婷婷| 精品日韩在线视频| 国产成人精品www牛牛影视| 免费看黄在线看| 欧美一区二区三区高清视频| 亚洲综合视频1区| 蜜桃视频www网站在线观看| 中文字幕国产日韩| 国产综合无码一区二区色蜜蜜| 色婷婷综合久色| 成人免费毛片xxx| 久久综合狠狠综合| 99视频在线观看视频| 国产一级久久| 国产日韩第一页| 九热爱视频精品视频| 99在线看视频| 韩国女主播一区二区| 欧美激情精品久久久久久| 成人欧美亚洲| 亚洲电影免费观看高清完整版在线观看| 精品乱码一区内射人妻无码| 无码av免费一区二区三区试看| 后入内射无码人妻一区| 91在线视频在线| 在线观看一区二区三区四区| 麻豆久久久久久| 欧美老熟妇喷水| 欧美一区视频| 在线一区日本视频| 国产麻豆精品久久| 精品欧美日韩| 天堂久久av| 成人精品一区二区三区| 97久久香蕉国产线看观看| 97香蕉久久超级碰碰高清版 | 国内黄色精品| 国产精品yjizz| 91精品福利观看| 国产精品电影久久久久电影网| 麻豆成全视频免费观看在线看| 久久久精品一区二区| 91伦理视频在线观看| 亚洲欧美日韩精品久久| 欧美一区二区在线观看视频| 欧美一区二区成人| 夜夜爽8888| 欧美日韩激情一区二区| 无码人妻一区二区三区线| 精品成人在线视频| 黄色激情视频在线观看| 一区二区不卡在线视频 午夜欧美不卡在 | www.日韩一区| 色噜噜狠狠成人中文综合| 久久久精品福利| 色综合久久精品| 亚洲天堂一区在线| 欧美日韩一区二区在线| 国产精品免费av一区二区| 亚洲国产视频一区二区| 久久久国产成人| 亚洲一区二区欧美| 久操免费在线视频| 一区二区三区欧美在线观看| 日韩激情综合网| 亚洲美女偷拍久久| 亚洲av鲁丝一区二区三区| 亚洲免费视频成人| 欧美精品99久久久| 亚洲成av人片在线观看无码| 国产一级在线播放| 亚洲va国产va欧美va观看| 日本三级中文字幕| 欧美性高潮在线| 伊人成年综合网| 欧美日韩在线播| 国产男男gay网站| 精品国产网站在线观看| 日韩在线视频第一页| 国产丝袜一区二区三区免费视频| 男女污视频在线观看| 一区二区欧美久久| 日本在线免费网| 九九精品视频在线观看| 欧美bbbxxxxx| 欧洲亚洲在线视频| yiren22亚洲综合| 成人免费在线视频网站| 91亚洲无吗| 鲁丝一区二区三区免费| 清纯唯美综合亚洲| 欧美交换配乱吟粗大25p| 亚洲欧洲日本mm| 国产熟人av一二三区| 韩国欧美国产1区| 国产高清成人久久| 亚洲国产精品99久久久久久久久 | 在线欧美日韩精品| 国产精品人妻一区二区三区| 精品国产乱码久久久久久免费| 神马久久久久久久久久| 国产一区二区三区在线视频| 国产黄色在线免费观看| 97免费视频在线播放| 成人网ww555视频免费看| 91在线|亚洲| 亚洲香蕉视频| 国产高清不卡无码视频| 久久av最新网址| 91人妻一区二区三区| 久久一夜天堂av一区二区三区| 免费黄色激情视频| 激情av一区二区| 国产露脸国语对白在线| 精品视频久久久久久久| 黄网站在线播放| 91高清免费在线观看| 国产精品国产亚洲精品| 欧美日韩亚洲一区二区三区四区| 午夜日韩av| 超碰在线97免费| 97久久人人超碰| 国产一区二区视频在线观看免费| 欧美香蕉大胸在线视频观看| 国产欧美综合视频| 亚洲午夜av久久乱码| av美女在线观看| 91精品啪aⅴ在线观看国产| 一区三区在线欧| 水蜜桃色314在线观看| 国产乱子伦一区二区三区国色天香| 中文精品在线观看| 亚洲国产日韩在线一区模特| 国产精品乱码一区二区| 亚洲品质视频自拍网| 国产美女精品写真福利视频| 亚洲free性xxxx护士hd| 欧美日韩国产高清电影| 欧美日韩性生活片| 高清在线不卡av| 久久久久亚洲av片无码| 欧美日韩aaa| 北岛玲日韩精品一区二区三区| 欧美又大粗又爽又黄大片视频| 91成人午夜| 久久久天堂国产精品| 国产综合色在线视频区| 一级黄色毛毛片| 欧美这里有精品| 激情福利在线| 日韩av电影手机在线| 亚洲精品合集| 国模吧无码一区二区三区| 波多野结衣一区二区三区| 久草国产在线视频| 欧美成人vr18sexvr| 欧美videossex另类| 成人91视频| 国自产拍偷拍福利精品免费一| 国产伦精品一区二区三区妓女下载| 成人欧美一区二区三区1314| 国产免费高清视频| 欧美日韩国产91| 波多野结衣一区二区三区免费视频| 日本香蕉视频在线观看| 福利视频网站一区二区三区| 国产一级二级毛片| 亚洲国产精品成人精品| 美女91在线| 国产精品美女xx| 小嫩嫩精品导航| 韩国女同性做爰三级| 欧美三级欧美一级| 国产在线观看a| av资源一区二区| 亚洲经典三级| 亚洲精品国产熟女久久久| 欧美影院午夜播放| 久草免费在线| 99精品欧美一区二区三区| 亚洲黄网站黄| 国产综合精品在线| 9191成人精品久久| 污污的网站在线免费观看| 国产欧美日韩视频一区二区三区| 国产精品普通话对白| 黄色片在线观看免费| 欧美男人的天堂一二区| 2021国产在线| 久久精品第九区免费观看| 日韩精品三区四区| 手机av在线看| 亚洲国产天堂久久国产91 | 欧美在线高清视频| 成人看av片| 久久香蕉综合色| 美女爽到高潮91| 日韩经典在线观看| 少妇精69xxtheporn| 51社区在线成人免费视频| 欧美日韩激情视频在线观看| 国产精品妹子av| 韩国av免费在线观看| 国产经典一区二区| 欧美三级视频| 精品无码在线观看| 欧美videos中文字幕| 亚洲高清黄色| 9191国产视频| 久久久精品国产免大香伊| 国产精品视频久久久久久| 97视频免费在线看| 亚洲一区 二区 三区| 丰满圆润老女人hd| 精品三级在线观看视频| 免费无码不卡视频在线观看| 国产精品日日摸夜夜摸av|