精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

韓松等提出FlashMoBA,比MoBA快7.4倍,序列擴到512K也不會溢出

人工智能 新聞
在這篇論文中,來自 MIT、NVIDIA 機構的研究者首先建立了一個統計模型,用于分析 MoBA 的內部機制。模型顯示,其性能關鍵取決于路由器是否能夠基于 Query-Key 的相似度,準確區分相關塊與無關塊。研究者進一步推導出一個信噪比,將架構參數與檢索準確率建立起形式化聯系。

今年 2 月,月之暗面提出了一種名為 MoBA 的注意力機制,即 Mixture of Block Attention,可以直譯為「塊注意力混合」。

據介紹,MoBA 是「一種將混合專家(MoE)原理應用于注意力機制的創新方法。」該方法遵循「更少結構」原則,并不會引入預定義的偏見,而是讓模型自主決定關注哪些位置。

MoBA 在處理長上下文時表現出極強的潛力,它允許 Query 只稀疏地關注少量 Key-Value 塊,從而大幅降低計算成本。

然而,目前業界對 MoBA 性能背后的設計原則仍缺乏深入理解,同時也缺少高效的 GPU 實現,這限制了其實際應用。

在這篇論文中,來自 MIT、NVIDIA 機構的研究者首先建立了一個統計模型,用于分析 MoBA 的內部機制。模型顯示,其性能關鍵取決于路由器是否能夠基于 Query-Key 的相似度,準確區分相關塊與無關塊。研究者進一步推導出一個信噪比,將架構參數與檢索準確率建立起形式化聯系。

基于這一分析,本文識別出兩條主要的改進路徑:一是采用更小的塊大小,二是在 Key 上應用短卷積,使語義相關信號在塊內聚集,從而提升路由準確性。

然而,盡管小塊尺寸在理論上更優,但在現有的 GPU 實現中,小塊會導致嚴重的內存訪問碎片化和低并行度,速度甚至慢于稠密注意力。

為解決這一矛盾,研究者進一步提出了 FlashMoBA,一種硬件友好的 CUDA kernel,可在小塊配置下仍然高效地執行 MoBA。

結果顯示優化后的 MoBA 在性能上可與密集注意力基線相匹敵。對于小塊場景,FlashMoBA 相比 FlashAttention-2 可實現最高 14.7 倍加速。

  • 論文地址:https://arxiv.org/pdf/2511.11571
  • 項目地址:https://github.com/mit-han-lab/flash-moba
  • 論文標題:OPTIMIZING MIXTURE OF BLOCK ATTENTION

FLASHMOBA:一種面向小塊 MoBA 的優化內核

理論模型表明,較小的塊尺寸能帶來顯著的質量提升,但樸素的 GPU 實現效率低下。由月之暗面發布的原始 MoBA 實現,在配置小塊尺寸時會遭遇性能瓶頸,這些瓶頸抵消了稀疏性帶來的計算節省,導致執行速度比稠密注意力更慢。

研究者推出了 FlashMoBA,這是一種硬件感知的 CUDA 內核,旨在使小塊 MoBA 變得實用且高效。

小塊帶來的性能挑戰

小塊尺寸引入了幾個關鍵的性能挑戰,要在實際部署中應用必須解決這些問題。

首先,在為每個查詢收集稀疏、不連續的鍵值塊時,會出現低效的內存訪問,導致從 HBM 讀取數據時出現非合并內存讀取。

其次,隨著較小的塊尺寸 圖片 導致路由器必須評分的塊數量(圖片)增加,Top-k 選擇和門控的開銷變得棘手。原始實現顯式生成了一個巨大的圖片 分數矩陣,產生了巨大的內存開銷。

最后,由于每個塊的工作量減少以及啟動大量獨立內核的開銷,導致 GPU 占用率低,進而造成并行度差和硬件利用率低。

FLASHMOBA 內核設計

為了克服這些挑戰,FlashMoBA 采用了三個融合內核,以最大限度地減少 HBM 往返次數,并使計算與 GPU 架構相對齊,如圖 1 所示。

分塊 Top-K 選擇

Top-k 選擇過程是原始 MoBA 實現中的主要瓶頸,該實現顯式生成了完整的分數矩陣并串行處理批次序列。研究者將其替換為 Flash TopK(圖 1 中的步驟 1),這是一個由融合內核組成的高度優化的三階段流水線。

圖片

首先,一個 Triton 內核計算鍵塊的質心,生成一個更小的矩陣 圖片

其次,受 FlashAttention-2 啟發的分塊內核通過計算圖片和 圖片 之間的分數來為每個查詢找到 Top-k 個鍵塊,且無需將完整的分數矩陣顯式寫入 HBM,如算法 3 所述。

圖片

最后,一個高效的后處理步驟將以查詢為中心的索引重新格式化為以鍵塊為中心的變長布局,以便進行主注意力傳遞。整個流水線在批次和注意力頭之間完全并行化,消除了原始的性能瓶頸。

采用「收集并致密化」策略的前向傳播

為了處理 MoBA 的不規則稀疏性,前向內核使用了一種基于兩級分塊機制的「收集并致密化」策略,詳見算法 1。

圖片

要區分兩種類型的塊:

邏輯塊:內核在其外層循環中迭代的大型連續查詢塊圖片和鍵塊圖片。一個邏輯鍵塊對應一個 MoBA 鍵塊。

物理塊:加載到 SRAM 中用于矩陣乘法的較小圖塊(Tiles,例如圖片圖片。它們的最佳尺寸取決于 GPU 架構和注意力頭的維度。

內核將一個邏輯查詢塊圖片分配給每個線程塊,并遍歷所有邏輯鍵塊圖片。對于每一對塊,它使用變長索引來查找相關的查詢。該子集被分批處理成稠密的物理塊:從 HBM 收集物理查詢塊并放入稠密 SRAM 緩沖區進行計算。

這種兩級方法是關鍵所在,因為在 SRAM 中緩存查詢允許在邏輯鍵塊的所有物理圖塊之間復用數據,從而通過高效的稠密 GEMM(通用矩陣乘法)分攤昂貴的不規則內存訪問成本。

帶重計算的反向傳播

反向傳播利用了 FlashAttention-2 的內存高效設計,并實現為三個內核的序列(算法 5)。

圖片

主內核在鍵維度上并行化計算,每個線程塊處理一個鍵塊。為了處理稀疏性,它鏡像了前向傳播的「收集并致密化」策略,使用變長索引收集查詢子集并將梯度輸出到片上圖塊中。

遵循 FlashAttention-2 的方法,研究者在反向傳播期間重計算注意力分數,以避免將完整的注意力矩陣存儲在內存中。雖然鍵和值的梯度直接寫入 HBM,但部分查詢梯度圖片需要跨多個鍵塊進行累加,這是通過對高精度全局緩沖區使用原子加法來高效且安全地處理的。

這種設計確保了反向傳播在序列長度上保持線性復雜度,這是相對于標準注意力的二次復雜度的一個關鍵改進。由于反向傳播通常構成優化注意力實現的主要性能瓶頸(通常比前向傳播慢 2-3 倍),因此我們需要反向內核的高效率對于實現長序列的實際訓練至關重要。

實驗及結果

本文從零開始預訓練模型,并進行可控實驗來驗證 MoBA 的設計原則。實驗共訓練了兩個模型,所有實驗均在 8× H100 80GB GPU 上完成:

  • 340M 參數模型(hidden size 1024,16 heads,中間層規模 2816);
  • 1B 參數模型(hidden size 2048,32 heads,中間層規模 8192)。

質量評估結果

本文在語言建模、長上下文檢索以及真實任務上對 MoBA 的表現進行了評估。實驗結果表明,改進后的模型在多種基準測試中提高了性能。

首先是塊大小的影響。圖 2 展示了塊大小對 340M 模型在 WikiText 困惑度(perplexity)和 RULER 準確率上的影響。正如的理論預測,將塊大小從 512 縮小到 128,使困惑度從 20.9 降至 19.7,RULER 準確率從 38.8% 提升到 56.0%。更小的塊能夠幫助路由器更精準地識別相關內容。

這一趨勢在所有基準和不同模型規模上都保持一致。對 340M 模型來說,將塊大小從 512 縮小到原來的 1/4 到 128,可帶來如下提升:

  • 語言建模準確率從 44.6% 提升到 45.6%(表 1);
  • RULER 準確率從 38.8% 提升到 63.9%(表 3);
  • LongBench 綜合得分從 13.2 提升到 15.3(表 5)。

總體來看,小塊尺寸對于 MoBA 達到與密集注意力相當的性能是必要的。

Key Convolution 。Key Convolution 在不同任務中都能帶來性能提升,而且具有任務偏好特性。對于 340M 模型:

  • kconv3 將語言建模準確率從 45.1% 提升到 45.6%(表 1);
  • kconv5 在 64K 長度檢索任務中達到 100% 的檢索率(表 3);
  • 在 LongBench 上,kconv3 得分達到 15.3%(表 5)。

對于 1B 模型:

  • kconv3 將語言建模準確率提升到 52.7%(表 2);
  • 將 RULER 準確率提升到 68.2%(表 4)。

這些結果表明,卷積通過使相關 token 在塊內聚集,提升了有效均值差異 ,從而顯著提高路由準確性。

注:卷積核寬度 W∈{3,5},分別記作 kconv3 和 kconv5。

稀疏匹配密集注意力機制。在多個基準測試和規模下,MoBA 的表現與密集注意力機制相當甚至更勝一籌。

效率結果

雖然理論上小塊尺寸能夠帶來更高的模型質量,但此前由于 GPU 利用率低下,小塊一直難以在實際中使用。FlashMoBA 的出現讓這些配置真正變得可行。

端到端性能。圖 3 對比了不同序列長度(8K 至 512K token)下的延遲和內存占用。FlashMoBA 在兩項指標上都顯著優于原始實現。

在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,內存占用減少 6.1 倍,原始 MoBA 在 128K 序列就會 OOM(內存溢出),而 FlashMoBA 能擴展到 512K。

隨著序列越長、塊越小,優勢更明顯,因為 FlashMoBA 消除了全局 reindex 的開銷,在長序列條件下可實現最高 14.7× 快于 FlashAttention-2 的速度。

為了理解 FlashMoBA 的提速來源,圖 4 展示了在 N=64K 下前向傳播的耗時分布。

原始 MoBA 包含 5 個階段:(1)計算質心并執行 top-k、(2)全局 reindex、(3)在路由后的索引上執行注意力、(4)局部因果注意力以及(5)合并結果。

其中步驟 (1)、(2)、(5) 占據了超過 70% 的執行時間。

FlashMoBA 則使用兩個融合 kernel,這種融合設計將 64K 序列下的前向傳播時間降至 49 ms,而 FlashAttention-2 在相同設置下為 99 ms。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-12 09:35:45

2009-03-19 09:20:18

ADSL寬帶無線網絡

2022-10-27 08:31:31

架構

2020-02-12 15:02:15

人工智能機器學習技術

2024-03-26 10:13:54

日志引擎SigLens

2025-08-21 10:14:18

2025-08-21 10:59:42

2009-01-06 09:16:51

寬帶速率聯通

2025-04-02 09:30:00

2021-08-03 06:57:36

Protocol Bu平臺Json

2023-04-07 08:17:39

fasthttp場景設計HTTP

2025-08-18 09:21:07

2015-11-25 14:39:51

LiFiWiFi

2021-07-28 14:20:13

正則PythonFlashText

2022-11-02 08:12:47

TurbopackVite

2020-06-09 10:15:21

模型人工智能自然語言

2019-12-23 10:22:05

AI 數據人工智能

2019-10-14 09:50:52

KeyDBRedis中間件

2023-09-08 15:05:51

Mojo編程語言

2021-05-06 10:52:09

Java Spring Bo框架
點贊
收藏

51CTO技術棧公眾號

久久福利精品| 久久九九国产视频| 制服.丝袜.亚洲.中文.综合懂| 亚洲第一视频在线播放| 欧美天天综合| 亚洲成人激情自拍| 久久精品国产视频| 日本www高清视频| 人妻与黑人一区二区三区| 色综合咪咪久久网| 在线观看av不卡| 免费久久久一本精品久久区| 深夜福利影院在线观看| 久久青草视频| 中文子幕无线码一区tr| 青草成人免费视频| 影音先锋人妻啪啪av资源网站| 巨大荫蒂视频欧美另类大| 欧美亚洲大陆| 亚洲一区二三区| 99www免费人成精品| 国精品人伦一区二区三区蜜桃| 英国三级经典在线观看| 波多野结衣视频一区| 久久久久久久久久久久av| 中文字幕av一区二区三区人妻少妇| 在线免费av网站| 免费人成网站在线观看欧美高清| 亚洲精品自拍偷拍| 糖心vlog在线免费观看| 91亚洲精品国偷拍自产在线观看| 日韩欧美视频| 日韩电影网在线| 内射国产内射夫妻免费频道| 天天干天天摸天天操| 国产综合网站| 日韩黄色高清视频| 中文字幕乱码在线人视频| 99re久久| 亚洲男人的天堂av| 国产亚洲福利社区| 国产成人无码av| 成人免费在线播放| 国产婷婷成人久久av免费高清 | 美女脱光内衣内裤视频久久网站| 538国产精品视频一区二区| 国产精品无码网站| 欧美理论影院| 国产精品国产精品国产专区不片| 亚洲影影院av| 亚洲欧美自拍视频| 欧美a级片视频| 精品国产百合女同互慰| 国产乱子夫妻xx黑人xyx真爽| av中文天堂在线| 国产高清无密码一区二区三区| 午夜精品久久久久久久白皮肤 | 国产亚洲色婷婷久久| 国产91足控脚交在线观看| www一区二区| 成人免费淫片视频软件| 国产传媒欧美日韩| 欧美成人蜜桃| 无码国产伦一区二区三区视频 | 天天射天天综合网| 日韩欧美国产一区在线观看| 免费国产a级片| 亚洲1卡2卡3卡4卡乱码精品| 成人综合在线网站| 国产精品美女久久久久av超清| 日韩在线视频免费看| 日韩免费久久| 免费av一区二区| av黄色在线免费观看| 久草资源在线视频| 日本加勒比一区| 国产成人精品影视| 91超碰在线免费观看| 男人日女人网站| 久久婷婷久久| 午夜精品美女自拍福到在线| 日韩精品国产一区二区| 国产精品x453.com| 久久99国产精品久久久久久久久| 最新中文字幕av| y111111国产精品久久久| 欧美系列在线观看| 国产在线精品91| 日日av拍夜夜添久久免费| 午夜一区二区三区视频| 日本a级片在线观看| chinese偷拍一区二区三区| 国产精品电影院| 女人被男人躁得好爽免费视频 | 一区二区成人av| 99久久免费看精品国产一区| 国产成年精品| 欧美日韩高清一区二区| caopor在线视频| 成人av在线播放| 亚洲国产一区二区三区在线观看 | 国产精品人人人人| 美腿丝袜亚洲一区| 国产精品中出一区二区三区| 国产a级免费视频| 久久国产剧场电影| 国产精品亚发布| 中文字幕丰满人伦在线| 久久av在线| 亚洲精品欧美日韩专区| 美州a亚洲一视本频v色道| av电影在线观看一区| 国产精品久久久久久久久久久久午夜片 | 日韩女优电影在线观看| 少妇人妻好深好紧精品无码| 国精品一区二区三区| 国产精品爽爽爽| 青青草手机在线| 26uuu另类欧美| 日本三级福利片| 超碰在线caoporen| 亚洲最大色网站| av高清在线免费观看| 蜜桃av.网站在线观看| 欧美日韩国产专区| 欧美日韩亚洲第一| 一区二区三区在线免费看| 精品国产一区久久| 亚洲天堂一级片| 亚洲承认在线| 日韩美女视频中文字幕| 又色又爽又黄无遮挡的免费视频| 黄色资源网久久资源365| 91免费版网站在线观看| 搞黄视频在线观看| 亚洲精品亚洲人成人网在线播放| 三级在线免费看| 999精品嫩草久久久久久99| 日韩三级免费观看| 国产精品嫩草av| 欧美 亚欧 日韩视频在线 | 三级中文字幕在线观看| 欧美成人精品福利| 亚洲自拍偷拍一区二区| 日韩欧美午夜| 国产精品视频播放| 成人亚洲综合天堂| 在线日韩一区二区| 丁香花五月婷婷| 奇米色777欧美一区二区| 亚洲www在线观看| 精品美女在线观看视频在线观看| 欧美精品一级二级三级| 中文字幕第3页| 亚洲一级黄色| 激情小说综合网| 麻豆网在线观看| 福利视频第一区| 短视频在线观看| 久久一区欧美| 亚洲欧美国产一区二区| av在线视屏| 欧美一区二区大片| 中文字幕国产综合| 欧美黄色一区| 成人在线观看av| 午夜不卡影院| 伊人久久大香线蕉av一区二区| 中文字幕欧美在线观看| 自拍偷自拍亚洲精品播放| 无码精品a∨在线观看中文| 亚洲精品一区二区在线播放∴| 久久久999国产| 国产小视频免费观看| 中文字幕乱码日本亚洲一区二区| 国产 porn| 亚洲一级淫片| 国产精品日韩欧美大师| 黄网站免费在线观看| 亚洲国产91精品在线观看| 小泽玛利亚一区二区免费| 国产suv一区二区三区88区| 亚洲精品一区二区三区四区五区| 96视频在线观看欧美| 久久久久久久久久久久av| 国产日产精品久久久久久婷婷| 欧美理论电影在线| 日韩人妻无码一区二区三区99| 国产伦精品一区二区三区免费迷 | 国产精品传媒毛片三区| 新片速递亚洲合集欧美合集| 久热精品视频在线| 影音先锋黄色网址| 亚洲高清一区二区三区| xxxx日本黄色| 成人夜色视频网站在线观看| 欧美午夜性生活| 激情久久久久| 亚洲制服中文| 97欧美成人| 国内精品模特av私拍在线观看| 午夜精品久久久久久久99老熟妇 | 成人高清伦理免费影院在线观看| 国产91在线视频观看| 我不卡神马影院| 久热这里只精品99re8久| **欧美日韩在线| 国产成+人+综合+亚洲欧洲| 天天射天天操天天干| 九九热视频免费| a在线观看免费| 午夜私人影院久久久久| 超薄肉色丝袜一二三| 久久国产福利| 黄色影视在线观看| 日韩免费视频| 久久国产精品免费一区| 国产资源在线观看入口av| 精品久久久久久久久久久久包黑料| 四虎精品永久在线| 亚洲夂夂婷婷色拍ww47| 五月婷婷综合激情网| 国产麻豆精品一区二区| 亚洲精品高清无码视频| 在线亚洲观看| 你懂的网址一区二区三区| 亚洲五码在线| 亚洲va国产va天堂va久久| 国产成人免费| 国产成人综合av| 在线精品亚洲欧美日韩国产| 亚洲视频精品在线| 在线免费观看av片| 色婷婷久久久久swag精品| 国产av自拍一区| av午夜一区麻豆| 波多野结衣办公室双飞 | 狠狠精品干练久久久无码中文字幕 | 亚洲成人激情av| 久久亚洲AV无码| 不卡一二三区首页| 91精产国品一二三| 粉嫩久久99精品久久久久久夜 | 精品精品视频| 欧美专区中文字幕| 美女高潮在线观看| 97在线看福利| 欧美成人午夜电影| 懂色av.com| 亚洲综合一二三区| 久久av高潮av无码av喷吹| 一区二区三区精品视频在线| 日本精品人妻无码77777| 国产一区二区不卡老阿姨| av女优在线播放| 亚洲理伦在线| 9999在线观看| 久久久久久久久久久久久久| 欧美不卡在线一区二区三区| 亚洲丝袜啪啪| 成人在线看片| 清纯唯美亚洲经典中文字幕| 另类视频在线观看+1080p| 美女久久久久| 国产一区二区免费电影| 美女午夜精品| 91国产丝袜在线放| www.国产精品一区| 欧美精品123| 国产精品极品在线观看| 91精品国产综合久久久久久久久| 高潮在线视频| 国产精品video| 小视频免费在线观看| 国产精国产精品| 成人黄色理论片| 国产三区二区一区久久| 红桃成人av在线播放| 精品国产乱码久久久久| 神马影视一区二区| 欧洲xxxxx| 亚洲精品日本| 中文av一区二区三区| 噜噜噜久久亚洲精品国产品小说| 欧美丰满熟妇xxxxx| 国产乱人伦精品一区二区在线观看 | 毛片av一区二区| 国产精品亚洲a| 久久97超碰国产精品超碰| 国产精品久久久久久久无码| a在线欧美一区| 日韩成人短视频| 色综合久久综合中文综合网| 国产免费一区二区三区最新不卡| 欧美午夜精品免费| 国产精品一二三四五区| 欧美午夜寂寞影院| 成人午夜免费福利| 中文字幕av一区二区三区谷原希美| 麻豆影视在线| 欧美理论片在线观看| 校园春色亚洲色图| 国产精品国产一区二区| 日韩中文首页| 日本不卡在线观看视频| 国产精品一区免费视频| 亚洲精品国产精品国自| 精品福利在线视频| 国产嫩bbwbbw高潮| 日韩欧美一级二级| h视频在线观看免费| 2021国产精品视频| 亚洲精品影片| 少妇熟女一区二区| 日韩av一级片| 特大黑人巨人吊xxxx| 亚洲精品免费在线观看| 欧美成人国产精品高潮| 欧美午夜精品免费| 精品亚洲成a人片在线观看| 亚洲午夜精品久久久久久久久久久久| 男人的天堂在线视频| 欧美国产日本高清在线| 欧美aa一级| 99理论电影网| 欧美黄色免费| 国产毛片久久久久久| 国产精品久久久久久久久搜平片| 久久精品视频5| 亚洲精品久久久久| gogo久久| 狠狠爱一区二区三区| 精品白丝av| 久草免费资源站| 亚洲在线视频网站| 粉嫩小泬无遮挡久久久久久| 九九久久国产精品| 久久的色偷偷| 中文字幕中文字幕在线中一区高清| 欧美精品麻豆| 农村妇女精品一二区| 91在线国产观看| 日韩精品在线播放| 欧美人与性动交α欧美精品济南到 | 91免费精品视频| 成人福利免费在线观看| 国产制服91一区二区三区制服| 国内精品久久久久影院色| 少妇高潮一区二区三区喷水| 欧美三级日本三级少妇99| 精品国产无码一区二区| 久久影院中文字幕| 国产美女亚洲精品7777| 久久视频免费在线| 懂色av中文一区二区三区| 亚洲国产精品午夜在线观看| 日韩av在线导航| 免费看男女www网站入口在线| 精品欧美日韩| 日韩av二区在线播放| 国产精品69久久久久孕妇欧美| 8v天堂国产在线一区二区| 午夜在线视频观看| 日韩**中文字幕毛片| 欧美丝袜激情| 亚洲丝袜在线观看| 午夜欧美一区二区三区在线播放| 日韩在线视频免费| 日韩av高清不卡| 国产精品久久久久蜜臀 | 亚洲一区二区三区中文字幕在线观看 | 国产色a在线| 成人午夜激情免费视频| 好看不卡的中文字幕| 精品国产aⅴ一区二区三区东京热| 午夜成人在线视频| bbbbbbbbbbb在线视频| 亚洲最大福利网| 羞羞视频在线观看欧美| 欧美日韩一区二区区别是什么 | 午夜精品久久久久久久99热浪潮| 欧美女优在线视频| 国产一区二区在线观看免费视频| 91免费版在线看| 中文字幕在线视频第一页| 欧美成人午夜免费视在线看片| 欧美一区二区三区红桃小说| 欧美婷婷精品激情| 久久久夜色精品亚洲| 日韩欧美a级片| 原创国产精品91| 国产厕拍一区| av污在线观看| 精品久久久精品| 黄色动漫在线观看| 日本精品一区二区三区视频| 亚洲欧美久久| 免费看一级大片| 亚洲午夜精品久久久久久久久久久久 | 在线不卡的av|