精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Transformer+Mamba黃金組合!長文推理性能飆升3倍,性能還更強

人工智能 新聞
Nemotron-H模型混合了Transformer和Mamba架構,使長文本 推理速度提升3倍,同時還能保持高性能,開源版本包括8B和56B尺寸。訓練過程采用FP8訓練和壓縮技術,進一步提高了20%推理速度

過去幾年,Transformer雖穩坐AI架構「鐵王座」,但其二次方復雜度帶來的算力消耗和長序列處理瓶頸,限制了大模型在推理階段處理長文本。

Mamba憑借「線性復雜度」異軍突起,非常適合長序列任務,有望成為Transformer架構的替代品,但在處理全局關系上偏弱。

Mamba+Transformer混合架構可以將二者的優勢互補,實現「效率」和「性能」的雙豐收。

最近英偉達發布了Nemotron-H系列模型,模型尺寸為8B和56B(蒸餾版本47B),用Mamba-2層替換了Transformer中的自注意力層,關鍵創新在于對Transformer和Mamba的平衡,實現了高效處理長上下文的同時,還不犧牲模型性能,顯著提高了推理速度,并且內存占用更少。

圖片

論文鏈接:https://arxiv.org/pdf/2504.03624

實驗結果表明,Nemotron-H模型在準確度上優于同尺寸的開源Transformer模型(例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B),同時在推理速度上提速3倍。

圖片

為了進一步提高推理速度并降低推理時所需的內存量,研究人員使用一種剪枝和蒸餾壓縮技術MiniPuzzle,將56B尺寸的模型蒸餾為NemotronH-47B-Base,在基準的準確率上與56B模型相當,同時推理速度提升20%

論文中還提出了一種基于FP8的訓練方案,使56B模型實現了與BF16訓練相當的性能。

Nemotron-H架構

Nemotron-H模型由Mamba-2、自注意力層和前饋神經網絡(FFN)層組成,其中總層數的8%為自注意力層,均勻分布在模型中。

圖片

即,Nemotron-H-8B模型包含52層,其中4層為注意力層;Nemotron-H-56B模型包含118層,其中10層為注意力層,其余層平均分配為FFN層和Mamba-2層。

為了與標準Transformer模塊的結構一致,研究人員提出三條設計準則:模型的第一層必須是Mamba-2層,最后一層必須是FFN層,并且自注意力層總是位于FFN層之前。

圖片

模型的具體參數

需要注意的是,8B和56B模型在FFN隱藏維度、注意力查詢頭和狀態維度設置上存在差異;

  • 對于Mamba-2層,保持默認的頭維度(64)、擴展因子(2)和卷機窗口(4);
  • 使用RMSNorm進行歸一化;
  • 不適用位置嵌入;
  • 模型的嵌入層和輸出層使用了獨立的權重,沒有使用線性層的偏置權重,也沒有使用dropout;
  • 在每個Mamba-2層、自注意力層和FFN層周圍都加入了殘差跳躍連接。

訓練過程

數據準備

訓練數據從來源上大體上可以分為多語言、網絡爬取、學術、代碼、維基百科和數學數據,這種數據組合可以全面覆蓋通用知識,同時在編程和數學等領域培養強大的專業能力。

其中多語言數據涵蓋了九種語言:德語、西班牙語、法語、意大利語、葡萄牙語、中文、日語、韓語和俄語。

研究人員設計數據組合時,確保所有相同質量的數據源權重相似,而高質量的數據源權重會高于低質量的數據源。

圖片

在訓練56B尺寸的模型時,使用了大約20萬億個token的數據,其中,網頁爬取數據占比最大,達到了59%,其次是代碼數據,占20%,學術內容占8.8%

圖片

在預訓練Nemotron-H基礎模型時,研究人員采用了分階段的數據混合方法:

第一階段,使用一種促進數據多樣性的數據組合;在第二和第三階段,主要使用高質量的數據集(例如維基百科),其中第二階段為訓練進度達到60%時,第三階段為訓練進度達到80%時;第四階段則使用最后3800億個訓練token

在后訓練階段,研究人員調整了數據的分布,更加注重有監督的微調(SFT)樣本。

FP8訓練策略

Nemotron-H訓練的一個創新在于使用8位浮點數(FP8),在降低內存需求和計算成本的同時,還能保持模型的質量,主要包括以下關鍵點:

采用逐張量(per-tensor)的當前縮放技術,以提高訓練的穩定性。

將模型中最初的四個和最后四個矩陣乘法(GEMM)操作保持在BF16精度,以確保關鍵部分的高精度處理;

在訓練過程中,FP8訓練逐漸與BF16訓練收斂,最終達到類似的性能水平。

圖片

實驗結果表明,FP8訓練在多種基準測試中能夠達到或超過BF16訓練的性能,不僅提高了訓練效率,還通過在MMLU、常識理解、代碼生成和GSM8K等基準測試中的表現,證明了其在保持或提升模型質量方面的有效性

圖片

模型壓縮

為了進一步提高模型部署的效率,研究人員開發了一種新型壓縮框架MiniPuzzle的,結合了剪枝、神經架構搜索和知識蒸餾技術。

MiniPuzzle壓縮框架的工作流程如下圖所示,展示了從預訓練模型到壓縮模型的轉變過程,包括重要性評估、神經架構搜索和蒸餾等步驟。

圖片

MiniPuzzle方法包含五個階段:

1. 重要度估計:分析每一層對模型性能的貢獻。

def importance_estimation(model, dataset):# Compute per-layer importance scores    scores = []for layer in model.layers:# Zero out layer outputs and measure impact on loss        scores.append(measure_impact_on_loss(model, layer, dataset))return scores

def importance_estimation(model, dataset):
# Compute per-layer importance scores
    scores = []for layer in model.layers:
# Zero out layer outputs and measure impact on loss
        scores.append(measure_impact_on_loss(model, layer, dataset))return scores

2. 層重要度分析:研究人員需要分析出哪些層對模型性能的貢獻最大。

圖片

3. 條件神經架構搜索:探索不同壓縮架構方案,在每個候選壓縮模型中保留不同的層。

圖片

4. 內存與性能權衡:根據內存使用量和準確度對模型進行評估,對候選架構的內存負載與基準性能進行權衡。

圖片

5. 知識蒸餾:通過訓練,使壓縮后的模型能夠匹配甚至超越原始模型的能力。

通過這一過程,Nemotron-H-56B模型成功被壓縮為Nemotron-H-47B模型,參數減少了16%,同時保持了相當的準確度,并將推理吞吐量提高了20%。

實驗結果

Nemotron-H模型在性能和效率方面相較于其他基于Transformer的模型取得了顯著進步。

推理吞吐量

混合架構使得推理速度大幅提升,尤其是在處理長序列時:

  • Nemotron-H-56B的推理吞吐量比Qwen-2.5-72B和Llama-3.1-70B高出多達3倍。
  • Nemotron-H-8B在類似準確度水平下,比Qwen-2.5-7B的吞吐量高出1.8倍。

效率提升在處理長序列(例如65,536個token)時尤為明顯,突顯了Mamba層在輸出token時計算復雜度固定的優勢。

多基準測試中的準確度

盡管架構發生了變化,但Nemotron-H模型在廣泛的基準測試中仍保持了強勁的性能表現。

在評估的17項任務中,Nemotron-H-56B在16項任務中的表現優于Llama-3.1-70B,在數學推理任務上表現尤為出色。

圖片

應用與多功能性

Nemotron-H模型可以進行擴展,以適應各種應用場景。

  • 視覺-語言能力:基礎模型通過NVLM-D架構擴展,創建了視覺-語言模型(VLM),在VQAv2、GQA和VizWiz等基準測試中表現出色,顯示出混合架構對多模態任務的適應性。

  • 代碼生成:模型在與代碼相關的任務上表現尤為出色。訓練數據中包含大量代碼數據(占比20%),使得模型能夠理解和生成多種編程語言的高質量代碼。

  • 長文本處理:混合架構的一個顯著優勢是能夠高效處理長文本。Nemotron-H-8B模型經過專門的長文本處理能力微調,在RULER基準測試和其他長文本評估任務中表現出色。

  • 針對不同能力的數據分布:研究人員針對不同的訓練階段精心調整了數據分布,以培養特定的能力,通過調整不同數據類型(網頁爬取、代碼、數學、學術等)的比例,可以在不需要架構變更的情況下增強模型的特定能力。比如針對STEM能力優化時,訓練數據增加了數學和代碼內容的比重。

Mamba架構簡介

圖片

原版Mamba架構

Mamba是一種新型的序列建模架構,通過選擇性狀態空間模型(Selective State Space Model, SSM)和硬件優化算法,將計算復雜度降低到線性級別O(L),能夠高效處理長達百萬級的序列長度,推理速度比Transformer快5倍,在短序列任務中也實現了超越Transformer的性能。

圖片

圖片

選擇性SSM的思路是,通過讓模型參數依賴于輸入內容,實現對信息的選擇性傳播和遺忘,過濾無關信息,從而提高對密集模態(如語言和基因組)的建模能力。

Mamba中的硬件感知并行算法,可以避免顯式存儲擴展狀態,利用GPU的內存層次結構優化計算過程,實現線性時間復雜度,并顯著提升推理速度。

圖片

論文鏈接:https://arxiv.org/pdf/2312.00752

Mamba-2架構

Mamba-2結合了狀態空間模型(SSMs)和注意力機制,基于State Space Duality (SSD) 框架,通過結構化矩陣的分解和優化算法,實現了線性擴展的訓練效率。

與Mamba相比,Mamba-2對核心層進行了優化,簡化了狀態轉移矩陣的結構,并引入了更大的頭維度,從而顯著提高了訓練效率,速度提高了2-8倍;還引入了多頭結構和張量并行等技術,進一步增強了模型的表達能力和并行計算效率,在大規模訓練和推理中更加高效。

圖片

在實驗中,Mamba-2在語言建模和多查詢關聯回憶任務上均優于Mamba和基于注意力的模型。

圖片

論文鏈接:https://arxiv.org/abs/2405.21060

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-07 09:00:00

數據測試工具

2023-11-30 18:25:57

數據訓練

2025-04-15 09:12:00

模型AI強化學習

2025-09-03 10:02:19

2021-09-17 12:54:05

AI 數據人工智能

2020-05-29 15:40:40

NVIDIA

2024-08-16 14:15:00

AI訓練

2019-10-14 09:58:00

機器學習人工智能計算機

2024-08-29 12:58:35

2024-12-09 13:40:26

2024-11-21 14:00:00

模型AI

2023-08-14 23:23:56

2025-08-04 08:40:00

2024-12-02 12:37:42

2025-02-07 09:00:00

2021-01-27 11:50:07

Python優化代碼

2024-06-26 13:15:40

2025-02-26 11:27:43

2023-09-10 12:37:38

模型英偉達

2025-10-23 08:50:32

點贊
收藏

51CTO技術棧公眾號

欧美精品91| 成人爽a毛片免费啪啪| 国产美女精品一区二区三区| 欧美成人午夜免费视在线看片| 麻豆精品国产传媒| 日韩影院在线| 专区另类欧美日韩| 国产精品三区www17con| 在线观看国产区| 国产一区欧美| 自拍偷拍亚洲精品| av黄色一级片| japansex久久高清精品| 精品国产乱码久久久久酒店| 亚洲视频sss| 国产小视频免费观看| 日本欧美一区二区在线观看| 欧美日韩成人在线观看| 少妇av片在线观看| 国内精品偷拍| 91精品国产免费久久综合| ww国产内射精品后入国产| 青青青青在线| 久久综合给合久久狠狠狠97色69| 91九色国产视频| 久久国产乱子伦精品| 欧美视频日韩| www.日韩.com| 在线观看国产精品一区| 精品亚洲免a| 日韩一区二区在线免费观看| 久久久精品麻豆| 一区二区乱码| 天天色综合成人网| 欧美国产综合在线| 黄网页免费在线观看| 国产欧美精品日韩区二区麻豆天美| 国产精品一区视频| 午夜精品久久久久久久91蜜桃| 美女任你摸久久| 国产第一区电影| 欧美精品一二三四区| 亚洲国产免费| 久久久久久久国产精品视频| 九九热国产在线| 亚洲成av人电影| 久久精品中文字幕一区| 国产美女网站视频| 日本欧美肥老太交大片| 国产亚洲精品久久久久久牛牛| 亚洲国产果冻传媒av在线观看| 亚洲高清999| 欧美一卡二卡三卡| 免费不卡av网站| 国产一区二区三区国产精品| 在线综合亚洲欧美在线视频| 亚洲黄色片免费看| 国产欧美88| 日韩一区二区精品| 日韩欧美中文视频| 中文字幕日韩在线| 欧美成人vps| 亚洲色图欧美日韩| 六月丁香久久丫| 日韩大陆毛片av| 女尊高h男高潮呻吟| 美日韩中文字幕| 中文字幕日韩精品在线观看| 很污很黄的网站| 中文字幕一区二区三三| 欧美国产中文字幕| 亚洲日本韩国在线| 天堂精品中文字幕在线| 国产精品视频yy9099| 一级片一区二区三区| 韩国av一区二区三区在线观看| 亚洲最大成人免费视频| 欧美特级特黄aaaaaa在线看| 久久久久久夜精品精品免费| 亚洲va久久久噜噜噜久久狠狠| 91ph在线| 亚洲综合在线第一页| 日本欧美黄色片| www成人在线视频| 欧美一区二区三区在线看| 一级黄色免费视频| 凹凸成人精品亚洲精品密奴| 欧美成人网在线| 性无码专区无码| 精品系列免费在线观看| 精品久久蜜桃| 在线免费观看黄色网址| 亚洲一区二区高清| 蜜桃免费在线视频| 北条麻妃在线一区二区免费播放 | 久久av.com| 日产亚洲一区二区三区| 美女在线视频一区| 国产富婆一区二区三区| 国产黄色片在线观看| 亚洲激情五月婷婷| 一本久道综合色婷婷五月| 精品国产一区二区三区2021| 国产视频精品自拍| 极品盗摄国产盗摄合集| 视频一区视频二区中文| 不卡一卡2卡3卡4卡精品在| 国产福利在线视频| 亚洲福利国产精品| 欧美日韩理论片| 国产探花在线精品一区二区| 北条麻妃一区二区三区中文字幕| 51国产偷自视频区视频| 国v精品久久久网| 亚洲欧美综合一区| 一区二区电影免费观看| 欧美成人免费网站| 青青操在线视频观看| 午夜在线精品| 精品日本一区二区| 一二三四区在线观看| 欧美日韩一区国产| 性色av蜜臀av色欲av| 黑人一区二区| 亚洲专区在线视频| 麻豆传媒在线观看| 日本电影亚洲天堂一区| 波多野结衣福利| 影音先锋亚洲精品| 99在线国产| 国产三级在线播放| 欧美日韩国产片| 久久久久久久毛片| 日韩av一级片| 任我爽在线视频精品一| 亚洲黄色网址| 亚洲国产精品免费| 国产乡下妇女做爰视频| 国产成人免费视| 潘金莲一级淫片aaaaa免费看| 成人国产精品| 中文字幕亚洲欧美| 中文字幕av免费观看| 国产欧美久久久精品影院| 无人在线观看的免费高清视频| 色88888久久久久久影院| 久久久免费精品| 国产小视频免费观看| 亚洲国产精品久久久久秋霞影院| 欧美图片自拍偷拍| 黄色成人91| 成人欧美一区二区| 高清精品在线| 亚洲欧美国产精品久久久久久久| 国产精品久久久久久99| 91热门视频在线观看| 成人免费无码av| 日本电影一区二区| 亚洲精品欧美日韩| 欧美卡一卡二| 日韩的一区二区| 中文字幕永久在线| 成人欧美一区二区三区在线播放| 北条麻妃亚洲一区| 海角社区69精品视频| 国产一区免费视频| 国模冰冰炮一区二区| 尤物yw午夜国产精品视频明星 | аⅴ资源天堂资源库在线| 亚洲精品久久久久中文字幕欢迎你 | 亚洲精品国产精品乱码不卡| 亚洲第一主播视频| 久久精品一区二区免费播放 | 亚洲欧美日韩网站| 亚洲一本视频| 区一区二区三区中文字幕| 久久91视频| 欧美国产日韩一区| 高清毛片在线看| 日韩午夜小视频| www.日本精品| 国产精品不卡一区二区三区| 无码人妻丰满熟妇区毛片蜜桃精品 | 西瓜成人精品人成网站| 国产精品自产拍在线观看中文| а√天堂官网中文在线| 亚洲激情免费观看| 伊人网免费视频| 亚洲一区二区三区四区在线免费观看 | 国产做受高潮69| av大片在线看| 亚洲第一页在线| 在线视频1卡二卡三卡| 亚洲国产精品人人做人人爽| 摸摸摸bbb毛毛毛片| 国产精品18久久久久久久久久久久| avav在线看| 欧美成人高清| 亚洲高清在线播放| 美国一区二区| 亚洲综合中文字幕在线| 激情亚洲影院在线观看| 欧美黄色片在线观看| 亚洲s色大片| 日韩精品免费在线| 国产99999| 欧美图片一区二区三区| www日韩精品| 一区二区不卡在线播放| 国产成人免费观看网站| 成人教育av在线| 999在线精品视频| 日本在线不卡视频| 亚洲国产精品久久久久婷蜜芽| 91精品国产乱码久久久久久久| 欧美欧美一区二区| 欧美变态挠脚心| 亚洲最大的成人网| 国产精品高潮久久| 国产成人精品久久二区二区| wwwww亚洲| 美日韩丰满少妇在线观看| 992tv免费直播在线观看| 国产视频在线一区二区| 日韩一级免费毛片| 欧美videos大乳护士334| 91肉色超薄丝袜脚交一区二区| 色综合天天综合给合国产| 日韩熟女精品一区二区三区| 亚洲猫色日本管| 四虎永久免费在线| 国产精品免费av| 亚洲天堂av中文字幕| 久久久久久久久久久久久夜| 亚洲永久无码7777kkk| 成人综合婷婷国产精品久久 | 白嫩白嫩国产精品| 成人黄色网免费| 国产黄色一区| 国产精品女视频| 另类中文字幕国产精品| 国产精品 欧美在线| 先锋欧美三级| 国产精品免费在线免费| 日韩国产网站| 国产欧美一区二区三区在线看| 色天使综合视频| 国产精品久久久久久久天堂| 日韩av首页| 国产精品女人久久久久久| 欧美成人福利| 91在线直播亚洲| 日韩一区二区三区色| 成人国产一区二区| 牛牛视频精品一区二区不卡| 国产一区精品在线| 免费欧美激情| 亚洲二区三区四区| 亚洲精品午夜av福利久久蜜桃| 国产免费xxx| 亚洲高清激情| 男人操女人免费软件| 欧美a一区二区| 精品亚洲视频在线| 风间由美一区二区三区在线观看| 影音先锋黄色资源| 国产午夜亚洲精品理论片色戒 | 亚洲香蕉伊在人在线观| 日韩欧美亚洲国产| 91福利在线免费观看| 96日本xxxxxⅹxxx17| 日韩精品一区二区三区老鸭窝 | 中文字幕亚洲综合久久筱田步美| 麻豆视频在线播放| 久久久久久九九九| 美女在线视频免费| 国产日韩欧美黄色| 91精品国产自产在线丝袜啪| 精品蜜桃一区二区三区| 精品久久久久久久久久久下田| 少妇特黄a一区二区三区| 亚洲成人精品| 六月丁香婷婷在线| 国产一区999| 在线免费看黄视频| 亚洲人成伊人成综合网小说| 日韩av在线电影| 欧美日韩精品欧美日韩精品一| 国产综合无码一区二区色蜜蜜| 尤物yw午夜国产精品视频明星| 色婷婷av在线| 国产精品久久久久久久久久ktv| 久久综合偷偷噜噜噜色| 欧美日本国产精品| 欧美网站在线| 污视频免费在线观看网站| 懂色av一区二区三区蜜臀| 亚洲最大成人综合网| 亚洲午夜免费电影| 在线免费看毛片| 亚洲男人天堂古典| 韩国成人免费视频| 成人福利网站在线观看| 天堂av一区二区三区在线播放 | 久久久com| 91精品啪在线观看国产81旧版| 日本黄色三级大片| 国产91在线看| 久艹在线观看视频| 在线一区二区观看| 全国男人的天堂网| 久久精品人人做人人爽| 456亚洲精品成人影院| 精品欧美日韩| 欧美三级网页| 伊人免费视频二| 国产精品久久久久久久久久久免费看| 黄色在线观看国产| 精品粉嫩超白一线天av| 黄色一级片在线观看| 国产裸体写真av一区二区| 亚洲肉体裸体xxxx137| 日韩av高清在线看片| 国产二区国产一区在线观看| 婷婷丁香综合网| 91传媒视频在线播放| 亚洲aaaaaaa| 91极品女神在线| 久久激情av| 日韩国产一级片| 丰满少妇久久久久久久| 久久r这里只有精品| 欧美一区二区三区视频在线| 毛片在线不卡| 成人a级免费视频| 久久国产精品亚洲人一区二区三区 | 日韩激情一区二区三区| 日韩欧美中文一区| av网站在线免费| av电影成人| 激情91久久| 国产午夜在线一区二区三区| 夜夜亚洲天天久久| 亚洲乱码精品久久久久..| 欧美国产精品人人做人人爱| 日韩精品免费视频一区二区三区| avove在线观看| 国产激情视频一区二区在线观看 | 免费看黄裸体一级大秀欧美| 国产精品嫩草av| 欧美色另类天堂2015| 青春草在线观看| 国产精品久久久久av| 日本久久精品| 欧美又黄又嫩大片a级| 尤物av一区二区| 开心激情综合网| 国产91精品久久久久久| 国产精品欧美在线观看| www欧美激情| 亚洲色图视频免费播放| 亚洲AV无码乱码国产精品牛牛| 欧美精品videos性欧美| 精品少妇一区| 美女网站免费观看视频| 国产精品久久久久久亚洲毛片 | 1级黄色大片儿| 亚洲一区999| 国产精品亚洲一区二区在线观看 | 密臀av在线播放| 热re99久久精品国产99热| 久久99久久99精品免视看婷婷| 欧美精品乱码视频一二专区| 亚洲精品久久久久久久久久久久| 欧美男女交配| 国产日韩视频在线播放| 丁香啪啪综合成人亚洲小说| 国产精品777777| 日韩一区在线视频| 精品国产一区二区三区不卡蜜臂| 激情六月丁香婷婷| 亚洲日本va午夜在线影院| 污视频网站免费观看| 国产精品亚洲网站| 亚洲午夜一区| 少妇愉情理伦三级| 精品国产麻豆免费人成网站| 小明成人免费视频一区| 波多野结衣与黑人| 国产亚洲精品福利| 成人黄色免费视频| 国产精品久久久久久久久免费 | 国产精品毛片久久| 国产高清成人久久| 欧美日韩视频不卡| www.51av欧美视频| 中文字幕av久久| 国产亚洲欧洲一区高清在线观看| 精品国自产拍在线观看| 国产成人激情视频|