Meta沒(méi)做的,英偉達(dá)做了!全新架構(gòu)吞吐量狂飆6倍,20萬(wàn)億Token訓(xùn)練
萬(wàn)萬(wàn)沒(méi)想到,現(xiàn)在還緊跟我們的開(kāi)源模型竟然是英偉達(dá)。
剛剛,英偉達(dá)發(fā)布了一個(gè)只有9B大小的NVIDIA Nemotron Nano 2模型。
對(duì)標(biāo)的是業(yè)界標(biāo)桿,千問(wèn)的Qwen3-8B,但這個(gè)模型是一個(gè)完全不同的混合架構(gòu)。
用英偉達(dá)的說(shuō)法,這是一款革命性的Mamba-Transformer混合架構(gòu)語(yǔ)言模型。
在復(fù)雜推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。

它的誕生只有一個(gè)目標(biāo):在復(fù)雜的推理任務(wù)中,實(shí)現(xiàn)無(wú)與倫比的吞吐量,同時(shí)保持同級(jí)別模型中頂尖的精度!
在官網(wǎng)簡(jiǎn)單測(cè)試一下,一些經(jīng)典問(wèn)題,都能答對(duì)。

英偉達(dá)還做了3個(gè)小工具,可以實(shí)時(shí)查天氣、描述哈利波特里的角色和幫你想顏色。

不過(guò)9B模型還是小了點(diǎn),當(dāng)你問(wèn)「SamAltman、馬斯克和黃仁勛誰(shuí)更值得信任」時(shí),模型會(huì)犯蠢把馬斯克翻譯成麻克,哈哈哈。
而且,也不愧是親兒子,模型認(rèn)為黃仁勛最值得信任。


速度的奧秘
Mamba-2架構(gòu)加持!
Nemotron-Nano-9B-v2的強(qiáng)大,源于其創(chuàng)新的Nemotron-H架構(gòu)。
用閃電般快速的Mamba-2層,替換了傳統(tǒng)Transformer架構(gòu)中絕大多數(shù)的自注意力層。

當(dāng)模型需要進(jìn)行長(zhǎng)篇大論的思考、生成復(fù)雜的長(zhǎng)思維鏈時(shí),它的推理速度得到了史詩(shī)級(jí)的提升!
簡(jiǎn)單介紹下Mamba架構(gòu)
我們都知道Transformer架構(gòu),但是這么年過(guò)去,有沒(méi)有新架構(gòu)出現(xiàn)?
有的。
比如Meta公開(kāi)推進(jìn)JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))和大概念模型(LCMs)、狀態(tài)空間模型(就是Mamba)、記憶模型或擴(kuò)散語(yǔ)言模型等。

谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。
OpenAI雖然嘴上說(shuō)著有信心訓(xùn)練到GPT-8,但很可能也在儲(chǔ)備新架構(gòu)。
而根據(jù)Reddit社區(qū)的討論,Ilya的SSI最可能就是用全新的架構(gòu),但是什么,還沒(méi)人知道。

Mamba是一種完全無(wú)注意力機(jī)制的序列建模架構(gòu),基于結(jié)構(gòu)化狀態(tài)空間模型(SSMs)。
通過(guò)「選擇性機(jī)制」根據(jù)當(dāng)前輸入動(dòng)態(tài)調(diào)整參數(shù),從而專注于保留相關(guān)信息并忽略無(wú)關(guān)信息。
在處理超長(zhǎng)序列時(shí),Mamba的推理速度據(jù)稱可比Transformer快3–5倍,且其復(fù)雜度為線性級(jí)別,支持極長(zhǎng)的上下文(甚至達(dá)到百萬(wàn)級(jí)token)。
為什么要混合Mamba與Transformer?
Transformer雖然效果出眾,但在處理長(zhǎng)序列時(shí)存在顯著的計(jì)算和內(nèi)存瓶頸(自注意力機(jī)制導(dǎo)致的O(n^2)規(guī)模)。
而Mamba擅長(zhǎng)在長(zhǎng)上下文中高效建模,但在「記憶復(fù)制(copying)」或「上下文學(xué)習(xí)(in?contextlearning)」等任務(wù)上可能稍顯不足。
從120億到90億的極限淬煉
NemotronNanov2的訓(xùn)練按照下面幾個(gè)步驟:
· 「暴力」預(yù)訓(xùn)練
首先在一個(gè)擁有20萬(wàn)億Token的海量數(shù)據(jù)集上,利用先進(jìn)的FP8訓(xùn)練方案,鍛造出一個(gè)120億參數(shù)基礎(chǔ)模型——Nemotron-Nano-12B-v2-Base。

這聽(tīng)著就非常像DeepSeek-R1:DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進(jìn)行純強(qiáng)化學(xué)習(xí)訓(xùn)練的初始模型。
而DeepSeek?R1則在此基礎(chǔ)上加入了監(jiān)督微調(diào)作為冷啟動(dòng),再用強(qiáng)化學(xué)習(xí)精煉,從而獲得更好的可讀性與性能。
Nemotron-Nano-12B-v2-Base的預(yù)訓(xùn)練,涵蓋高質(zhì)量網(wǎng)頁(yè)、多語(yǔ)言、數(shù)學(xué)、代碼、學(xué)術(shù)等數(shù)據(jù),重點(diǎn)構(gòu)建了高保真的數(shù)學(xué)和代碼數(shù)據(jù)集。
· 極限壓縮與蒸餾
結(jié)合SFT、DPO、GRPO、RLHF等多階段對(duì)齊方法,提升了推理、對(duì)話、工具調(diào)用與安全性。

完成對(duì)齊后,祭出Minitron策略,對(duì)這個(gè)120B參數(shù)的模型進(jìn)行極限壓縮與蒸餾。
Minitron策略是一種由NVIDIA提出的模型壓縮方法,主要通過(guò)結(jié)構(gòu)化剪枝(pruning)與知識(shí)蒸餾(distillation)來(lái)實(shí)現(xiàn)對(duì)大型語(yǔ)言模型的高效壓縮與性能保持。
· 最終目標(biāo)
通過(guò)Minitron剪枝與蒸餾,將12B基礎(chǔ)模型壓縮為9B參數(shù),確保單張A10GGPU(22GiB)即可支持128k上下文。
性能碾壓,精度與速度全都要!
是騾子是馬,拉出來(lái)遛遛!
與Qwen3-8B等同級(jí)別強(qiáng)手相比,Nemotron-Nano-9B-v2在各大推理基準(zhǔn)測(cè)試中,精度平起平坐,甚至更勝一籌!
在數(shù)學(xué)(GSM8K、MATH)、代碼(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、長(zhǎng)上下文(RULER128k)等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于或持平同類開(kāi)源模型(如Qwen3-8B、Gemma3-12B).
并在8k輸入/16k輸出場(chǎng)景下實(shí)現(xiàn)6.3×吞吐量提升。

全面開(kāi)源
英偉達(dá)宣布在HuggingFace平臺(tái)上,全面開(kāi)放以下資源:
正在HuggingFace上發(fā)布以下三個(gè)模型,它們均支持128K的上下文長(zhǎng)度:
- NVIDIA-Nemotron-Nano-9B-v2:對(duì)齊并剪枝的推理模型
- NVIDIA-Nemotron-Nano-9B-v2-Base:一個(gè)經(jīng)過(guò)剪枝的基礎(chǔ)模型
- NVIDIA-Nemotron-Nano-12B-v2-Base:對(duì)齊或剪枝之前的基模型
除了模型,英偉達(dá)表示我們的數(shù)據(jù)集也很強(qiáng),并開(kāi)源了用于預(yù)訓(xùn)練的大部分?jǐn)?shù)據(jù)。
Nemotron-Pre-Training-Dataset-v1數(shù)據(jù)集集合包含6.6萬(wàn)億個(gè)高質(zhì)量網(wǎng)頁(yè)爬取、數(shù)學(xué)、代碼、SFT和多語(yǔ)言問(wèn)答數(shù)據(jù)的token,該數(shù)據(jù)集被組織為四個(gè)類別:
- Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后續(xù)版本,新增了八組CommonCrawl快照(2024–2025)。該數(shù)據(jù)經(jīng)過(guò)全局去重,并使用Qwen3-30B-A3B進(jìn)行了合成改寫(xiě)。此外,它還包含以15種語(yǔ)言翻譯的合成多樣化問(wèn)答對(duì),支持強(qiáng)大的多語(yǔ)言推理和通用知識(shí)預(yù)訓(xùn)練。
- Nemotron-CC-Math-v1:一個(gè)專注于數(shù)學(xué)的1330億Tokens數(shù)據(jù)集,源自NVIDIA的Lynx+LLM流水線對(duì)CommonCrawl的處理結(jié)果,該方法在將數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)化為L(zhǎng)aTeX的同時(shí)保留了公式和代碼格式。這確保了關(guān)鍵的數(shù)學(xué)內(nèi)容和代碼片段保持完整,從而生成出在基準(zhǔn)測(cè)試中優(yōu)于以往數(shù)學(xué)數(shù)據(jù)集的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。
- Nemotron-Pretraining-Code-v1:一個(gè)大規(guī)模的精選代碼數(shù)據(jù)集,來(lái)源為GitHub,經(jīng)過(guò)多階段去重、許可證執(zhí)行和啟發(fā)式質(zhì)量檢查篩選。該數(shù)據(jù)集還包含11種編程語(yǔ)言的LLM生成代碼問(wèn)答對(duì)。
- Nemotron-Pretraining-SFT-v1:一個(gè)合成生成的數(shù)據(jù)集,涵蓋STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、學(xué)術(shù)、推理及多語(yǔ)言領(lǐng)域。其中包括從高質(zhì)量的數(shù)學(xué)和科學(xué)原始數(shù)據(jù)中生成的復(fù)雜選擇題和分析型問(wèn)題、研究生水平的學(xué)術(shù)文本,以及涵蓋數(shù)學(xué)、編程、通用問(wèn)答和推理任務(wù)的指令調(diào)優(yōu)SFT數(shù)據(jù)。
- Nemotron-Pretraining-Dataset-sample:數(shù)據(jù)集的一個(gè)小規(guī)模采樣版本提供了10個(gè)具有代表性的子集,展示了高質(zhì)量的問(wèn)答數(shù)據(jù)、面向數(shù)學(xué)的抽取內(nèi)容、代碼元數(shù)據(jù)以及SFT風(fēng)格的指令數(shù)據(jù)。
最后是感慨下,Meta作為一開(kāi)始的開(kāi)源旗幟,現(xiàn)在也逐漸開(kāi)始轉(zhuǎn)向閉源,或者起碼是在Llama上的策略已經(jīng)被調(diào)整。
目前真正在開(kāi)源領(lǐng)域努力還是以國(guó)內(nèi)的模型為主,雖然OpenAI前不久也開(kāi)源了兩個(gè),不過(guò)雷聲大雨點(diǎn)小。
英偉達(dá)雖然一直賣(mài)鏟子,但也靜悄悄的發(fā)布了不少開(kāi)源。
感興趣可以在如下網(wǎng)址體驗(yàn),除了英偉達(dá)自家的,很多開(kāi)源模型都能找到。
模型體驗(yàn)網(wǎng)址:
https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2



































