LLaMA 4 模型的解讀和理解
一、背景
Meta 趕在清明節(jié)期間發(fā)布了 LLaMA 4 模型,目前看著比較倉促,官方 Blog 信息比較混亂,也沒有發(fā)表技術(shù)報(bào)告,我們這里先根據(jù)官方 Blog 梳理相應(yīng)的信息。
PS:Meta 確實(shí)在 PR 中使用了一些常見的手段,比如避重就輕,揚(yáng)長避短,但是個(gè)人感覺還不至于出現(xiàn)在后訓(xùn)練中刻意混入評(píng)估集這種情況。LLaMA 3.1 的技術(shù)報(bào)告很全面,筆者之前也做過深度解讀,期待 Meta 早日發(fā)表 LLaMA 4 技術(shù)報(bào)告,展示更多相關(guān)細(xì)節(jié)內(nèi)容。
對應(yīng)的官方 Blog 為:The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation [1]
對應(yīng)的代碼庫為:https://github.com/meta-llama/llama-models/tree/main/models/llama4 [2]

二、模型
2.1 概覽
如下圖所示為相應(yīng)的模型配置和參數(shù):

2.2 MoE
如下圖為 interleave_moe_layer_step 參數(shù)的作用,表示每多少層有一個(gè) MoE 層:
- 如果值為 1,表示全是 MoE 層。
- 如果值為 2,表示一層 MoE 層,一層 Dense 層,交替排列。
- 如果值為 3,表示一層 MoE 層,兩層 Dense 層,交替排列。

如下圖所示(來自 llama-models/models/llama4/moe.py [3]),可以看出 MoE Layer 默認(rèn)都是 1 個(gè)共享專家:

官方 Block 中也提到:其中的 Maverick 模型采用 Dense 和 MoE 交替架構(gòu),也就是一層 Transformer Block 中為 Dense,另一層是 MoE。此外,Maverick 的 MoE 包含 128 個(gè)路由專家(Routed Expert)和 1 個(gè)共享專家(Shared Expert)。如下圖所示為 Scout 模型的 Case:

2.3 iRoPE & qk_norm & Chunked Attention
LLaMA 4 中的另一個(gè)變化是采用了交替的 RoPE(interleaved RoPE,iRoPE),一部分層使用 RoPE,一部分層不使用 PE。如下圖所示(來自 llama-models/models/llama4/model.py at main [4])可以看出:
- 每 nope_layer_interval 層有一個(gè) nope 層,如果 nope_layer_interval 為 None 或者為 1,則都是 rope 層。
Scout 模型中為 None:全部是 rope 層。
Maverick 模型中為 4:每 4 層中有 1 層 nope 層,3 層 rope 層。
- 只在 rope 層才會(huì)使用 qk_norm,并且要求配置了 use_qk_norm。

如下圖所示,在 nope 層采用 Full Attention,在 rope 層采用 Chunked Local Attention。也就是 Scout 模型全部是 Chunked Local Attention,而 Maverick 模型有 1/4 依然是 Full Attention。這可能也是為什么 Scout 模型上下文長度可以達(dá)到 10M,而 Maverick 只有 1M,不然 Full Attention 的計(jì)算成本會(huì)很高。

如下所示,Chunked Local Attention 的 Size 對應(yīng) attention_chunk_size,默認(rèn)為 8K:

如下圖所示,對于 nope 層,如果序列長度非常長,可以考慮設(shè)置 attn_temperature_tuning,以便采用 Temperature Tuning,默認(rèn)是 False([2501.19399] Scalable-Softmax Is Superior for Attention [5]):

2.4 Vision
Vision Backbone 應(yīng)該是 MetaCLIP。如下圖所示,Vision Embedding 后包含一個(gè)單層 Liner 的投影層:

如下圖所示,Image Token 和 Text Token 拼接后輸入 LLM,沒有采用之前的 Cross Attention 方案,結(jié)構(gòu)更加簡單:

2.5 Scout 模型
如下圖所示為 Scout 模型中的 Text 模型配置:
- interleave_moe_layer_step 為 1,表示全部是 MoE 層。
- nope_layer_interval 為 None,全部是 RoPE 層。
- attention_chunk_size 為 8192,所有層都是 Chunked Attention。
- 采用 GQA,Q 和 KV 的比例為 5:1。

如下圖所示為 Scout 模型的 Vision 模型配置:

2.6 Maverick 模型
如下圖所示為 Maverick 模型的配置:
- 看著 Maverick 和 Scout 模型的 Attention 部分大小一樣,Dim、Head 數(shù)都相同。
- interleave_moe_layer_step 為 2:MoE 層和 Dense 層各一半,交替排列。
- nope_layer_interval 為 4:每 4 層中有 1 層 nope 層,3 層 rope 層。
- attention_chunk_size 為 8192,3/4 層為 rope 層,使用 Chunked Attention,1/4 層為 Full Attention。
- 采用 GQA,Q 和 KV 的比例為 5:1。

三、訓(xùn)練
3.1 MFU
對于 Scout 模型,總共 109B 參數(shù)量,每個(gè) Token 的激活參數(shù)量為 17B,可以采用如下公式計(jì)算 MFU,其中每個(gè) Token 計(jì)算量 Ctoken 可以用 6N 來近似,N 表示模型激活參數(shù)量:
MFU = (Token 數(shù) * Ctoken) / (訓(xùn)練 GPU 小時(shí)數(shù) * GPU FLOPs * 3600)
其中,預(yù)訓(xùn)練 Token 數(shù)為 40T,訓(xùn)練時(shí)長為 5.0M H100 小時(shí),則對應(yīng)的 MFU 大約為:
MFU = (40T*17B*6) / (5.0M*989T*3600) = 22.9%
對于 Maverick 模型,總共 400B 參數(shù)量,每個(gè) Token 的激活參數(shù)量為 17B,預(yù)訓(xùn)練 Token 數(shù)為 22 T,訓(xùn)練時(shí)長為 2.38M H100 小時(shí),則對應(yīng)的 MFU 大約為:
MFU = (22T*17B*6) / (2.38M*989T*3600) = 26.5%
除此之外,Maverick 模型是通過 Behemoth 模型蒸餾而來,由于采用了協(xié)同蒸餾優(yōu)化,有部分?jǐn)?shù)據(jù)需要經(jīng)過 Behemoth 的 Forward 計(jì)算(后面蒸餾部分介紹)。這部分計(jì)算量在上述計(jì)算公式中沒有考慮,另一方面也不確定對應(yīng)的比例,除此之外,也不確定 2.38M 是否包含,因此這里我們也不再額外分析。

此外,上述計(jì)算中都忽略了 GQA 中的無參數(shù) Attention 計(jì)算等,這一部分在預(yù)訓(xùn)練中通常占比不會(huì)特別大,這里假設(shè)占比 10%,則對應(yīng)的 MFU 分別為:
- Scout:22.9% * 1.1 = 25.2%
- Maverick:26.5% * 1.1 = 29.2%
對于 Behemoth 模型,總共 2T 參數(shù)量,每個(gè) Token 的激活參數(shù)量為 288B,預(yù)訓(xùn)練 Token 數(shù)為 30 T,官方 Blog 中提到其最大的 Behemoth 模型使用 32K H100、FP8 訓(xùn)練:
- Scout 和 Maverick 模型未使用 FP8,對應(yīng)的 BF16 精度的 MFU 為 25.2% 和 29.2% 還比較符合預(yù)期,沒有特別高,也沒有很差。
- Behemoth 模型采用 FP8 訓(xùn)練,按照 BF16 算力的話 MFU 為 390/989 = 39.4%,也算很不錯(cuò)的水平。
- PS:Meta 刻意不提 Behemoth 模型的訓(xùn)練成本,根據(jù)上述數(shù)據(jù)也可以推算出來:訓(xùn)練 GPU 小時(shí)數(shù) = (Token 數(shù) * Ctoken) / (實(shí)際 GPU FLOPs * 3600) = (30T*288B*6)/(390T*3600) = 36.9M H100 小時(shí),遠(yuǎn)大于 Scut 和 Maverick 模型的成本。

3.2 預(yù)訓(xùn)練
LLaMA 4 中 3 個(gè)模型的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模不太一樣,這個(gè)比較奇怪,比如 Scout 預(yù)訓(xùn)練包括 40T Token,Maverick 預(yù)訓(xùn)練包括 22T Token,而 Behemoth 模型目前是訓(xùn)練了 30T Token。
- LLaMA 的預(yù)訓(xùn)練預(yù)料覆蓋 200 種語言(其中 100+ 種的 Token 數(shù)超過 1B)。總共的多語言 Token 總量是 LLaMA 3 的 10 倍。
- Behemoth 訓(xùn)練數(shù)據(jù)超過 30T Token,包含多樣化的文本、圖像及視頻數(shù)據(jù)源,這么看 30T 數(shù)據(jù)不是全部文本數(shù)據(jù),那么上面的 Scout 和 Maverick 預(yù)訓(xùn)練 40T 和 22T 是否也是有圖像及視頻數(shù)據(jù)?
- 在“中期訓(xùn)練”階段會(huì)采用創(chuàng)新訓(xùn)練方案,比如基于專用數(shù)據(jù)集的長上下文擴(kuò)展,該策略不僅可以提升模型質(zhì)量,還可以使 Scout 模型實(shí)現(xiàn) 1000 萬的上下文窗口。
3.3 后訓(xùn)練
Llama 4 Maverick 在圖文理解領(lǐng)域展現(xiàn)出很強(qiáng)的性能。作為通用助手和對話場景的主力產(chǎn)品模型,Maverick 模型后訓(xùn)練階段面臨的核心挑戰(zhàn)是:平衡多模態(tài)輸入、Reasoning 能力與會(huì)話性能。
針對模態(tài)融合問題:作者設(shè)計(jì)了一套精密的課程學(xué)習(xí)策略,在保持個(gè)模特專家模型性能的前提下實(shí)現(xiàn)最優(yōu)組合。LLaMA 4 的后訓(xùn)練流程為:輕量級(jí) SFT -> 在線強(qiáng)化學(xué)習(xí)(RL) -> 輕量級(jí) DPO。關(guān)鍵發(fā)現(xiàn)表明,過度依賴 SFT 和 DPO 會(huì)制約模型在在線 RL 階段的探索空間,導(dǎo)致 Reasoning、編程及數(shù)學(xué)等領(lǐng)域的準(zhǔn)確率達(dá)不到最優(yōu)。
- 作者將 LLaMA 模型作為評(píng)估器,剔除了 50% 以上被標(biāo)記為 “簡單” 的數(shù)據(jù)樣本,僅對剩余高難度數(shù)據(jù)集進(jìn)行輕量化 SFT。
- 在多模態(tài)在線 RL 階段,通過精心篩選高難度提示詞,實(shí)現(xiàn)了性能的階躍性提升。作者進(jìn)一步實(shí)施了持續(xù)性在線 RL 策略:在模型訓(xùn)練與提示詞篩選間建立動(dòng)態(tài)訓(xùn)練,僅保留中高難度樣本進(jìn)行迭代優(yōu)化。該策略在計(jì)算效率與準(zhǔn)確率之間取得了顯著平衡。
- 最終,通過輕量化 DPO 處理模型響應(yīng)質(zhì)量的邊界案例,在智能水平與會(huì)話能力間達(dá)成精妙平衡。這種創(chuàng)新型訓(xùn)練架構(gòu)配合自適應(yīng)數(shù)據(jù)過濾的持續(xù)在線 RL 策略,最終造就了具有頂尖智能水平和圖像理解能力的行業(yè)領(lǐng)先通用對話模型。
3.4 蒸餾
由于 Behemoth 模型在非 Reasoning 類模型中的數(shù)學(xué)、多語言處理和圖像基準(zhǔn)測試中性能達(dá)到 SOTA,因此可以成為指導(dǎo)小規(guī)模 LLaMA 4 Maverick 模型的教師模型。為此,作者采用協(xié)同蒸餾技術(shù),以 Behemoth 作為教師模型訓(xùn)練出了 Maverick 模型,使其終端任務(wù)性能到達(dá)業(yè)界頂尖水平。
具體來說,開發(fā)了 soft 目標(biāo)(來自 Behemoth 的 Forward 輸出)和 hard 目標(biāo)(原始的訓(xùn)練 Target)動(dòng)態(tài)加權(quán)的蒸餾損失函數(shù),通過在預(yù)訓(xùn)練階段實(shí)施協(xié)同蒸餾策略,有效分?jǐn)偰P驼麴s中教師模型(Behemoth)Forward 的開銷。這里其實(shí)是個(gè) Trick,在 Maverick 模型和 Behemoth 模型的預(yù)訓(xùn)練數(shù)據(jù)中有很大一部分重疊(作者沒有介紹對應(yīng)的比例),因此:
- 在 Behemoth 預(yù)訓(xùn)練中已經(jīng)存在的數(shù)據(jù),可以存儲(chǔ)其預(yù)訓(xùn)練中 Forward 結(jié)果,在蒸餾 Maverick 中直接使用,避免重復(fù)計(jì)算。
- 在 Behemoth 預(yù)訓(xùn)練中不存在的數(shù)據(jù),可以調(diào)用訓(xùn)練好的 Behemoth 進(jìn)行 Forward 生成。
PS:有個(gè)比較有意思的問題,因?yàn)?Behemoth 模型在預(yù)訓(xùn)練的時(shí)候是在不斷地更新的,那么預(yù)訓(xùn)練比較早期的 Forward 結(jié)果可能不適合作為蒸餾 Target,因此可以考慮跳過這部分?jǐn)?shù)據(jù)。而如果全部數(shù)據(jù)都使用訓(xùn)練好的 Behemoth 模型進(jìn)行 Forward 的成本又比較高。感覺這里是個(gè)權(quán)衡,這也許能夠解釋為什么 Maverick 的預(yù)訓(xùn)練數(shù)據(jù)只有 22T。
四、推理
文章中提到 Scout 適合單個(gè) H100 推理,但是考慮到總參數(shù)量達(dá)到 109B,如果使用 FP8 推理,則需要結(jié)合 Offload 機(jī)制,這里應(yīng)該說的是使用 W4A8 或 W4A16 推理。
此外,單個(gè) Maverick 可在單個(gè) H100 DGX 主機(jī)上運(yùn)行,對應(yīng) 8 個(gè) H100,共 640 GB 顯存,即使使用 FP8 部署依然可以裝下。如下圖所示,在 Llama 4 - a meta-llama Collection [6] 中也提供了對應(yīng)的 FP8 版本:

由于 LLaMA 模型的各種特殊配置,當(dāng)前的 LLM Inference 框架通常需要適配才能支持,vLLM 團(tuán)隊(duì)也在第一時(shí)間進(jìn)行了支持和測試,可以參考:Llama 4 in vLLM [7]。如下圖所示為 vLLM 團(tuán)隊(duì)在 8xH100 和 8xH200 上進(jìn)行的吞吐測試,相應(yīng)結(jié)論也基本符合預(yù)期。當(dāng)然,也有一些可以改進(jìn)的空間:
- 考慮到 DeepSeek R1 激活參數(shù) 37B,是 Scout 和 Maverick 17B 的 2 倍多,如果采用大規(guī)模分布式部署,Scout 和 Maverick 的吞吐也應(yīng)該是 DeepSeek R1 的 2 倍多。有點(diǎn)類似 10000:1000 的結(jié)論。
- 還未充分發(fā)揮出 FP8 的潛力,Maverick 和 Scout 激活參數(shù)量都是 17B,充分優(yōu)化后 Maverick-FP8 的吞吐應(yīng)該能達(dá)到 Scout-BF16 的 1.5x-1.8x。

五、評(píng)估
5.1 Maverick 模型
如下圖所示為 Maverick 模型及相當(dāng)模型的效果,看著其各種指標(biāo)相比 Gemini 2.0 Flash、DeepSeek v3.1 和 GPT-4o 都有比較明顯的優(yōu)勢。表格下的一系列注釋似乎也沒有明顯問題:
- 關(guān)于 LLaMA 模型的評(píng)估結(jié)果,采用 0-shot 評(píng)估,溫度參數(shù)為 0,未使用多數(shù)投票或并行測試時(shí)計(jì)算(比如 Best-of-N)。針對高方差基準(zhǔn)測試(GPQA Diamond、LiveCodeBench),通過多次生成結(jié)果取平均值以降低不確定性。
- 對于非 LLaMA 模型,除非另有說明,默認(rèn)采用其官方報(bào)告的最高評(píng)估結(jié)果。僅納入可通過 API 或開源權(quán)重可復(fù)現(xiàn)評(píng)估的模型數(shù)據(jù),且不包括思維鏈(non-thinking)模型。非 LLaMA 模型的成本估算數(shù)據(jù)來源于 Artificial Analysis 平臺(tái)。
- 由于 DeepSeek v3.1 的測試日期范圍未明確(49.2 分),作者在既定日期范圍內(nèi)提供了內(nèi)部測試結(jié)果(45.8 分)。GPT-4o 的評(píng)估結(jié)果取自 LiveCodeBench(LCB)排行榜。
- 通用模型通常不報(bào)告專項(xiàng)長上下文評(píng)估數(shù)據(jù),因此作者通過內(nèi)部測試展示 LLaMA 模型在該領(lǐng)域的性能表現(xiàn)。
- 基于分布式推理假設(shè),估算 Llama 4 Maverick 模型的推理成本為 0.19 美元/百萬 Token(3:1 混合比例)。在單主機(jī)部署場景下,預(yù)計(jì)該模型的推理成本為 0.30-0.49 美元/百萬Token(3:1 混合比例)。

如下圖所示為 Llama 4 in vLLM [7] 進(jìn)行 Inference 適配后的一些簡單評(píng)估,其 MMLU Pro 和 ChartQA 指標(biāo)也基本符合預(yù)期:

5.2 Scout 模型
如下圖所示為 Scout 模型及相當(dāng)模型的效果,可以看出其相比 Gemma 3 27B、Mistral 3.1 24B 和 Gemini 2.0 Flash-Lite 有比較明顯的優(yōu)勢。同樣也有幾個(gè)注釋,對應(yīng) Maverick 評(píng)估注釋的 1/2/4 ,沒有太明顯的問題:

5.3 Behemoth 模型
如下圖所示為 Behemoth 模型及相當(dāng)模型的效果,也是爭議比較多的地方,如下所示為其對應(yīng)的注釋:
- LLaMA 模型的結(jié)果代表 Meta 目前最佳的內(nèi)部測試結(jié)果。(PS:最佳是如何評(píng)估的,是否還是 0-shot,是否采用多數(shù)投票或者并行測試時(shí)計(jì)算?)
- 對于非 LLaMA 模型,除非另有說明,默認(rèn)采用其自報(bào)告的最高評(píng)估結(jié)果。僅包含那些評(píng)估結(jié)果可復(fù)現(xiàn)(通過 API 或開源權(quán)重)的模型,且僅包括非“思維型”模型。
- 結(jié)果來自 LCB 排行榜。

5.4 LMArena ELO Score
其實(shí)受到最多爭議的是聲稱在 LMArena ELO 榜單達(dá)到 1417 分,是開源模型中最強(qiáng)的,與社區(qū)中大家實(shí)測不符。并且在下圖的小字注釋中指出,LMArena ELO 評(píng)測的 Maverick 模型是針對對話場景優(yōu)化的版本,并不是實(shí)際開源的版本。

5.5 MATH-Perturb 評(píng)估
如下圖所示(數(shù)據(jù)來自 MATH-Perturb [8]),在 MATH-Perturb 上的評(píng)估結(jié)果也是受到質(zhì)疑的地方,不過這里靠前的模型都是 Reasoning 模型,而 LLaMA-4-Scout-17B-16E-Instruct 雖然具備一定的 Reasoning 能力,但終究還是傳統(tǒng)的 Instruct 模型,期待 Meta 后續(xù)推出對應(yīng)版本以及在技術(shù)報(bào)告中能夠解答相關(guān)疑問。

六、參考鏈接
- ??https://ai.meta.com/blog/llama-4-multimodal-intelligence/??
- ??https://github.com/meta-llama/llama-models/tree/main/models/llama4??
- ??https://github.com/meta-llama/llama-models/blob/main/models/llama4/moe.py??
- ??https://github.com/meta-llama/llama-models/blob/main/models/llama4/model.py??
- ??https://arxiv.org/abs/2501.19399??
- ??https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164??
- ??https://blog.vllm.ai/2025/04/05/llama4.html??
- ??https://math-perturb.github.io/??
本文轉(zhuǎn)載自???????AI閑談?????????,作者:AI閑談

















