LLaMA 4 模型的解讀和理解

amei2000go

發(fā)布于 2025-8-18 06:29

瀏覽

0收藏

一、背景

Meta 趕在清明節(jié)期間發(fā)布了 LLaMA 4 模型，目前看著比較倉促，官方 Blog 信息比較混亂，也沒有發(fā)表技術(shù)報(bào)告，我們這里先根據(jù)官方 Blog 梳理相應(yīng)的信息。

PS：Meta 確實(shí)在 PR 中使用了一些常見的手段，比如避重就輕，揚(yáng)長避短，但是個(gè)人感覺還不至于出現(xiàn)在后訓(xùn)練中刻意混入評(píng)估集這種情況。LLaMA 3.1 的技術(shù)報(bào)告很全面，筆者之前也做過深度解讀，期待 Meta 早日發(fā)表 LLaMA 4 技術(shù)報(bào)告，展示更多相關(guān)細(xì)節(jié)內(nèi)容。

對應(yīng)的官方 Blog 為：The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation [1]

對應(yīng)的代碼庫為：https://github.com/meta-llama/llama-models/tree/main/models/llama4 [2]

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

二、模型

2.1 概覽

如下圖所示為相應(yīng)的模型配置和參數(shù)：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

2.2 MoE

如下圖為 interleave_moe_layer_step 參數(shù)的作用，表示每多少層有一個(gè) MoE 層：

如果值為 1，表示全是 MoE 層。
如果值為 2，表示一層 MoE 層，一層 Dense 層，交替排列。
如果值為 3，表示一層 MoE 層，兩層 Dense 層，交替排列。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示（來自 llama-models/models/llama4/moe.py [3]），可以看出 MoE Layer 默認(rèn)都是 1 個(gè)共享專家：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

官方 Block 中也提到：其中的 Maverick 模型采用 Dense 和 MoE 交替架構(gòu)，也就是一層 Transformer Block 中為 Dense，另一層是 MoE。此外，Maverick 的 MoE 包含 128 個(gè)路由專家（Routed Expert）和 1 個(gè)共享專家（Shared Expert）。如下圖所示為 Scout 模型的 Case：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

2.3 iRoPE & qk_norm & Chunked Attention

LLaMA 4 中的另一個(gè)變化是采用了交替的 RoPE（interleaved RoPE，iRoPE），一部分層使用 RoPE，一部分層不使用 PE。如下圖所示（來自 llama-models/models/llama4/model.py at main [4]）可以看出：

每 nope_layer_interval 層有一個(gè) nope 層，如果 nope_layer_interval 為 None 或者為 1，則都是 rope 層。

Scout 模型中為 None：全部是 rope 層。

Maverick 模型中為 4：每 4 層中有 1 層 nope 層，3 層 rope 層。

只在 rope 層才會(huì)使用 qk_norm，并且要求配置了 use_qk_norm。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示，在 nope 層采用 Full Attention，在 rope 層采用 Chunked Local Attention。也就是 Scout 模型全部是 Chunked Local Attention，而 Maverick 模型有 1/4 依然是 Full Attention。這可能也是為什么 Scout 模型上下文長度可以達(dá)到 10M，而 Maverick 只有 1M，不然 Full Attention 的計(jì)算成本會(huì)很高。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下所示，Chunked Local Attention 的 Size 對應(yīng) attention_chunk_size，默認(rèn)為 8K：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示，對于 nope 層，如果序列長度非常長，可以考慮設(shè)置 attn_temperature_tuning，以便采用 Temperature Tuning，默認(rèn)是 False（[2501.19399] Scalable-Softmax Is Superior for Attention [5]）：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

2.4 Vision

Vision Backbone 應(yīng)該是 MetaCLIP。如下圖所示，Vision Embedding 后包含一個(gè)單層 Liner 的投影層：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示，Image Token 和 Text Token 拼接后輸入 LLM，沒有采用之前的 Cross Attention 方案，結(jié)構(gòu)更加簡單：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

2.5 Scout 模型

如下圖所示為 Scout 模型中的 Text 模型配置：

interleave_moe_layer_step 為 1，表示全部是 MoE 層。
nope_layer_interval 為 None，全部是 RoPE 層。
attention_chunk_size 為 8192，所有層都是 Chunked Attention。
采用 GQA，Q 和 KV 的比例為 5:1。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示為 Scout 模型的 Vision 模型配置：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

2.6 Maverick 模型

如下圖所示為 Maverick 模型的配置：

看著 Maverick 和 Scout 模型的 Attention 部分大小一樣，Dim、Head 數(shù)都相同。
interleave_moe_layer_step 為 2：MoE 層和 Dense 層各一半，交替排列。
nope_layer_interval 為 4：每 4 層中有 1 層 nope 層，3 層 rope 層。
attention_chunk_size 為 8192，3/4 層為 rope 層，使用 Chunked Attention，1/4 層為 Full Attention。
采用 GQA，Q 和 KV 的比例為 5:1。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

三、訓(xùn)練

3.1 MFU

對于 Scout 模型，總共 109B 參數(shù)量，每個(gè) Token 的激活參數(shù)量為 17B，可以采用如下公式計(jì)算 MFU，其中每個(gè) Token 計(jì)算量 Ctoken 可以用 6N 來近似，N 表示模型激活參數(shù)量：

MFU = (Token 數(shù) * Ctoken) / (訓(xùn)練 GPU 小時(shí)數(shù) * GPU FLOPs * 3600)

其中，預(yù)訓(xùn)練 Token 數(shù)為 40T，訓(xùn)練時(shí)長為 5.0M H100 小時(shí)，則對應(yīng)的 MFU 大約為：

MFU = (40T*17B*6) / (5.0M*989T*3600) = 22.9%

對于 Maverick 模型，總共 400B 參數(shù)量，每個(gè) Token 的激活參數(shù)量為 17B，預(yù)訓(xùn)練 Token 數(shù)為 22 T，訓(xùn)練時(shí)長為 2.38M H100 小時(shí)，則對應(yīng)的 MFU 大約為：

MFU = (22T*17B*6) / (2.38M*989T*3600) = 26.5%

除此之外，Maverick 模型是通過 Behemoth 模型蒸餾而來，由于采用了協(xié)同蒸餾優(yōu)化，有部分?jǐn)?shù)據(jù)需要經(jīng)過 Behemoth 的 Forward 計(jì)算（后面蒸餾部分介紹）。這部分計(jì)算量在上述計(jì)算公式中沒有考慮，另一方面也不確定對應(yīng)的比例，除此之外，也不確定 2.38M 是否包含，因此這里我們也不再額外分析。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

此外，上述計(jì)算中都忽略了 GQA 中的無參數(shù) Attention 計(jì)算等，這一部分在預(yù)訓(xùn)練中通常占比不會(huì)特別大，這里假設(shè)占比 10%，則對應(yīng)的 MFU 分別為：

Scout：22.9% * 1.1 = 25.2%
Maverick：26.5% * 1.1 = 29.2%

對于 Behemoth 模型，總共 2T 參數(shù)量，每個(gè) Token 的激活參數(shù)量為 288B，預(yù)訓(xùn)練 Token 數(shù)為 30 T，官方 Blog 中提到其最大的 Behemoth 模型使用 32K H100、FP8 訓(xùn)練：

Scout 和 Maverick 模型未使用 FP8，對應(yīng)的 BF16 精度的 MFU 為 25.2% 和 29.2% 還比較符合預(yù)期，沒有特別高，也沒有很差。
Behemoth 模型采用 FP8 訓(xùn)練，按照 BF16 算力的話 MFU 為 390/989 = 39.4%，也算很不錯(cuò)的水平。
PS：Meta 刻意不提 Behemoth 模型的訓(xùn)練成本，根據(jù)上述數(shù)據(jù)也可以推算出來：訓(xùn)練 GPU 小時(shí)數(shù) = (Token 數(shù) * Ctoken) / (實(shí)際 GPU FLOPs * 3600) = (30T*288B*6)/(390T*3600) = 36.9M H100 小時(shí)，遠(yuǎn)大于 Scut 和 Maverick 模型的成本。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

3.2 預(yù)訓(xùn)練

LLaMA 4 中 3 個(gè)模型的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模不太一樣，這個(gè)比較奇怪，比如 Scout 預(yù)訓(xùn)練包括 40T Token，Maverick 預(yù)訓(xùn)練包括 22T Token，而 Behemoth 模型目前是訓(xùn)練了 30T Token。

LLaMA 的預(yù)訓(xùn)練預(yù)料覆蓋 200 種語言（其中 100+ 種的 Token 數(shù)超過 1B）。總共的多語言 Token 總量是 LLaMA 3 的 10 倍。
Behemoth 訓(xùn)練數(shù)據(jù)超過 30T Token，包含多樣化的文本、圖像及視頻數(shù)據(jù)源，這么看 30T 數(shù)據(jù)不是全部文本數(shù)據(jù)，那么上面的 Scout 和 Maverick 預(yù)訓(xùn)練 40T 和 22T 是否也是有圖像及視頻數(shù)據(jù)？
在“中期訓(xùn)練”階段會(huì)采用創(chuàng)新訓(xùn)練方案，比如基于專用數(shù)據(jù)集的長上下文擴(kuò)展，該策略不僅可以提升模型質(zhì)量，還可以使 Scout 模型實(shí)現(xiàn) 1000 萬的上下文窗口。

3.3 后訓(xùn)練

Llama 4 Maverick 在圖文理解領(lǐng)域展現(xiàn)出很強(qiáng)的性能。作為通用助手和對話場景的主力產(chǎn)品模型，Maverick 模型后訓(xùn)練階段面臨的核心挑戰(zhàn)是：平衡多模態(tài)輸入、Reasoning 能力與會(huì)話性能。

針對模態(tài)融合問題：作者設(shè)計(jì)了一套精密的課程學(xué)習(xí)策略，在保持個(gè)模特專家模型性能的前提下實(shí)現(xiàn)最優(yōu)組合。LLaMA 4 的后訓(xùn)練流程為：輕量級(jí) SFT -> 在線強(qiáng)化學(xué)習(xí)（RL） -> 輕量級(jí) DPO。關(guān)鍵發(fā)現(xiàn)表明，過度依賴 SFT 和 DPO 會(huì)制約模型在在線 RL 階段的探索空間，導(dǎo)致 Reasoning、編程及數(shù)學(xué)等領(lǐng)域的準(zhǔn)確率達(dá)不到最優(yōu)。

作者將 LLaMA 模型作為評(píng)估器，剔除了 50% 以上被標(biāo)記為 “簡單” 的數(shù)據(jù)樣本，僅對剩余高難度數(shù)據(jù)集進(jìn)行輕量化 SFT。
在多模態(tài)在線 RL 階段，通過精心篩選高難度提示詞，實(shí)現(xiàn)了性能的階躍性提升。作者進(jìn)一步實(shí)施了持續(xù)性在線 RL 策略：在模型訓(xùn)練與提示詞篩選間建立動(dòng)態(tài)訓(xùn)練，僅保留中高難度樣本進(jìn)行迭代優(yōu)化。該策略在計(jì)算效率與準(zhǔn)確率之間取得了顯著平衡。
最終，通過輕量化 DPO 處理模型響應(yīng)質(zhì)量的邊界案例，在智能水平與會(huì)話能力間達(dá)成精妙平衡。這種創(chuàng)新型訓(xùn)練架構(gòu)配合自適應(yīng)數(shù)據(jù)過濾的持續(xù)在線 RL 策略，最終造就了具有頂尖智能水平和圖像理解能力的行業(yè)領(lǐng)先通用對話模型。

3.4 蒸餾

由于 Behemoth 模型在非 Reasoning 類模型中的數(shù)學(xué)、多語言處理和圖像基準(zhǔn)測試中性能達(dá)到 SOTA，因此可以成為指導(dǎo)小規(guī)模 LLaMA 4 Maverick 模型的教師模型。為此，作者采用協(xié)同蒸餾技術(shù)，以 Behemoth 作為教師模型訓(xùn)練出了 Maverick 模型，使其終端任務(wù)性能到達(dá)業(yè)界頂尖水平。

具體來說，開發(fā)了 soft 目標(biāo)（來自 Behemoth 的 Forward 輸出）和 hard 目標(biāo)（原始的訓(xùn)練 Target）動(dòng)態(tài)加權(quán)的蒸餾損失函數(shù)，通過在預(yù)訓(xùn)練階段實(shí)施協(xié)同蒸餾策略，有效分?jǐn)偰Ｐ驼麴s中教師模型（Behemoth）Forward 的開銷。這里其實(shí)是個(gè) Trick，在 Maverick 模型和 Behemoth 模型的預(yù)訓(xùn)練數(shù)據(jù)中有很大一部分重疊（作者沒有介紹對應(yīng)的比例），因此：

在 Behemoth 預(yù)訓(xùn)練中已經(jīng)存在的數(shù)據(jù)，可以存儲(chǔ)其預(yù)訓(xùn)練中 Forward 結(jié)果，在蒸餾 Maverick 中直接使用，避免重復(fù)計(jì)算。
在 Behemoth 預(yù)訓(xùn)練中不存在的數(shù)據(jù)，可以調(diào)用訓(xùn)練好的 Behemoth 進(jìn)行 Forward 生成。

PS：有個(gè)比較有意思的問題，因?yàn)?Behemoth 模型在預(yù)訓(xùn)練的時(shí)候是在不斷地更新的，那么預(yù)訓(xùn)練比較早期的 Forward 結(jié)果可能不適合作為蒸餾 Target，因此可以考慮跳過這部分?jǐn)?shù)據(jù)。而如果全部數(shù)據(jù)都使用訓(xùn)練好的 Behemoth 模型進(jìn)行 Forward 的成本又比較高。感覺這里是個(gè)權(quán)衡，這也許能夠解釋為什么 Maverick 的預(yù)訓(xùn)練數(shù)據(jù)只有 22T。

四、推理

文章中提到 Scout 適合單個(gè) H100 推理，但是考慮到總參數(shù)量達(dá)到 109B，如果使用 FP8 推理，則需要結(jié)合 Offload 機(jī)制，這里應(yīng)該說的是使用 W4A8 或 W4A16 推理。

此外，單個(gè) Maverick 可在單個(gè) H100 DGX 主機(jī)上運(yùn)行，對應(yīng) 8 個(gè) H100，共 640 GB 顯存，即使使用 FP8 部署依然可以裝下。如下圖所示，在 Llama 4 - a meta-llama Collection [6] 中也提供了對應(yīng)的 FP8 版本：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

由于 LLaMA 模型的各種特殊配置，當(dāng)前的 LLM Inference 框架通常需要適配才能支持，vLLM 團(tuán)隊(duì)也在第一時(shí)間進(jìn)行了支持和測試，可以參考：Llama 4 in vLLM [7]。如下圖所示為 vLLM 團(tuán)隊(duì)在 8xH100 和 8xH200 上進(jìn)行的吞吐測試，相應(yīng)結(jié)論也基本符合預(yù)期。當(dāng)然，也有一些可以改進(jìn)的空間：

考慮到 DeepSeek R1 激活參數(shù) 37B，是 Scout 和 Maverick 17B 的 2 倍多，如果采用大規(guī)模分布式部署，Scout 和 Maverick 的吞吐也應(yīng)該是 DeepSeek R1 的 2 倍多。有點(diǎn)類似 10000:1000 的結(jié)論。
還未充分發(fā)揮出 FP8 的潛力，Maverick 和 Scout 激活參數(shù)量都是 17B，充分優(yōu)化后 Maverick-FP8 的吞吐應(yīng)該能達(dá)到 Scout-BF16 的 1.5x-1.8x。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

五、評(píng)估

5.1 Maverick 模型

如下圖所示為 Maverick 模型及相當(dāng)模型的效果，看著其各種指標(biāo)相比 Gemini 2.0 Flash、DeepSeek v3.1 和 GPT-4o 都有比較明顯的優(yōu)勢。表格下的一系列注釋似乎也沒有明顯問題：

關(guān)于 LLaMA 模型的評(píng)估結(jié)果，采用 0-shot 評(píng)估，溫度參數(shù)為 0，未使用多數(shù)投票或并行測試時(shí)計(jì)算（比如 Best-of-N）。針對高方差基準(zhǔn)測試（GPQA Diamond、LiveCodeBench），通過多次生成結(jié)果取平均值以降低不確定性。
對于非 LLaMA 模型，除非另有說明，默認(rèn)采用其官方報(bào)告的最高評(píng)估結(jié)果。僅納入可通過 API 或開源權(quán)重可復(fù)現(xiàn)評(píng)估的模型數(shù)據(jù)，且不包括思維鏈（non-thinking）模型。非 LLaMA 模型的成本估算數(shù)據(jù)來源于 Artificial Analysis 平臺(tái)。
由于 DeepSeek v3.1 的測試日期范圍未明確（49.2 分），作者在既定日期范圍內(nèi)提供了內(nèi)部測試結(jié)果（45.8 分）。GPT-4o 的評(píng)估結(jié)果取自 LiveCodeBench（LCB）排行榜。
通用模型通常不報(bào)告專項(xiàng)長上下文評(píng)估數(shù)據(jù)，因此作者通過內(nèi)部測試展示 LLaMA 模型在該領(lǐng)域的性能表現(xiàn)。
基于分布式推理假設(shè)，估算 Llama 4 Maverick 模型的推理成本為 0.19 美元/百萬 Token（3:1 混合比例）。在單主機(jī)部署場景下，預(yù)計(jì)該模型的推理成本為 0.30-0.49 美元/百萬Token（3:1 混合比例）。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

如下圖所示為 Llama 4 in vLLM [7] 進(jìn)行 Inference 適配后的一些簡單評(píng)估，其 MMLU Pro 和 ChartQA 指標(biāo)也基本符合預(yù)期：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

5.2 Scout 模型

如下圖所示為 Scout 模型及相當(dāng)模型的效果，可以看出其相比 Gemma 3 27B、Mistral 3.1 24B 和 Gemini 2.0 Flash-Lite 有比較明顯的優(yōu)勢。同樣也有幾個(gè)注釋，對應(yīng) Maverick 評(píng)估注釋的 1/2/4 ，沒有太明顯的問題：

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

5.3 Behemoth 模型

如下圖所示為 Behemoth 模型及相當(dāng)模型的效果，也是爭議比較多的地方，如下所示為其對應(yīng)的注釋：

LLaMA 模型的結(jié)果代表 Meta 目前最佳的內(nèi)部測試結(jié)果。（PS：最佳是如何評(píng)估的，是否還是 0-shot，是否采用多數(shù)投票或者并行測試時(shí)計(jì)算？）
對于非 LLaMA 模型，除非另有說明，默認(rèn)采用其自報(bào)告的最高評(píng)估結(jié)果。僅包含那些評(píng)估結(jié)果可復(fù)現(xiàn)（通過 API 或開源權(quán)重）的模型，且僅包括非“思維型”模型。
結(jié)果來自 LCB 排行榜。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

5.4 LMArena ELO Score

其實(shí)受到最多爭議的是聲稱在 LMArena ELO 榜單達(dá)到 1417 分，是開源模型中最強(qiáng)的，與社區(qū)中大家實(shí)測不符。并且在下圖的小字注釋中指出，LMArena ELO 評(píng)測的 Maverick 模型是針對對話場景優(yōu)化的版本，并不是實(shí)際開源的版本。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)

5.5 MATH-Perturb 評(píng)估

如下圖所示（數(shù)據(jù)來自 MATH-Perturb [8]），在 MATH-Perturb 上的評(píng)估結(jié)果也是受到質(zhì)疑的地方，不過這里靠前的模型都是 Reasoning 模型，而 LLaMA-4-Scout-17B-16E-Instruct 雖然具備一定的 Reasoning 能力，但終究還是傳統(tǒng)的 Instruct 模型，期待 Meta 后續(xù)推出對應(yīng)版本以及在技術(shù)報(bào)告中能夠解答相關(guān)疑問。

LLaMA 4 模型的解讀和理解-AI.x社區(qū)