NVIDIA港大MIT聯合推出Fast-dLLM v2:端到端吞吐量提升2.5倍
自回歸(AR)大語言模型逐 token 順序解碼的范式限制了推理效率;擴散 LLM(dLLM)以并行生成見長,但過去難以穩定跑贏自回歸(AR)模型,尤其是在 KV Cache 復用、和 可變長度 支持上仍存挑戰。
Fast-dLLM v2 給出了一條務實路線:將預訓練 AR 模型適配為適配為能并行解碼的 Block-dLLM—— 且只需~1B tokens 量級的微調即可達到 “無損” 遷移,不必訓練數百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時,將端到端吞吐顯著拉高,最高可達 2.5×。


- 作者單位:HKU、NVIDIA、MIT。
- 論文鏈接:https://arxiv.org/pdf/2509.26328
- 項目網站鏈接:https://nvlabs.github.io/Fast-dLLM/v2/
- 代碼鏈接:https://github.com/NVlabs/Fast-dLLM
核心看點

- 少量數據適配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用約 1B tokens 的微調就能適配成 Block Diffusion LLM,不必訓練數百 B tokens(如 Dream 需~580B tokens)。
- 架構上 “AR 友好”: 設計上 塊內雙向、塊間因果;配合互補掩碼與 token-shift,讓模型既保留 AR 的語義組織與可變長度能力,又獲得塊內并行帶來的效率增益。遷移過程更自然、數據效率高。
- 層級緩存 + 并行解碼:塊級 KV Cache + 子塊 DualCache,配合置信度閾值的并行解碼,端到端最高 2.5× 提速。
- 大模型驗證:在 7B 規模上保持與 AR 相當的生成質量下,吞吐對比 Qwen2.5-7B-Instruct 提升 2.54×。
原理與做法:從 AR 到 Block Diffusion

1)塊式擴散與 AR - 友好注意力
Fast-dLLM v2 按固定塊大小把序列切成若干塊:塊內雙向注意力以并行去噪,塊間保持左到右的因果關系,從而既能并行、又能沿用 AR 的語義組織、可變長度和 KV Cache;配合互補掩碼(complementary masking)與 token-shift,保證每個 token 都在 “可見 / 被遮” 兩種視角下學習,穩定恢復 AR 語義表征。
2)層級緩存(Hierarchical Cache)
- 塊級緩存:已解碼塊的 KV 直接復用,天然支持 KV Cache。
- 子塊緩存(DualCache):在部分解碼的當前塊內部,同時緩存前綴與后綴的 KV 激活,減少迭代去噪揭示 / 復原時的重復計算,貼合并行細化流程。

3)置信度感知的并行解碼
延續 v1 的思路:當某位置的預測置信度超過閾值(如 0.9),即可并行確定多個 token,其余不確定位置保留待后續細化。在 GSM8K 上,閾值 0.9 時吞吐從 39.1→101.7 tokens/s,提速約 2.6×,精度影響可忽略。

性能結果
- 端到端加速:綜合實驗顯示,對標準 AR 解碼最高 2.5× 提速,同時維持生成質量。
- 7B 規模吞吐與精度:在 A100 上,Fast-dLLM v2(7B)吞吐為 Qwen2.5-7B-Instruct 的 2.54×;同時對比 Fast-dLLM-LLaDA 還有 +5.2% 的準確率提升(GSM8K)。
- Batch / 硬件可擴展性:在 A100/H100 上隨 batch 增大,擴散解碼的并行優勢更明顯;A100 上可達~1.5× 吞吐加速,H100 上最高可達~1.8× 加速。

- Benchmark 綜合得分:
- 1.5B:平均分 45.0,超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后訓練數據集上對 Qwen 做的標準 NTP 微調 baseline);在同量級(≈1B 規模)的擴散類與 NTP 訓練的 AR 類模型里,屬于新的 SOTA。
- 7B:平均分 60.3,超過 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多數單項基準上持平或更好。評測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項基準。

訓練成本
數據 / 算力成本:以~1B tokens 量級微調把 AR 模型適配為 Block Diffusion LLM(對比 Dream 的~500B tokens),門檻顯著降低;論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓練步數與配置,只需要幾個小時即可完成訓練,可復現性強。
總結
Fast-dLLM v2 提供了一條務實路線:用很少的數據(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,并且關鍵開關(塊大小、閾值、緩存)都能工程化地按目標調優,這是一個成本與收益比較均衡的解法。



































