開源擴散大模型首次跑贏自回歸！上交大聯(lián)手UCSD推出D2F，吞吐量達LLaMA3的2.5倍

2025-08-19 08:53:00

上海交通大學(xué) DENG Lab 聯(lián)合加州大學(xué)圣地亞哥分校（UCSD）推出 Discrete Diffusion Forcing（D2F），首次使開源 dLLMs 的生成速度顯著超過同等規(guī)模的 AR 模型。

視頻 1：D2F dLLMs 與同尺寸 AR LLMs 的推理過程對比示意

在大語言模型（LLMs）領(lǐng)域，自回歸（AR）范式長期占據(jù)主導(dǎo)地位，但其逐 token 生成也帶來了固有的推理效率瓶頸。此前，谷歌的 Gemini Diffusion 和字節(jié)的 Seed Diffusion 以每秒千余 Tokens 的驚人吞吐量，向業(yè)界展現(xiàn)了擴散大語言模型（dLLMs）在推理速度上的巨大潛力。然而，當(dāng)前的開源 dLLMs 卻因一定的技術(shù)挑戰(zhàn) —— 例如缺少完善的 KV 緩存機制，以及未充分釋放并行潛力 —— 推理速度遠慢于同規(guī)模的 AR 模型。

近期的一篇工作徹底扭轉(zhuǎn)了這個局面。上海交通大學(xué) DENG Lab 聯(lián)合加州大學(xué)圣地亞哥分校（UCSD）推出 Discrete Diffusion Forcing（D2F），首次使開源 dLLMs 的生成速度顯著超過同等規(guī)模的 AR 模型。實驗顯示，D2F 模型在 GSM8K 等基準(zhǔn)上，實現(xiàn)了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升，同時相比于原始的 dLLMs 模型實現(xiàn)了最高達 50 倍的加速。

本文作者團隊來自上海交通大學(xué) DENG Lab 與加州大學(xué)圣地亞哥分校（UCSD）。該研究由碩士生王旭、準(zhǔn)碩士生徐晨開、本科生金義杰以及博士生金佳純共同完成，指導(dǎo)教師為鄧志杰與張浩老師。DENG Lab 隸屬上海交通大學(xué)，致力于高效、跨模態(tài)生成模型的研究。

論文地址：https://arxiv.org/abs/2508.09192
代碼地址：https://github.com/zhijie-group/Discrete-Diffusion-Forcing
項目主頁：https://zhijie-group.github.io/Discrete-Diffusion-Forcing/
模型倉庫：https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora
Demo 地址：https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B

圖 1：D2F dLLMs 實現(xiàn)了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升

簡單來說，D2F 賦予了 dLLMs 幾種關(guān)鍵特性：

1. 自回歸 - 擴散混合架構(gòu)：引入塊級自回歸生成，塊間保持因果性，讓模型能夠有效利用 KV 緩存。

2. 塊內(nèi) + 塊間雙尺度并行：引入了塊內(nèi) token 間并行解碼和塊間并行解碼，最大化并行生成潛力

3. 雙狀態(tài)解碼：通過設(shè)計雙狀態(tài)的塊解碼流水線，最大化吞吐量。

4. 更優(yōu)的 tradeoff：相比原始 dLLMs，具有顯著更優(yōu)的性能 - 效率權(quán)衡

5. vLLM 集成：已將 vLLM 集成到 D2F 中，讓推理速度更進一步

問題的根源：dLLMs 理論優(yōu)勢與現(xiàn)實瓶頸

擴散大語言模型（dLLMs）理論上具有并行生成 token 的能力，不必像 AR 模型一樣逐個生成，從而在推理效率上具備巨大潛力。然而，在實踐中，現(xiàn)有的開源 dLLMs 并未充分展現(xiàn)這一優(yōu)勢，其推理速度往往落后于 AR 模型，這個瓶頸主要源于兩個基礎(chǔ)性問題：

KV Cache 的不兼容性：標(biāo)準(zhǔn) dLLM 依賴雙向注意力機制來獲取全局上下文，導(dǎo)致 AR 模型中常見的 KV 緩存加速技術(shù)無法直接應(yīng)用于 dLLMs。在每次去噪迭代中，模型都需要重新計算所有 token 的 K、V 矩陣，造成了巨大的計算冗余。

塊間解碼的串行限制：為了引入緩存機制，一些工作嘗試將生成過程分塊（block-wise）。但這些方法通常要求嚴格的塊間順序，即只有前一個塊必須被完全解碼后，才能開始處理下一個塊。這種嚴格的依賴使得并行生成僅限于塊內(nèi)而無法應(yīng)用于塊之間，極大地限制了整體的并行潛力。

因此，想要釋放 dLLMs 的潛力，就必須同時解決 KV Cache 的兼容性與塊間的并行解碼問題。

D2F 的核心設(shè)計：一種自回歸 - 擴散混合范式

面對上述瓶頸，D2F 的核心思想是構(gòu)建一個融合自回歸和擴散思想的混合范式，協(xié)同設(shè)計高效的模型架構(gòu)，訓(xùn)練方法以及推理策略。

架構(gòu)：塊級因果注意力，兼容 KV Cache

為了讓 dLLMs 能真正兼容 KV 緩存，D2F 將 dLLMs 中標(biāo)準(zhǔn)的雙向注意力機制重塑為了塊級因果注意力。具體來說：

塊內(nèi)（Intra-block）：保持標(biāo)準(zhǔn)的雙向注意力，以充分利用塊內(nèi)的上下文信息。
塊間（Inter-block）：使用因果注意力，即任意一個塊只能關(guān)注其自身及所有在它之前的塊。

這種設(shè)計在塊的層面上建立了自回歸的順序。每個生成完成的塊的 KV 狀態(tài)被緩存并在后續(xù)復(fù)用，從而根本上解決了 KV Cache 的兼容性問題，大幅減少了冗余計算。

訓(xùn)練：非對稱蒸餾與結(jié)構(gòu)化噪聲

圖 2：D2F dLLMs 基于非對稱蒸餾實現(xiàn)訓(xùn)練

為了避免從頭訓(xùn)練 dLLMs 的高昂成本。D2F 使用了非對稱蒸餾策略，將一個預(yù)訓(xùn)練好的 dLLMs 教師模型的能力，高效地蒸餾到 D2F 學(xué)生模型上。兩者區(qū)別在于教師模型使用雙向全注意力而學(xué)生模型使用塊級因果注意力。

為了進一步解鎖學(xué)生的塊間并行能力，D2F 引入了單調(diào)遞增的結(jié)構(gòu)化噪聲調(diào)度。具體而言，訓(xùn)練數(shù)據(jù)前向加噪過程中，序列靠前的塊被施加較小的噪聲而靠后的塊被施加更大的噪聲。這種結(jié)構(gòu)化的噪聲訓(xùn)練，其目的是為了教會學(xué)生模型如何依據(jù)部分去噪、尚不清晰的前文來預(yù)測后文。

推理：流水線并行解碼

圖 3：D2F dLLMs 的推理流程示意

在上述訓(xùn)練范式的基礎(chǔ)上，D2F 設(shè)計了一套創(chuàng)新的并行解碼算法：Pipelined Parallel Decoding。

該算法維護一個動態(tài)的待解碼窗口，其中包括若干 tokens 塊。在必要時，新塊以半激活的狀態(tài)進入窗口，并在前綴去噪到一定比例后轉(zhuǎn)為全激活狀態(tài)。這種動態(tài)添加和雙狀態(tài)解碼的機制，確保了流水線的高效和質(zhì)量。

兩種狀態(tài)的區(qū)別主要在于解碼策略的激進程度：

半激活狀態(tài)（Semi-activated）：只接受那些預(yù)測置信度超過某一閾值 τ_conf 的 token。
全激活狀態(tài)（Fully-activated）：如果沒有 token 超過置信度閾值，也會選擇置信度最高的一個 token 進行解碼。

視頻 2：D2F dLLMs 推理過程中顯式地對多個塊進行并行解碼

實驗結(jié)果

速度提升，性能不降

D2F 給原始 dLLM 帶來了最高可達 50 倍的加速，同時平均性能不下降。

圖 4：D2F-LLaDA 與基線方法的對比

圖 5：D2F-Dream 與基線方法的對比

優(yōu)異的性能 - 效率權(quán)衡曲線

D2F 提供了一條遠優(yōu)于現(xiàn)有模型的性能 - 效率權(quán)衡曲線。通過調(diào)整解碼參數(shù)，D2F 可以適應(yīng)各種場景，在性能和速度之間做出靈活的選擇。例如，在 MBPP 任務(wù)上，通過稍微犧牲性能，吞吐量可達 AR 模型的 4 倍以上。

圖 6：D2F dLLMs 實現(xiàn)更優(yōu)異的優(yōu)異的性能 - 效率權(quán)衡

總結(jié)與思考

D2F 的出現(xiàn)為開源 dLLMs 社區(qū)注入了新的活力，展現(xiàn)了 dLLMs 推理速度上的巨大潛力。通過開源代碼和模型，團隊希望能夠激勵社區(qū)投入更多的研究資源，共同推動并行解碼技術(shù)走向成熟，進入更廣泛的實際應(yīng)用。

此外，D2F 的成功證明了 AR 和 Diffusion 并非是兩種完全對立的范式。通過巧妙的混合框架設(shè)計，可以融合 AR 模型的緩存優(yōu)勢和 dLLMs 的并行優(yōu)勢，這為大模型推理優(yōu)化開辟了新的道路。

未來工作：目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待實現(xiàn)，歡迎感興趣的同學(xué)跟我們聯(lián)系。

責(zé)任編輯：張燕妮來源：機器之心

AI 模型開源