擴散語言模型新發現：其計算潛力正在被浪費？

2025-10-31 08:55:00

最近的一篇論文有了一些意外發現：在數學和編碼任務中，任意順序算法的性能往往不如從左到右采樣，或者表現與之相似，而標準的多 token 解碼會顯著降低性能。即使僅在兩個 token 上進行并行解碼，模型在主流基準任務上的性能也會顯著下降。

按從左到右的順序依次生成下一個 token 真的是大模型生成方式的最優解嗎？最近，越來越多的研究者對此提出質疑。其中，有些研究者已經轉向一個新的方向 —— 掩碼擴散語言模型（MDLM）。

和自回歸（AR）語言模型不同，MDLM 的訓練目標是隨機遮蔽序列中的若干位置，模型學習去 in-fill（填充）這些被遮蔽位置。這樣訓練出來的模型存在諸多優勢，如支持任意順序解碼、多 token 并行解碼等。此前有研究表明，MDLM 的這些優勢使其在數獨等邏輯謎題上的表現得到顯著提升。

然而，最近的一篇論文有了一些意外發現：在數學和編碼任務中，任意順序算法的性能往往不如從左到右采樣，或者表現與之相似，而標準的多 token 解碼會顯著降低性能。即使僅在兩個 token 上進行并行解碼，模型在主流基準任務上的性能也會顯著下降。

使用 MDLM 進行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒有 [Arriola et al., 2025] 提出的塊大小（block sizes）來強制形成半自回歸（AR）的從左到右結構，任意順序會顯著影響性能。

MDLM 能夠并行生成多個固定 token，但這會降低準確性。作者使用塊任意順序熵解碼，并行解碼 1 個、2 個、4 個 token。可以看到，除數獨外，在所有任務中，即使并行解碼兩個 token 也會導致性能顯著下降。

這一結果引發了一個問題：既然 MDLM 在訓練時投入了大量額外計算資源以建模所有被掩碼位置的聯合分布，那么這些額外的計算是否真的物有所值？

為了回答這個問題，研究者探究了如何將這些計算資源重新利用為有意義的推理與采樣能力。他們證明，MDLM 提供了對所有掩碼位置的條件分布的訪問權限，并具備填充（in-filling）能力，這一特性解鎖了傳統 NTP 模型無法輕易實現的新型采樣與后訓練（post-training）機制。

首先，研究者展示了 MDLM 的填充能力如何開啟新的模型提示范式。在本文中，他們提出了「提示即填充」（prompting-as-infilling）的方法。與 NTP 模型僅能在序列起始位置添加提示不同，這種方法允許在多個位置添加由用戶指定的上下文。

更具體地，他們提出了「推理即填充」（reasoning-as-infilling）的框架。在該框架中，研究者預先構造了一個顯式的「推理模板」（reasoning template），其中包含特定的推理位置與答案位置（參見圖 1）。這一模板結構使得模型能夠基于給定的推理預算和格式，對推理軌跡進行采樣。

研究者發現，基于填充的模板帶來了多項優勢。通過顯式區分 token 答案的位置，模型可以利用 MDLM 提供的被掩碼位置的條件分布，在推理過程中量化答案的不確定性。由此，模型一旦在答案上收斂，就能夠提前退出（early exit），從而降低推理計算成本。例如，在 GSM8k 數據集上，這種方法減少了 24% 的函數調用，且模型準確率沒有任何下降。

「推理即填充」不僅帶來新的推理方式，也對模型行為分析與性能提升具有重要意義。給定一個答案，研究者就可以從 MDLM 的后驗分布中采樣，該后驗分布是以答案為條件的推理軌跡，即 p_θ (r | c, a)。

這種在 MDLM 框架下對后驗分布進行便捷采樣的能力，使得研究者能夠生成高質量的「事后推理（post-hoc reasoning）軌跡」，并將其用于模型微調，從而提升整體性能。

隨后，研究者重新審視了多 token 解碼問題。他們指出，在同一步驟中同時解碼多個位置，會導致生成樣本偏離模型學習到的真實分布，因為聯合分布與分解分布通常不一致：

為了解決這一偏差，研究者提出利用被掩碼位置的熵值來指導解碼過程，從而控制多 token 解碼相對于單 token 解碼的偏離程度。

基于這一思路，他們提出了一種自適應多 token 解碼器 —— 多 token 熵解碼（MED）。該方法僅在附加位置的條件熵低于設定閾值時，才進行并行解碼。

實驗結果表明，MED 方法能夠在保持性能幾乎不變（或僅有輕微下降）的情況下，實現 2–3 倍的函數調用減少，顯著降低推理計算量。

論文標題：No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
論文鏈接：https://arxiv.org/pdf/2510.19990

重新思考 MDLM 的推理與采樣

MDLM 通過建模被掩碼位置 j ∈ MASK-SET 的條件分布來學習對序列進行填充，其中 x_UNMASKED 表示未被掩碼的文本，c 表示上下文。

通常情況下，MDLM 的提示方式與 NTP 模型類似，而被掩碼位置的分布僅被用于在少量固定的位置進行采樣，其余位置的分布會被直接丟棄。

在本研究中，研究者表明，MDLM 所具備的填充能力，以及其對所有被掩碼位置的分布的訪問能力，開啟了許多新的采樣與后訓練潛能。

推理即填充：用于控制、早退出與后訓練優勢。研究者提出在序列的多個部分預先填充用戶指定的提示。對于推理任務，他們首先預填一個區分推理位置與答案位置的推理模板，然后使用 MDLM 模型對其進行填充。這種提示方式使得研究者能夠在推理過程中控制推理長度，并在生成推理軌跡的同時衡量答案區塊的不確定性，以支持早退出機制。此外，他們還展示了這種方法如何為 MDLM 的后訓練提供新的研究方向。
多 Token 熵解碼（MED）。研究者提出了一種自適應的多 token 解碼算法 MED。該方法通過僅在解碼位置的條件熵低于某一閾值時才同時解碼多個位置，從而控制多 token 解碼引入的誤差。

假設：研究者假設，MDLM 模型所學習到的掩碼條件分布能夠定義出一致的聯合分布。

推理即填充

一般而言，NTP 模型在推理階段的控制方式是：在序列的開頭插入一個提示前綴（prompt prefix）。然而，對于 MDLM，研究者提出可以在輸出序列中預先填充用戶指定的 token。

在推理任務中，當模型在生成最終答案之前會輸出一段推理軌跡時，研究者可以在輸出序列中預填一個區分推理 token 與答案 token 的推理模板：

其中，答案分隔符（answer delimiter）由用戶自行指定，例如在數學任務中可以是「The answer is: 」，而在代碼生成任務中可以是函數定義等。在這種提示方式的重新表述中，上下文 c 現在包含了提示和答案分隔符，如圖 1 所示。通過區分推理位置與答案位置，「推理即填充」在采樣與后訓練方面都提供了多項優勢。

1、提早停止

通過顯式指定答案區塊的位置，「推理即填充」使得研究者能夠在生成推理軌跡的過程中測量答案的不確定性。衡量不確定性的一種方法是：給定未被掩碼的推理位置時，計算答案區塊的熵。

然而，由于 MDLM 只能訪問每個答案 token 的邊緣分布

因此聯合熵的計算需要額外的估計。研究者指出，這些邊緣分布可以用于對聯合熵進行上界估計：

基于該結果，研究者提出了一種基于答案不確定性上界 H_UB 的早退出機制。具體而言，給定部分推理軌跡 r_UNMASKED，如果答案熵上界低于用戶設定的閾值 γ，即 H_UB< γ，則跳過剩余推理 token 的填充步驟，從而提前終止推理過程。

2、使用「推理即填充」對 MDLM 進行后訓練

通常，對模型進行推理類后訓練需要大量昂貴的人類示范數據。有人證明基于模型自身生成的推理軌跡進行后訓練也可以提升性能。這類方法的核心思想是：從后驗分布 p_θ (r | c, a) 中采樣推理軌跡，再用這些樣本進行訓練，從而提升模型生成正確答案的概率。

然而，對于標準的 NTP 模型，從后驗分布采樣是不可行的。因此，部分研究者采用了近似采樣方法，這些方法要么需要復雜的提示設計，要么需要額外訓練一個模型來根據答案提示生成推理軌跡。

相比之下，借助 MDLM 的「推理即填充」方法，只需在輸出序列中預先填充答案塊位置，即可實現從后驗分布中采樣，而無需復雜提示設計或額外訓練模型。這些后驗采樣得到的推理軌跡可以用于多種后訓練方法。

3、在后訓練中對部分推理軌跡進行評分

現有的微調算法（如 GRPO 和 RLOO ）通常不使用后驗樣本，而是僅在生成完成后對結果進行打分。這些算法可以從中間獎勵中獲益。近期研究表明，在生成過程中引入中間獎勵有助于模型采樣出更有利于微調的樣本。這些中間獎勵一般由外部的預訓練過程獎勵模型提供。而通過「推理即填充」，在已知答案的情況下，MDLM 可以在中間步驟對任意部分推理軌跡進行評分。給定部分推理軌跡 r_UNMASKED 和一個答案 a^*，可以計算其得分：

直觀上，當對于某個推理軌跡 r_UNMASKED，其生成的答案各個 token 的似然值更高時，該推理軌跡往往更有可能產生正確答案。

多 Token 熵解碼

由于 MDLM 學習了所有被遮蔽位置的條件分布，因此它能夠并行解碼多個 token。然而，同時并行解碼兩個位置（如 x_i 和 x_j）可能會導致生成的樣本不符合模型的聯合分布 pθ(x)，因為一般來說：

從表 1 中可以觀察到：即便同時并行解碼兩個 token，也會損害任務性能。

然而，對于任意位置集合 A?MASK-SET?{1,…,L}，可以用被遮蔽 token 的熵之和，來上界聯合分布與因子化分布之間的 KL 散度：

在本研究中，作者提出了多 Token 熵解碼方法，它利用被遮蔽位置 x^j 的熵值，來決定是否并行解碼多個位置。給定未遮蔽文本 x_UNMASKED、一個解碼閾值 λ，以及最大并行解碼數 k_max，作者提出了兩種選擇解碼位置集 A 的策略：

MED：按熵值升序排序，選擇滿足λ 的位置進行解碼，最多選擇 k_max 個 token。若沒有位置的熵低于閾值，則選擇熵值最低的那個位置。
AR-MED（自回歸多 Token 熵解碼）：按從左到右的順序，選擇滿足的連續位置，最多解碼 k_max token。若沒有位置滿足條件，則選擇最左側的那個位置進行解碼。

MED 和 AR-MED 都允許通過 λk_max 對式（5）中的 kullback - Leibler 散度進行上界限制，從而控制多 token 解碼所產生的誤差。

實驗結果

使用多 token 熵解碼的加速采樣

如圖 3 所示，對于 LLaDA 和 Dream，僅并行解碼 k=2 個 token 會導致它們在 GSM8k 上的準確率大幅下降（超過 40%）。作者發現，解碼 k=2 還會導致 KL 散度顯著增加。使用 λ=0.2 的 MED 方法，能為 LLaDA 和 Dream 帶來顯著的速度提升，且不會損失準確率。在 HUMANEVAL 上，MED 方法在實現 2.2 倍速度提升的同時，準確率保持不變；而在 GSM8k 上，可以觀察到其實現了 1.5 倍的速度提升，且性能沒有損失。

此外，在表 6 中，作者還測量了單 token 解碼方案與多 token 解碼方案的似然值之間的 KL 散度。

推理即填充的好處

在表 2 中，可以觀察到：對于 Dream 和 LLaDA 兩種模型而言，提前退出都能減少總的 NFE。隨著提前退出閾值 γ 的提高，模型能夠在犧牲一定任務精度的情況下換取更快的推理速度。當提前退出與 MED 或 AR-MED 結合使用時，可獲得進一步的計算節省。

值得注意的是，提前退出帶來的收益在 LLaDA 模型上比 Dream 模型更顯著。Dream 模型要實現相似的加速效果，通常需要設定更高的退出閾值。這一差異可能源于 Dream 模型的結構與來源 —— 它是由 NTP 模型改編而來。

通過表 4 可以觀察到，在由基礎模型生成的后驗數據上對模型進行微調，顯著提升了性能（提升 14.9%）。在 GSM8k 人工標注的推理軌跡上進行微調能產生相似的結果。這些結果證明，最大化后驗推理軌跡上的對數似然可提高推理任務的準確率。

之前有研究發現，中間過程獎勵能提升模型微調效果，但通常需要額外訓練外部模型。在圖 4 中，作者比較了在給定中間獎勵的情況下，用于估計部分推理軌跡最終正確性的各種策略。

使用 LLaDA-8B Instruct 模型，作者在 GSM8k 測試集上采用貪心采樣策略，從左到右、逐 token 生成答案。隨后，他們計算了中間獎勵與最終輸出正確性之間的 Pearson 相關系數。

在推理過程中，利用答案的對數概率定義的中間推理過程，與最終答案正確性在中間步驟上的相關性，比一個擁有 70 億參數的預訓練過程獎勵模型更強。

值得注意的是，作者還發現，測量答案塊的對數概率有助于過濾通過后驗采樣生成的低質量推理鏈。對于一個未預填答案的后驗推理鏈，其 MDLM 平均答案概率能夠預測 GPT-4o 的推理鏈正確性得分。

這些結果表明，MDLM 預訓練帶來了新的后訓練能力：

可以提前終止或過濾低質量的推理鏈；
可以引導推理過程朝正確解方向發展；
可以在推理失敗處自動插入「反思」token；
還可以將新的密集反饋信號納入微調目標中。

責任編輯：張燕妮來源：機器之心

AI 語言模型訓練