擴散語言模型扛把子LLaDA迎來新版本，數學、代碼、對齊能力均提升

2025-06-09 08:47:00

近期，擴散語言模型受到廣泛關注，催生了一系列針對該領域的探索性研究，隨著 Gemini Diffusion 的發布，這一趨勢進一步加速。

本文介紹的工作由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。朱峰琪、王榕甄、聶燊是中國人民大學高瓴人工智能學院的博士生，導師為李崇軒副教授。

該研究基于團隊前期發布的 8B 擴散語言模型 LLaDA（國內率先做到真正可用的擴散語言模型，是后續很多研究的主干基礎模型），探索了擴散語言模型的偏好對齊方法，提出了方差縮減的偏好優化方法 VRPO，并利用 VRPO 對 LLaDA 進行了強化對齊，推出了 LLaDA 1.5。與 LLaDA 相比，LLaDA 1.5 在數學、代碼和對齊任務上取得了一致性的提升。同時，VRPO 為后續擴散語言模型的對齊提供了統一的框架。

近期，擴散語言模型受到廣泛關注，催生了一系列針對該領域的探索性研究，隨著 Gemini Diffusion 的發布，這一趨勢進一步加速。

然而，現有的大型擴散語言模型多采用「預訓練 + 有監督微調」的范式，針對擴散語言模型的強化對齊進行深入研究的工作較為有限。

強化對齊對于大語言模型的指令遵循和通用任務能力至關重要。研究團隊以直接偏好優化（DPO）為切入點，剖析了擴散語言模型在強化對齊時面臨的關鍵問題，提出了方差縮減的偏好優化方法，使擴散語言模型能夠實現穩定的強化對齊訓練，這一原則也為后續擴散語言模型的對齊工作提供了理論基礎和實踐指南。

論文標題：LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
論文鏈接：https://arxiv.org/abs/2505.19223
項目地址：https://ml-gsai.github.io/LLaDA-1.5-Demo/

性能表現：數學、代碼、對齊任務相比 LLaDA 取得一致性提升

相比于 LLaDA，LLaDA 1.5 在數學、代碼生成、對齊任務上取得了一致性的提升。

此外，LLaDA 1.5 是當前最具有競爭力的擴散語言模型。與其他擴散語言模型相比，在數學任務（如 GSM8K，Math）上具有競爭性優勢。

相比于 LLaDA，LLaDA 1.5 在指令遵循能力上的提升顯著：

上述指令給出了對模型的一系列要求：提出兩種新型補品的名字并包含關鍵詞「brand」，名稱以雙尖括號標注，先逐詞復述請求，再給出答案。相比 LLaDA，LLaDA 1.5 遵循了全部指令。

方法介紹

該研究以直接偏好優化（DPO）為切入點，原始 DPO 損失基于模型對給定偏好數據對的對數似然。對于掩碼擴散語言模型，難以計算精確的對數似然，使用證據下界（ELBO）近似。需要通過對時間步 t 和掩碼數據 y_t 進行雙重采樣進行估計：

將 ELBO 帶入 DPO 損失的對數似然項，可以得到基于 ELBO 的 DPO 損失估計器：

其中，紅色部分為偏好估計。

在實際應用中，采用蒙特卡洛方法近似對數似然會引入 DPO 損失的偏差和方差，影響模型的梯度估計，進而導致訓練過程不穩定，甚至影響模型對齊后的最終性能表現。

本研究首先證明了：蒙特卡洛估計引入的偏差和方差，可以被偏好估計器的方差限制；降低偏好估計器的方差可以分解為降低 ELBO 估計的方差，以及提高 π_θ 和 π_ref 的 ELBO 估計之間的相關性。據此，本研究提出并證明了以下方差縮減策略的有效性：

提高蒙特卡洛估計的采樣預算；提高采樣預算能夠降低 ELBO 估計的方差。
給定總采樣預算的最優分配策略；在給定總采樣預算 n=n_t×n_(y_t) 下，當采樣預算分配為采樣 n 個時間步、每個時間步采樣一個加噪樣本時，ELBO 估計的方差達到最小。
對偶采樣策略。通過增加 π_θ 和 π_ref 所使用噪聲樣本之間的相關性，能夠進一步降低梯度估計的方差。具體而言，在 ELBO 估計中，對于 π_θ 和 π_ref，應當共享相同的偏好數據的噪聲樣本和拒絕數據的噪聲樣本。

綜合上述策略，最終得到的方差縮減的偏好優化方法如下右圖。對于每一個偏好數據對，在給定的采樣預算 n 下，采樣 n_t=n 個時間步，對于每個時間步采樣 1 個噪聲樣本，并在 π_θ 和 π_ref 間共享噪聲樣本，以進行高效偏好估計。

總結與展望

本研究圍繞擴散語言模型的偏好對齊任務，提出了方差縮減的偏好優化方法 VRPO，并從理論分析與實際實驗兩方面系統論證了該方法在有效降低梯度估計方差、提升模型對齊效果上的優越性。基于 VRPO 優化的 LLaDA 1.5 模型，在數學推理、代碼生成、模型對齊等多個任務上均實現了全面且穩定的性能提升，驗證了方法的通用性和有效性。

本研究提出的方差縮減算法 VRPO 主要以 DPO 為分析對象，但所提出的方法具有普適性，可被推廣應用到其他涉及 ELBO 估算或強化對齊的算法中，為擴散語言模型在強化對齊領域構建了統一的理論與方法框架。

責任編輯：張燕妮來源：機器之心

模型 AI 訓練