token危機解決？擴散模型數據潛力3倍于自回歸，重訓480次性能仍攀升

2025-08-11 09:08:00

擴散語言模型（DLMs）是超強的數據學習者。

token 危機終于要不存在了嗎？

近日，新加坡國立大學 AI 研究者 Jinjie Ni 及其團隊向著解決 token 危機邁出了關鍵一步。

在當前大語言模型（LLM）的持續發展中，面臨的挑戰之一是可用的高質量訓練文本數據（tokens）即將枯竭，并成為限制模型性能持續提升的關鍵瓶頸。另外，新增的高質量數據來源少，獲取成本高，去重后更加稀缺。因此，當模型規模繼續擴大，所需數據量按 Scaling Laws 成倍增加時，就出現了「優質 token 不夠訓練」的危機。

針對這一現象，該團隊從零開始預訓練了擴散語言模型（DLMs）與自回歸（AR）模型，其中規模最高至 80 億參數、4800 億 tokens、480 個 epoch。

研究有以下三項重要發現：

在 token 數量受限的情況下，DLMs 優于 AR，并且具有超過 3 倍的數據潛力；
一個僅用 10 億 tokens 訓練的 10 億參數 DLM，在 HellaSwag（常識推理基準）上可達 56%，在 MMLU（綜合多任務語言理解基準）上可達 33%，無任何技巧、無挑選數據；
未出現性能飽和：重復訓練次數越多，提升越明顯。

此外，團隊還剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的嚴重方法論缺陷 —— 以共同提升開放評審的標準！

Jinjie Ni 在社媒 X 上詳細介紹了其團隊的研究結論、研究方法，接下來我們一一來看。

結論 1：擴散語言模型（DLMs）是超強的數據學習者。

如上所述，團隊從零開始預訓練了一系列 DLMs，規模最高達 80 億參數、4800 億 tokens。結果提供了有力證據：在普通網頁數據上進行重復訓練時，DLMs 在數據受限場景下無論模型規模如何，都優于自回歸（AR）模型，展現出顯著更高的潛力且未出現性能飽和。

總體而言，DLMs 的最終數據潛力比 AR 模型高出三倍以上。

結論 2：重復越多，收獲更多。

為了研究 DLM 訓練中 token 的全部潛力，團隊進行了額外實驗：將同一份 10 億 token 的數據集重復訓練 480 個 epoch，總訓練量達到 4800 億 tokens。結果顯示，模型在 HellaSwag 上取得約 56% 的準確率，在 MMLU 上取得約 33%，顯著優于 AR 的約 41% 和約 29%。

令人驚訝的是，即使在如此極端的重復條件下，性能依然未出現飽和，這表明 DLMs 能夠從固定的 10 億 token 語料中提取到遠超預期的有效信息。

「在驗證集上出現過擬合的模型，在下游任務上的表現卻持續提升。」為什么會這樣呢？

團隊可視化了多選評測中，真實答案與其他選項的平均負對數似然（NLL），以及它們之間的差值（△NLL）。即使在驗證集上出現「過擬合」后，真實答案與其他選項的 NLL 差距（△NLL）依然持續擴大，這表明盡管驗證損失在上升，模型的底層判別能力仍在不斷提升。這一現象在域內數據和域外數據的訓練中都同樣存在。

雖然 DLMs 對數據重復具有較強的魯棒性，但在訓練足夠長的 epoch 后，它們同樣會發生過擬合。更大的唯一數據量可以延緩過擬合的出現，而更大的模型規模則會加速過擬合的到來。

為什么 DLMs 是超強的數據學習者呢？原因有二。

其一，如下圖所示，網頁文本數據并非完全因果結構！雖然用非因果方向建模會導致更高的損失，但它仍然是可行的。這意味著僅用純因果方式來建模網頁數據是一種浪費！借助擴散目標和雙向注意力，DLMs 能夠對數據進行雙向建模，從網頁數據中提取到更多信息。

其二，DLMs 是「超密集模型」，它們在計算上的超高密度（每個任務需要更多的 FLOPs）直接轉化為更強的智能。

相比之下，AR 模型更優先考慮計算效率，而非數據潛力。它們的 Transformer 設計（包括教師強制和因果掩碼）最大化 GPU 的使用效率，但限制了建模能力。隨著計算成本下降，數據可得性反而成為關鍵瓶頸 —— 這正是團隊研究 DLMs 的動力所在。

擴散目標要求在有效訓練中，將預訓練數據集中的每個數據點在多個掩碼比例和組合下進行損壞，以便更精確估計期望值。這進一步解釋了為什么數據重復訓練能帶來如此顯著的收益。

巧合的是，一項同期研究「Diffusion Beats Autoregressive in Data-Constrained Settings」[1] 也探討了類似主題。然而，團隊在細致分析后，揭示了其中存在的若干方法論問題，可能導致結論存在偏差。

[1] 地址：https://arxiv.org/abs/2507.15857

在 [1] 的所有實驗中，研究者使用了損失函數 (1)，但未做出明確的理論解釋。然而，這個損失函數與理論基礎更扎實、被廣泛采用的掩碼擴散語言建模損失 (2) 有顯著差異。從理論上可以證明損失函數 (1) 并不能忠實地表示模型似然，這可能會對其結論造成嚴重影響。

團隊還注意到，[1] 在最新的 arXiv v3 版本中對原始草稿進行了修改，增加了一個線性時間依賴的重新加權項。但仍假設其所有實驗均使用了公式 (1)，因為論文中圖 4 (b) 的損失范圍與公式 (1) 的預期表現高度吻合。團隊期待 [1] 的代碼庫（在本文撰寫時仍為空倉庫）以及社區對相關實驗的復現。

問題來了：驗證集損失是比較 AR 和 DLM 的好指標嗎？簡短來說：當損失函數的形式本身有問題時，當然不是。它們并不代表相同的含義；即使損失函數形式正確，也依然不是好指標。

原因包括如下：

AR 測量的是精確的負似然，而 DLM 測量的是一個上界；
更低的損失并不意味著更強的能力，這一點在上文的討論中已有體現。

此外，[1] 報告的 AR 基準測試結果距離最佳水平相差甚遠。換句話說，[1] 實際上是在拿一個尚未訓練到最佳狀態的 AR 檢查點，與一個最佳的擴散模型檢查點進行比較。這是不公平的。

此外，[1] 在比較 AR 與擴散模型的過擬合趨勢時，為 AR 使用了更大的模型規模和更少的唯一訓練 token 數量。這種設置并不公平，因為更大的模型在訓練數據多樣性不足的情況下，本身就更容易更早出現過擬合。

最后，[1] 中使用的 scaling law 公式假設驗證集損失不會下降，但這一假設在實際中并不成立，因為過擬合會導致驗證損失上升。這個有缺陷的假設會導致擬合效果不佳，并使基于其預測得出的任何結論產生偏差。

目前，團隊正在用一種瘋狂的設置訓練一個大模型，并在之后發布完整論文。

更多細節內容請參考博客和即將發布的論文。

責任編輯：張燕妮來源：機器之心

模型數據 AI