token危機解決?擴散模型數據潛力3倍于自回歸,重訓480次性能仍攀升
token 危機終于要不存在了嗎?
近日,新加坡國立大學 AI 研究者 Jinjie Ni 及其團隊向著解決 token 危機邁出了關鍵一步。
在當前大語言模型(LLM)的持續發展中,面臨的挑戰之一是可用的高質量訓練文本數據(tokens)即將枯竭,并成為限制模型性能持續提升的關鍵瓶頸。另外,新增的高質量數據來源少,獲取成本高,去重后更加稀缺。因此,當模型規模繼續擴大,所需數據量按 Scaling Laws 成倍增加時,就出現了「優質 token 不夠訓練」的危機。
針對這一現象,該團隊從零開始預訓練了擴散語言模型(DLMs)與自回歸(AR)模型,其中規模最高至 80 億參數、4800 億 tokens、480 個 epoch。
研究有以下三項重要發現:
- 在 token 數量受限的情況下,DLMs 優于 AR,并且具有超過 3 倍的數據潛力;
- 一個僅用 10 億 tokens 訓練的 10 億參數 DLM,在 HellaSwag(常識推理基準) 上可達 56%,在 MMLU(綜合多任務語言理解基準) 上可達 33%,無任何技巧、無挑選數據;
- 未出現性能飽和:重復訓練次數越多,提升越明顯。
此外,團隊還剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的嚴重方法論缺陷 —— 以共同提升開放評審的標準!
Jinjie Ni 在社媒 X 上詳細介紹了其團隊的研究結論、研究方法,接下來我們一一來看。

結論 1:擴散語言模型(DLMs)是超強的數據學習者。
如上所述,團隊從零開始預訓練了一系列 DLMs,規模最高達 80 億參數、4800 億 tokens。結果提供了有力證據:在普通網頁數據上進行重復訓練時,DLMs 在數據受限場景下無論模型規模如何,都優于自回歸(AR)模型,展現出顯著更高的潛力且未出現性能飽和。
總體而言,DLMs 的最終數據潛力比 AR 模型高出三倍以上。

結論 2:重復越多,收獲更多。
為了研究 DLM 訓練中 token 的全部潛力,團隊進行了額外實驗:將同一份 10 億 token 的數據集重復訓練 480 個 epoch,總訓練量達到 4800 億 tokens。結果顯示,模型在 HellaSwag 上取得約 56% 的準確率,在 MMLU 上取得約 33%,顯著優于 AR 的約 41% 和約 29%。
令人驚訝的是,即使在如此極端的重復條件下,性能依然未出現飽和,這表明 DLMs 能夠從固定的 10 億 token 語料中提取到遠超預期的有效信息。

「在驗證集上出現過擬合的模型,在下游任務上的表現卻持續提升。」為什么會這樣呢?

團隊可視化了多選評測中,真實答案與其他選項的平均負對數似然(NLL),以及它們之間的差值(△NLL)。即使在驗證集上出現「過擬合」后,真實答案與其他選項的 NLL 差距(△NLL)依然持續擴大,這表明盡管驗證損失在上升,模型的底層判別能力仍在不斷提升。這一現象在域內數據和域外數據的訓練中都同樣存在。

雖然 DLMs 對數據重復具有較強的魯棒性,但在訓練足夠長的 epoch 后,它們同樣會發生過擬合。更大的唯一數據量可以延緩過擬合的出現,而更大的模型規模則會加速過擬合的到來。

為什么 DLMs 是超強的數據學習者呢?原因有二。
其一,如下圖所示,網頁文本數據并非完全因果結構!雖然用非因果方向建模會導致更高的損失,但它仍然是可行的。這意味著僅用純因果方式來建模網頁數據是一種浪費!借助擴散目標和雙向注意力,DLMs 能夠對數據進行雙向建模,從網頁數據中提取到更多信息。

其二,DLMs 是「超密集模型」,它們在計算上的超高密度(每個任務需要更多的 FLOPs)直接轉化為更強的智能。

相比之下,AR 模型更優先考慮計算效率,而非數據潛力。它們的 Transformer 設計(包括教師強制和因果掩碼)最大化 GPU 的使用效率,但限制了建模能力。隨著計算成本下降,數據可得性反而成為關鍵瓶頸 —— 這正是團隊研究 DLMs 的動力所在。
擴散目標要求在有效訓練中,將預訓練數據集中的每個數據點在多個掩碼比例和組合下進行損壞,以便更精確估計期望值。這進一步解釋了為什么數據重復訓練能帶來如此顯著的收益。

巧合的是,一項同期研究「Diffusion Beats Autoregressive in Data-Constrained Settings」[1] 也探討了類似主題。然而,團隊在細致分析后,揭示了其中存在的若干方法論問題,可能導致結論存在偏差。

[1] 地址:https://arxiv.org/abs/2507.15857
在 [1] 的所有實驗中,研究者使用了損失函數 (1),但未做出明確的理論解釋。然而,這個損失函數與理論基礎更扎實、被廣泛采用的掩碼擴散語言建模損失 (2) 有顯著差異。從理論上可以證明損失函數 (1) 并不能忠實地表示模型似然,這可能會對其結論造成嚴重影響。
團隊還注意到,[1] 在最新的 arXiv v3 版本中對原始草稿進行了修改,增加了一個線性時間依賴的重新加權項。但仍假設其所有實驗均使用了公式 (1),因為論文中圖 4 (b) 的損失范圍與公式 (1) 的預期表現高度吻合。團隊期待 [1] 的代碼庫(在本文撰寫時仍為空倉庫)以及社區對相關實驗的復現。

問題來了:驗證集損失是比較 AR 和 DLM 的好指標嗎?簡短來說:當損失函數的形式本身有問題時,當然不是。它們并不代表相同的含義;即使損失函數形式正確,也依然不是好指標。
原因包括如下:
- AR 測量的是精確的負似然,而 DLM 測量的是一個上界;
- 更低的損失并不意味著更強的能力,這一點在上文的討論中已有體現。
此外,[1] 報告的 AR 基準測試結果距離最佳水平相差甚遠。換句話說,[1] 實際上是在拿一個尚未訓練到最佳狀態的 AR 檢查點,與一個最佳的擴散模型檢查點進行比較。這是不公平的。

此外,[1] 在比較 AR 與擴散模型的過擬合趨勢時,為 AR 使用了更大的模型規模和更少的唯一訓練 token 數量。這種設置并不公平,因為更大的模型在訓練數據多樣性不足的情況下,本身就更容易更早出現過擬合。

最后,[1] 中使用的 scaling law 公式假設驗證集損失不會下降,但這一假設在實際中并不成立,因為過擬合會導致驗證損失上升。這個有缺陷的假設會導致擬合效果不佳,并使基于其預測得出的任何結論產生偏差。
目前,團隊正在用一種瘋狂的設置訓練一個大模型,并在之后發布完整論文。
更多細節內容請參考博客和即將發布的論文。



































