Qwen3 變身擴散語言模型?不從零訓練也能跑,30B參數創紀錄
擴散語言模型(Diffusion Language Models,DLM)一直以來都令研究者頗感興趣,因為與必須按從左到右順序生成的自回歸模型(Autoregressive, AR)不同,DLM 能實現并行生成,這在理論上可以實現更快的生成速度,也能讓模型基于前后文更好地理解生成語境。
然而,盡管其潛力巨大,DLM 的訓練仍然充滿挑戰,主要原因是它在 scaling 上的效率相對低于 AR 模型。例如,直接訓練 DLM 需要在有限的數據集上進行更多次迭代,才能超越直接訓練的 AR 模型。此外,AR 模型還擁有顯著的「先發優勢」—— 包括成熟的訓練基礎設施、穩定的訓練配方以及廣泛的從業者經驗積累。
為了克服這些難點,來自 Radical Numerics(一個新的 AI 初創)的研究團隊選擇了另一條路:在現有自回歸模型的基礎上進行改造,讓它具備擴散語言模型的能力。

他們剛剛發布的 RND1-Base(Radical Numerics Diffusion)是迄今為止規模最大的開源擴散語言模型。其生成效果如下:

這是一個實驗性的 30B 參數稀疏 MoE 模型,其中有 3B 激活參數,由一個預訓練的 AR 模型(Qwen3-30BA3B)轉換而來,并在持續預訓練中累積訓練 500B 個 token,以實現完整的擴散行為。作者同步開源了模型、訓練配方、推理代碼以及樣例輸出。

- 技術報告:Training Diffusion Language Models at Scale using Autoregressive Models
- 報告鏈接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
- 代碼鏈接:https://github.com/RadicalNumerics/RND1
- HuggingFace 鏈接:https://huggingface.co/radicalnumerics/RND1-Base-0910
這項研究的主要貢獻包括:
- 系統性研究了大規模 A2D(Autoregressive-to-Diffusion)轉換過程中的關鍵因素,如初始化策略、層級學習率和臨界批大小。
- 識別出能夠實現可擴展性與穩定性的關鍵因素,并證明當這些因素與成熟的自回歸預訓練方法結合時,簡單的技術組合也能催生可擴展的 DLM。
- 推出了迄今為止最大的基礎擴散語言模型 RND1-30B,展示了將自回歸預訓練經驗科學化轉換后可在多項基準測試中取得卓越表現。
具體來說,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代碼生成(MBPP)等通用基準測試中測試了 RND1。結果顯示,它在所有評測中均穩定超越現有 Dream-7B 和 LLaDA-8B,同時保持了其自回歸基礎模型的強大性能。

這些結果表明,將擴散語言模型規模擴展到 80 億參數以上不僅可行,而且切實有效。A2D 轉換可能是訓練 DLM 更優的策略。RND1 也是首個在此規模上成功展示擴散模型訓練的開源項目。
不過,需要指出的是,研究者并未將 RND1 與 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 進行對比。從部分指標來看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表現。兩個模型哪個更強還需要進一步 PK。

圖源:https://arxiv.org/pdf/2509.24389
簡單持續預訓練(SCP)
從一個自回歸檢查點訓練擴散語言模型,會引出兩個核心問題:
第一,如何在一個原本僅支持因果注意力(causal attention)的架構中引入雙向上下文?
第二,如何在轉換過程中保留 AR 模型從數萬億 token 預訓練中獲得的語言與事實知識?
早期研究提出了多階段復雜流程,例如注意力掩碼退火(attention mask annealing),通過逐步放松因果掩碼實現雙向注意力;或嫁接法(grafting),即系統性修改模型結構,用雙向注意力替換因果注意力。
這些方法在小規模模型上有效,但往往引入額外設計選擇(如掩碼變化策略、退火 / 嫁接調度),難以穩定地推廣至大規模。
相較之下,作者發現了一種更簡單的方法 —— 簡單持續預訓練(SCP),能夠達到與這些復雜 A2D 轉換流程相當的性能。
其配方極為直接:
- 從一個強大的 AR 檢查點開始;
- 在初始化時將因果掩碼替換為雙向掩碼;
- 在掩碼擴散目標下繼續預訓練,并采用學習率預熱。
通過層級學習率保留 AR 預訓練知識
A2D 轉換面臨的主要風險之一是災難性遺忘:模型可能在轉換過程中丟失原有的事實知識。 既有研究表明,Transformer 類語言模型中的知識(尤其是事實關聯)主要編碼在 FFN/MLP 層中 ?;谶@一認識,他們在不同參數組間采用了分層學習率策略:
在轉換期間,注意力層使用更高的學習率以便快速適應雙向上下文,而非注意力層(如 MLP 與嵌入層)使用較低學習率,以最大程度保留 AR 預訓練知識。
A2D 轉換在大 batch size 訓練下表現更佳
自回歸訓練與擴散訓練的一個細微但關鍵的區別在于:每個批次提供的監督信號量不同。 在 AR 模型中,每個 token 都會參與損失計算;而在擴散訓練中,只有序列中被掩蓋的位置會參與監督。在標準掩碼擴散目標下,平均掩碼比例約為 50%,也就是說只有一半的 token 參與學習。 這種較弱的學習信號意味著,用于 scale batch size 和學習率的標準自回歸啟發式方法不一定適用于擴散訓練。
為更好理解這一點,作者估計了臨界批大小(Critical Batch Size, CBS)—— 即當數據并行度繼續增大時,損失改進收益開始遞減的閾值。按照其他論文中的方法,他們通過分支訓練實驗來實證確定該點。
從一個在 SCP 配方下已訓練 600 億 token 的 40 億參數模型檢查點出發,作者啟動了四個僅在全局批量大小上不同的并行訓練分支。他們調整學習率、保持優化器設置與權重衰減不變,并在 token 空間上對齊預熱與衰減調度。每個分支再訓練額外 50 億 token。
實驗結果表明,在 40 億參數規模下,隨著批量增大,擴散損失持續單調下降,直到約 800 萬 token 仍有收益。換句話說,擴散語言模型在持續預訓練階段能夠有效利用更大的 batch size—— 這對大規模訓練是一個積極信號。

為什么要改造自回歸模型?
RND1 展示了如何在不推倒重來的情況下,高效探索新架構與新訓練范式。
這種效率體現了 Radical Numerics 核心理念的本質 —— 構建一個能夠遞歸自我改進的自動化 AI 研究平臺,讓 AI 系統幫助設計和優化下一代 AI。
通過自動化實驗循環,他們能夠更快地遍歷搜索空間,驗證更大膽的想法。RND1 正是這一理念的首個具體成果之一。

Radical Numerics 的創始成員來自 DeepMind、Meta、Liquid、Stanford 等頂級機構,偏好混合架構、Hyena 和 Evo 等技術。在一個社交媒體帖子中,公司創始人之一 Michael Poli 闡述了他們的信念和愿景。

感興趣的讀者可以查閱更多資料了解該公司。



































