循環語言模型:提升參數效率的潛在推理新范式
現代大型語言模型(LLM)主要通過顯式文本生成方式進行"思考",例如思維鏈(Chain-of-Thought, CoT),這種方法將推理延遲到訓練后階段,未能充分利用預訓練數據。本文介紹了一種名為Ouro的開源預訓練循環語言模型(LoopLM)家族,其命名靈感來自遞歸的銜尾蛇(Ouroboros),通過三種關鍵創新將推理能力直接構建到預訓練階段:(1)潛在空間中的迭代計算,(2)用于學習深度分配的熵正則化目標函數,以及(3)擴展到7.7萬億token的訓練規模。
核心創新與技術亮點
Ouro模型展現了卓越的參數效率,其1.4B和2.6B參數規模的模型性能可以匹配甚至超越12B參數的SOTA模型。這種效率提升主要源于模型的循環架構設計,使得相同的參數可以被重復使用,從而在固定參數預算內實現更深的計算深度。
如上圖所示,Ouro模型采用參數共享的循環架構(左),使得1.4B和2.6B參數的模型(紅色)能夠與更大規模的基線模型相媲美或超越(中、右)。
循環語言模型(LoopLM)架構
LoopLM的核心思想是通過遞歸地重復應用共享權重的層,在固定參數預算內實現動態計算。與標準Transformer不同,LoopLM將L層Transformer塊視為一個可重復應用T次的單元:
H^(t) = TransformerLayer_θ(H^(t-1)), for t=1,...,T, with H^(0) asinput這種設計使得計算深度與參數數量解耦,模型可以通過增加遞歸步數(T)來增強推理能力,而無需增加參數數量。
自適應計算與早退機制
Ouro模型的另一個創新是自適應計算深度分配機制。通過學習的早退門控函數,模型可以根據輸入復雜度動態決定需要多少遞歸步驟:
如上圖所示,訓練階段(左),模型應用N個共享權重層進行n次遞歸步驟。每一步i,退出門預測概率p_i,語言建模頭計算任務損失。訓練目標結合了所有步驟的期望任務損失與熵正則化項。推理階段(右),模型可以基于累積分布函數(CDF)提前退出,為簡單輸入分配更少步驟,為復雜輸入分配更多步驟。
熵正則化訓練目標
為了讓模型學會何時應該退出遞歸計算,作者設計了一個熵正則化的訓練目標:
? = ∑(t=1 to Tmax) qφ(t|x)·?^(t) - β·H(qφ(·|x))其中第一項是期望任務損失,第二項是退出步驟分布的熵正則化。與之前工作不同,Ouro采用均勻先驗而非幾何先驗,這使得模型能夠在不受偏見的情況下探索所有可能的計算深度。
實驗結果與性能分析
參數效率
Ouro模型展現了卓越的參數效率,1.4B參數模型(4次遞歸)性能可匹配4B標準Transformer,2.6B參數模型可匹配8B標準模型,實現了2-3倍的參數效率提升。
如上圖所示,Ouro-Thinking模型在多項數學和科學數據集上與更大規模的基線模型相當或超越。
遞歸深度與性能關系
研究發現,增加遞歸步數通常會提高模型性能,但這種提升在達到訓練深度(T=4)后會出現飽和。有趣的是,即使在超出訓練配置的步數(T>4)時,模型的安全性仍會持續提高,表明迭代精煉過程對安全對齊有積極影響。
知識容量與操作能力
通過控制實驗,研究者發現LoopLM的優勢不是來自增加的知識存儲容量(每參數約2比特,與非循環模型相同),而是來自顯著增強的知識操作能力。在需要事實組合和多跳推理的任務上,LoopLM表現出明顯優勢。
如上圖所示,左側展示了循環模型與標準模型在知識容量上的相似性,而右側表格展示了循環模型在知識操作任務上的優勢。
安全性、忠實性與一致性
安全性
研究表明,隨著遞歸步數的增加,Ouro模型在HEx-PHI基準測試上的有害性降低,這一趨勢甚至在超出訓練配置的步數(5-8步)時仍然持續。
如上圖所示,隨著遞歸步數增加,模型在HEx-PHI上的有害性得分和有害率均顯著下降。
推理忠實性
與標準LLM的思維鏈不同,LoopLM的潛在推理過程與最終答案因果相關。研究者通過在Quora Question Pairs數據集上的實驗發現,隨著遞歸深度增加,模型的決策會發生實質性變化,表明內部推理確實影響最終輸出。
如上圖所示,左側展示了不同遞歸步驟中線性探針的ROC AUC,右側熱圖顯示了不同步驟間預測標簽的一致性。這種系統性的不一致表明,模型在遞歸深化過程中確實在更新其決策。
技術實現細節
訓練流程
Ouro模型采用多階段訓練流程,包括預熱、穩定訓練、CT退火、長上下文訓練和中間訓練等階段,總計在7.7萬億token上進行訓練。
如上圖所示,訓練過程從共同的預熱階段開始,然后分為兩個流:一個保持1.3B參數(產生Ouro-1.4B),一個上循環至2.6B參數(產生Ouro-2.6B)。兩個流獨立經歷相同的后續四階段訓練過程,最后通過推理SFT階段創建Ouro-Thinking模型。
KV緩存共享策略
為解決循環架構導致的內存開銷問題,研究者探索了KV緩存重用策略,發現在解碼階段,只保留最后一步的KV緩存或所有步驟的平均KV緩存,可以在幾乎不損失性能的情況下將內存需求降低4倍。
未來展望與應用前景
循環語言模型(LoopLM)為大語言模型的發展提供了一個新的擴展方向,超越了傳統的參數規模和數據量兩個維度。未來研究可以從以下幾個方面進一步探索:
- 遞歸機制的優化:探索更復雜的遞歸結構,如條件遞歸或混合遞歸,進一步提高模型的推理能力和參數效率。
- 自適應深度分配的精細化:開發更精確的門控機制,能夠在token級別動態分配計算資源,為不同類型的輸入內容提供最優的計算深度。
- 多模態LoopLM:將循環架構擴展到多模態領域,探索在視覺-語言任務中的應用潛力,特別是需要多步推理的復雜場景理解任務。
- 邊緣設備部署:利用LoopLM的參數效率優勢,開發適用于資源受限設備的高效推理系統,實現本地化的復雜推理能力。
- 結合神經符號方法:將LoopLM與神經符號推理系統結合,探索如何利用循環結構更好地實現符號操作和邏輯推理。
這些方向不僅可以進一步提升模型性能,還有望在實際應用中解決計算資源限制問題,使高級推理能力更廣泛地應用于各種場景。
結論
Ouro循環語言模型展示了通過架構創新實現參數效率提升的巨大潛力。通過在預訓練階段直接構建迭代計算和自適應深度分配機制,LoopLM在固定參數預算內實現了卓越的推理性能。這種方法不僅提高了模型效率,還增強了安全性和推理忠實性,為未來大語言模型的發展提供了新的思路。
相關資源
- 模型主頁:http://ouro-llm.github.io/
- 論文鏈接:https://arxiv.org/abs/2510.25741





































