循環語言模型：提升參數效率的潛在推理新范式

作者：可可 2025-11-04 01:43:00

Ouro模型展現了卓越的參數效率，其1.4B和2.6B參數規模的模型性能可以匹配甚至超越12B參數的SOTA模型。這種效率提升主要源于模型的循環架構設計，使得相同的參數可以被重復使用，從而在固定參數預算內實現更深的計算深度。

現代大型語言模型(LLM)主要通過顯式文本生成方式進行"思考"，例如思維鏈(Chain-of-Thought, CoT)，這種方法將推理延遲到訓練后階段，未能充分利用預訓練數據。本文介紹了一種名為Ouro的開源預訓練循環語言模型(LoopLM)家族，其命名靈感來自遞歸的銜尾蛇(Ouroboros)，通過三種關鍵創新將推理能力直接構建到預訓練階段：(1)潛在空間中的迭代計算，(2)用于學習深度分配的熵正則化目標函數，以及(3)擴展到7.7萬億token的訓練規模。

核心創新與技術亮點

如上圖所示，Ouro模型采用參數共享的循環架構(左)，使得1.4B和2.6B參數的模型(紅色)能夠與更大規模的基線模型相媲美或超越(中、右)。

循環語言模型(LoopLM)架構

LoopLM的核心思想是通過遞歸地重復應用共享權重的層，在固定參數預算內實現動態計算。與標準Transformer不同，LoopLM將L層Transformer塊視為一個可重復應用T次的單元：

H^(t) = TransformerLayer_θ(H^(t-1)), for t=1,...,T, with H^(0) asinput

這種設計使得計算深度與參數數量解耦，模型可以通過增加遞歸步數(T)來增強推理能力，而無需增加參數數量。

自適應計算與早退機制

Ouro模型的另一個創新是自適應計算深度分配機制。通過學習的早退門控函數，模型可以根據輸入復雜度動態決定需要多少遞歸步驟：

如上圖所示，訓練階段(左)，模型應用N個共享權重層進行n次遞歸步驟。每一步i，退出門預測概率p_i，語言建模頭計算任務損失。訓練目標結合了所有步驟的期望任務損失與熵正則化項。推理階段(右)，模型可以基于累積分布函數(CDF)提前退出，為簡單輸入分配更少步驟，為復雜輸入分配更多步驟。

熵正則化訓練目標

為了讓模型學會何時應該退出遞歸計算，作者設計了一個熵正則化的訓練目標：

? = ∑(t=1 to Tmax) qφ(t|x)·?^(t) - β·H(qφ(·|x))

其中第一項是期望任務損失，第二項是退出步驟分布的熵正則化。與之前工作不同，Ouro采用均勻先驗而非幾何先驗，這使得模型能夠在不受偏見的情況下探索所有可能的計算深度。

實驗結果與性能分析

參數效率

Ouro模型展現了卓越的參數效率，1.4B參數模型(4次遞歸)性能可匹配4B標準Transformer，2.6B參數模型可匹配8B標準模型，實現了2-3倍的參數效率提升。

如上圖所示，Ouro-Thinking模型在多項數學和科學數據集上與更大規模的基線模型相當或超越。

遞歸深度與性能關系

研究發現，增加遞歸步數通常會提高模型性能，但這種提升在達到訓練深度(T=4)后會出現飽和。有趣的是，即使在超出訓練配置的步數(T>4)時，模型的安全性仍會持續提高，表明迭代精煉過程對安全對齊有積極影響。

知識容量與操作能力

通過控制實驗，研究者發現LoopLM的優勢不是來自增加的知識存儲容量(每參數約2比特，與非循環模型相同)，而是來自顯著增強的知識操作能力。在需要事實組合和多跳推理的任務上，LoopLM表現出明顯優勢。

如上圖所示，左側展示了循環模型與標準模型在知識容量上的相似性，而右側表格展示了循環模型在知識操作任務上的優勢。

安全性、忠實性與一致性

安全性

研究表明，隨著遞歸步數的增加，Ouro模型在HEx-PHI基準測試上的有害性降低，這一趨勢甚至在超出訓練配置的步數(5-8步)時仍然持續。

如上圖所示，隨著遞歸步數增加，模型在HEx-PHI上的有害性得分和有害率均顯著下降。

推理忠實性

與標準LLM的思維鏈不同，LoopLM的潛在推理過程與最終答案因果相關。研究者通過在Quora Question Pairs數據集上的實驗發現，隨著遞歸深度增加，模型的決策會發生實質性變化，表明內部推理確實影響最終輸出。

如上圖所示，左側展示了不同遞歸步驟中線性探針的ROC AUC，右側熱圖顯示了不同步驟間預測標簽的一致性。這種系統性的不一致表明，模型在遞歸深化過程中確實在更新其決策。

技術實現細節

訓練流程

Ouro模型采用多階段訓練流程，包括預熱、穩定訓練、CT退火、長上下文訓練和中間訓練等階段，總計在7.7萬億token上進行訓練。

如上圖所示，訓練過程從共同的預熱階段開始，然后分為兩個流：一個保持1.3B參數(產生Ouro-1.4B)，一個上循環至2.6B參數(產生Ouro-2.6B)。兩個流獨立經歷相同的后續四階段訓練過程，最后通過推理SFT階段創建Ouro-Thinking模型。

KV緩存共享策略

為解決循環架構導致的內存開銷問題，研究者探索了KV緩存重用策略，發現在解碼階段，只保留最后一步的KV緩存或所有步驟的平均KV緩存，可以在幾乎不損失性能的情況下將內存需求降低4倍。

未來展望與應用前景

循環語言模型(LoopLM)為大語言模型的發展提供了一個新的擴展方向，超越了傳統的參數規模和數據量兩個維度。未來研究可以從以下幾個方面進一步探索：

遞歸機制的優化：探索更復雜的遞歸結構，如條件遞歸或混合遞歸，進一步提高模型的推理能力和參數效率。
自適應深度分配的精細化：開發更精確的門控機制，能夠在token級別動態分配計算資源，為不同類型的輸入內容提供最優的計算深度。
多模態LoopLM：將循環架構擴展到多模態領域，探索在視覺-語言任務中的應用潛力，特別是需要多步推理的復雜場景理解任務。
邊緣設備部署：利用LoopLM的參數效率優勢，開發適用于資源受限設備的高效推理系統，實現本地化的復雜推理能力。
結合神經符號方法：將LoopLM與神經符號推理系統結合，探索如何利用循環結構更好地實現符號操作和邏輯推理。

這些方向不僅可以進一步提升模型性能，還有望在實際應用中解決計算資源限制問題，使高級推理能力更廣泛地應用于各種場景。

結論

Ouro循環語言模型展示了通過架構創新實現參數效率提升的巨大潛力。通過在預訓練階段直接構建迭代計算和自適應深度分配機制，LoopLM在固定參數預算內實現了卓越的推理性能。這種方法不僅提高了模型效率，還增強了安全性和推理忠實性，為未來大語言模型的發展提供了新的思路。