700萬參數擊敗DeepSeek R1等，三星一人獨作爆火，用遞歸顛覆大模型推理

2025-10-09 13:14:22

來自加拿大蒙特利爾三星先進技術研究所（SAIT）的高級 AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型（TRM）。

大模型的推理架構顛覆的未免有些太快了。

今年 6 月，來自 Sapient Intelligence 的研究者提出了分層推理模型（HRM），用循環架構打破了傳統思維鏈（CoT）的架構限制，對大模型推理結構產生了重大的影響。HRM 僅包含 2700 萬個參數（大約比最小的 Qwen3 0.6B 模型小 22 倍），僅使用 1000 個訓練樣本，便在復雜的推理任務上取得了卓越的性能。

對 HRM 感興趣的讀者可以參考我們之前的報道。

僅僅過了四個月，HRM 的架構就徹底不夠看了。

來自加拿大蒙特利爾三星先進技術研究所（SAIT）的高級 AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型（TRM）。

這個 TRM 有多離譜呢？一個僅包含 700 萬個參數（比 HRM 還要小 4 倍）的網絡，在某些最困難的推理基準測試中，其參數數量與 o3-mini 和 Gemini 2.5 Pro 等尖端語言模型相比，甚至可以超越它們，盡管這些模型的參數數量是 TRM 的 10,000 倍。

這一結果讓很多業內人士大呼不可思議。

論文作者 Jolicoeur-Martineau 說：「通過遞歸推理，結果證明『少即是多』。一個從頭開始預訓練的小模型，通過遞歸自身并在時間推移中更新答案，可以在不超出預算的情況下取得很大成果。」

論文標題：Less is More: Recursive Reasoning with Tiny Networks
論文鏈接：arxiv.org/abs/2510.04871v1

簡而言之，TRM 的工作原理如下：

1. 起草初始答案：不同于逐字生成的普通大語言模型（LLM），TRM 首先會快速生成一個完整的「草稿答案」，可以理解為它的第一次粗略猜測。

2. 創建「思維草稿區」：接著，它會開辟一個獨立的內部空間，用于儲存潛在推理的「草稿板」。

3. 深入自我審查：模型進入一個高強度的內循環。它不斷將草稿答案與原始問題進行對比，在草稿板上反復（連續 6 次）推敲和修正推理邏輯，不斷自問：「我的邏輯是否成立？錯誤在哪里？」

4. 修訂答案：經過這段專注的「思考」后，模型會利用在草稿板中改進后的邏輯，重新生成一個全新的、更高質量的最終答案草稿。

5. 循環至自信為止：整個「起草 — 思考 — 修訂」的過程最多可重復 16 次。每一輪迭代都讓模型更接近一個正確且邏輯嚴密的解決方案。

Tiny Recursion Model（TRM）遞歸結構圖

少即是多

不再需要不動點定理

HRM 假設其遞歸過程在 z_L 和 z_H 上都會收斂到某個不動點，以便使用一步梯度近似（1-step gradient approximation）為了繞開這種理論上的約束，TRM 重新定義了「完整的遞歸過程」：

在訓練中，先運行 T?1 次無梯度的遞歸過程來改進 (z_L, z_H)，然后再運行一次帶反向傳播的遞歸過程。

換句話說，不再使用一步梯度近似，而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新，從而完全消除了對不動點假設和隱函數定理（IFT）的一步梯度近似的依賴。

單網絡

HRM（分層遞歸模型）使用了兩個網絡：

一個低層模塊 f_L，被頻繁調用；
一個高層模塊 f_H，被較少調用。

這種設計使得模型的參數量約為常規單網絡監督學習的兩倍。

基于這一觀察，研究者嘗試用一個單一網絡來同時完成這兩個任務，而不是分開訓練兩個網絡。

少層數

研究者嘗試通過增加層數來擴大模型容量，以實現模型的可擴展性。

然而，結果令人意外 —— 增加層數反而降低了泛化能力，原因在于模型出現了過擬合。

于是研究者們反向實驗：

在保持總計算量和「等效深度」大致不變的情況下，減少網絡層數，同時按比例增加遞歸次數 n。

結果發現，使用 2 層（而非 4 層）時，泛化性能達到最優。

無注意力架構

自注意力機制（Self-Attention）在長上下文場景表現出色，因為它只需一個形狀為 [D, 3D] 的參數矩陣，卻能建模整個序列的全局依賴。

然而，在短上下文任務中，使用線性層（Linear Layer）更加高效，僅需一個形狀為 [L, L] 的參數矩陣即可完成建模。

受到 MLP-Mixer 的啟發，將自注意力層替換為作用于序列維度上的多層感知機（MLP）。

實驗結果

研究者們在以下數據集上評估方法：Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2。

在 Sudoku-Extreme 數據集上的測試準確率（%）。在每個監督步驟的等效深度（T (n + 1) × n_layers）相同的條件下，對比 HRM（Hierarchical Reasoning Model）與 TRM（Tiny Recursion Model）的性能。

在謎題類基準測試（Sudoku-Extreme 和 Maze-Hard）上的測試準確率（%）。

在 ARC-AGI 基準測試（嘗試 2 次）上的測試準確率（%）。

從實驗結果可以看出，不帶自注意力機制的 TRM 在 Sudoku-Extreme 上表現最佳，測試準確率達 87.4%。而帶自注意力機制的 TRM 在其他任務上泛化效果更好。

帶自注意力機制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準確率分別為 85.3%、44.6% 和 7.8%，模型規模為 700 萬參數。

相比之下，使用 4 倍參數量（2700 萬）的 HRM 模型僅達到 74.5%、40.3% 和 5.0% 的準確率，顯示出 TRM 在參數效率與泛化能力上的顯著優勢。

更多信息請參閱原論文。

責任編輯：張燕妮來源：機器之心

AI 模型推理