700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,用遞歸顛覆大模型推理
大模型的推理架構顛覆的未免有些太快了。
今年 6 月,來自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),用循環架構打破了傳統思維鏈(CoT)的架構限制,對大模型推理結構產生了重大的影響。HRM 僅包含 2700 萬個參數(大約比最小的 Qwen3 0.6B 模型小 22 倍),僅使用 1000 個訓練樣本,便在復雜的推理任務上取得了卓越的性能。
對 HRM 感興趣的讀者可以參考我們之前的報道。
僅僅過了四個月,HRM 的架構就徹底不夠看了。
來自加拿大蒙特利爾三星先進技術研究所(SAIT)的高級 AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型(TRM)。
這個 TRM 有多離譜呢?一個僅包含 700 萬個參數(比 HRM 還要小 4 倍)的網絡,在某些最困難的推理基準測試中,其參數數量與 o3-mini 和 Gemini 2.5 Pro 等尖端語言模型相比,甚至可以超越它們,盡管這些模型的參數數量是 TRM 的 10,000 倍。
這一結果讓很多業內人士大呼不可思議。


論文作者 Jolicoeur-Martineau 說:「通過遞歸推理,結果證明 『少即是多』。一個從頭開始預訓練的小模型,通過遞歸自身并在時間推移中更新答案,可以在不超出預算的情況下取得很大成果。」

- 論文標題:Less is More: Recursive Reasoning with Tiny Networks
- 論文鏈接:arxiv.org/abs/2510.04871v1
簡而言之,TRM 的工作原理如下:
1. 起草初始答案:不同于逐字生成的普通大語言模型(LLM),TRM 首先會快速生成一個完整的「草稿答案」,可以理解為它的第一次粗略猜測。
2. 創建「思維草稿區」:接著,它會開辟一個獨立的內部空間,用于儲存潛在推理的「草稿板」。
3. 深入自我審查:模型進入一個高強度的內循環。它不斷將草稿答案與原始問題進行對比,在草稿板上反復(連續 6 次)推敲和修正推理邏輯,不斷自問:「我的邏輯是否成立?錯誤在哪里?」
4. 修訂答案:經過這段專注的「思考」后,模型會利用在草稿板中改進后的邏輯,重新生成一個全新的、更高質量的最終答案草稿。
5. 循環至自信為止:整個「起草 — 思考 — 修訂」的過程最多可重復 16 次。每一輪迭代都讓模型更接近一個正確且邏輯嚴密的解決方案。

Tiny Recursion Model(TRM) 遞歸結構圖
少即是多
不再需要不動點定理
HRM 假設其遞歸過程在 z_L 和 z_H 上都會收斂到某個不動點,以便使用 一步梯度近似(1-step gradient approximation)為了繞開這種理論上的約束,TRM 重新定義了「完整的遞歸過程」:
在訓練中,先運行 T?1 次無梯度的遞歸過程 來改進 (z_L, z_H),然后再運行一次帶反向傳播的遞歸過程。
換句話說,不再使用一步梯度近似,而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新,從而完全消除了對不動點假設和隱函數定理(IFT)的一步梯度近似的依賴。
單網絡
HRM(分層遞歸模型)使用了兩個網絡:
- 一個低層模塊 f_L,被頻繁調用;
- 一個高層模塊 f_H,被較少調用。
這種設計使得模型的參數量約為常規單網絡監督學習的兩倍。
基于這一觀察,研究者嘗試用一個單一網絡來同時完成這兩個任務,而不是分開訓練兩個網絡。
少層數
研究者嘗試通過增加層數來擴大模型容量,以實現模型的可擴展性。
然而,結果令人意外 —— 增加層數反而降低了泛化能力,原因在于模型出現了過擬合。
于是研究者們反向實驗:
在保持總計算量和 「等效深度」大致不變的情況下,減少網絡層數,同時按比例增加遞歸次數 n。
結果發現,使用 2 層(而非 4 層)時,泛化性能達到最優。
無注意力架構
自注意力機制(Self-Attention)在長上下文場景表現出色,因為它只需一個形狀為 [D, 3D] 的參數矩陣,卻能建模整個序列的全局依賴。
然而,在短上下文任務中,使用線性層(Linear Layer)更加高效,僅需一個形狀為 [L, L] 的參數矩陣即可完成建模。
受到 MLP-Mixer 的啟發,將自注意力層替換為作用于序列維度上的多層感知機(MLP)。
實驗結果
研究者們在以下數據集上評估方法:Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2。

在 Sudoku-Extreme 數據集上的測試準確率(%)。在每個監督步驟的等效深度(T (n + 1) × n_layers)相同的條件下,對比 HRM(Hierarchical Reasoning Model) 與 TRM(Tiny Recursion Model) 的性能。

在謎題類基準測試(Sudoku-Extreme 和 Maze-Hard)上的測試準確率(%)。

在 ARC-AGI 基準測試(嘗試 2 次)上的測試準確率(%)。
從實驗結果可以看出,不帶自注意力機制的 TRM 在 Sudoku-Extreme 上表現最佳,測試準確率達 87.4%。而 帶自注意力機制的 TRM 在其他任務上泛化效果更好。
帶自注意力機制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準確率分別為 85.3%、44.6% 和 7.8%,模型規模為 700 萬參數。
相比之下,使用 4 倍參數量(2700 萬) 的 HRM 模型僅達到 74.5%、40.3% 和 5.0% 的準確率,顯示出 TRM 在參數效率與泛化能力上的顯著優勢。
更多信息請參閱原論文。





































