循環網絡能否提升推理能力?分層推理模型已經問世! 原創
通用人工智能(AGI)作為人工智能領域的核心目標,已被學界與產業界廣泛探討多年。然而,當前主流的大型語言模型(LLMs)即便在性能上表現突出,但在解決復雜推理任務時仍存在顯著局限,遠未達到AGI所要求的自主推理與問題解決能力。此類復雜任務往往需要多維度的模式識別、抽象知識生成,以及迭代式的推理能力優化——即便對人類而言,也需投入大量時間與精力方可完成。
在此背景下,一種名為“分層推理模型”(Hierarchical Reasoning Model)的新型架構應運而生,不僅在人工智能研究領域引發廣泛關注,更在性能測試中超越了GPT-5、Deepseek R1、Claude Opus 4及OpenAI o3等知名大型語言模型。本文將系統闡釋分層推理模型的核心內涵,剖析其技術特性,并論證其在推動AGI落地進程中的領先地位。
當前主流推理模型的技術瓶頸
當前,幾乎所有用于推理任務的Transformer模型均依賴“思維鏈”(Chain of Thought, CoT)機制。在該機制下,模型接收輸入后,會生成一系列自然語言標記以呈現完整推理過程(類似Deepseek模型的推理范式),直至輸出最終結論。
然而,這種推理模式存在明顯缺陷:一方面,冗長的推理痕跡生成需經過多次前向傳播,會顯著擴大上下文窗口,導致計算效率降低、數據消耗激增;另一方面,盡管“思維鏈”通過將復雜問題拆解為中間步驟實現多階段推理,但一旦在推理初期或中期出現錯誤,該錯誤會沿推理鏈持續傳播,最終導致結論失準——這一“錯誤累積”問題,成為制約Transformer模型推理精度的關鍵瓶頸。

【傳統推理模型流程圖】
從模型架構演進來看,傳統Transformer模型通常由多個Transformer塊構成,每個模塊本質上是典型的因果注意力型結構,集成了多頭注意力、RoPE位置嵌入、前饋網絡、歸一化層及殘差連接等核心組件。

上述圖表展示,Transformer模型的性能會隨架構規模擴大而提升:初期通過增加“寬度”(即隱藏層維度與注意力頭數)實現性能增長,后續通過增加“深度”(即Transformer塊數量)進一步突破性能上限。但當模型參數規模達到特定閾值后,深度的增加不再帶來性能提升,反而陷入“性能飽和”狀態,無法滿足復雜推理任務對模型深度的需求。
為突破這一局限,研究人員嘗試引入循環網絡架構(Recurrent Network Architecture):通過循環塊設計,可在共享參數集的前提下實現“任意深度”的推理計算,大幅降低參數冗余。然而,循環網絡同樣面臨挑戰——隨著迭代次數增加,模型的隱藏狀態會不斷變化,易出現類似“災難性遺忘”的現象,導致模型逐漸丟失對原始問題陳述的理解,削弱推理的連貫性與準確性。
盡管可通過“輸入注入”(又稱“回憶機制”)將嵌入后的輸入數據引入每次迭代的循環塊,以保留問題背景信息,但實驗顯示,當循環迭代次數超過臨界值時,模型性能仍會隨深度增加而下降,未能從根本上解決推理能力與模型深度的適配問題。

現在我們已經了解了在涉及基于推理的任務時所遇到的一些問題。現在,我們繼續探討一下分層推理模型的運行原理,及其解決上述問題的具體機制。
分層推理模型的核心架構與技術原理
模型設計的生物學靈感
分層推理模型的核心創新源于對人類大腦神經機制的模擬——人類大腦存在“跨頻率耦合”機制,能夠將θ頻率(慢頻率,關聯抽象認知)與γ頻率(快頻率,關聯具體計算)的神經活動相互協同,實現“高層規劃-低層執行”的高效認知流程。
基于這一原理,分層推理模型摒棄了傳統Transformer“單一頻率推理”的架構,構建了“雙重循環回路系統”,通過兩種功能差異化的循環神經網絡(RNN)協同生成輸出,徹底改變了傳統模型“基于前序標記預測下一詞”的單一邏輯。

具體而言,分層推理模型的認知過程呈現“雙向協同”特征:在低層維度,模型以快頻率進行具體計算與初步推理;在高層維度,模型以慢頻率進行抽象思考與全局規劃,并為低層推理提供方向指導。這種“快慢結合、高低協同”的架構,完美復刻了人類解決復雜問題時“先規劃、再執行、后修正”的思維模式,為提升推理的準確性與效率奠定了基礎。
分層推理模型內部運作機制
在當前研究案例中,分層推理模型并未開展任何預訓練工作。對于傳統大型語言模型的構建而言,預訓練是不可或缺的核心步驟——通常需向模型輸入數十億至數萬億量級的數據樣本,使其通過海量數據學習語言規律、知識關聯與任務模式,這類經過大規模預訓練的模型被定義為“基礎模型”。而分層推理模型的技術路徑與基礎模型存在本質差異,其并未依賴基礎模型的預訓練框架與數據基礎。
由于分層推理模型不具備基礎模型所特有的任務泛化能力,因此無法像基礎模型那樣通過海量數據學習實現跨場景、跨任務的知識遷移與規律概括。與之相對,該模型的能力評估依托ARC-AGI體系展開,重點衡量其在“直覺判斷”與“邏輯謎題求解”兩大維度的表現;訓練過程則采用強化學習方式:當模型能夠在最優時機終止推理流程并輸出正確結果時,系統會給予正向獎勵,以此驅動模型逐步優化推理決策邏輯,提升任務解決精度。
在推理機制上,分層推理模型采用了與傳統模型截然不同的技術策略——其創新性融合了“輸入注入組件”與“循環網絡架構”的核心優勢。具體而言,該模型在推理過程中僅輸出最終結果,不對外呈現任何中間推理軌跡;所有推理運算(包括多步驟邏輯推導、數據處理與決策判斷)均在單次前向傳播過程中于模型內部完成,既規避了中間步驟錯誤傳播的風險,又大幅提升了推理效率。
分層推理模型采用“雙模塊復用”設計,兩個核心模塊均為循環網絡,且擁有獨立的參數與權重集,避免功能混淆與參數干擾:
- H模塊(高級模塊):聚焦于抽象推理與全局規劃,負責分析問題本質、制定推理策略、修正低層模塊的局部偏差,確保推理方向與問題目標一致;
- L模塊(低級模塊):聚焦于快速計算與步驟執行,依據H模塊制定的規劃,完成具體的推理步驟計算,生成初步結果并反饋至H模塊。

分層推理模型的工作流程與訓練機制
多階段嵌套循環推理流程
分層推理模型的工作流程以“輸入-迭代-收斂”為核心邏輯,具體可分為四個步驟:
- 輸入嵌入轉換:原始輸入數據首先通過可訓練的嵌入層,轉換為機器可讀的向量形式,為后續推理提供基礎數據;
- 初始狀態初始化:設定H模塊(z0_H)與L模塊(z0_L)的初始隱藏狀態,確保模型推理從統一基準啟動;
- 嵌套循環迭代(核心步驟):

- L模塊優先運行:接收輸入嵌入、自身初始隱藏狀態(z0_L)與H模塊初始隱藏狀態(z0_H),完成T步推理計算,更新自身隱藏狀態并生成初步結果;
- 結果上傳與規劃調整:L模塊將更新后的隱藏狀態與初步結果上傳至H模塊,H模塊結合自身先前隱藏狀態,分析結果偏差、調整推理規劃,更新自身隱藏狀態;
- 循環迭代直至收斂:H模塊將調整后的隱藏狀態(新規劃)下傳至L模塊,L模塊再次運行T步計算并反饋結果;上述過程重復N次(形成“N次高層循環、N*T次低層循環”的嵌套結構),直至模型“收斂”(即H模塊與L模塊的輸出結果均穩定,且符合問題目標);
代碼示例:
def hrm(z, x, N=2, T=2):
x = input_embedding(x)
zH, zL = z
with torch.no_grad():
for _i in range(N * T - 1):
zL = L_net(zL, zH, x)
if (_i + 1) % T == 0:
zH = H_net(zH, zL)
# 1-step grad
zL = L_net(zL, zH, x)
zH = H_net(zH, zL)
return (zH, zL), output_head(zH)
# Deep Supervision
for x, y_true in train_dataloader:
z = z_init
for step in range(N_supervision):
z, y_hat = hrm(z, x)
loss = softmax_cross_entropy(y_hat, y_true)
z = z.detach()
loss.backward()
opt.step()
opt.zero_grad()- 最終結果生成:將收斂后H模塊的隱藏狀態傳入可訓練輸出層,生成最終標記(即問題答案)。
這種流程設計徹底解決了傳統循環網絡“過早收斂”的問題:當L模塊出現收斂趨勢(可能陷入局部最優)時,H模塊會通過調整規劃重新啟動推理過程,使模型能夠突破“深度限制”,實現更高維度的推理計算。
高效穩定的訓練機制
傳統循環網絡的訓練依賴“通過時間的反向傳播(BPTT)”,需沿每個推理步驟反向傳播損失,不僅消耗大量內存,還易隨推理鏈長度增加出現“梯度爆炸”或“梯度消失”問題,導致訓練不穩定。分層推理模型采用“一步梯度近似”替代BPTT,實現了訓練效率與穩定性的雙重突破:
- 內存消耗優化:無需展開時間步進行反向傳播,無論推理步驟多少,內存占用量始終保持穩定,大幅降低硬件資源需求;
- 訓練穩定性提升:通過“一步梯度近似”規避了梯度沿步驟傳播的累積效應,從根本上解決了梯度爆炸與消失問題;
- 深度監督強化:將每次迭代定義為一個“段”,每個段的梯度不回溯至前序段,通過“遞歸深度監督”確保每個迭代階段的推理質量,進一步優化模型性能。

此外,模型增設“暫停環節”:H模塊的最終隱藏狀態不會直接傳入輸出層,而是先經過“暫停環節”判斷是否需要繼續迭代——若當前結果未達最優,則啟動下一輪N次循環;若結果已滿足需求,則停止推理并輸出答案。這種機制使模型能夠根據任務復雜度動態調整“思考時間”:簡單任務減少迭代次數以提升效率,復雜任務增加迭代次數以保證精度,實現了“效率與精度的動態平衡”。

分層推理模型的優勢與AGI發展意義
分層推理模型的不斷發展標志著我們對人工智能推理理解方面的一次重要進步。這些模型表明,有效的推理可以通過受人類大腦啟發的結構化循環來實現。這些模型展示了RNN式的思維在當代人工智能中仍有其存在的價值,它將高級規劃與快速的低級計算相結合。它們還超越了目前市面上一些最先進的大型語言模型,并重新發掘了循環架構被長期忽視的潛力。
相較于傳統模型的核心優勢
- 推理準確性更高:H模塊的全局規劃可實時修正L模塊的局部錯誤,避免“錯誤傳播”,解決了傳統Transformer的核心痛點;
- 推理效率更優:無需生成中間推理痕跡,一次前向傳播完成內部運算,且通過動態迭代調整降低無效計算,大幅提升推理速度;
- 訓練成本更低:無需大規模預訓練,依賴強化學習與定向評估即可實現推理能力優化,減少數據與硬件資源消耗;
- 任務適配性更強:通過“暫停環節”動態調整迭代次數,可適配從簡單計算到復雜邏輯推理的各類任務,靈活性遠超傳統模型。

【HRM較之傳統模型具有明顯優勢】
對AGI發展的里程碑意義
分層推理模型的問世,標志著人工智能推理研究從“規模驅動”(堆參數、堆數據)轉向“結構驅動”(模擬人類認知機制),為AGI落地提供了關鍵技術路徑:
其一,模型首次實現了“類人類思維”的結構化復現,證明了“受生物啟發的循環架構”在推理任務中的優越性,打破了“Transformer架構壟斷先進模型”的局面;
其二,模型重新發掘了循環網絡的技術潛力,通過“雙重循環+動態迭代”設計,解決了循環網絡“災難性遺忘”與“性能飽和”的長期難題,為后續推理模型的架構創新提供了范式參考;
其三,模型在邏輯推理、路徑規劃等任務中的卓越表現,以及“低數據依賴、高推理精度”的特性,使人工智能向“自主思考、自主決策”的AGI目標邁出了關鍵一步。
未來,隨著分層推理模型的進一步優化(如模塊協同效率提升、多任務適配能力增強),其“緊湊、快速、靈活”的技術特性將推動推理系統向“動態適配任務復雜度”的方向發展,有望定義人工智能增強研究的下一階段,加速AGI從理論走向實踐的進程。
原文標題:??Recurrent Networks saving our Reasoning? Hierarchical Reasoning Model are here???,作者:??Shaik Hamzah ??

















