400萬人圍觀的分層推理模型，「分層架構」竟不起作用？性能提升另有隱情？

2025-08-18 09:05:00

人工智能新聞

鑒于該方法的普及度和新穎性，來自 ARC PRIZE 團隊的研究者著手在 ARC-AGI-1 半私有數據集（一個用于驗證解決方案是否過擬合的隱藏保留任務集）上驗證 HRM 的性能。

還記得分層推理模型（Hierarchical Reasoning Model，HRM）嗎？

這項工作于 6 月份發布，當時引起了不小的轟動——X/Twitter 上的相關討論獲得了超過 400 萬的瀏覽量和數萬個點贊，剖析這項工作的 YouTube 視頻觀看量也超過了 47.5 萬次。

在論文中，作者表示：他們提出了一種受大腦啟發的 HRM 架構，僅用 1000 個訓練任務和一個 2700 萬參數（相對較小）的模型，就在 ARC-AGI-1 基準上取得了 41% 的得分。

論文還指出，這一架構有潛力成為邁向通用計算和通用推理系統的變革性進展。

他們的發現有些出人意料。

首先：他們能夠近似復現論文中聲稱的數字。HRM 在 ARC-AGI 半私有集上的表現，就其模型大小而言，令人印象深刻：

ARC-AGI-1：32%——雖然不是 SOTA 水平，但對于如此小的模型來說，這已經非常出色。
ARC-AGI-2：2%——盡管得分大于 0% 顯示出一些積極信號，但 ARC PRIZE 團隊不認為這在 ARC-AGI-2 上取得了實質性進展。

與此同時，通過運行一系列消融分析，他們得到了一些令人驚訝的發現，這些發現對圍繞 HRM 的主流論述提出了質疑：

與同等規模的 Transformer 相比，其「分層」架構對性能的影響微乎其微。
然而，論文中相對提及較少的「外循環」優化過程，尤其是在訓練期間，極大地提升了性能。
跨任務遷移學習的益處有限；大部分性能來自于對評估時所用特定任務解決方案的記憶。
預訓練的任務增強至關重要，盡管只需 300 次增強就已足夠（而非論文中報告的 1000 次）。推理時的任務增強影響有限。

發現 2 和 3 表明，該論文的方法在根本上與 Liao 和 Gu 提出的「無預訓練的 ARC-AGI」方法相似。

有人認為，ARC PRIZE 團隊的這些分析結果表明，HRM 是一個失敗的探索。

但更多人反駁說，與在同一基準上表現類似的模型相比，HRM 要小得多。雖然分層架構的作用沒有得到驗證，但論文在其他方面的創新依然值得研究，畢竟模型的表現還是很好的。

針對這一分析，ARC PRIZE 團隊專門寫了一篇博客來詳細介紹。以下是博客內容。

博客地址：https://arcprize.org/blog/hrm-analysis
Github：https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分層推理模型」回顧

圖 1：HRM 方法從大腦中不同頻率的信號處理中汲取靈感。

分層推理模型由新加坡 AI 研究實驗室 Sapient 發表，據稱其靈感來源于人腦的分層和多時間尺度處理機制。

HRM 是一個 2700 萬參數的模型，它通過幾次簡短的「思考」脈沖進行迭代優化。

每次脈沖產生：

一個預測輸出網格——這是模型對 ARC-AGI 任務的「處理中」預測。
一個「停止或繼續」得分——該得分決定是繼續優化預測還是將其作為最終結果提交。

如果模型選擇繼續優化，這個「處理中」的預測會再次經過一個「思考」脈沖。這就是外循環：預測、詢問「我完成了嗎？」，然后停止或繼續優化。

在外循環內部，HRM 運行兩個耦合的循環模塊：「H」（慢速規劃器）和「L」（快速執行器）。這兩個模塊協同工作，共同更新一個共享隱藏狀態，而非各自產生獨立的輸出。其最終效果是模型在「規劃」（H）和「細節」（L）之間交替進行，直到內部狀態「自我達成一致」并產生答案。

該模型使用一個學習到的「停止」信號，這是一種自適應計算機制，用于控制優化的次數。

這個過程的一個關鍵部分是任務增強。這是一個對每個任務應用變換（如對象旋轉、翻轉等）的過程，目的是挖掘出任務的潛在規則，而不是對特定的形狀或顏色產生過擬合。

在測試時，模型會運行相同的增強來生成預測。這些預測隨后被「去增強」（以恢復到原始任務格式），然后通過簡單的多數投票來決定最終的預測結果。

預測是通過轉導（深度學習的直接輸出）在嵌入空間中進行的，而不是通過歸納（生成一個可應用變換的程序）。關于 ARC-AGI 中轉導與歸納的更多信息，請參閱 2024 年 ARC Prize 獲獎論文《結合歸納與轉導進行抽象推理》，作者為 Wen-Ding Li 等人。

ARC-AGI 驗證流程

ARC-AGI 基準有 3 個主要的數據集用于測試：

公開訓練集 - 用于介紹 ARC-AGI 數據格式的公開數據。研究人員在此數據上訓練和迭代模型。
公開評估集 - 供研究人員在訓練后自我評估模型性能的公開數據。
半私有評估集 - 一個保留數據集，用于驗證在 ARC-AGI 上的聲明。該數據集無法在線獲取用于訓練，從而增加了其提供模型性能純凈信號的可信度。它被稱為「半私有」，因為驗證第三方服務（如來自 OpenAI、xAI 的模型）意味著我們無法保證數據永遠完全保密，并且計劃最終會替換它。

除了這些數據集類型，ARC-AGI 目前有 2 個已發布的版本：

ARC-AGI-1——2019 年，旨在挑戰深度學習系統。
ARC-AGI-2——2025 年，旨在挑戰推理系統。

我們根據測試政策，對像 HRM 這樣的特定定制解決方案進行測試。要獲得驗證資格，解決方案必須開源，運行成本低于 1 萬美元，并在 12 小時內完成。

官方驗證的 HRM ARC-AGI 得分

圖 2：ARC-AGI-1 排行榜，HRM 性能與每項任務成本。

ARC-AGI-1（100 個任務）

得分：32%，運行時間：9 小時 16 分鐘，總成本：$148.50（$1.48 / 任務）

在 ARC-AGI-1 上獲得 32% 的得分，對于如此小的模型來說是令人印象深刻的。從 HRM 聲稱的公開評估集得分（41%）下降到半私有集得分，這種輕微的下降是預料之中的。ARC-AGI-1 的公開集和半私有集并未進行難度校準。觀察到的 9 個百分點的下降幅度處于正常波動的偏高范圍。如果模型對公開集過擬合，其在半私有集上的性能可能會崩潰（例如，降至 10% 或更低）。但我們并未觀察到這種情況。這個結果表明，HRM 確實有一些值得關注的亮點。

注意：運行 HRM 的成本相對較高，是因為訓練和推理被耦合在單次運行中。論文作者提到他們正在努力解耦這個過程，以便將其解決方案提交給 ARC Prize 2025 Kaggle 競賽。

ARC-AGI-2（120 個任務）

得分：2%，運行時間：12 小時 35 分鐘，總成本：$201（$1.68 / 任務）

ARC-AGI-2 明顯比 ARC-AGI-1 更難，因此性能大幅下降是預料之中的。與 ARC-AGI-1 不同，ARC-AGI-2 的公開集和半私有集是經過難度校準的。原則上，兩者上的得分應該相似。盡管大于 0% 的得分顯示出模型的某些能力，但我們不認為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進展。

注意：我們選擇包含 10 個可選的檢查點（每個約 5 分鐘），總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時的運行限制，我們仍然認為它是有效的。

分析 HRM 對 ARC 得分的貢獻

在更深入的分析中，我們最想回答的問題是：「HRM 架構中對 ARC-AGI 的成功貢獻最大的關鍵組件是什么？」

我們仔細研究了 HRM 論文的 4 個主要組成部分：HRM 模型架構、H-L 分層計算、外層優化循環，以及數據增強的使用。Ndea 研究員 Konstantin Schürholt 主導了這項分析。

我們測試了：

「分層」H 和 L 循環的性能貢獻

相比于基礎的 Transformer，HRM 提供了多少性能提升？

改變分層計算的參數有何影響？

改變最大「停止或繼續」循環次數

自適應計算時間（ACT）評分器與固定循環次數（沒有停止決策）相比表現如何？

跨任務遷移學習的影響

與僅在評估任務上訓練相比，在訓練時加入訓練集任務和 ConceptARC 任務有何影響？

增強數量

改變從每個任務創建的增強數量。

模型/訓練的變體（大小和時長）

發現 1：與同等規模的 Transformer 相比，「分層」架構對性能的影響微乎其微

論文提出，HRM 架構是實現分層推理的關鍵——結合了慢節奏的指導（H-level）和快節奏的思考（L-level）。

為了理解該架構的影響，我們進行了 2 個實驗：

改變分層組件中的迭代次數。
將 HRM 模型替換為類似規模的 Transformer。

為便于比較，該 Transformer 擁有與 HRM 模型相同的參數數量（約 2700 萬）。在所有實驗中，我們保持 HRM 流程的其他所有組件不變。

將 HRM 與常規 Transformer 進行比較，得到了兩個有趣的結果，見圖 3。首先，一個常規的 Transformer 在沒有任何超參數優化的情況下，性能與 HRM 模型相差約 5 個百分點。當只有一個外循環時，差距最小，此時兩個模型的性能不相上下。

圖 3：HRM 模型和相同尺寸的 Transformer 在不同外循環步數下的 pass@2 性能。Transformer 在沒有任何超參數優化的情況下，性能與 HRM 相差幾個百分點。

當外循環次數多于 1 次時，HRM 表現更好，但隨著外循環次數的增加，差距會縮小。請注意，盡管參數數量匹配，HRM 使用了更多的計算資源，這可能部分解釋了性能差異。增加計算資源帶來的好處可能會隨著外循環次數的增多而出現收益遞減，這與我們的結果相符。

我們進一步改變了 H-level 和 L-level 的步數來分析其影響。我們發現，增加或減少迭代次數（基線為 L = 2, H = 2）都會導致性能下降。

這些結果表明，在 ARC-AGI 上的性能并非 HRM 架構本身帶來的。雖然它確實提供了一點好處，但在 HRM 訓練流程中換用一個基線 Transformer 也能達到相當的性能。

發現 2：論文中提及較少的「外循環」優化過程帶來了顯著的性能提升

除了分層架構，HRM 論文還提出在模型外部使用一個外循環（「循環連接」）。這將模型的輸出反饋給自己，允許模型迭代地優化其預測。

此外，它使用「自適應計算時間」（ACT）來控制在特定任務上花費的迭代次數。ACT 決定是停止預測還是繼續優化。

HRM 方法的這一部分類似于 Universal Transformer，后者既有圍繞 Transformer 模型的循環優化循環，也有一個 ACT 的版本。

在我們的第二組實驗中，我們想了解外層優化循環以及 ACT 對整體性能的影響。我們改變了訓練期間的最大外循環次數，并在推理時使用最大循環次數（遵循 HRM 的實現）。

圖 4：在不同數量的訓練和推理優化循環下的 pass@2 性能。通過迭代優化數據會產生強大的影響，正如從 1 次循環（無優化）到 2 次循環（1 次優化）的性能飛躍所示。

如圖 4 所示，外循環的次數對模型性能有顯著影響——從無優化（1 次循環）到僅 1 次優化，性能躍升了 13 個百分點。從 1 次優化循環增加到 8 次，公開評估集上的性能翻了一番。

一個次要發現是，在訓練期間使用 ACT 確實能減少每個任務的實際優化步數。然而，雖然使用 ACT 能提高性能，但與固定的 16 次循環運行相比，差異僅在幾個百分點之內。

結果表明，優化外循環是 HRM 性能的關鍵驅動力。

為了理解訓練時優化與推理時優化的影響，我們進一步獨立地改變了推理優化循環的次數。

圖 5：在不同數量的推理優化循環下的 pass@2 性能。藍色條表示使用相同循環次數進行訓練和推理的模型。橙色條表示使用 16 個優化循環訓練，但在推理時使用不同循環次數的模型。例如，1-Loop 處的藍色條表示用一個優化步驟訓練并用一個優化步驟推理的模型。橙色條表示用 16 個優化步驟訓練但僅用一個優化步驟推理的模型。

為此，我們比較了兩種設置。第一種，我們在訓練和推理中使用相同數量的優化循環。第二種，我們用最多 16 個優化循環步驟訓練一個模型，并分別用 1、4、8 和 16 個優化步驟來評估它。

比較這兩類模型顯示出實質性差異，尤其是在低推理優化步數（1 和 4）時，見圖 5。用更多的優化步驟進行訓練，可以將單次優化循環預測的性能提高超過 15 個百分點，盡管一次循環意味著沒有任何優化的單次前向傳播。在推理時增加更多的優化循環，影響則沒有那么大。這表明，帶優化的訓練比在推理時使用優化更重要。

發現 3：跨任務遷移學習的影響有限

在原始論文中，HRM 在 960 個任務的演示對的增強版本上進行訓練：

來自 ARC-AGI-1 訓練集的 400 個任務。
來自密切相關的 ConceptARC 基準的 160 個任務。
來自 ARC-AGI-1 評估集的 400 個任務，這些任務也是評估時要解決的目標。

需要注意的是，這并不意味著數據泄露，因為模型在訓練時從未看到評估任務的測試對——而這正是模型被評估的內容。

我們想了解跨任務遷移學習與推斷并記憶評估時特定任務的解決方案相比，其影響如何。我們進行了以下實驗：我們只在 400 個評估任務上進行訓練——去掉了來自訓練集的 400 個任務和來自 ConceptARC 數據集的 160 個任務。

在這種設置下，模型達到了 31% 的 pass@2 準確率，與最初的 41% 相比僅有小幅下降。這表明，絕大部分性能是由在評估時見過的任務上進行訓練所驅動的。這意味著 HRM 的做法本質上是一種零預訓練的測試時訓練方法，類似于 Liao 和 Gu 的「無預訓練的 ARC-AGI」。這相當于將模型用作一種程序合成基底——在任務的演示對上使用梯度下降，將執行該任務的程序編碼到模型的權重中。

值得注意的是，在我們的實驗中，仍然存在一定程度的跨任務遷移學習——在評估集的不同任務之間。我們實驗的一個更強的版本是，在每個評估任務上單獨運行 HRM 流程，這樣模型在訓練時只會看到它將被評估的那一個任務的演示對的增強版本。這將使 HRM 的設置與 Liao 和 Gu 的設置完全一致。我們沒有時間運行這個實驗，但我們推測結果將與 Liao 和 Gu 的（21% pass@2）非常接近。

發現 4：預訓練的任務增強至關重要

我們研究的 HRM 流程中另一個重要組成部分是任務增強。

數據增強是深度學習中一種常用方法，用于增加數據集中的樣本數量并提高模型的泛化能力。這意味著對任務應用旋轉、翻轉或顏色交換，從而在不改變任務基本概念的情況下生成新數據。

HRM 對任務的所有增強版本進行預測，然后將增強后的預測還原（或「去增強」），使其恢復到原始任務格式。然后，模型對這些預測進行多數投票以選出最終候選。

我們測試了對基線 HRM 的以下修改：

編譯數據集時最大增強的數量。
用于多數投票的最大預測數量。

因為 HRM 只能處理訓練期間遇到過的增強類型，所以我們在推理時對第 2 點的改變僅限于減少增強數量，而不能增加。

圖 7 中的結果顯示了兩個趨勢。首先，使用數據增強確實能顯著提高性能。然而，僅使用 300 次增強，而不是論文中使用的 1000 次，就已接近最大性能。僅使用 30 次增強（論文中總數的 3%）的性能與最大性能相差不到 4%。

其次，在訓練期間使用數據增強似乎比為多數投票獲得更大的池子更重要。用更多增強訓練的模型，在用較小池子進行推理時，性能下降得要少得多。

其他技術性學習

深入研究 HRM 的內部機制還帶來了一些其他有趣的發現。

首先也是最重要的一點，HRM 將 ARC-AGI 任務分解為單個的輸入-輸出對，他們稱之為謎題（puzzles）。每個謎題會獲得一個 puzzle_id，它由任務哈希值和應用于此特定謎題的增強代碼組成。

在訓練和推理時，模型只接收輸入和 puzzle_id——沒有包含任務其他輸入-輸出示例的少樣本上下文。HRM 模型必須學會將一個 puzzle_id 與一個特定的轉換關聯起來，以便它能從輸入預測輸出。

為此，它將 puzzle_id 輸入一個大的嵌入層。這個嵌入層是關鍵——沒有它，模型就不知道如何處理輸入。這帶來了一個主要限制：該模型只能應用于它在訓練時見過的 puzzle_id。

在與作者就此話題的交流中，他們解釋說，為少樣本上下文更改謎題嵌入是一個復雜的工程挑戰。在早期版本中，他們做過比較，發現在更大的類 ARC 數據集上，少樣本上下文效果很好，但在樣本受限的 ARC 上，謎題嵌入的表現明顯更好。我們沒有復現這些實驗，但這為未來的工作指明了有趣的方向。

出于同樣的原因，在這個版本的 HRM 中，推理數據必須是訓練數據集的一部分。例如，獨立地改變增強數量并不是一件直接的事情。

最后，雖然優化循環對性能有明顯影響，但 HRM 是純粹轉導性的。雖然可以展開優化步驟，但底層的程序仍然是隱式的。我們的假設是，這種方法不具備泛化能力。

待解決的問題與未來工作

我們對 HRM 的實驗為我們揭示了其在 ARC-AGI 上表現出色的原因，但其他問題依然存在。除了上面提到的，我們還邀請社區探索以下更多問題：

puzzle_id 嵌入對模型性能有多大影響？與將任務中的其余示例作為上下文提供相比如何？
HRM 在其訓練數據之外的泛化能力如何？是否有任何方法可以在新數據上微調 HRM？
在推理時，學習到的停止機制有何影響？其好處僅限于節省計算資源，還是也能提高性能？
優化的思想是否能推廣到其他方法，例如合成顯式程序的歸納方法？
通過在每個評估任務上單獨進行訓練和評估，可以達到什么樣的性能？（消除所有跨任務遷移學習。）
哪些特定的增強類型能帶來更高的性能？旋轉？顏色交換？為什么？

結語

來自 ARC Prize 的分析非常詳盡，不少人感嘆說，這才是真正的「同行評審」。

還有人說，這個分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關注的研究，相信社區可以更加高效地獲取一些新知識。

責任編輯：張燕妮來源：機器之心

模型數據集 AI