LSTM之父Jürgen再突破,「赫胥黎-哥德爾機」讓AI學會自己進化
實現通用人工智能的一大終極目標就是創建能夠自我學習,自我改進的人工智能體。
這個目標已經是老生常談了。其實在 2003 年,能夠自我改進的智能體的理論模型就已經由著名的「現代 AI 之父」Jürgen Schmidhuber 提出,稱為哥德爾機。
哥德爾機是一種自我改進型通用智能系統理論模型,設計靈感來自于哥德爾(Kurt G?del)的不完備性定理。它的核心思想是:機器能夠像數學家一樣,通過形式證明自身程序的改進在長期內將帶來更高收益,然后安全地修改自己。
通俗來說,就是一個「能改寫自己」的自我進化的智能體。
而在最近,Jürgen Schmidhuber 對當年提出的理論哥德爾模型進行了一次全新的嘗試,構建了赫胥黎 - 哥德爾機,能夠在 SWE-Bench Lite 上與官方驗證的最佳人類設計的智能體相媲美。

Jürgen Schmidhuber 是一名德國計算機科學家,以人工智能、深度學習和人工神經網絡領域的成就而知名,現任達勒?莫爾人工智能研究所(IDSIA)聯合主任,阿卜杜拉國王科技大學人工智能研究院院長。
1997 年,Jürgen Schmidhuber 發表了長短期記憶網絡(LSTM)論文。2011 年,Jürgen Schmidhuber 在 IDSIA 的團隊 GPU 上實現了卷積神經網絡(CNN)的顯著加速,這種方法基于楊立昆等人早期提出的 CNN 設計 ,已成為計算機視覺領域的核心。

- 論文標題:Huxley-G?del Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
- 論文鏈接:https://arxiv.org/abs/2510.21614
- Github 鏈接:https://github.com/metauto-ai/HGM
該研究基于如下發現:編碼智能體通過編輯自身代碼來實現自我改進,通常采用一種樹形結構來記錄修改過程,其擴展策略傾向于選擇在軟件工程基準測試中得分更高的智能體,并假設高分意味著其后繼的自我修改也更有可能成功。
然而,研究者發現,一個智能體真正的自我改進潛力與其當前的基準測試性能之間存在著脫節。他們將這個現象命名為「元生產力 - 性能不匹配」。
受赫胥黎譜系( clade)概念啟發,Jürgen 等人提出了 CMP(clade-level metaproductivity,譜系元生產力)。該指標通過聚合一個智能體所有后代的性能來衡量其潛力,而非只看其自身分數。
本文證明了在自我改進編程智能體的開發環境中,只要能夠獲取真實的 CMP,就足以模擬哥德爾機在特定假設下的行為方式。
進一步的,本文提出的赫胥黎 - 哥德爾機(HGM)通過估計 CMP 并以其為指導,可以在自我修改的樹結構中進行搜索。
在 SWE-bench Verified 和 Polyglot 基準測試中,HGM 不僅超越了先前的自我改進編程智能體方法,同時消耗的實際運行時間更少。
更重要的是,HGM 展現出向其他編碼數據集和大語言模型的強大遷移能力。使用 GPT-5-mini 在 SWE-bench Verified 上通過 HGM 優化的智能體,在 SWE-bench Lite 上使用 GPT-5 進行評估時,達到了人類水平的表現,與經過官方驗證的最佳人工設計編程智能體的結果相當。

赫胥黎 - 哥德爾機器
研究團隊構建了赫胥黎–哥德爾機(Huxley–G?del Machine,HGM)—— 一種利用譜系層級(clade-level)統計特性來近似哥德爾機的自我改進型機器。
HGM 的核心思想是元生產力(metaproductivity)—— 即衡量一個智能體提升自身「自我改進能力」的能力,這種能力的增強會在長期上帶來更優的后代智能體性能。
原始哥德爾機
原始的哥德爾機是一種通用任務求解器,它在理論上能夠在任意可計算的環境中,針對給定目標函數,最優地執行所有可證明的自我改進。
它的實現方式是運行一個「證明搜索器(proof searcher)」,持續尋找能夠形式化證明某種自我修改會帶來更高期望效用(expected utility)的證明。一旦找到這樣的證明,系統便會執行相應修改,并永久性地改變自身代碼。
哥德爾機的理論分析明確考慮了兩個現實約束:
1. 智能體只有一次生命(即沒有可重復的試驗);
2. 證明一個自我改進會消耗實際時間和資源,而這些資源本可以用于直接獲取獎勵。
元生產力的指標
研究團隊提出了兩種衡量元生產力的指標:
1. 全局元生產力(Global Metaproductivity,GMP):衡量進化一個給定智能體后,對整個智能體譜系(agent tree)的總體元生產力提升程度。此指標較為通用,但難以操作化或精確估計。
給定一個策略 π,為了量化某個智能體的自我修改對系統性能的影響,定義:

其中: ?? 是智能體樹;a ∈ ?? 為當前節點;Score_π 是對智能體進行最終選擇評分的函數; 策略 π 從當前樹出發展開完整的搜索軌跡,生成最終的智能體存檔 ??_B;軌跡的分布由 p_π 給出。
GMP 因此反映了整個系統的長期自我改進潛力,包括「改進自我改進能力本身」的元層次改進。
2. 譜系元生產力(Clade Metaproductivity,CMP):衡量從某個特定智能體出發(即其譜系)展開進化的潛在前景。
然而,盡管 GMP 能捕捉策略的全局潛力,但其范圍過于廣泛,難以在實踐中具體化。理論上,一個智能體的自我修改甚至可能通過引入新信息影響其祖先節點的期望效用。
原始哥德爾機的全局最優性來自其對「是否接受自我修改」的判定,只關注那些在形式上可證明會帶來進一步自我改進潛力的修改。
基于這一觀察,研究團隊定義了 GMP 的局部變體 —— 譜系元生產力(CMP),它聚焦于以某個智能體為根的子樹(即其譜系,clade):

其中 C (??_B, a) 表示在樹 ??_B 中以節點 a 為根的子樹(即譜系)。
CMP 含有關于未來自我進化過程的非貪婪信息(non-greedy information),因此能指導那些不僅旨在提升直接性能、還旨在改進「自我改進能力」的策略。
赫胥黎–哥德爾機(HGM)
該模型通過基于 CMP 估計值的 Thompson 采樣 策略來引導自我改進搜索,從而在實踐中實現了「近似哥德爾機」的自演化學習過程。
現有方法通常以編程任務的基準性能作為指導指標,將任務成功視為自我改進潛力的體現。然而,這種假設過于貪婪(greedy):它只評估一次修改的即時效用,而忽略了這種修改對未來自我改進能力的長期影響。
研究團隊將這種差距稱為 「元生產力 — 性能不匹配」,即短期任務表現與長期自我改進能力(以 CMP 衡量)之間的偏離,核心目標是通過推導 CMP 的估計量來建模這種長期的全局依賴關系。
具體而言,通過定義 HGM 的三個子策略來描述整個框架。
擴展策略
HGM 算法的核心是其「擴展選擇準則」。研究團隊使用譜系中智能體經驗性能的加權平均值來估計 CMP。HGM 的設計會為效用更高的智能體分配更大的權重。
形式化地,設當前固定的智能體存檔為 ???,n_success (a) 為智能體 a 通過的測試數,而 n_failure (a) 是智能體 a 未通過的測試數。定義譜系統計量:

由此定義 CMP 估計量:

在譜系層面而非個體層面評估生產力有若干優勢:
- 它更符合自我改進目標 —— 即使祖先性能一般,只要后代持續改進,它仍具有高價值;停滯的譜系則自然被降權。
- 聚合整個譜系的數據可顯著提高統計穩定性,相比單節點結果更穩健,尤其適用于評估成本高、基準數據稀缺的情境。
可以視為譜系中各智能體經驗均值的加權和,權重為各智能體的測試次數。此外,我們的評估策略傾向于選擇高性能智能體,從而在譜系內部形成「軟最大值」的選擇趨勢。
評估策略
如擴展策略所述,評估策略應優先選擇具有更高評估得分的智能體,以在譜系內部誘導最大化趨勢。形式化地,評估的智能體 a* 由下式給出:

選擇策略
最后,智能體需要在「擴展」與「評估」之間進行選擇。HGM 將評估與擴展解耦,并將其視為獨立步驟。
為了確定何時進行評估或擴展,研究者們借鑒了「無限臂賭博機(infinite-armed bandit)」的思想。該問題刻畫了在探索新臂與重復采樣已知臂之間的平衡:
- 「評估」對應于采樣現有臂(已有智能體);
- 「擴展」對應于引入新臂(創建新智能體)。
最終,研究者采用 UCB-Air 策略,當 N?? ≥ |???| 時,在時刻 t 添加新智能體。
實驗結果
元生產力 - 性能失準
本節中的實驗旨在實現兩個目的:(i) 提供 MPM(Metaproductivity-Performance Misalignment,元生產力 - 性能失準)問題的證據;(ii) 評估 HGM 的估計量是否比 DGM 和 SICA 采用的效用指標更可靠。
表 1 總結了三種估計量與 CMP(目標值)之間的相關性。SICA 和 DGM 的估計量獲得了正皮爾遜相關系數:在 SWE-Verified-60 上分別為 0.444 和 0.285,在 Polyglot 上分別為 0.274 和 0.383,這表明它們與目標值僅存在弱對齊,即存在 MPM 問題。
相比之下,HGM 的估計量
獲得了顯著更強的相關性:在 SWE-Verified-60 和 Polyglot 上的加權相關系數分別達到 0.778 和 0.626,未加權相關系數分別為 0.512 和 0.878,以顯著優勢超越了 SICA 和 DGM。
這些結果強有力地表明,配備
的 HGM 能夠提供更可靠的元生產力估計,并能有效緩解 SICA 和 DGM 固有的 MPM 問題。

評估 HGM 的自我改進能力
在這一實驗中,本文將 HGM 與兩種最先進的自我改進編程方法(DGM 和 SICA)進行了比較。
結果如表 2 所示,HGM 在性能與效率兩個關鍵維度上,均顯著超越了現有的自改進方法(DGM 和 SICA),確立了其優越性。
- 在 SWE-Verified-60 基準測試中,HGM 發現的智能體取得了 56.7% 的最高準確率。
- 在 Polyglot 基準測試中,HGM 同樣以 30.5% 的準確率領先。
在效率上:
- HGM 在完成 800 次評估所消耗的 CPU 時間遠少于基線方法,顯示出極高的計算效率。
- 在 Polyglot 上,HGM 比 DGM 快 6.86 倍,比 SICA 快 1.65 倍。
- 在 SWE-Verified-60 上,HGM 比 DGM 快 2.38 倍。
綜上所述,HGM 配備了更好的效用估計器和異步擴展 - 評估迭代,與 DGM 和 SICA 相比,它是一種更有效的自我改進機制。

HGM VS 人類
經過 8000 次評估后,HGM 發現了一個能解決 61.4% 任務的優化智能體,超越了 SWE-Verified 排行榜上基于 GPT-5-mini 的最佳人工設計智能體。這些結果證明了 HGM 在相同模型約束條件下與成熟人工設計基線競爭的巨大潛力。
表 3 展示了 HGM 的 「best-belief」 SWE-Verified 智能體在 SWE-Lite 基準測試上的泛化結果。該在 SWE-Verified 上得到的最佳 HGM 智能體,在 filtered(完全未見數據)設置下取得了 40.1% 的成績,在標準設置下取得了 49.0%。與其初始版本(分別為 34.8% 和 44.0%)相比,這一提升證明了 HGM 的自我進化機制確實能夠提升通用編程能力,而不僅僅是對優化集的過擬合。

HGM 發現的智能體展現出卓越的跨模型泛化能力:當將其骨干模型從 GPT-5-mini 替換為更強大的 GPT-5 時,其強勁性能得以保持。在 SWE-Bench Lite 基準測試中,該智能體的表現與排行榜上最先進的人工設計智能體相當。
- 在官方 SWE-Bench Lite 排行榜上,其性能超越了所有其他經過官方結果驗證的智能體。
- 在精心篩選的 SWE-bench Filtered 測試集上,僅比最佳模型少解決一個任務。
這一遷移實驗的成功,強有力地證明了:HGM 自我進化出的智能體設計原則是普適的,其改進并非依賴于某個特定模型。此外,本文還發現性能提升源于智能體自身能力的真實、本質的增強,而非對特定數據集或大語言模型的過擬合。
































