精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華校友用AI破解162個高數定理,智能體LeanAgent攻克困擾陶哲軒難題!

人工智能
就在剛剛,清華校友用AI證明了162個未被人類證明的數學定理,解決了AI無法解決陶哲軒對多項式Freiman-Ruzsa猜想的形式化難題!

諾貝爾物理學獎和化學獎被AI「包圓」后,人們再次確信:基礎科學研究的范式,已經被AI從根本上改變。

果然,就在剛剛,AI成功證明了162個以前未被證明的數學定理,再次印證了這一點。

圖片圖片

到目前為止,LLM仍然是靜態的,無法在線學習新知識,更別提證明高數定理了。

對此,來自加州理工、斯坦福和威大的研究人員提出了LeanAgent——一個終身學習,并能證明定理的AI智能體。

圖片圖片

論文地址:https://arxiv.org/abs/2410.06209

LeanAgent會根據數學難度優化的學習軌跡課程,來提高學習策略。并且,它還有一個動態數據庫,有效管理不斷擴展的數學知識。

值得一提的是,整個學習過程中,它既能自我學習新知識,同時不會遺忘已具備的能力。

實驗結果發現,LeanAgent從來自23個不同Lean代碼庫中,成功證明162個此前未被人類證明的數學定理。

相較于基于Lean數據微調大模型,LeanAgent性能直接飆升11倍。而且,綜合終身學習能力近94%。

其中,有許多是高等數學定理,比如具有挑戰性的抽象代數、代數拓撲。

它還展現出了從基本概念到高級主題清晰的學習過程。

同時,LeanAgent在穩定性、反向遷移方面取得了卓越的成績,并且學習新任務還能提高以往任務的性能。

陶哲軒的證明,AI依然無解?

交互式定理證明器(ITPs),如Lean,已成為形式化和驗證數學證明的工具。

然而,使用ITPs構建形式化證明不僅復雜,且非常耗時。因為它需要極其詳細的證明步驟,并需要使用大量數學代碼庫。

諸如o1、Claude先進的大模型,在非形式化證明中,會產生幻覺。這愈加凸顯了,LLM在形式化數學證明中準確性、可靠性方面的重要性。

先前的一系列研究,探索了LLM也能夠生成完整的證明步驟。

比如,LeanDojo便是基于開源大模型構建的定理證明器。研究人員通過在特定數據集上,訓練微調大模型而來。

圖片圖片

項目地址:https://leandojo.org/

然而,形式化定理證明數據非常稀缺,進而阻礙了這一方法的泛化能力。

再比如,ReProver專門針對Lean定理證明代碼庫mathlib4微調的大模型。盡管這個數據庫包含了超10萬個形式化數學定理、定義,但它們分布僅覆蓋的是本科數學。

因此,ReProver在更具挑戰性問題——陶哲軒對多項式Freiman-Ruzsa(PFR)猜想的形式化,表現就會很差。

圖片圖片

https://terrytao.wordpress.com/2023/11/13/on-a-conjecture-of-marton/

并且,數學研究動態性,更是加劇了無法泛化的問題。

數學家們通常同時,或者交替在多個領域、項目中進行形式化。

比如,陶哲軒并行開啟多個項目,包括PFR猜想、實數對稱平均、經典牛頓不等式、漸近分析的形式化。

Patrick Massot專注于形式化Scholze凝聚態數學,以及完美空間(Perfectoid Spaces)項目。

圖片圖片

這些例子突出了當前AI定理證明方法一個關鍵不足:

缺乏一個能夠隨時間在不同數學領域自適應、改進的AI系統,特別是在Lean數據可用性有限的前提下。

與終身學習的相關性

至關重要的是,數學家們形式化過程與終身學習密切相關,即在不忘記的情況下學習多個任務。

然而,對于AI來說,一個重大挑戰便是「災難性遺忘」問題。

它們往往會學習新知識(新分布)后,直接丟失,甚至抹去了對舊知識(舊分布)的記憶。

而核心挑戰是,如何去平衡可塑性(學習和適應的能力)與穩定性(保留現有知識的能力)。

當AI學習新任務時,可能會覆蓋了先前的學習信息。而若是為了增強穩定,保留既有的知識,便會損害LLM獲取新技能的能力。

在數學形式化定理證明中,AI持續泛化能力的關鍵,便是在這兩者之間實現平衡。

LeanAgent:首個終身學習證明數學定理的AI智能體

基于以上難題,LeanDojo原班人馬團隊提出了LeanAgent,一個用于定理證明的全新終身學習框架。

如下圖1所示,LeanAgent工作流包括了:

  1. 推導定理的復雜度,以計算學習課程
  2. 進行漸進訓練,在學習過程中平衡穩定性和可塑性
  3. 利用最佳優先樹搜索,來搜索sorry定理(人類尚未證明的定理)

當然,LeanAgent可與任何LLM結合使用,并且通過「檢索」來提高泛化能力。

同時,LeanAgent包含了幾個關鍵的創新——

使用自定義動態數據庫,管理不斷擴展的數學知識;使用一種新穎課程學習(curriculum learning)策略,利用Lean證明結構,來學習更復雜的數學倉庫。

圖片圖片

對于AI災難性遺忘問題,研究人員采用了簡單的「漸進」訓練方法。

該方法讓LeanAgent能夠持續適應新的數學知識,同時還能保留先前的學習信息。

這一過程涉及了,在課程中每個倉庫生成的新數據集上,增量訓練檢索器。

從預訓練檢索器開始(比如基于ByT5 ReProver檢索器),LeanAgent在每個新數據集上,額外訓練一個epoch。

通過將漸進訓練限制在一個epoch,有助于平衡穩定性和可塑性。

尤其是,漸進訓練對數據庫生成的每個數據集重復進行,逐步擴展LeanAgent知識庫。

它的優勢是,增加了可能的證明狀態空間(其中狀態包括定理的假設和當前證明進展),同時向前提嵌入添加了新的前提。

不過,更復雜的終身學習方法,如彈性權重合并(EWC),使用Fisher信息矩陣來約束先前任務的重要權重,會導致過度可塑性。

這種不受控制的可塑性,是因為AI無法隨著定理復雜度的增加,而適應參數重要性。

它迫使AI在學習高級概念時,關鍵參數會發生快速變化。

因此,這些方法是無法適應數學定理不斷演變復雜性,也就無法適用在定理證明中的終身學習。

如前所述,在23個不同的Lean代碼庫中, LeanAgent在定理證明終身學習方面取得了優越性。

它成功證明了162個sorry定理,其中許多來自高等數學。

比如,LeanAgent證明了來自PFR倉庫的困難sorry定理,并證明了抽象代數和代數拓撲中與Coxeter系統和毛球定理相關的挑戰性定理。

另外,研究人員還發現,LeanAgent在定理證明中,展現出漸進學習的一面。

從最初證明基本的sorry定理,到后面證明了更復雜的定理。

而且,LeanAgent在只能證明新的sorry定理方面,比靜態ReProver基線高出多達11倍,同時保留了對已知定理證明的能力。

在定理證明中,作者還發現穩定性(在不失去太多可塑性前提下),對于AI持續泛化到新倉庫至關重要。

反向遷移(BWT),即學習新任務改善先前學習任務的性能,也在定理證明中至關重要。

數學家需要一個既能持續泛化,又能持續改進的定理證明終身學習框架。

最后的消融實驗中,相較于7個終身學習框架,LeanAgent簡單的課程學習和漸進訓練組件,顯著提高了穩定性和BWT得分。

最終,LeanAgent拿下了94%綜合終身學習的成績,幾乎接近完美。

這也揭示了,LeanAgent在持續泛化和改進的強大能力,以及卓越的sorry定理證明性能。

LeanAgent對數學知識的掌握

在終身學習過程中,LeanAgent展示了對基本代數結構和基本數學運算的深刻理解。

a)群和環論

LeanAgent證明了關于基本代數結構的定理。例如,MyGroup.mul_right_inv證明了將一個元素與其逆元素相乘等于單位元,而MyRing.add_right_cancel則展示了環加法的消去性質。

圖片圖片

b)初等數論

LeanAgent可以處理基本的算術屬性。例如,MyRing.zero_mul證明了零乘以任何數都是零,而MyRing.neg_neg則證明了負數的負數等于原數。

圖片圖片

c)序理論

LeanAgent掌握了序理論的相關概念。例如,absorb 1證明了x與(x和y的上確界)的下確界總是等于x,而absorb2證明了x與(x和y的下確界)的上確界總是等于x。

圖片圖片

d)初等實分析

LeanAgent 展示了對實數及其絕對值性質的初步理解。例如,C03S05.MyAbs.abs_add證明了涉及實數的三角不等式。

圖片圖片

終身學習過程表明,LeanAgent已經從基礎開始理解數學概念。而在這個過程結束后,它的數學推理能力有顯著提升。

比如證明了涉及多個量詞和條件的邊界和絕對值的復雜命題。

圖片圖片

理解了抽象集合論的概念,證明了子集關系是傳遞的。

圖片圖片

方法

用于定理證明的有效終身學習策略,需要(a)最佳倉庫順序策略和(b)最佳學習策略。

通過課程學習,研究者解決了(a),以利用Lean證明的結構,并通過漸進式訓練來解決(b),以平衡穩定性和可塑性。

LeanAgent由四個主要組件組成:課程學習、動態數據庫管理、檢索器的漸進式訓練和sorry定理證明。

課程學習

LeanAgent采用課程學習方法,學習逐漸增加復雜度的數學代碼庫。

這個過程優化了LeanAgent的學習軌跡,讓它能夠在處理更高級的概念之前,先建立堅實的基礎知識。

具體步驟如下:

  1. 自動搜索并克隆GitHub上的Lean代碼庫。
  2. 使用LeanDojo提取每個代碼庫中定理、證明和依賴關系的細粒度信息。
  3. 使用公式eS計算每個定理的復雜度,其中S代表證明步驟的數量。對于沒有證明的sorry定理(即未完成證明的定理),賦予無限復雜度。
  4. 采用指數縮放,來解決隨著證明長度增加可能出現的證明路徑組合爆炸問題。
  5. 計算所有代碼庫中所有定理復雜度的第33百分位和第67百分位。
  6. 將非sorry定理分為三組:簡單(復雜度低于第33百分位)、中等(復雜度在第33百分位和第67百分位之間)和困難(復雜度高于第67百分位)。
  7. 按照代碼庫中包含的簡單定理數量對代碼庫進行排序,形成課程基礎。

LeanAgent從包含最多簡單定理的代碼庫開始學習。

動態數據庫管理

在建立課程后,研究者進行以下操作:

  1. 將排序后的代碼庫添加到LeanAgent的自定義動態數據庫中,使用LeanAgent提取的數據。
  2. 將每個定理的復雜度包含在動態數據庫中,以便未來課程中高效重用代碼庫。
  3. 對課程中的每個代碼庫,LeanAgent使用動態數據庫生成數據集,遵循與制作LeanDojo基準測試4相同的程序。

生成的數據集包括:

  • 一系列定理及其證明
  • 每個證明步驟的詳細注釋,說明該步驟如何改變證明的狀態
  • 定理狀態信息,包括假設和證明進展
  • 展示如何按順序使用特定的策略(函數)和前提來證明定理
  • 前提語料庫,作為事實和定義的參考庫

檢索模型的漸進式訓練

LeanAgent在新生成的數據集上,對其檢索模型進行漸進式訓練。

這種策略使LeanAgent能夠持續適應新數據集中前提的新數學知識,同時保留先前學習的信息,這對定理證明的終身學習至關重要。

漸進式訓練通過逐步整合每個代碼庫的新知識來實現這一目標。訓練過程如下:

  1. 起點選擇:雖然LeanAgent可以與任何LLM配合使用,但研究者選擇從ReProver的檢索模型開始。這是ByT5編碼器的微調版本,利用其從mathlib4獲得的一般預訓練知識。
  2. 新數據集訓練:在新數據集上額外訓練LeanAgent一個epoch(訓練周期)。這種有限的訓練有助于防止對新數據過擬合,同時允許LeanAgent學習重要的新信息。
  3. 嵌入預計算:在驗證之前,預先計算語料庫中所有前提的嵌入,以確保這些嵌入與LeanAgent的當前狀態一致。
  4. 模型評估:
    - 計算可塑性:保存在前十個檢索到的前提(R@10)的驗證召回率最高的模型迭代。這是一個原始可塑性值,用于評估LeanAgent適應新數學類型的能力。
    - 計算穩定性:計算模型在所有先前漸進式訓練過的數據集上的平均測試R@10,作為原始穩定性值。
  5. 重復過程:對從數據庫生成的每個數據集重復上述步驟,體現訓練的漸進性質。

漸進式訓練的效果:

  • 將新的前提添加到前提嵌入中
  • 增加可能的證明狀態空間
  • 使LeanAgent能夠探索更多樣化的證明路徑
  • 發現無法用原始知識庫產生的新證明

sorry定理的證明

對于每個sorry定理,LeanAgent AI智能體會通過最佳優先樹搜索生成證明。具體步驟如下:

1. 前提檢索:

  • 使用之前收集的整個前提語料庫的嵌入
  • 基于當前證明狀態(表示為上下文嵌入)與前提的相似性,從前提語料庫中檢索相關前提
  • 使用語料庫依賴圖進行過濾,確保只考慮當前文件可訪問的前提

2. 策略生成:

  • 將檢索到的前提添加到當前狀態
  • 使用束搜索生成策略候選

3. 狀態評估:

  • 將每個策略候選通過Lean運行,獲得潛在的下一個狀態
  • 每個成功的策略應用都會向證明搜索樹添加一條新邊

4. 策略選擇:

  • 選擇具有最大累積對數概率的策略,即導致該狀態的策略序列的累積對數概率

5. 回溯處理:

  • 如果搜索遇到無效路徑,進行回溯并探索替代路徑

6. 迭代過程:

  • 重復上述步驟,直到滿足以下條件之一:a) 找到證明 b) 窮盡所有可能性 c) 達到10分鐘的時間限制

7. 結果處理:

  • 如果LeanAgent找到證明,將其添加到動態數據庫中
  • 新證明中添加的前提將包含在涉及當前代碼庫的未來前提語料庫中
  • LeanAgent可以在未來的漸進式訓練中從新證明中學習,進一步改進其性能

如前所述,研究者對從數據庫生成的每個數據集重復這個過程,因此這種訓練具有漸進性質。

漸進式訓練將新的前提添加到前提嵌入中,并增加了可能的證明狀態空間。

這使LeanAgent能夠探索更多樣化的路徑來證明定理,發現它無法用原始知識庫產生的新證明。

實驗

圖片圖片

sorry定理的證明

研究者比較LeanAgent AI智能體在持續學習過程中和之后能夠證明的sorry定理,并與ReProver基準進行對比。

選擇ReProver作為基準,是因為在實驗中使用了它的檢索器作為LeanAgent的初始檢索器。

然而,由于定理證明難度的非線性特性,研究者避免在LeanAgent和ReProver之間進行簡單的百分比比較。

值得注意的是,LeanAgent在多個代碼庫中顯著優于基準的性能,讓它能夠證明越來越難的定理。

此外,sorry定理缺乏已知的證明,因此證明一個sorry定理,對數學研究具有重要價值。

基于以上考慮,研究者提出了一個定理證明性能得分(Theorem Proving Performance Score,TPPS),特別強調新證明的sorry定理。

TPPS的計算方法如下:

  1. LeanAgent TPPS = (# ReProver Theorems Proved) + (# New Theorems Proved * X) + 1
  2. ReProver TPPS = (# ReProver Theorems Proved) + 1
  3. improvement Factor = (LeanAgent TPPS) / (ReProver TPPS)

其中,X代表證明新定理的重要性權重。考慮到基礎算術和抽象代數之間的巨大難度差距,研究者選擇了X = 10。

此外,LeanAgent AI智能體的一個使用場景,是在學習完一個課程后在新的代碼庫中進行形式化(即將數學概念和證明轉化為計算機可驗證的形式)。

研究者通過在MiniF2F上逐步訓練來展示這一點。需要注意的是,我們選擇了MiniF2F代碼庫的Lean4版本,并忽略了其驗證集和測試集的劃分(原因詳見附錄A.5)。

數學家可以使用LeanAgent進行以下兩步操作:

1. 學習初始課程A

2. 學習子課程B

然后,LeanAgent可以幫助數學家并行地形式化課程A+B中的代碼庫。

為了演示這種情況,研究者在8個代碼庫組成的子課程B上繼續訓練LeanAgent。結果見表2,案例研究見圖2。

圖片圖片

圖片圖片

LeanAgent在多個代碼庫中,展示了持續的泛化能力和定理證明能力的提升。

在終身學習結束時,LeanAgent相比ReProver的改進因子如下:

- PFR:11倍

- Mathematics in Lean Source:5.67倍

- MiniF2F:2.63倍

- SciLean:2.2倍

- Hairy Ball定理:11倍

- Coxeter:11倍

- Formal Book:4.33倍

在大多數情況下,LeanAgent的證明是ReProver所證明的sorry定理的超集。LeanAgent的學習進展從基本概念(如算術、簡單代數)逐步深入到高級主題(如抽象代數、拓撲學)。

1. PFR:

LeanAgent AI智能體能夠證明這個前沿代碼庫中的一個sorry定理,而ReProver做不到。它還能泛化到不同的代碼提交,僅使用rfl策略就能證明ReProver無法證明的定理。有趣的是,LeanAgent對PFR代碼庫中的邏輯操作理解得足夠深入,能夠用「0 = 1」這樣的占位符定理語句,證明5個sorry定理。

2. SciLean:

在終身學習過程中,LeanAgent證明了與基本代數結構、線性和仿射映射以及測度論基礎相關的定理。到終身學習結束時,它掌握了高級函數空間、復雜雙射和抽象代數結構的概念。

3. Mathematics in Lean Source:

在終身學習過程中,LeanAgent證明了關于基本代數結構和基本算術性質的定理。到終身學習結束時,它能夠證明涉及量詞操作、集合論和關系的復雜定理。

4. MiniF2F:

ReProver展示了在基礎算術、初等代數和簡單微積分方面的熟練程度。然而,到終身學習結束時,LeanAgent掌握了高級數論、復雜代數、復雜微積分和分析、抽象代數以及復雜歸納法。

5. 子課程:

  • Formal Book代碼庫:LeanAgent從證明基本實分析和數論定理進步到掌握高級抽象代數,其證明Wedderburn小定理就是一個例證。
  • Coxeter代碼庫:LeanAgent證明了一個關于Coxeter系統的復雜引理,展示了它在群論方面的熟練程度。
  • Hairy Ball定理代碼庫:LeanAgent證明了該定理的一個關鍵步驟,展示了對代數拓撲的理解。

LeanAgent能夠證明這些令人印象深刻的定理,表明它比ReProver具有更高級的定理證明能力。

終身學習分析

因為文獻中不存在其他用于定理證明的終身學習框架,因此研究者進行了一項消融研究,使用七個終身學習指標,來展示LeanAgent AI智能體在處理穩定性-可塑性權衡方面的優越性。

這些結果有助于解釋LeanAgent AI智能體在sorry定理證明性能方面的優勢。

研究者為原始的14個代碼庫課程計算了這些指標。

具體來說,消融研究包括七個額外的設置,這些設置由學習和數據集選項組合而成。學習設置的選項是有或沒有EWC的漸進式訓練。

數據集設置涉及數據集順序和構建。數據集順序的選項包括單一代碼庫或合并所有,其中每個數據集由所有先前的代碼庫和新的代碼庫組成。

考慮到GitHub上按星級計數最受歡迎的代碼庫,數據集構建的選項包括受歡迎度順序或課程順序。

圖片圖片

圖片圖片

研究者使用了以下七個終身學習指標:

1. 窗口遺忘5(WF5)

2. 遺忘度量(FM)

3. 災難性遺忘恢復力(CFR)

4. 擴展反向遷移(EBWT)

5. 窗口可塑性5(WP5)

6. 增量可塑性(IP)

7. 綜合得分(CS)

他們引入了三個新指標,來解決定理證明中終身學習的特定方面:

  • 災難性遺忘恢復力(CFR):這個指標捕捉了LeanAgent AI智能體在其最弱任務上,相對于其最佳表現保持性能的能力,這在存在多樣化數學領域的情況下至關重要。
  • 增量可塑性(IP):IP提供了比總體措施更細粒度的可塑性視圖,并對任務順序敏感,這在定理證明的終身學習中特別相關。
  • 綜合得分:目前應該還沒有廣泛建立的綜合指標能夠提供一個單一的穩定性-可塑性權衡得分,包含表3中的前六個指標。

因此,研究者提出了一個綜合得分:Composite Score = 0.2 · (1 ? WF5_norm) + 0.2 · (1 ? FM_norm) + 0.1 · WP5_norm + 0.1 · IP_norm + 0.2 · EBWT_norm + 0.2 · CFR_ norm

圖片圖片

此外,這些指標在合并所有策略中衡量的是累積知識改進而不是孤立的任務表現。

圖片圖片

1. 單一代碼庫分析

表4呈現了,單一代碼庫的結果。

LeanAgent智能體在多項指標上,展現出卓越的穩定性。其WF5指標比下一個最佳設置低75.34%,表明它能更有效地在一個時間窗口內保持性能。

LeanAgent FM得分比設置3還要低59.97%,展示了其對災難性遺忘的強大抵抗力。

此外,LeanAgent智能體、設置1和設置2中,都表現出高度一致的不會出現災難性遺忘,CFR值均超過0.87,差異極小(僅±0.01)。

這恰恰凸顯了,LeanAgent智能體隨時間持續泛化的能力。

另外,它EBWT高出16.25%,進而表明其具備了隨時間持續改進的能力。

圖片圖片

相比之下,設置3表現出更高可塑性。

它的WP5比LeanAgent AI 智能體高出38.26%,表明其在一個時間窗口內,快速適應新任務的能力更強。

設置3 IP 比LeanAgent智能體高出3.98%相輔相成,暗示了隨著時間推移,其在新任務上改進更為顯著。

然而,這些可塑性的提升是以極大代價換來的:設置3產生了更嚴重的災難性遺忘,可從其與LeanAgent智能體相比明顯較差的穩定性指標可以看出。

設置3中過度的可塑性,源于EWC無法隨定理復雜性增加而調整參數重要性。

EWC保留了對簡單定理重要的參數,但這些參數可能對更復雜的定理,并不關鍵。

因此,這些保留的參數抗拒變化,而其他參數為復雜定理快速變化。這迫使模型整體變得更具可塑性,在處理新的復雜定理時嚴重依賴非保留參數。

LeanAgent AI 智能體在綜合得分上表現出卓越性能,能夠在適應新任務的同時,保持已有知識,使其成為單一代碼庫設置中最適合終身學習智能體。

2. 合并所有分析

接下來,研究人員分析了表4中的合并所有設置。

設置5的WF5指標比下一個最佳設置(設置7)低61.68%,表明設置5在不斷擴大的數據集中最有效地實現可塑性和穩定性平衡。

此外,設置5的CFR得分比設置7高3.77%,再次展示了面對不斷擴大、可能更復雜的數據集時的高度且一致的抵抗力。

然而,設置7的FM得分比設置5低6.44%,展示了其在早期數據點上能夠保持已有知識的能力。

此外,設置5是唯一一個EBWT為正的設置,表明學習新任務可以提高整個歷史數據集的性能。其他設置的EBWT為負,表明在學習新任務后,早期任務的性能有所下降。

只有設置5和7的WP5不為0,表明它們有能力適應合并數據集不斷增加的復雜性。

設置4和6為0數值表明,在處理合并數據時,按受歡迎程度排序難以顯示改進。然而,盡管設置5的IP得分最高,比設置7高27.75%,但所有4個設置的IP值都為負。

這表明驗證R@10隨時間推移而下降,說明合并所有策略難以保持性能。

設置5的高綜合得分表明,它在平衡保留早期知識與適應合并數據集中的新數據方面表現最佳。然而,其負IP值表明其方法存在根本性問題。

3. 比較分析和洞見

盡管這些指標在單一代碼庫和合并所有設置中有不同的解釋,但研究者表示,仍然可以通過關注整體趨勢和相對表現,來進行一些有意義的比較。

研究者注意到,合并所有設置中的負IP值表明存在重大問題。

這個缺點超過了其他指標所顯示的潛在優勢,因為它揭示了在持續增長的數據集中無法保持和改善性能的根本問題。

相比之下,LeanAgent展示了正IP值,表明其能夠有效吸收新知識。

這一特點,再加上其相對于其他單一代碼庫方法更優越的穩定性和EBWT指標,表明LeanAgent比設置5更適合實現持續的泛化能力和性能改進。

4. 與sorry定理證明性能的一致性

這種終身學習分析與LeanAgent在sorry定理證明方面的性能表現是一致的。

LeanAgent優越的穩定性指標(WF5、FM和CFR),解釋了它在不同數學領域保持性能的能力,這一點從它成功證明來自SciLean、Mathematics in Lean Source和PFR等不同代碼庫的定理中就可以被證實。

其高EBWT分數與它在定理證明中從基本概念到高級主題的進展相一致。

雖然LeanAgent相比某些設置顯示出略低的可塑性(WP5和IP),但這種權衡實際上導致了更好的整體性能。這一點體現在它能夠證明比其他方法更廣泛的sorry定理集合。

由持續泛化能力、持續改進和可塑性組成的綜合得分,進一步證實了LeanAgent在定理證明的終身學習方面具有全面的優勢。

作者介紹

Peiyang Song

圖片圖片

Peiyang Song是加州理工學院(Caltech)計算機科學的本科生,由Steven Low教授的指導。同時也是斯坦福人工智能實驗室(SAIL)的研究員,在計算與認知實驗室(CoCoLab)由Noah Goodman教授指導。

他的研究方向是機器推理,特別是用于數學和代碼生成的AI。此前,從事過高能效機器學習系統和機器翻譯的研究。

Chaowei Xiao

圖片

Chaowei Xiao是威斯康星大學麥迪遜分校的助理教授,同時也是英偉達的研究員。

他的研究方向是探索LLM系統的安全性和安全保障,以及LLM在不同應用領域中的作用。

此前,他在密歇根大學安娜堡分校獲得博士學位,并在清華大學獲得學士學位。

參考資料:

https://arxiv.org/abs/2410.06209

https://x.com/AnimaAnandkumar/status/1844756761510859034

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-11-06 08:59:00

2024-07-29 13:28:52

2024-10-14 14:31:36

2024-12-09 09:35:00

AI數據訓練

2025-09-04 09:04:13

2023-12-16 09:42:12

2024-10-28 16:20:00

2025-10-30 16:08:28

谷歌AI陶哲軒

2023-10-28 13:18:05

AI工具

2025-06-12 14:20:35

谷歌DeepMindAI

2023-10-04 08:07:06

CopilotGitHub

2025-05-22 09:08:40

2023-10-10 13:51:46

GPT-4GitHubAI

2023-10-10 12:30:51

AI模型

2023-09-02 11:21:54

代碼ChatGPT

2025-06-03 08:15:00

2022-12-19 10:45:14

編程幾何

2024-09-29 14:00:00

AI數學自動化

2024-07-29 08:49:00

AI數學

2024-01-31 13:04:00

AI數據
點贊
收藏

51CTO技術棧公眾號

欧美在线播放| 成人永久在线| 国产精品素人视频| 97影院在线午夜| 天天综合网入口| 日韩在线欧美| 亚洲国产欧美在线成人app| 国产精品乱码久久久久| av在线下载| 久久亚洲免费视频| 亚洲一区二区三区xxx视频| 在线观看国产亚洲| 一区二区三区网站| 亚洲欧美资源在线| 性生交大片免费看l| 国产成人精品123区免费视频| 亚洲男人电影天堂| 四虎影院一区二区三区| 手机看片福利在线| 韩国三级中文字幕hd久久精品| 91国内免费在线视频| 国产极品美女在线| 欧美人与拘性视交免费看| 精品欧美黑人一区二区三区| 视频二区在线播放| 全亚洲第一av番号网站| 一卡二卡欧美日韩| 国产精品波多野结衣| 国产裸舞福利在线视频合集| www.欧美日韩| 91成人在线播放| 青春草免费视频| 久久久久久久久丰满| 国产一区二区三区中文| 欧美熟妇精品黑人巨大一二三区| 欧美成年网站| 91麻豆精品国产91久久久资源速度| 一本久道中文无码字幕av| av中文在线资源库| 亚洲高清三级视频| 日本福利视频网站| 在线观看中文字幕的网站| 国产精品亲子伦对白| 日本精品二区| 成人在线免费观看| 国产欧美一区二区三区在线看蜜臀 | 看国产成人h片视频| 日韩美女在线观看| 亚洲天堂男人av| 久久久久久久波多野高潮日日| 57pao国产成人免费| 男女啊啊啊视频| 亚洲一区二区毛片| 国产成人激情视频| 日韩欧美一级大片| 美女在线一区二区| 91精品视频观看| 国产视频一区二区三| 国产麻豆精品视频| 91福利视频导航| 国产成人无码www免费视频播放| 国产91在线观看| 国产伦精品一区二区三区视频黑人| 亚洲精品成人电影| av日韩在线网站| 久久99精品国产一区二区三区| 亚洲aⅴ乱码精品成人区| 97久久精品人人爽人人爽蜜臀| 久久久亚洲综合网站| 国产青青草在线| 国产精品久久久久久一区二区三区 | 亚洲欧洲国产日韩| 男人j进女人j| 国产精品一二三产区| 色婷婷久久一区二区三区麻豆| 性欧美videossex精品| 97精品资源在线观看| 精品裸体舞一区二区三区| 少妇被狂c下部羞羞漫画| 亚洲春色h网| 久久精品成人欧美大片| 精品少妇一二三区| 久久在线91| 亚洲一区二区中文字幕| 天天综合天天色| 国产精品天美传媒沈樵| a级片一区二区| 中文字幕乱码中文乱码51精品| 欧美在线观看18| 中文字幕一二三区| 国产传媒欧美日韩成人精品大片| www国产91| 国产高潮久久久| 国产中文一区二区三区| 久久久神马电影| 91最新在线视频| 色综合久久久久综合体桃花网| 午夜大片在线观看| 最新国产一区| 欧美高清视频在线| 中文在线免费看视频| 成人美女视频在线观看18| 亚洲精品国产精品国自产| wwww亚洲| 欧美精品久久久久久久多人混战| 国产精品无码专区| 羞羞答答成人影院www| 欧美一区二区三区图| 国产不卡精品视频| 国产日本一区二区| 亚洲精品蜜桃久久久久久| 六九午夜精品视频| 日韩高清免费在线| 九九热精品免费视频| 老牛嫩草一区二区三区日本 | 少妇一区二区三区| 九九久久综合网站| 中文在线最新版天堂| 26uuu欧美| 日韩欧美不卡在线| 国产一区二区三区免费观看在线| 伊人亚洲福利一区二区三区| 五月婷婷开心网| 成人av电影在线播放| 熟女视频一区二区三区| 成人av色网站| 国产亚洲xxx| √资源天堂中文在线| 成人高清视频在线观看| 国产女主播av| 免费一级欧美在线大片 | 成人免费观看在线观看| 欧美一区二区日韩一区二区| 久久久久久久久福利| 老色鬼久久亚洲一区二区| 精品乱码一区二区三区| 菠萝蜜视频在线观看www入口| 日韩三级视频在线看| 免费精品在线视频| 精品中文字幕一区二区小辣椒| 无码免费一区二区三区免费播放| 欧美国产大片| 国产亚洲欧洲高清一区| 免费精品一区二区| 欧美国产一区二区在线观看| 国产精品入口免费软件| 精品日本12videosex| 国产精品99久久99久久久二8| 美国一级片在线免费观看视频 | 国产精品久久久一本精品| 91制片厂毛片| 国产精品7m凸凹视频分类| 国产中文欧美精品| 最新国产在线拍揄自揄视频| 日韩午夜在线影院| 国产一级在线观看视频| 本田岬高潮一区二区三区| 成人免费观看cn| 亚洲三级精品| 国产精品爽黄69| 老司机免费在线视频| 日韩一卡二卡三卡| 99免费在线观看| 久久在线观看免费| 日日噜噜夜夜狠狠| 亚洲情侣在线| 国产精品一区二区免费| 亚洲综合在线电影| 最近中文字幕mv在线一区二区三区四区 | 视频一区国产视频| 桥本有菜av在线| 亚洲精品一区在线| 国产成人精品电影久久久| 亚洲麻豆精品| 欧美va在线播放| 日韩在线 中文字幕| 国产精品丝袜一区| 亚洲国产精品第一页| 午夜影院日韩| 亚洲欧美综合一区| aaa国产精品| 国产精品久久久亚洲| 18av在线播放| 亚洲天堂av电影| 精品国产999久久久免费| 午夜国产精品影院在线观看| 国产主播av在线| gogogo免费视频观看亚洲一| 538任你躁在线精品免费| 在线欧美视频| 在线观看日韩片| 欧美在线导航| 91九色精品视频| 欧美xxxxxx| 欧美黑人xxxⅹ高潮交| 国产51人人成人人人人爽色哟哟 | 国产精品一区电影| 国产第一页在线| 一个色综合导航| 神马一区二区三区| 制服.丝袜.亚洲.另类.中文| 黄色一级片免费在线观看| 亚洲欧美日韩成人高清在线一区| 好吊日免费视频| 国产精品18久久久久久久久| 男人舔女人下面高潮视频| 伊人激情综合| 黄色一级视频播放| 成人aaaa| 久久影视中文粉嫩av| 18国产精品| 91社区国产高清| 成人久久网站| 青青a在线精品免费观看| www.综合网.com| 伦理中文字幕亚洲| 日韩在线资源| 亚洲国产精久久久久久| 午夜一区二区三区| 成人午夜三级| 91亚洲精华国产精华| 国产精品字幕| 欧美中文在线免费| av午夜在线观看| 欧美成人三级视频网站| 日韩精品黄色| 原创国产精品91| 可以免费看污视频的网站在线| 精品国产电影一区二区| 国产免费无遮挡| 欧美精选一区二区| 怡红院成永久免费人全部视频| 色综合久久88色综合天天6| 日韩欧美三级在线观看| 亚洲一区二区五区| 九九热精彩视频| 一区二区成人在线视频| 欧美日韩精品一区二区三区视频播放| 中文字幕永久在线不卡| 欧洲性xxxx| 欧美激情中文不卡| 在线观看国产精品一区| 国产午夜亚洲精品午夜鲁丝片 | 成人性视频网站| 色哟哟在线观看视频| 国产乱码精品一区二区三区忘忧草| 欧美美女一级片| 久久成人免费电影| 国产福利在线免费| 国产真实乱偷精品视频免| 国产又粗又猛大又黄又爽| 国产乱人伦偷精品视频免下载| 91福利免费观看| 久久精品72免费观看| www.51色.com| 国产高清精品在线| zjzjzjzjzj亚洲女人| av在线不卡观看免费观看| 色噜噜在线观看| 国产色综合久久| av在线免费播放网址| 亚洲天堂中文字幕| 久久人人爽人人爽人人| 午夜精品久久久久久久99水蜜桃| 欧美一级视频免费观看| 一本一本久久a久久精品综合麻豆| 久久久久久久久久成人| 欧美日韩性生活| 国产成人精品一区二三区四区五区| 欧美mv和日韩mv国产网站| 色婷婷av一区二区三| 亚洲乱码一区av黑人高潮| 成人18在线| 久久国产精品偷| 波多野结衣在线播放| 日产精品久久久一区二区福利| 草莓视频成人appios| 亚洲一区二区三区成人在线视频精品 | 91久久精品日日躁夜夜躁国产| 日韩08精品| 农村寡妇一区二区三区| 五月天综合网站| 日本韩国欧美在线观看| 美美哒免费高清在线观看视频一区二区 | 日韩aaaaaa| 欧美综合色免费| www.com在线观看| 亚洲视频第一页| 性欧美高清come| 国产精品福利无圣光在线一区| 麻豆一区在线| 日韩久久在线| 亚洲三级电影在线观看| 8x8x成人免费视频| 91免费观看视频| 九九精品在线观看视频| 欧美在线不卡视频| 人人妻人人澡人人爽久久av| 色婷婷久久一区二区| 三级中文字幕在线观看| 亚洲va国产va天堂va久久| 国产中文精品久高清在线不| 无码人妻精品一区二区蜜桃网站| 日韩av一级片| 色婷婷精品久久二区二区密| 亚洲手机成人高清视频| 日本熟妇一区二区三区| 亚洲电影av在线| 成年视频在线观看| 国产精品久久视频| 天堂99x99es久久精品免费| 日本精品福利视频| 免费成人美女在线观看| 人妻精品久久久久中文字幕| 亚洲一区在线观看免费观看电影高清 | 免费观看a级片| 无码av免费一区二区三区试看| 国产露脸国语对白在线| 在线视频亚洲欧美| 国产精品极品美女在线观看| 精品一区二区三区免费毛片| 国产精品啊啊啊| 污免费在线观看| 国产精品久久久久久户外露出| 男操女视频网站| 亚洲视频一区二区| 国产精品迅雷| 欧美日韩国产一二| 9国产精品视频| 久久久久亚洲AV成人无码国产| 一级做a爱片久久| 亚洲xxxx天美| 欧美日韩成人精品| 日韩欧美激情电影| 国产精品视频一二三四区| 国产精品资源站在线| 久久中文免费视频| 91精品欧美久久久久久动漫| 黄色网在线免费看| 国产在线一区二区三区| 婷婷综合久久| 天堂在线精品视频| 亚洲日本在线天堂| 国产乱码一区二区| 久久伊人免费视频| 日本精品视频| 欧美国产视频一区| 成人综合在线网站| 在线看成人av| 亚洲美女av黄| 精品欧美日韩精品| 伊人情人网综合| 国产成人综合亚洲网站| 久久久久久免费观看| 亚洲第一中文字幕| 91看片一区| 亚洲天堂电影网| 国产乱码字幕精品高清av| 久久精品视频9| 日韩精品中文字幕有码专区| 外国电影一区二区| 久久精品国产精品亚洲精品色 | 性欧美一区二区| 欧美色手机在线观看| 老司机福利在线视频| 国产精品免费一区二区三区四区 | 国产成人精品网站| 91影院成人| 美女露出粉嫩尿囗让男人桶| 欧美视频二区36p| 午夜在线观看视频| 成人欧美一区二区三区在线观看 | 黄色网页网址在线免费| 99国产超薄丝袜足j在线观看| 亚洲人人精品| 欧洲性xxxx| 亚洲国产精品国自产拍av秋霞| 外国成人直播| 乱熟女高潮一区二区在线| 久久综合九色综合97婷婷女人| 一级欧美一级日韩| 久久久噜噜噜久久| 成人一级毛片| 黄色激情在线观看| 欧美亚一区二区| 白白色在线观看| 亚洲国产精品综合| 不卡区在线中文字幕| 中国女人真人一级毛片| 欧美极品少妇xxxxx| 精品免费在线| 成人性生活免费看| 欧美一区二区人人喊爽| 欧美影视资讯| 久久人人爽人人爽人人av| 国产精品女同一区二区三区| 无套内谢的新婚少妇国语播放| 国产色综合天天综合网| 性一交一乱一区二区洋洋av| 欧美成人三级在线观看|