GPT-5 數學推理能力深度剖析:一項基于“哥德爾測試”的初步研究 精華
引言:大語言模型在高等數學領域的推理能力邊界?
近年來,前沿人工智能(AI)模型在標準化數學競賽(如國際數學奧林匹克競賽,IMO)中取得了引人注目的成就,這標志著其在解決有明確答案和既定路徑的復雜問題上的能力已達到甚至超越了頂尖人類水平。然而,真正的數學研究并非僅限于解題,更在于提出和證明全新的、未曾解決的猜想。這要求模型不僅具備強大的計算和邏輯推演能力,還需要擁有數學家所謂的“數學成熟度”——一種融合了領域背景知識、直覺和創造性思維的綜合素養。
“哥德爾測試”的提出與核心理念
為了系統性地評估大語言模型(LLM)在真實數學研究場景下的潛力,一篇于2025年9月發表的論文《G¨odel Test: Can Large Language Models Solve Easy Conjectures?》提出了一種全新的評估范式——“哥德爾測試”(G¨odel Test)。該測試的核心思想是:評估一個AI系統能否為那些對于受過適當訓練的人類專家而言相對簡單,但在現有文獻中尚無記載的全新猜想,提供正確且嚴謹的證明。這個名字致敬了偉大的邏輯學家庫爾特·哥德爾,暗示了對機器推理能力邊界的終極探問。
該研究選取了當時最前沿的模型GPT-5作為測試對象,并精心設計了五個源于組合優化領域中“子模最大化”方向的猜想。這些猜想被刻意設計得足夠簡單,以期理論計算機科學或相關應用數學領域的優秀研究生或高年級本科生能夠在一天內解決。這種設計旨在將評估的焦點從解決高難度競賽題的能力,轉移到衡量模型在更高級數學領域進行原創性推理的能力上。
研究目標與實驗設計概述
該研究的核心目標是初步探究GPT-5在面對全新、簡單數學猜想時的表現,并從中洞察其當前的推理能力、原創性火花以及存在的局限性。實驗設計遵循了以下幾個關鍵原則:
- 最小化提示:研究者沒有像陶哲軒(Terence Tao)與早期模型互動時那樣提供大量提示或引導。他們僅為每個問題提供了最少的描述,并附上一到兩篇作為背景靈感的源論文,然后讓模型自主解讀問題并嘗試生成解決方案。
- 領域專注:所有五個猜想均來自研究者自身專長的子模最大化領域。這確保了問題的原創性、具體性和適度的難度,同時也使得研究者能夠對模型生成的證明進行深入、精確的評估。
- 過程導向的評估:評估不僅關注最終答案的正確性,更側重于對模型推理過程的詳細審查。研究者逐行檢查了GPT-5生成的證明,分析其邏輯鏈條、引用的定理以及可能存在的瑕疵。
通過這一系列精心設計的實驗,該研究試圖回答一個根本性問題:當前最先進的大語言模型,是否已經開始具備成為一名“合格的研究生”的潛質,從而朝著最終通過“哥德爾測試”的宏偉目標邁出了堅實的第一步?
核心概念解析:子模最大化
為了深入理解該研究中提出的五個猜想,首先需要對“子模最大化”(Submodular Maximization)這一核心領域有一個基本的認識。這是一個在組合優化、機器學習和博弈論等多個領域都有著廣泛應用的數學分支。
子模函數的基本定義與性質
從直觀上理解,一個集合函數 ??f(S)??? 用來衡量集合 ??S?? 中元素的“價值”。在最簡單的情況下,集合的價值等于其中所有元素獨立價值的總和,這類函數被稱為“模函數”(modular functions)。然而,在現實世界中,元素間的關系往往更為復雜,存在互補或替代效應。
- 互補性(Complementarity):元素組合在一起的價值大于它們各自價值之和。例如,左腳的鞋和右腳的鞋,單獨價值很低,但組合在一起價值大增。
- 替代性(Substitution):元素組合在一起的價值小于它們各自價值之和。例如,一臺電腦和一臺平板電腦,功能多有重疊,同時擁有它們的總價值并非兩者價值的簡單相加。
子模函數(Submodular Functions) 正是用來描述這種“收益遞減”(diminishing returns)或無互補性現象的數學工具。其形式化定義為:對于任意兩個集合 ??A??? 和 ??B???,一個集合函數 ??f??? 如果滿足 ??f(A) + f(B) ≥ f(A ∪ B) + f(A ∩ B)???,則稱其為子模函數。一個等價且更直觀的定義是:對于任意集合 ??S ? T??? 和任意不在 ??T??? 中的元素 ??u???,向 ??S??? 中添加 ??u??? 帶來的價值增量,不小于向 ??T??? 中添加 ??u??? 帶來的價值增量。即 ??f(S ∪ {u}) - f(S) ≥ f(T ∪ {u}) - f(T)??。
DR-子模函數、弱子模性與相關變體
該研究中的猜想涉及了子模函數的多種擴展和變體,這些概念對于理解問題的復雜性至關重要。
- DR-子模函數(DR-Submodular Functions):這是子模性在連續域上的一個自然推廣。對于一個在?
?[0, 1]^n??? 上定義的可微函數??f???,如果對于任意滿足??x ≤ y???(逐坐標比較)的向量??x??? 和??y???,其梯度也滿足???f(y) ≤ ?f(x)??(逐坐標比較),則稱該函數為DR-子模函數。這捕捉了連續域中的收益遞減特性。 - γ-弱子模性(γ-weak Submodularity):這是對標準子模性的一個松弛。參數?
?γ ∈ [0, 1]??? 控制了松弛的程度。當??γ = 1??? 時,它就是標準的子模函數;當??γ = 0?? 時,它允許是任何集合函數。這個概念使得理論可以應用于那些不完全滿足但“近似”滿足子模性的函數。 - m-單調性(m-monotonicity):這是對函數單調性(即?
?f(A) ≥ f(B)??? 對于所有??B ? A???)的松弛。參數??m??? 衡量了函數與單調性的接近程度,??m=1?? 對應標準單調函數。 - 約束類型:子模最大化問題通常是在特定約束下進行的,例如基數約束(集合大小不超過?
?k??)、擬陣約束(Matroid Constraint,捕捉了線性無關性等組合結構)或更復雜的p-系統約束。
為何選擇子模最大化作為測試平臺
研究者選擇子模最大化作為測試平臺是經過深思熟慮的。首先,這個領域的問題具體、動機明確,并且與人工智能的多個應用方向(如數據摘要、影響力最大化)緊密相關。其次,該領域擁有豐富的理論結構和成熟的證明技術,為評估模型的數學推理能力提供了堅實的基礎。最后,通過引入弱子模性、部分單調性等變體,研究者可以靈活地調整問題的難度,并測試模型處理理論推廣和組合的能力。
GPT-5 在五個猜想上的表現詳析
研究的核心部分在于對GPT-5在五個具體猜想上的表現進行逐一分析。每個案例都揭示了模型能力的不同側面,從近乎完美的證明適配,到閃現原創性的解決方案,再到在復雜推理面前的明顯失敗。
問題 1:單調與非單調DR-子模函數在凸集約束下的最大化
此問題旨在探索模型處理一個混合目標函數的能力,該函數是一個單調DR-子模函數與一個非單調DR-子模函數的和。
問題描述與研究者預期
研究者向GPT-5提出了以下問題:給定一個目標函數 ??F(x) = G(x) + H(x)???,其中 ??G??? 是非負、單調遞增的DR-子模函數,??H??? 是非負的DR-子模函數(不一定單調),約束條件為一個下閉凸多胞體 ??P???。要求使用一篇給定的NeurIPS 2021論文 中的算法,為算法輸出 ??x??? 相對于最優解 ??o??? 的性能提供一個形式為 ??α * G(o) + β * H(o) - err??? 的下界。研究者的猜想是,一個類Frank-Wolfe算法可以達到 ??α = 1 - 1/e??? 和 ??β = 1/e?? 的保證。
GPT-5 的解答策略與證明過程
GPT-5 在思考了2分49秒后給出了回應。它聲稱將運行論文中的“度量貪心Frank-Wolfe”(MGFW)算法,并對其證明進行適配,用非單調的DR-子模部分 ??H?? 替代原始分析中的凹函數部分。模型給出的最終保證與研究者的猜想完全一致:
- 對于單調部分?
?G???,保證系數??α = 1 - 1/e??。 - 對于非單調部分?
?H???,保證系數??β = 1/e??。
其證明過程嚴格遵循了原始論文的框架,分為三個步驟:
- 單步進展分析:利用函數的光滑性(smoothness)和DR-子模性,推導了算法在一次迭代中目標函數值的增量下界。
- 關聯中間解與最優解:通過引入“單調性乘子”(monotonicity multipliers),將迭代過程中構造的中間解?
?zi??? 的函數值與最優解??o?? 的函數值關聯起來,得到了一個關鍵的遞歸不等式。 - 求解遞歸式:通過對遞歸不等式進行歸納求解,最終在?
?T = 1/ε??? 次迭代后,得出了所聲稱的??α??? 和??β?? 值。
研究者的評估:正確但“懶惰”的證明適配
研究者評估認為,GPT-5的解答在整體上是正確的,但表現出一種類似人類專家的“懶惰”模式。
- 證明的正確性:模型成功地抓住了問題的核心,正確地將原始證明中的凹函數部分替換為DR-子模函數,并得出了預期的近似比。
- “懶惰”的兩個體現:
跳過不變步驟:模型省略了許多與源論文 相比沒有變化的證明細節,這使得其回答更像是一個高層次的證明草圖,而非一個完全獨立的證明。
固守原始結構:模型極力保持與原始證明的結構一致,即使在某些地方存在更自然或直接的推導方式。例如,它引入了通用的單調性乘子??M(f, i)???,而沒有直接根據??G??? 的單調性和??H?? 的非單調性代入具體表達式,這使得證明顯得比實際需要的更為通用和復雜。
- 細節上的小瑕疵:評估還指出了幾個微小的不準確之處,例如在引用“標準掩碼界限”時使用了非標準術語,在應用不等式時未提及或檢查其成立條件,以及在最后一步推導?
?β?? 的下界時使用了錯誤的不等式(盡管結論恰好正確)。
總而言之,在問題1上,GPT-5展現了強大的模式匹配和證明適配能力。它能準確理解任務要求,并對一個已知的復雜證明進行正確的修改。然而,它也表現出一種“最小努力原則”,傾向于復用和微調,而非從頭構建一個更清晰的論證。
問題 2:p-系統約束下單調子模函數的雙標準最大化
這個問題將已知的擬陣約束下的雙標準算法推廣到更一般的p-系統約束,考驗模型處理組合結構推廣的能力。
問題描述與研究者預期
研究者要求GPT-5為一個在p-系統約束下的單調子模函數最大化問題設計一個雙標準算法。雙標準近似保證的形式為 ??(1 - ε, g(ε))???,意味著算法找到的解 ??S??? 滿足 ??f(S) ≥ (1 - ε)f(OPT)???,同時在某種意義上只比可行解“大”??g(ε)???倍。研究者基于一篇關于擬陣約束的論文,猜想對于p-系統,一個簡單的貪心算法可以達到 ??(1 - ε, ?log_{p+1} (1/ε)?)?? 的保證。
GPT-5 的解答策略與證明過程
GPT-5 在思考了2分57秒后,提出了一個多輪貪心算法,并給出了一個與研究者猜想不同的保證。
- 算法:該算法非常簡潔,執行?
????? 輪標準的貪心算法。在每一輪中,它最大化相對于前幾輪已選集合的邊際收益??f(· | S_{i-1})???,并將該輪產生的獨立集??T_i?? 并入總集合。 - 近似保證:模型證明其算法可以達到?
?(1 - ε, g_p(ε))??? 的雙標準保證,其中??g_p(ε) = ?ln(1/ε) / ln((p+1)/p)????,約等于??(p+1)ln(1/ε)??。
其證明邏輯如下:
- 可行性界定:由于算法返回?
????? 個獨立集的并集,其解的大小自然地被????? 倍的某個可行解所約束,滿足了雙標準定義的一半。 - 價值界定:關鍵在于分析函數值的增長。利用p-系統上標準貪心算法的?
?1/(p+1)??? 近似比,模型推導出在每一輪??i???,當前解與最優解之間的“差距”??f(OPT) - f(S_i)??? 會以??p/(p+1)??? 的比例縮小。經過?????? 輪迭代后,這個差距將變為??(p/(p+1))^? * f(OPT)???。通過選擇合適的??????(即??g_p(ε)???),可以使這個差距小于??ε * f(OPT)???,從而保證??f(S_?) ≥ (1 - ε)f(OPT)??。
研究者的評估:超越預期的原創性解決方案
研究者對GPT-5在這個問題上的表現給予了高度評價,認為它甚至反駁了他們自己最初的猜想,并提供了一個更合理且有效的解決方案。
- 正確且更合理的結果:GPT-5推導出的 infeasibility ratio?
?g_p(ε) = log_{1+1/p}(1/ε)???,與研究者猜想的??log_{1+p}(1/ε)??? 不同。研究者指出,GPT-5的版本更有意義,因為隨著??p?? 的增大(約束變弱), infeasibility ratio 應該變差(增大),而模型的公式恰好滿足這一點,研究者的猜想則相反。 - 證明基本正確:盡管存在一個小瑕疵(在推導?
?f(OPT) - f(S_?) ≤ ε · f(OPT)?? 時插入了一個不必要且有損耗的不等式),但其核心邏輯和最終結論是正確的。 - 未能識別特例:一個有趣的觀察是,當?
?p=1???(擬陣情況)時,GPT-5的公式??g_1(ε)??? 精確地等于???log_2(1/ε)????,這與它引用的參考論文 中的一個結果完全吻合。然而,模型在其注釋中未能識別出這一點,因為它使用了自己推導的一個較松的??g_1(ε)??上界進行比較,從而“忘記”了自己結果的精確形式。
這個問題展示了GPT-5不僅能適配證明,還能在一定程度上進行原創性的推導,甚至修正了人類專家的初步直覺。這無疑是模型展現出“數學成熟度”的一個重要跡象。
問題 3:弱DR-子模函數在凸集約束下的最大化
此問題引入了對DR-子模性的松弛(γ-弱DR-子模性),旨在測試模型處理新定義和參數化理論的能力。
問題描述與研究者預期
研究者定義了一個新的概念——??γ???-弱DR-子模函數,并要求GPT-5為在這類函數上的最大化問題設計一個算法并給出近似保證。研究者猜想,一篇關于DR-子模函數的論文 中提出的類Frank-Wolfe算法,可以為這個問題提供 ??1 - e^{-γ}?? 的近似保證。
GPT-5 的解答策略與證明過程
GPT-5 在1分47秒的思考后,迅速確認了研究者的猜想。它提出了一個基于Frank-Wolfe的算法,并聲稱其近似保證為 ??(1 - e^{-αγ})???,其中 ??α??? 是線性預言機(linear oracle)的精度。當使用精確預言機時(??α=1??),這與研究者的猜想完全一致。
模型的第一次回應非常簡潔,更像是一個高層概述,它指出證明過程與標準DR-子模情況下的分析非常相似,唯一的關鍵變化在于,由于??γ???-弱DR-子模性的定義,在推導邊際收益下界時會引入一個額外的 ??γ??? 因子,這個因子最終在指數上體現出來,將 ??1 - 1/e??? 的經典保證變成了 ??1 - e^{-γ}??。
由于初版回答省略了大量中間步驟,研究者追問要求提供“完整證明”。GPT-5 在4分32秒后生成了一個更詳盡、自包含的證明。這個版本嚴格遵循了參考論文 的分析框架,包括:
- 關鍵不等式推導:從?
?γ???-弱DR-子模性的定義出發,推導出???v_k, ?F(x_k)? ≥ αγ [F(x^*) - F(x_k)]??,這是整個證明的核心,將新定義的性質與算法的單步進展聯系起來。 - 利用光滑性進行單步分析:結合函數的光滑性,得到關于函數值增量的遞歸不等式?
??_{k+1} ≤ (1 - αγγ_k)?_k + L/2 * γ_k^2??。 - 求解遞歸式:通過解這個遞歸關系,最終得到了?
?(1 - e^{-αγ})?? 的近似比。
研究者的評估:基本正確但細節待完善
研究者認為GPT-5的回答在總體上是正確的,但也存在一些問題,主要源于其對參考論文的“盲從”和一些不嚴謹的表述。
- 不必要的約束:模型在其回答中假設可行集?
?C?? 是下閉的(down-closed),這是一個在許多相關文獻中常見但在此問題中并非必要的假設。模型只是沿用了文獻的習慣,而沒有洞察到該假設可以被移除。 - 奇怪的措辭:模型使用了一些非標準術語,如用“value factor”代替“approximation ratio”,并引用了未具體說明的“Algorithm 1 + Theorem 1”。
- 過度復雜的證明結構:在詳細版的證明中,模型完全復制了參考論文 中使用可變步長的分析框架,直到最后才簡化為固定步長。這使得證明比必要的更加復雜。更直接的方法是從一開始就使用固定步長進行分析。
- 微小錯誤:證明中存在一些小錯誤,例如混淆了研究者新定義的?
?γ???-弱DR-子模性與文獻中已有的弱DR-子模性概念,以及對??F(0)=0??? 的錯誤斷言(實際上只需??F(0)≥0??)。
此案例表明,GPT-5能夠成功地將一個新的參數化定義整合進一個已知的證明框架中。然而,它傾向于機械地復制文獻的結構,缺乏對證明進行簡化和提煉的能力,并且在細節的嚴謹性上仍有欠缺。
問題 4:基數約束下部分單調弱子模函數的最大化
這是第一個模型完全失敗的問題,它要求模型結合兩種不同的理論松弛:部分單調性(m-monotonicity)和弱子模性(γ-weak submodularity)。
問題描述與研究者預期
研究者提供了兩篇獨立的論文,一篇 定義了m-單調性,另一篇 研究了非單調弱子模函數的最大化。問題是要求GPT-5為同時滿足m-單調和γ-弱子模的函數,在基數約束下找到一個近似最大化算法。研究者的猜想是,通過將m-單調性的性質代入論文 的證明框架中,可以得到一個隨著 ??m??? 和 ??γ?? 平滑改進的近似保證。
GPT-5 的解答策略與證明過程
GPT-5的第一次嘗試(思考2分52秒)完全沒有解決問題。它只是羅列了一些已知的特例結果:
- 如果忽略m-單調性,可以使用已知的非單調弱子模函數的結果。
- 如果函數是完全單調的(?
?m=1??),可以使用已知的單調弱子模函數的結果。 - 如果函數是完全子模的(?
?γ=1??),可以使用已知的m-單調子模函數的結果。 這完全回避了問題的核心——如何結合這兩種性質。
在研究者明確要求“找到一個保證隨著m和γ平滑改進的算法”后,GPT-5 進行了長達11分44秒的思考,并給出了一個看似詳盡且復雜的證明。它聲稱標準的“帶虛擬元素的隨機貪心”算法可以得到一個平滑依賴于 ??m??? 和 ??γ??? 的保證:??E[f(S_k)] ≥ [m(1 - e^{-γ}) + (1 - m)γ/e] f(OPT)??。
這個證明過程極其復雜,它試圖將兩篇論文的分析技術融合在一起:
- 它從論文 中借用了基于“局部弱子模比率”的單步進展分析。
- 它從論文 中借用了基于“部分單調性”和Lovász擴展來界定“聯合價值”?
?E[f(S_{i-1} ∪ OPT)]??的方法。 - 它試圖通過一個復雜的代數推導(包括一個自創的“微積分不等式”(MIX))將這兩部分結合起來,建立一個關于?
?E[f(S_i)]?? 的遞歸式并求解。
研究者的評估:綜合推理失敗的典型案例
研究者在仔細審查后,判定GPT-5的第二次嘗試是一個徹底的失敗,其證明包含了多個致命的錯誤。
- 核心假設的錯誤應用:證明的關鍵一步依賴于一個名為 (PM) 的不等式,該不等式利用Lovász擴展來處理部分單調性。GPT-5聲稱可以應用這個不等式,但研究者一針見血地指出,Lovász擴展及其相關性質僅對子模函數成立,對于弱子模函數是無效的。這個錯誤從根本上摧毀了整個證明的邏輯基礎。
- 不合理的代數推導:在推導不等式 (3) 時,模型做出了一個沒有根據的代數步驟,并且其為該步驟提供的辯護也是無效的。它似乎忽略了在移除了某些項之后,無法再保證另一些項的非負性,這是一個微妙但關鍵的邏輯漏洞。
- 其他多處錯誤:評估還指出了許多其他錯誤,包括:在關鍵不等式 (LSR) 和 (P) 中遺漏了因子;為了處理其自己引入的(不必要的)局部比率而使用了非常弱的界;對一個簡單代數不等式給出了不恰當的“微積分不等式”的標題;在最后解遞歸式時對一個乘積項進行了無理的丟棄。
問題4的失敗是一個標志性的案例。它清晰地揭示了GPT-5在進行跨論文、跨理論的綜合推理時的嚴重局限性。當問題不再是簡單地適配或推廣單個證明框架,而是需要創造性地融合來自不同理論體系的工具時,模型便會“憑空捏造”看似合理但實則錯誤的邏輯鏈條,最終導致了“看似令人信服但從根本上是錯誤的”輸出。
問題 5:擬陣交約束下單調弱子模函數的最大化
這是研究中最后一個,也是難度最高的問題。它要求將單擬陣約束下的弱子模最大化算法推廣到雙擬陣交約束。
問題描述與研究者預期
研究者提供了一篇研究單擬陣約束下弱子模最大化的論文,該論文給出了 ??(1 + 1/γ)^{-2}?? 的近似比。問題是要求為雙擬陣交約束下的同一問題提供一個算法和完整的證明。研究者最初的猜想是,論文 中的算法和分析技術可以被直接擴展到雙擬陣交的情況,盡管會得到一個更差的保證。他們設想的算法是“隨機貪心算法”(Algorithm 1)。
GPT-5 的解答策略與證明過程
GPT-5 在思考了10分43秒后,確實提出了一個與研究者設想的 Algorithm 1 非常相似的算法,并為其提供了一個完整的、看似嚴謹的證明,聲稱可以達到 ??(γ / (γ + 2))^2?? 的近似保證。
其證明框架模仿了參考論文 對單擬陣情況的分析,分為幾個步驟:
- 雙擬陣交換耦合:這是證明中最具“創造性”的部分。它試圖將單擬陣情況下的基交換引理(Brualdi's bijection lemma)推廣到雙擬陣交。對于當前解?
?S_{i-1}??? 的一個最大權重補集??M_i??? 和一個最優補集??OPT_i???,它分別在兩個擬陣??M1??? 和??M2??? 中應用交換引理,為??M_i??? 中的每個元素??u??? 找到一個在??OPT_i??? 中的“阻礙集”??Ψ_i(u)???(包含一到兩個元素),移除這個阻礙集可以讓??u??? 加入??OPT_i?? 仍保持雙重獨立性。 - 進展不等式:基于這個交換結構和?
?M_i??? 的最大權重性質,模型推導出一個關鍵的權重支配關系,并最終得到一個單步進展不等式,聲稱??E[f(S_i) - f(S_{i-1})]??? 的下界與??f(OPT_i | S_{i-1})??? 相關,但比單擬陣情況多了一個??1/2?? 的損失因子。 - 衰減不等式:模型聲稱,在每一輪隨機選擇一個元素?
?u_i??? 后,可以通過移除其阻礙集??Ψ_i(u_i)?? 來更新“殘余最優解”,并斷言殘余最優解的期望價值會以一種可控的方式衰減。 - 求解遞歸式:結合進展不等式和衰減不等式,建立遞歸關系并求解,最終得到?
?(γ / (γ + 2))^2?? 的結果。
研究者的評估:識別正確路徑但分析失敗,揭示問題深度
與問題4類似,研究者發現GPT-5的這個證明同樣充滿了根本性的錯誤。然而,這個案例的特殊之處在于,模型的失敗過程反而幫助研究者認識到這個問題比他們最初預想的要困難得多。
- 對組合結構的根本性誤解:最致命的錯誤在于,模型似乎完全沒有理解“移除兩個元素”和“移除一個元素”在組合結構上的巨大差異。在衰減不等式的分析中,它錯誤地認為在每一輪從殘余最優解中移除了?
?Ψ_i(u_i)??(可能包含兩個元素)后,其期望大小只減少1。這導致其關于殘余最優解價值衰減的引理(Lemma 1)及其證明是完全錯誤的。 - 算法本身存在缺陷:模型提出的算法(RRG-2MI)本身就有問題。它迭代?
?r??? 輪(??r??? 是最大可行解的大小),但由于雙擬陣交的結構,很可能在遠少于??r??? 輪之后就無法再添加任何元素了。此外,它假設在每一步總能找到一個大小為??r-i+1??? 的補集??M_i??,這個假設在雙擬陣交中通常不成立。 - 多處邏輯和代數錯誤:評估報告還列舉了大量其他錯誤,包括:一個毫無意義的集合交集操作;一個完全錯誤的權重支配不等式 (2);對一個關鍵不等式 (3) 的含糊證明(盡管一個更強的結論可以被輕易證明);在最終結果中遺漏了一個誤差項;對其結果在單擬陣特例下的不確定斷言;以及對尚不存在的“弱子模函數的內容競爭方案”的幻想式引用。
盡管GPT-5的證明是錯誤的,但它指出了正確的算法方向(隨機貪心),并且其失敗的嘗試(特別是它構造的雙擬陣交換結構)揭示了將單擬陣分析推廣到雙擬陣交時真正的困難所在。研究者坦承,在研究了GPT-5的錯誤回答后,他們意識到要為這個算法提供一個有意義的保證,比他們最初想象的要“更具挑戰性”。這從一個側面說明,即使是錯誤的AI輸出,有時也能激發人類研究者更深層次的思考。
研究方法與結果評估
這篇論文通過“哥德爾測試”這一新穎視角,對GPT-5的數學推理能力進行了有價值的初步探索。其研究設計和結論都值得深入評估。
研究設計的優點
該研究的設計展現了幾個顯著的優點,使其在眾多關于LLM數學能力的評估中脫穎而出。
- 創新的評估框架:“哥德爾測試”:該研究沒有停留在評估模型解決已有問題的能力上,而是提出了一個更接近真實科研過程的“哥德爾測試”框架。這個框架關注模型面對全新、未解猜想時的原創性推理能力,為衡量AI在科學發現中的潛力提供了一個更有意義的基準。
- 領域專注性與問題原創性:通過將問題限制在研究者自身專長的子模最大化領域,研究得以確保所提出猜想的原創性和適度的難度。這避免了模型僅憑其龐大訓練數據中的“記憶”來解決問題的可能性,從而更真實地測試其推理能力。同時,領域專長也使得研究者能夠對模型的輸出進行精準、深入的專家級評估。
- 最小化提示的評估方式:實驗中有意避免了對模型進行大量引導和提示,模擬了數學研究中獨立探索的場景。這種“零樣本”或“少樣本”的提問方式,更能揭示模型自主的、內在的推理能力,而不是在人類指導下完成任務的能力。
研究的局限性與潛在問題
研究者在論文中坦誠地指出了該研究存在的多項局限性,這些局限性對于客觀看待其結論至關重要。
- 樣本量過小與模型單一性:整個研究僅基于五個猜想和一款模型(GPT-5)。這是一個非常小的樣本,其結論的普適性有限。對每個證明的仔細驗證是高度耗時和勞動密集的過程,這限制了研究的規模。因此,我們無法確定觀察到的現象(如“懶惰”推理、綜合能力瓶頸)是GPT-5特有的,還是當前所有前沿模型的共性。
- 評估過程的主觀性與勞動密集性:對一個數學證明的正確性、優雅性和原創性的評估,本質上帶有一定的主觀判斷。此外,驗證一個看似正確的復雜證明是否真的無懈可擊,需要投入大量的人類專家時間。這使得“哥德爾測試”的規模化應用面臨巨大挑戰。
- 猜想原創性的不確定性:盡管研究者已盡力確保猜想的原創性,但他們也風趣地引用了一個軼事來說明,在浩如煙海的數學文獻中,完全確保一個“簡單”猜想前無古人是極其困難的。
對GPT-5能力評估的深入剖析
基于五個案例的詳細分析,該研究揭示了關于GPT-5數學推理能力的幾個深刻洞見。
“看似正確”的幻覺:對數學推理的潛在風險
該研究最重要的發現之一是,GPT-5能夠生成“在表面上看起來正確,甚至令人信服,但實際上包含深層謬誤”的證明。這一點在問題4和問題5的失敗案例中表現得淋漓盡致。模型能夠熟練地運用專業術語、模仿標準證明的格式和行文風格,構建出邏輯上看似連貫的復雜論證。然而,只有經過專家的逐行審查,才能發現其在關鍵假設的應用或核心組合結構的理解上存在致命缺陷。
這揭示了一個重大風險:隨著模型變得越來越“能言善辯”,非專家用戶,甚至是沒有足夠時間進行深入核查的專家,都很容易被其錯誤的輸出所誤導。在數學和科學研究等要求絕對嚴謹的領域,這種“自信的錯誤”可能比“坦率的無知”更具危害性。
“懶惰”推理模式的根源與啟示
在問題1和問題3中觀察到的“懶惰”推理模式——即傾向于復用和微調現有證明,而非從頭構建——也頗具啟發性。這種行為模式非常像一個試圖以最小努力完成任務的人類學生。從模型的角度看,這可能是其基于Transformer架構的“模式匹配”和“序列預測”本質的體現。當面對一個與訓練數據中某個已知模板高度相似的問題時,模型最“經濟”的策略就是復現該模板,并對不匹配的部分進行局部修改。
這啟示我們,當前LLM的“推理”可能在很大程度上仍是一種高級的、結構化的模式匹配,而非真正意義上基于公理和邏輯規則的符號推演。要實現更靈活、更具原創性的推理,可能需要新的模型架構或訓練范式。
綜合推理能力的瓶頸分析
問題4的失敗清晰地標示出GPT-5在綜合推理(integrative reasoning) 上的瓶頸。當一個問題需要融合來自不同理論背景的多個概念和工具時,模型表現出明顯的困難。它沒能理解兩種不同理論松弛(m-單調性和γ-弱子模性)之間深刻的相互作用,而是嘗試進行一種機械的、表面的“拼接”,最終導致了核心假設的錯誤應用。
這表明,模型的“理解”可能是局部的和上下文相關的。它能很好地在一個固定的理論框架內進行操作,但當需要跨越框架、建立新的聯系時,其能力就捉襟見肘了。這或許是從“合格的畢業生”到“獨立的青年研究員”所需跨越的最關鍵的一步。
重大問題詳析:問題4與問題5的失敗案例
這兩個失敗案例是理解GPT-5當前能力邊界的關鍵。
問題4的失敗根源:未能融合兩種理論松弛
問題4的失敗根源在于,弱子模性破壞了子模性的一個關鍵結構——Lovász擴展的良好性質。而m-單調性的分析框架恰恰嚴重依賴于這個性質。一個真正理解這些概念的“數學家”會立刻意識到這種根本性的不兼容,從而尋找全新的分析路徑。而GPT-5則像一個只記住了公式和步驟但不明其所以然的學生,強行將不兼容的兩個工具捏合在一起,導致了證明的崩潰。這暴露了其缺乏對數學工具背后深層結構和適用邊界的理解。
問題5的失敗根源:對復雜組合結構的理解偏差
問題5的失敗則更多地體現在對復雜組合結構的動態演化過程的誤解上。雙擬陣交的結構遠比單擬陣復雜。在算法的每一步,移除一個元素的“阻礙集”可能會移除兩個元素,這徹底改變了殘余問題的結構和規模。GPT-5的分析完全忽略了這一點,機械地套用單擬陣情況下“每次迭代問題規模減一”的簡單模型。這表明,模型對于算法執行過程中狀態空間的動態變化缺乏準確的追蹤和建模能力,尤其是在涉及到復雜組合約束時。
結論與展望:邁向通用數學推理的第一步?
這項基于“哥德爾測試”的初步研究,為我們提供了一個關于前沿大語言模型GPT-5在高等數學推理領域能力的珍貴快照。盡管樣本量有限,但其觀察和結論具有深刻的啟示意義。
研究核心發現總結
- 單路徑推理表現良好:當一個問題可以通過對單個已知證明進行直接適配或簡單推廣來解決時,GPT-5表現出色,能夠產出近乎正確的解決方案(問題1, 2, 3)。
- 偶現原創性火花:在問題2中,GPT-5不僅解決了問題,還提供了一個比人類專家最初猜想更優、更合理的答案,展現了出人意料的原創性。
- 綜合推理能力是主要瓶頸:當問題需要融合來自不同論文或理論體系的多個洞見時,模型表現出嚴重困難,其嘗試往往是機械的拼接,并導致根本性的邏輯錯誤(問題4, 5)。
- “看似正確”的幻覺是潛在風險:模型能夠生成在表面上極具說服力但實則錯誤的證明,這對未來AI在嚴肅科學領域的應用提出了警示。
- 失敗亦有價值:在問題5中,模型失敗的嘗試幫助人類研究者更深刻地認識到問題的內在難度,這表明人機協作在數學研究中具有潛在價值,即使AI的輸出是錯誤的。
對未來AI模型發展的啟示
這項研究的結果對未來AI模型的發展方向提供了幾點思考。提升模型的綜合推理能力和跨領域知識整合能力,應成為下一代模型研發的重點。接下來,需要探索如何讓模型更好地理解數學概念背后的深層結構和公理基礎,而不僅僅是表面的符號模式。最后,開發能夠自我驗證、或至少能夠表達其“不確定性”的模型,對于降低“看似正確”的風險至關重要。
“哥德爾測試”的長期愿景
這項研究只是一個起點。研究者呼吁更廣泛的科學界參與進來,提出新的、不同領域的簡單猜想,對更多的前沿模型進行測試。“哥德爾測試”的長期愿景,是建立一個持續的、動態的基準,以衡量并推動AI在原創性科學發現方面的進展。
相對于早期模型,GPT-5在基礎數學能力和偶爾的原創性上顯示出明顯的進步,這讓我們有理由保持謹慎的樂觀。或許在未來幾年內,隨著模型能力的進一步迭代和與符號計算、形式化證明助手等工具的深度融合,我們真的能夠見證AI從一個“平庸的研究生”,成長為一個“合格的研究生”,并最終系統性地通過“哥德爾測試”,成為人類探索數學與科學未知疆域的得力伙伴。
最后用論文中引述的陶哲軒的那個判斷作結吧,這個畢竟是專業的數學家對于大模型數學能力分界的專業闡述:
“The new model could work its way to a correct (and well-written) solution if provided a lot of hints and prodding, but did not generate the key conceptual ideas on its own, and did make some non-trivial mistakes. The experience seemed roughly on par with trying to advise a mediocre, but not completely incompetent, graduate student. However, this was an improvement over previous models, whose capability was closer to an actually incompetent graduate student. It may only take one or two further iterations of improved capability (and integration with other tools, such as computer algebra packages and proof assistants) until the level of ‘competent graduate student’ is reached.”
— Terence Tao
翻譯如下:
“在獲得大量提示和引導的情況下,這個新模型能夠一步步推導出一個正確且表述優美的解決方案。然而,它無法獨立地產生出那些關鍵性的概念想法,并且還會犯下一些不容忽視的錯誤。
總的來說,這次的體驗大致相當于指導一名資質平庸、但還不算完全無能的研究生。
不過,這已經比之前的模型有了顯著的進步,因為過去模型的水平更接近于一個確實無能的研究生。或許我們只需要再進行一兩次能力迭代(并與計算機代數系統、證明助手等工具相集成),它就能達到‘稱職研究生’的水準了。”
參考鏈接: https://arxiv.org/abs/2509.18383v1
本文轉載自??上堵吟??,作者:一路到底的孟子敬

















