GPT-5通過“哥德爾測試”!獨創性解決博士生都得花幾天時間的開放數學問題
GPT-5,你這家伙!
究竟還有什么事是我不知道的?
在一篇最新論文中,研究人員讓它挑戰了5個尚未解決的優化猜想。
結果它居然解出了其中3個!
更令人吃驚的是,其中有一道題,它甚至給出了與研究者預期完全不同的、同樣有效的證明方案。
和國際數學奧林匹克(IMO)那些為“人類天才高中生”準備的題目不同,這次的測試題需要博士水平的研究者花上幾天才能完成。

在論文里,研究者們還特意“挑釁”陶哲軒對大語言模型數學能力的印象——
它可不是“笨蛋”研究生,而是能展現出獨創性的“聰明”博士生。

前微軟研究副總裁、現OpenAI科學家Sebastien Bubeck表示:
這意味著GPT-5能夠解決一些真正的開放性數學問題。
接下來,就讓我們看看,這位AI數學天才是怎么煉成的。

“哥德爾”測試
如上所述,GPT-5這次挑戰的并不是奧賽題,而是高等數學里的簡單猜想。
求解這類問題不僅需要算術能力,還需要相當強的數學背景和邏輯推理能力。
研究人員把他們的測試稱為:哥德爾測試。
哥德爾測試里的問題需要人自己動腦、經過訓練才能解決,而且在現有文獻中找不到現成答案。
(注:這里哥德爾測試與哥德爾不完全性定理基本沒啥關系)
在這篇論文中,總共5個問題基本都來自組合數學(Combinatorial mathematics)的一個子領域——
子模最大化(submodular maximization)。
什么是子模最大化呢?
簡單來說,子模函數的核心在于邊際收益遞減。
假設有一個函數 f(S),輸入是一個集合S,輸出是一個數值。
當集合越來越大時,增加一個新元素帶來的“增量收益”會越來越小。
而子模最大化,就是在給定的約束條件下,選擇一個集合,使得總收益 f(S)盡可能最大。
舉例來說,這就好像在社媒轉發視頻,第一個轉發的用戶往往能帶來很多觀看量(傳播給更多的人)。
但隨著轉發的人越來越多,每增加一個人的額外效果就越來越小(因為他的好友大部分已經看過了視頻)。
所以,關鍵是選出一批用戶(集合S),好讓總傳播量最大。
這就是子模最大化在實際問題中的優化目標,在測試中,GPT-5所應對的就是類似的優化問題。
GPT-5五中三
那么,GPT-5在這些猜想上的表現如何呢?
在五道測試題中,研究者給出最小化描述和參考文獻,沒有提供解題提示,讓模型自主生成解答,測試其數學推理能力。
總的結果如下:
- 當問題有單一、直接的推理路徑時,GPT-5表現良好。在五道題中,前三道題的證明接近正確。
- 對于第二題,GPT-5推導出的新近似證明既否定了原始猜想,又給出了有效解法。
- GPT-5對已知證明的改寫通常足夠,但略顯表面化:它傾向于跳過未變的步驟,并嚴格模仿原始結構,而非尋求更自然的替代方法,這類似人類的偷懶行為。
- GPT-5在第四題和第五題上均未成功,這兩道題需要結合至少2個不同文獻里的洞見,這種綜合推理能力似乎是GPT-5的主要局限之一。
- 在第五題上,GPT-5識別出了研究團隊心中所想的算法,但未能正確分析。
- 相比早期模型,GPT-5在基礎數學能力上顯示出明顯提升(至少在組合優化領域如此),并偶爾展現獨創性。
- 提示詞對性能影響顯著。當被要求提供完整證明時,GPT-5更傾向于保留中間步驟而非跳過,從而生成更完整和自洽的解答。
- 第四題和第五題的錯誤證明最初看似合理且令人信服,但仔細檢查后發現存在深層次缺陷。這凸顯了前沿模型在數學推理中的核心局限:輸出可能表面上正確,但本質上錯誤。
第一題:最大化“單調 + 非單調”的子模函數
在第一個題目中,GPT-5 的任務是最大化一個由單調DR-子模函數和非單調DR-子模函數組成的目標函數,約束條件是一個下閉凸集合。
研究者希望它不僅給出解,還要提供可量化的性能保證,說明算法輸出離理論最優解有多近,并要求提供嚴格的數學證明。
為了完成這個任務,GPT-5只能依靠對問題的理解和參考文獻,自主生成解答,沒有任何額外提示。
具體的prompt如下:

對此,GPT-5每步沿最“貪心”的方向微調解,然后用函數的結構保證最終結果接近最優。

對于GPT-5的回答,研究人員表示雖然GPT-5沒有設計全新的方法,但它緊貼參考資料,給出了總體正確的證明。
第二題:子模函數最大化的雙重標準(bicriteria)算法
在這道題里:
- GPT-5要最大化一個單調子模函數。
- 同時要滿足一個約束條件(p-system)。
也就是說,GPT-5面對的任務是:在更復雜的組合約束下,找到既能最大化函數又盡量滿足約束的解。
研究人員給GPT-5的提示里附上了兩篇關于子模最大化的雙重標準算法和p-系統約束下非雙重標準子模優化的論文。
具體的prompt如下:

GPT-5解題過程如下:

在第二題中,GPT-5給出的答案比研究者最初猜想的更合理,因為隨著約束復雜度增加(p 值變大),問題確實會更難。
整體來說,GPT-5 的推導基本正確,但有兩個小問題:
- 在某個關鍵不等式里,它多寫了一步,其實沒必要,這讓結果看起來有些復雜,但核心思路沒錯。
- 當約束最簡單(p=1)時,GPT-5忘記了某個參數的精確值,只給出了一個上界。
換句話說,它沒完全注意到在特例下可以算出更準確的數字,但總體邏輯還是對的。
總的來說,GPT-5能理解問題、給出合理的推導,偶爾會有些“懶”或者忽略細節,但整體表現已經非常接近研究者預期。
第三題:在凸集合約束下最大化弱DR-子模函數
第三題要求:在凸集合約束下,最大化一個具有這種放寬性質的連續單調函數。
prompt如下:

研究人員猜想:用文獻中類似Frank-Wolfe的算法來求解這個問題,可以保證得到相應的近似解。
GPT-5解題過程如下:

總體來看,GPT-5 的回答基本正確,但有些小問題。
之后,研究團隊又讓GPT-5生成了一個新的證明版本。
在新版本的回答中,GPT-5的回答更詳細,幾乎是從頭再來。
總體來看,GPT-5回答正確性較高,但仍有小細節和可讀性問題。
第四題:在基數約束下最大化部分單調的弱子模函數
第四個猜想是將非單調弱子模函數、m-單調性的放寬結合起來,研究弱子模且m-單調的集合函數最大化問題。
prompt如下:

研究人員假設:可以利用函數的m-單調性,對論文證明中使用的變量的取值得到新的界。
這些新的界在m>0時應優于論文中給出的界,并將它們代入同一論文的定理中,從而可以得到改進后的結果。
GPT-5的解題過程如下:

在這道題中,GPT-5并沒有真正給出這個問題的結果,它只是把已知的東西復述了一遍。
后續,研究者又讓GPT-5重新回答,以得到一個更好結果。
不過,在后續的回答中,GPT-5的表現依舊差勁。
在這道題上,GPT-5翻車了。
第五題:在Matroid交約束下最大化單調弱子模函數
最后一個猜想是關于在兩個matroid約束下最大化單調弱子模函數的問題。
研究人員假設,該論文的算法和分析方法應該可以很容易地擴展到兩個matroid約束。
prompt如下:

GPT-5解題過程如下(部分):

在這道題上,GPT-5的回答在邏輯上和細節上都不可靠,輸出結果基本不可用。
最后,值得一提的是,在GPT-5剛發布時,它就被拿來測試過凸優化的問題并且成功。

那么,你看好GPT在數學上更進一步嗎?

















