GPT-5通過“哥德爾測試”！獨創性解決博士生都得花幾天時間的開放數學問題

2025-09-26 09:24:46

GPT-5這次挑戰的并不是奧賽題，而是高等數學里的簡單猜想。

GPT-5，你這家伙！

究竟還有什么事是我不知道的？

在一篇最新論文中，研究人員讓它挑戰了5個尚未解決的優化猜想。

結果它居然解出了其中3個！

更令人吃驚的是，其中有一道題，它甚至給出了與研究者預期完全不同的、同樣有效的證明方案。

和國際數學奧林匹克（IMO）那些為“人類天才高中生”準備的題目不同，這次的測試題需要博士水平的研究者花上幾天才能完成。

在論文里，研究者們還特意“挑釁”陶哲軒對大語言模型數學能力的印象——

它可不是“笨蛋”研究生，而是能展現出獨創性的“聰明”博士生。

前微軟研究副總裁、現OpenAI科學家Sebastien Bubeck表示：

這意味著GPT-5能夠解決一些真正的開放性數學問題。

接下來，就讓我們看看，這位AI數學天才是怎么煉成的。

“哥德爾”測試

如上所述，GPT-5這次挑戰的并不是奧賽題，而是高等數學里的簡單猜想。

求解這類問題不僅需要算術能力，還需要相當強的數學背景和邏輯推理能力。

研究人員把他們的測試稱為：哥德爾測試。

哥德爾測試里的問題需要人自己動腦、經過訓練才能解決，而且在現有文獻中找不到現成答案。

（注：這里哥德爾測試與哥德爾不完全性定理基本沒啥關系）

在這篇論文中，總共5個問題基本都來自組合數學（Combinatorial mathematics）的一個子領域——

子模最大化（submodular maximization）。

什么是子模最大化呢？

簡單來說，子模函數的核心在于邊際收益遞減。

假設有一個函數 f(S)，輸入是一個集合S，輸出是一個數值。

當集合越來越大時，增加一個新元素帶來的“增量收益”會越來越小。

而子模最大化，就是在給定的約束條件下，選擇一個集合，使得總收益 f(S)盡可能最大。

舉例來說，這就好像在社媒轉發視頻，第一個轉發的用戶往往能帶來很多觀看量（傳播給更多的人）。

但隨著轉發的人越來越多，每增加一個人的額外效果就越來越小（因為他的好友大部分已經看過了視頻）。

所以，關鍵是選出一批用戶（集合S），好讓總傳播量最大。

這就是子模最大化在實際問題中的優化目標，在測試中，GPT-5所應對的就是類似的優化問題。

那么，GPT-5在這些猜想上的表現如何呢？

在五道測試題中，研究者給出最小化描述和參考文獻，沒有提供解題提示，讓模型自主生成解答，測試其數學推理能力。

總的結果如下：

當問題有單一、直接的推理路徑時，GPT-5表現良好。在五道題中，前三道題的證明接近正確。
對于第二題，GPT-5推導出的新近似證明既否定了原始猜想，又給出了有效解法。
GPT-5對已知證明的改寫通常足夠，但略顯表面化：它傾向于跳過未變的步驟，并嚴格模仿原始結構，而非尋求更自然的替代方法，這類似人類的偷懶行為。
GPT-5在第四題和第五題上均未成功，這兩道題需要結合至少2個不同文獻里的洞見，這種綜合推理能力似乎是GPT-5的主要局限之一。
在第五題上，GPT-5識別出了研究團隊心中所想的算法，但未能正確分析。
相比早期模型，GPT-5在基礎數學能力上顯示出明顯提升（至少在組合優化領域如此），并偶爾展現獨創性。
提示詞對性能影響顯著。當被要求提供完整證明時，GPT-5更傾向于保留中間步驟而非跳過，從而生成更完整和自洽的解答。
第四題和第五題的錯誤證明最初看似合理且令人信服，但仔細檢查后發現存在深層次缺陷。這凸顯了前沿模型在數學推理中的核心局限：輸出可能表面上正確，但本質上錯誤。