谷歌Gemini 3殺瘋了！陶哲軒親測：10分鐘干翻百年數學難題

2025-11-24 09:04:00

人工智能新聞

Gemini 3一日霸榜數學、物理兩個頂級基準測試！與此同時，陶哲軒用Gemini DeepThink十分鐘便搞定了一道埃爾德什難題。

繼續領跑！

Gemini 3本周一發布，便開啟了橫掃各大基準測試之旅，頻繁登上各種排行榜的榜首。

Gemini 3不僅跑分領先，面對網友的各種刁鉆實測也毫不拉胯。

用現實證明了自己就是目前最強模型！

這不，就在昨天，知名研究機構Epoch AI再添一力證——

Gemini 3 Pro在FrontierMath基準測試中創下新紀錄：Tier 1-3準確率達 38%，Tier 4達19%。
在綜合多項基準測試的Epoch能力指數（ECI）中，Gemini 3 Pro獲得154分，超越了GPT-5.1此前保持的151分的最高紀錄。

FrontierMath是由Epoch AI聯合眾多職業數學家打造的一個高級數學基準。

它由數百道原創、從未公開的難題構成，被設計成一塊專門測量AI高階數學推理能力的「試金石」。

這些題目幾乎覆蓋現代數學的主要分支：從需要大量計算的數論、實分析，到高度抽象的代數幾何、范疇論。

普通一道題就足以讓相關領域的研究者思考數小時甚至數天。

這些題目大概長這樣，大家可以感受一下。

完整數據集包含350道題：其中300題構成Tiers 1–3，難度大致對應從高年級本科到初級研究生水平。

另外50題被歸入極端困難的Tier 4，接近乃至達到數學的前沿研究問題。

為便于社區實驗，FrontierMath只開放了少量公開子集，其余題目則嚴格保密，用于評測。

在評測時，模型必須為每道題提交一個Python函數answer()，返回整數（通常）或SymPy等Python對象，由系統自動運行與校驗。

這一設計既允許模型調用代碼深度推理，又用程序化判分確保結果客觀可重復，使FrontierMath成為當前衡量AI數學前沿能力最嚴苛、也最具說服力的基準之一。

截至目前，FrontierMath排行榜上的領先模型，都是由Gemini和GPT系列占據。

從「跑分最強」到「實戰破題」

雖說Gemini 3確實很強，但只是一味的霸榜基準測試，還是差點意思。

至少，缺少點說服力。

還好，Gemini 3很快就在實戰中證明了自己。

就在昨天，數學大神陶哲軒發帖表示，他用Gemini Deepthink模式十分鐘，便解決了埃爾德什問題#367 的關鍵證明！

為了更清楚地說明這個過程，我們先來簡單了解一下埃爾德什問題#367。

簡單說就是把每個整數拆成積木，凡是只出現1次的積木丟掉，只留下能成對出現、能拼成平方的那一部分，叫B?(n)。

比如12=2×2×3，只留2×2，所以B?(12)=4。

現在看一小段連續整數n,n+1,…,n+k-1，對每個數算出B?，再把這些B?全部相乘。

埃爾德什問題#367 的問題是：不管這段連續整數多長，這個乘積是不是都不會比n2增長得更快？

也就是說：整數里「平方因子扎堆」的程度，天花板究竟在哪里？

為了更方便理解，我用最近最火的Nano Banana Pro畫了張信息圖。

大家看看怎么樣？

言歸正傳。關于這個問題，陶哲軒在帖子中給出了一條時間線。

11月20號，Wouter van Doorn用AI提出了該問題第二部分的反證，他的論證基于一個還未被證明的同余恒等式。

幾個小時后，陶哲軒將這個不等式交給了Gemini Deepthink。

只用了大概十分鐘，Gemini Deepthink便解決了這個證明。

太夸張了！

陶哲軒還附上了整個的論證過程。

論證地址： https://gemini.google.com/share/81a65aecfd70

看來這種問題對于Gemini 3還真算不上什么。

隨后，陶哲軒手動把證明轉化為了一個更加基礎的版本，花費了他半個小時的時間。

兩天后，Boris Alexeev最終完成了這個證明的Lean形式化，耗時2、3個小時。

陶哲軒用Gemini 3來研究埃爾德什難題，厲害之處不只是「AI 超會算」。

更重要的是：世界頂級數學家，真的把大模型當成工作伙伴了。

以后做數學，不再只是一個人苦苦推導。

而是把枯燥的枚舉、嘗試、檢驗丟給AI，人類集中精力抓核心思路、做關鍵判斷。

誰先學會和這類工具高效協作，誰就等于多了一個「超級合作者」。

數學之外的物理「試金石」

在登頂數學基準測試的同時，Gemini也霸榜了一項最新的物理基準測試——CritPt。

CritPt的誕生基于研究者們開始追問一個問題：大模型真的能像物理學家那樣，完整推進一場前沿研究嗎？

其全稱為「Complex Research using Integrated Thinking – Physics Test」，要測的，正是 AI 從「像樣回答」跨越到「真正推理」的那道臨界線。

目前已在Artificial Analysis平臺上線。

與以往基于教科書或公開題庫的物理題庫不同，CritPt是首個專門面向「未公開、真研究級」物理問題的大模型基準。

它由來自阿貢國家實驗室、伊利諾伊大學厄巴納-香檳分校等三十多家機構的五十余位活躍物理學者共同打造，涵蓋凝聚態、量子、原子分子與光學、天體物理、高能物理等現代物理的十一大分支。

每道題目都像是交給一名優秀物理學博士新生的一次獨立小課題：需要建模、推導、近似與跨領域聯想，卻又保證答案可機讀、可自動嚴格判分。

CritPt測試的挑戰示例如下圖所示。

不出意外，Gemini 3 Pro再次霸榜該項物理研究測試。

同樣的，GPT-5.1緊隨其后。

看來，這兩模型還真是代表了當前最前沿的模型水平。

不過，雖然登頂了CritPt，Gemini 3 Pro的成績也才有9.1%，與滿分表現還有些距離。

責任編輯：張燕妮來源：新智元

AI 模型谷歌