谷歌Gemini 3殺瘋了!陶哲軒親測:10分鐘干翻百年數學難題
繼續領跑!
Gemini 3本周一發布,便開啟了橫掃各大基準測試之旅,頻繁登上各種排行榜的榜首。

Gemini 3不僅跑分領先,面對網友的各種刁鉆實測也毫不拉胯。
用現實證明了自己就是目前最強模型!
這不,就在昨天,知名研究機構Epoch AI再添一力證——
- Gemini 3 Pro在FrontierMath基準測試中創下新紀錄:Tier 1-3準確率達 38%,Tier 4達19%。
- 在綜合多項基準測試的Epoch能力指數(ECI)中,Gemini 3 Pro獲得154分,超越了GPT-5.1此前保持的151分的最高紀錄。

FrontierMath是由Epoch AI聯合眾多職業數學家打造的一個高級數學基準。
它由數百道原創、從未公開的難題構成,被設計成一塊專門測量AI高階數學推理能力的「試金石」。
這些題目幾乎覆蓋現代數學的主要分支:從需要大量計算的數論、實分析,到高度抽象的代數幾何、范疇論。
普通一道題就足以讓相關領域的研究者思考數小時甚至數天。
這些題目大概長這樣,大家可以感受一下。


完整數據集包含350道題:其中300題構成Tiers 1–3,難度大致對應從高年級本科到初級研究生水平。
另外50題被歸入極端困難的Tier 4,接近乃至達到數學的前沿研究問題。
為便于社區實驗,FrontierMath只開放了少量公開子集,其余題目則嚴格保密,用于評測。
在評測時,模型必須為每道題提交一個Python函數answer(),返回整數(通常)或SymPy等Python對象,由系統自動運行與校驗。
這一設計既允許模型調用代碼深度推理,又用程序化判分確保結果客觀可重復,使FrontierMath成為當前衡量AI數學前沿能力最嚴苛、也最具說服力的基準之一。
截至目前,FrontierMath排行榜上的領先模型,都是由Gemini和GPT系列占據。

從「跑分最強」到「實戰破題」
雖說Gemini 3確實很強,但只是一味的霸榜基準測試,還是差點意思。
至少,缺少點說服力。
還好,Gemini 3很快就在實戰中證明了自己。
就在昨天,數學大神陶哲軒發帖表示,他用Gemini Deepthink模式十分鐘,便解決了埃爾德什問題#367 的關鍵證明!

為了更清楚地說明這個過程,我們先來簡單了解一下埃爾德什問題#367。
簡單說就是把每個整數拆成積木,凡是只出現1次的積木丟掉,只留下能成對出現、能拼成平方的那一部分,叫B?(n)。
比如12=2×2×3,只留2×2,所以B?(12)=4。
現在看一小段連續整數n,n+1,…,n+k-1,對每個數算出B?,再把這些B?全部相乘。
埃爾德什問題#367 的問題是:不管這段連續整數多長,這個乘積是不是都不會比n2增長得更快?
也就是說:整數里「平方因子扎堆」的程度,天花板究竟在哪里?

為了更方便理解,我用最近最火的Nano Banana Pro畫了張信息圖。
大家看看怎么樣?

言歸正傳。關于這個問題,陶哲軒在帖子中給出了一條時間線。
11月20號,Wouter van Doorn用AI提出了該問題第二部分的反證,他的論證基于一個還未被證明的同余恒等式。
幾個小時后,陶哲軒將這個不等式交給了Gemini Deepthink。
只用了大概十分鐘,Gemini Deepthink便解決了這個證明。
太夸張了!
陶哲軒還附上了整個的論證過程。

論證地址: https://gemini.google.com/share/81a65aecfd70
看來這種問題對于Gemini 3還真算不上什么。
隨后,陶哲軒手動把證明轉化為了一個更加基礎的版本,花費了他半個小時的時間。
兩天后,Boris Alexeev最終完成了這個證明的Lean形式化,耗時2、3個小時。
陶哲軒用Gemini 3來研究埃爾德什難題,厲害之處不只是「AI 超會算」。
更重要的是:世界頂級數學家,真的把大模型當成工作伙伴了。
以后做數學,不再只是一個人苦苦推導。
而是把枯燥的枚舉、嘗試、檢驗丟給AI,人類集中精力抓核心思路、做關鍵判斷。
誰先學會和這類工具高效協作,誰就等于多了一個「超級合作者」。
數學之外的物理「試金石」
在登頂數學基準測試的同時,Gemini也霸榜了一項最新的物理基準測試——CritPt。
CritPt的誕生基于研究者們開始追問一個問題:大模型真的能像物理學家那樣,完整推進一場前沿研究嗎?
其全稱為 「Complex Research using Integrated Thinking – Physics Test」,要測的,正是 AI 從「像樣回答」跨越到「真正推理」的那道臨界線。
目前已在Artificial Analysis平臺上線。

與以往基于教科書或公開題庫的物理題庫不同,CritPt是首個專門面向「未公開、真研究級」物理問題的大模型基準。
它由來自阿貢國家實驗室、伊利諾伊大學厄巴納-香檳分校等三十多家機構的五十余位活躍物理學者共同打造,涵蓋凝聚態、量子、原子分子與光學、天體物理、高能物理等現代物理的十一大分支。
每道題目都像是交給一名優秀物理學博士新生的一次獨立小課題:需要建模、推導、近似與跨領域聯想,卻又保證答案可機讀、可自動嚴格判分。
CritPt測試的挑戰示例如下圖所示。

不出意外,Gemini 3 Pro再次霸榜該項物理研究測試。
同樣的,GPT-5.1緊隨其后。
看來,這兩模型還真是代表了當前最前沿的模型水平。

不過,雖然登頂了CritPt,Gemini 3 Pro的成績也才有9.1%,與滿分表現還有些距離。





































