陶哲軒都驚了!o3首戰「AI奧數」碾壓奪冠,開源軍團僅差5分狂追OpenAI
「AI奧數」第二屆大賽,英偉達團隊(NemoSkills)曾奪下第一!
這一次,AIMO2組委會再次重啟賽題,OpenAI o3首次參賽,就拿下了最亮眼的成績。
陶哲軒激動表示,過去,這個比賽僅限于開源模型,計算資源也卡得比較緊。

慶幸的是,AIMO第二輪比賽中,NemoSkills和清華微軟imagination research、以及o3同時參賽。
測試分為兩種條件:一種給差不多的計算資源,另一種是放開算力隨便跑。
結果也在意料之中,算力給得越足,模型表現越好。
在算力管夠的情況下,OpenAI o3成績直接飆到了47分(滿分50分)。甚至,每道題給兩次機會的話,還能沖滿分。
另一個有意思的情況是,在計算資源相同的情況下,開源模型和商業模型的差異其實并不大。
今天,這份完整的研究測試報告正式放出。

報告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking
一起來看看,o3在具體實測中的表現。
奧數級難題,AI扛把子
對于科學可復現性,確保開源模型廣泛可得至關重要。但開源模型與閉源模型之間的性能差距到底有多大?
在數學推理情境下,這次的測評提供了更細致的理解:
在奧數難度的數學推理上,商用和開源AI的差距在縮小。
開源即將追上商用模型。

去年,Epoch AI估計:當今最好的開源模型在性能和訓練算力方面與封閉模型相當,但存在大約一年的差距
人工智能數學奧林匹克(AIMO)創立于2023年,旨在推動開源AI模型在高階數學推理的的發展。

比賽傳送門:https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview
2025年4月,第二屆AIMO進展獎(AIMO Progress Prize 2,簡稱AIMO2)收官。
本階段題目難度進一步提升,主要圍繞各國奧賽級別(如英國數學奧林匹克BMO、美國數學奧林匹克USAMO)。

AIMO2私榜的前五名隊伍及其成績如下(括號內為公榜成績):
- NemoSkills:34/50(公榜:33/50)
- imagination-research:31/50(公榜:34/50)
- Aliev:30/50(公榜:28/50)
- sravn:29/50(公榜:25/50)
- usernam:29/50(公榜:25/50)
Kaggle的「公榜」在賽事全程向參賽者可見,為了避免數據泄露,并不會公開數據。
由于在單一榜單上反復評測(即便題目不公開)也可能間接泄露信息,Kaggle還會提供一個包含相似難度題目的「私榜」,僅在賽末對模型進行一次性評估,以確定最終名次。
考慮到相較AIMO1題目難度顯著上升,這樣的成績相當亮眼。
不過,一個有趣而關鍵的問題仍待回答:當閉源AI模型「上場」解AIMO的競賽題時,會交出怎樣的答卷?
對比,AIMO與OpenAI等合作開展了一項實驗,將OpenAI的o3模型未發布的版本o3-preview,應用于AIMO2公共排行榜中50道奧林匹克競賽級數學題。
這次對比了通用型模型o3-preview,和開源的AIMO2競賽中針對數學專門優化的Top 2模型。
此外,這次還引入「AIMO2-combined」這一參照系:
將參賽的2000多支Kaggle隊伍中各自最優模型的解題結果合并,只要有至少一個模型解出某題,即計為該題被解決。
從絕對意義上看,不考慮由算力成本帶來的限制,AIMO基準上,o3-preview高算力版本接近達到「飽和」,即便它是通用模型、并未專門針對數學進行優化。
這一成績令人印象深刻,超乎預期。
這表明在推理性能方面,最強的開源模型與最強的閉源模型之間,仍存在顯著差距。
但如果把算力成本納入考量,差距會顯著縮小。
在50題基準上,o3-preview低算力版本單次運行的平均成本為每題略低于1美元。
這一成本高于在自有的8×H100機器上運行全部五個獲勝模型的成本,并與在商業租賃的8×H100 GPU上運行單個獲勝模型的成本大致相當;雖然難以進行精確的價格對比,但成本的數量級相近。
AIMO2原始前五模型的合并分為38/50,較o3-preview低算力版本落后5分,這表明在僅就算力進行調整、限定于50道題的前提下,推理性能大致相近。
接下來,將依次概述o3-preview的表現、冠亞軍隊伍的表現,以及AIMO2-combined的整體表現。
算力足夠,o3一次拿近滿分
AIMO在三種不同的參數設置下運行o3-preview:低算力、中等算力、高算力。
這些設置既影響o3-preview的內部思考與推理層次,也帶來不同的硬件成本。
需要說明的是,低算力與中等算力版本在概念上,對應為同一個基礎模型在兩種參數下運行。
而高算力版本,還使用了一個學習得到的打分函數來挑選最佳答案。
這種在固定采樣率下進行的「采樣-排序」(sample-and-rank)機制帶來更好的表現。
與Kaggle競賽相同,測試在嚴格條件下進行,確保公開榜測試集保持無數據污染且沒有信息泄露。
每道題僅嘗試一次。
低算力與中等算力版本各返回一個答案;而采用采樣-排序機制的高算力版本會返回若干答案,并附帶一個評分。
根據算力版本不同,OpenAI模型的得分如下:
- o3-preview(高算力版本,計入排名第一與排名第二的答案):50/50
- o3-preview(高算力版本,僅計入排名第一的答案):47/50
- o3-preview(中等算力版本):46/50
- o3-preview(低算力版本):43/50
即便將NemoSkills的AIMO2冠軍模型,遷移到比Kaggle更強的硬件上運行,o3-preview的低算力版本仍然多解出7題。
中等算力版本解出了與低算力版本相同的題目,并額外多解出3題,總計46/50。
高算力版本在僅計入排名第一答案時得分47/50;若同時計入排名第二的答案則為50/50。
這表明,o3-preview在原則上,具備為全部50道題產生正確答案的能力。
這一結果與AIMO2中,全部2k+支Kaggle參賽隊伍的最佳模型組合分相當——后者總計也解出47/50。
8塊H100,英偉達AI僅提1分
此前,拿下第一和第二名的團隊——NemoSkills和imagination-research,再次參與了重估。
為了更好了解模型的全部潛力,團隊獲準訪問一臺8×H100 GPU,總計640GB顯存的機器。
在AIMO2中,為了讓模型能在Kaggle平臺上運行,賽事對參賽隊伍施加了資源限制:
每支隊伍提供4塊L4 GPU,總計96 GB 顯存(VRAM)。
在本次評測中,組委會移除了各隊為適配Kaggle資源限制,讓模型得以在50道公開榜題目上充分發揮其全部能力。
最終結果如何?
· NemoSkills得分35/50,較其在Kaggle公開榜的33/50有所提升;
· imagination-research也得到35/50,較其在Kaggle公開榜的34/50提升。
開源與閉源,差距再次縮小
不過,在報告與比較分數時需要謹慎。
AIMO2-combined的47/50分大致類似于一種「pass@2k+」類型的分數(亦即「多樣本通過率」):
在每題2k+次嘗試中,只要至少有一次解答正確即可計為通過,且不再進行其他排序。
更一般地,常用的「pass@n」類型分數指某個(固定黑箱的)模型被查詢n次,只要正確解包含在這n個輸出中,就據此報告該分數(即使模型內部還能運行更多次)。
多次查詢之間不允許保留模型狀態。
當然,2k+次提交對應的模型并不相同;而嚴格講,pass@n要求底層是同一個模型,因此pass@2k+只是一個近似分數。
o3-preview的低算力與中等算力分數,以及高算力版本的47/50,均屬于pass@1類型分數。
在這三個算力級別中,o3-preview低算力版本未能解出的7道數學題包括:2道幾何、2道代數和3道組合。
盡管o3-preview表現非常強,但有一道名為「RUNNER」(見下方圖表)的問題尤為突出:
該題被NemoSkills解出,但o3-preview的低算力與中等算力版本未能解出,而在高算力版本中其正確答案僅排名第二。

相反,另一道題「EIGHTS」在高算力版本中以排名第一的答案被解出。
該題未被AIMO2前五名模型解出,卻被若干其他排名較低的AIMO2模型解出。

以上這些結果,皆具魯棒性。
原因在于:題目數量多且難度高,多數達到國家數學奧賽水平,少部分略易或略難,接近IMO難度級別。
對所有o3-preview版本的評測,都在一個很短的時間窗口內(數小時)完成。
并且AIMO獲得了原始API輸出的訪問權限,便于復核與分析。
這些結果代表了基于AI的推理,在極具挑戰性的領域邁出的一個里程碑式進展。
順便提一句,AIMO Progress Prize 3(AIMO3)將于2025年秋季啟動。
難度等級將再次提升,題目將以國際數學奧林匹克(IMO)水平為中心。關于時間安排、獎金池以及改進后的競賽形式的完整細節將適時公布。





































