陶哲軒都驚了！o3首戰「AI奧數」碾壓奪冠，開源軍團僅差5分狂追OpenAI

2025-09-08 09:15:00

人工智能新聞

AI界奧數杯，重啟了！OpenAI o3首次殺入賽場，在算力拉滿的情況下，直接以最高47分的逆天成績炸翻全場。值得一提的是，前五模型合并得分僅與o3差5分，開源與閉源差距再次縮小。

「AI奧數」第二屆大賽，英偉達團隊（NemoSkills）曾奪下第一！

這一次，AIMO2組委會再次重啟賽題，OpenAI o3首次參賽，就拿下了最亮眼的成績。

陶哲軒激動表示，過去，這個比賽僅限于開源模型，計算資源也卡得比較緊。

慶幸的是，AIMO第二輪比賽中，NemoSkills和清華微軟imagination research、以及o3同時參賽。

測試分為兩種條件：一種給差不多的計算資源，另一種是放開算力隨便跑。

結果也在意料之中，算力給得越足，模型表現越好。

在算力管夠的情況下，OpenAI o3成績直接飆到了47分（滿分50分）。甚至，每道題給兩次機會的話，還能沖滿分。

另一個有意思的情況是，在計算資源相同的情況下，開源模型和商業模型的差異其實并不大。

今天，這份完整的研究測試報告正式放出。

報告地址：https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

一起來看看，o3在具體實測中的表現。

奧數級難題，AI扛把子

對于科學可復現性，確保開源模型廣泛可得至關重要。但開源模型與閉源模型之間的性能差距到底有多大？

在數學推理情境下，這次的測評提供了更細致的理解：

在奧數難度的數學推理上，商用和開源AI的差距在縮小。

開源即將追上商用模型。

去年，Epoch AI估計：當今最好的開源模型在性能和訓練算力方面與封閉模型相當，但存在大約一年的差距

人工智能數學奧林匹克（AIMO）創立于2023年，旨在推動開源AI模型在高階數學推理的的發展。

比賽傳送門：https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview

2025年4月，第二屆AIMO進展獎（AIMO Progress Prize 2，簡稱AIMO2）收官。

本階段題目難度進一步提升，主要圍繞各國奧賽級別（如英國數學奧林匹克BMO、美國數學奧林匹克USAMO）。

AIMO2私榜的前五名隊伍及其成績如下（括號內為公榜成績）：

NemoSkills：34/50（公榜：33/50）
imagination-research：31/50（公榜：34/50）
Aliev：30/50（公榜：28/50）
sravn：29/50（公榜：25/50）
usernam：29/50（公榜：25/50）

Kaggle的「公榜」在賽事全程向參賽者可見，為了避免數據泄露，并不會公開數據。

由于在單一榜單上反復評測（即便題目不公開）也可能間接泄露信息，Kaggle還會提供一個包含相似難度題目的「私榜」，僅在賽末對模型進行一次性評估，以確定最終名次。

考慮到相較AIMO1題目難度顯著上升，這樣的成績相當亮眼。

不過，一個有趣而關鍵的問題仍待回答：當閉源AI模型「上場」解AIMO的競賽題時，會交出怎樣的答卷？

對比，AIMO與OpenAI等合作開展了一項實驗，將OpenAI的o3模型未發布的版本o3-preview，應用于AIMO2公共排行榜中50道奧林匹克競賽級數學題。

這次對比了通用型模型o3-preview，和開源的AIMO2競賽中針對數學專門優化的Top 2模型。

此外，這次還引入「AIMO2-combined」這一參照系：

將參賽的2000多支Kaggle隊伍中各自最優模型的解題結果合并，只要有至少一個模型解出某題，即計為該題被解決。

從絕對意義上看，不考慮由算力成本帶來的限制，AIMO基準上，o3-preview高算力版本接近達到「飽和」，即便它是通用模型、并未專門針對數學進行優化。

這一成績令人印象深刻，超乎預期。

這表明在推理性能方面，最強的開源模型與最強的閉源模型之間，仍存在顯著差距。

但如果把算力成本納入考量，差距會顯著縮小。

在50題基準上，o3-preview低算力版本單次運行的平均成本為每題略低于1美元。

這一成本高于在自有的8×H100機器上運行全部五個獲勝模型的成本，并與在商業租賃的8×H100 GPU上運行單個獲勝模型的成本大致相當；雖然難以進行精確的價格對比，但成本的數量級相近。

AIMO2原始前五模型的合并分為38/50，較o3-preview低算力版本落后5分，這表明在僅就算力進行調整、限定于50道題的前提下，推理性能大致相近。

接下來，將依次概述o3-preview的表現、冠亞軍隊伍的表現，以及AIMO2-combined的整體表現。

算力足夠，o3一次拿近滿分

AIMO在三種不同的參數設置下運行o3-preview：低算力、中等算力、高算力。

這些設置既影響o3-preview的內部思考與推理層次，也帶來不同的硬件成本。

需要說明的是，低算力與中等算力版本在概念上，對應為同一個基礎模型在兩種參數下運行。

而高算力版本，還使用了一個學習得到的打分函數來挑選最佳答案。

這種在固定采樣率下進行的「采樣-排序」（sample-and-rank）機制帶來更好的表現。

與Kaggle競賽相同，測試在嚴格條件下進行，確保公開榜測試集保持無數據污染且沒有信息泄露。

每道題僅嘗試一次。

低算力與中等算力版本各返回一個答案；而采用采樣-排序機制的高算力版本會返回若干答案，并附帶一個評分。

根據算力版本不同，OpenAI模型的得分如下：

o3-preview（高算力版本，計入排名第一與排名第二的答案）：50/50
o3-preview（高算力版本，僅計入排名第一的答案）：47/50
o3-preview（中等算力版本）：46/50
o3-preview（低算力版本）：43/50

即便將NemoSkills的AIMO2冠軍模型，遷移到比Kaggle更強的硬件上運行，o3-preview的低算力版本仍然多解出7題。

中等算力版本解出了與低算力版本相同的題目，并額外多解出3題，總計46/50。

高算力版本在僅計入排名第一答案時得分47/50；若同時計入排名第二的答案則為50/50。

這表明，o3-preview在原則上，具備為全部50道題產生正確答案的能力。

這一結果與AIMO2中，全部2k+支Kaggle參賽隊伍的最佳模型組合分相當——后者總計也解出47/50。

8塊H100，英偉達AI僅提1分

此前，拿下第一和第二名的團隊——NemoSkills和imagination-research，再次參與了重估。

為了更好了解模型的全部潛力，團隊獲準訪問一臺8×H100 GPU，總計640GB顯存的機器。

在AIMO2中，為了讓模型能在Kaggle平臺上運行，賽事對參賽隊伍施加了資源限制：

每支隊伍提供4塊L4 GPU，總計96 GB 顯存（VRAM）。

在本次評測中，組委會移除了各隊為適配Kaggle資源限制，讓模型得以在50道公開榜題目上充分發揮其全部能力。

最終結果如何？

· NemoSkills得分35/50，較其在Kaggle公開榜的33/50有所提升；

· imagination-research也得到35/50，較其在Kaggle公開榜的34/50提升。

開源與閉源，差距再次縮小

不過，在報告與比較分數時需要謹慎。

AIMO2-combined的47/50分大致類似于一種「pass@2k+」類型的分數（亦即「多樣本通過率」）：

在每題2k+次嘗試中，只要至少有一次解答正確即可計為通過，且不再進行其他排序。

更一般地，常用的「pass@n」類型分數指某個（固定黑箱的）模型被查詢n次，只要正確解包含在這n個輸出中，就據此報告該分數（即使模型內部還能運行更多次）。

多次查詢之間不允許保留模型狀態。

當然，2k+次提交對應的模型并不相同；而嚴格講，pass@n要求底層是同一個模型，因此pass@2k+只是一個近似分數。

o3-preview的低算力與中等算力分數，以及高算力版本的47/50，均屬于pass@1類型分數。

在這三個算力級別中，o3-preview低算力版本未能解出的7道數學題包括：2道幾何、2道代數和3道組合。

盡管o3-preview表現非常強，但有一道名為「RUNNER」（見下方圖表）的問題尤為突出：

該題被NemoSkills解出，但o3-preview的低算力與中等算力版本未能解出，而在高算力版本中其正確答案僅排名第二。

相反，另一道題「EIGHTS」在高算力版本中以排名第一的答案被解出。

該題未被AIMO2前五名模型解出，卻被若干其他排名較低的AIMO2模型解出。

以上這些結果，皆具魯棒性。

原因在于：題目數量多且難度高，多數達到國家數學奧賽水平，少部分略易或略難，接近IMO難度級別。

對所有o3-preview版本的評測，都在一個很短的時間窗口內（數小時）完成。

并且AIMO獲得了原始API輸出的訪問權限，便于復核與分析。

這些結果代表了基于AI的推理，在極具挑戰性的領域邁出的一個里程碑式進展。

順便提一句，AIMO Progress Prize 3（AIMO3）將于2025年秋季啟動。

難度等級將再次提升，題目將以國際數學奧林匹克（IMO）水平為中心。關于時間安排、獎金池以及改進后的競賽形式的完整細節將適時公布。

責任編輯：張燕妮來源：新智元

陶哲軒 AI 模型