精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陶哲軒都驚了!o3首戰「AI奧數」碾壓奪冠,開源軍團僅差5分狂追OpenAI

人工智能 新聞
AI界奧數杯,重啟了!OpenAI o3首次殺入賽場,在算力拉滿的情況下,直接以最高47分的逆天成績炸翻全場。值得一提的是,前五模型合并得分僅與o3差5分,開源與閉源差距再次縮小。

「AI奧數」第二屆大賽,英偉達團隊(NemoSkills)曾奪下第一!

這一次,AIMO2組委會再次重啟賽題,OpenAI o3首次參賽,就拿下了最亮眼的成績。

陶哲軒激動表示,過去,這個比賽僅限于開源模型,計算資源也卡得比較緊。

慶幸的是,AIMO第二輪比賽中,NemoSkills和清華微軟imagination research、以及o3同時參賽。

測試分為兩種條件:一種給差不多的計算資源,另一種是放開算力隨便跑。

結果也在意料之中,算力給得越足,模型表現越好。

在算力管夠的情況下,OpenAI o3成績直接飆到了47分(滿分50分)。甚至,每道題給兩次機會的話,還能沖滿分。

另一個有意思的情況是,在計算資源相同的情況下,開源模型和商業模型的差異其實并不大。

今天,這份完整的研究測試報告正式放出。

報告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

一起來看看,o3在具體實測中的表現。

奧數級難題,AI扛把子

對于科學可復現性,確保開源模型廣泛可得至關重要。但開源模型與閉源模型之間的性能差距到底有多大?

在數學推理情境下,這次的測評提供了更細致的理解:

在奧數難度的數學推理上,商用和開源AI的差距在縮小。

開源即將追上商用模型。

去年,Epoch AI估計:當今最好的開源模型在性能和訓練算力方面與封閉模型相當,但存在大約一年的差距

人工智能數學奧林匹克(AIMO)創立于2023年,旨在推動開源AI模型在高階數學推理的的發展。

比賽傳送門:https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview

2025年4月,第二屆AIMO進展獎(AIMO Progress Prize 2,簡稱AIMO2)收官。

本階段題目難度進一步提升,主要圍繞各國奧賽級別(如英國數學奧林匹克BMO、美國數學奧林匹克USAMO)。

AIMO2私榜的前五名隊伍及其成績如下(括號內為公榜成績):

  • NemoSkills:34/50(公榜:33/50)
  • imagination-research:31/50(公榜:34/50)
  • Aliev:30/50(公榜:28/50)
  • sravn:29/50(公榜:25/50)
  • usernam:29/50(公榜:25/50)

Kaggle的「公榜」在賽事全程向參賽者可見,為了避免數據泄露,并不會公開數據。  

由于在單一榜單上反復評測(即便題目不公開)也可能間接泄露信息,Kaggle還會提供一個包含相似難度題目的「私榜」,僅在賽末對模型進行一次性評估,以確定最終名次。

考慮到相較AIMO1題目難度顯著上升,這樣的成績相當亮眼。

不過,一個有趣而關鍵的問題仍待回答:當閉源AI模型「上場」解AIMO的競賽題時,會交出怎樣的答卷?

對比,AIMO與OpenAI等合作開展了一項實驗,將OpenAI的o3模型未發布的版本o3-preview,應用于AIMO2公共排行榜中50道奧林匹克競賽級數學題。

這次對比了通用型模型o3-preview,和開源的AIMO2競賽中針對數學專門優化的Top 2模型。

此外,這次還引入「AIMO2-combined」這一參照系:

將參賽的2000多支Kaggle隊伍中各自最優模型的解題結果合并,只要有至少一個模型解出某題,即計為該題被解決。

從絕對意義上看,不考慮由算力成本帶來的限制,AIMO基準上,o3-preview高算力版本接近達到「飽和」,即便它是通用模型、并未專門針對數學進行優化。

這一成績令人印象深刻,超乎預期。

這表明在推理性能方面,最強的開源模型與最強的閉源模型之間,仍存在顯著差距。

但如果把算力成本納入考量,差距會顯著縮小。

在50題基準上,o3-preview低算力版本單次運行的平均成本為每題略低于1美元。

這一成本高于在自有的8×H100機器上運行全部五個獲勝模型的成本,并與在商業租賃的8×H100 GPU上運行單個獲勝模型的成本大致相當;雖然難以進行精確的價格對比,但成本的數量級相近。

AIMO2原始前五模型的合并分為38/50,較o3-preview低算力版本落后5分,這表明在僅就算力進行調整、限定于50道題的前提下,推理性能大致相近。

接下來,將依次概述o3-preview的表現、冠亞軍隊伍的表現,以及AIMO2-combined的整體表現。

算力足夠,o3一次拿近滿分

AIMO在三種不同的參數設置下運行o3-preview:低算力、中等算力、高算力。

這些設置既影響o3-preview的內部思考與推理層次,也帶來不同的硬件成本。

需要說明的是,低算力與中等算力版本在概念上,對應為同一個基礎模型在兩種參數下運行。

而高算力版本,還使用了一個學習得到的打分函數來挑選最佳答案。

這種在固定采樣率下進行的「采樣-排序」(sample-and-rank)機制帶來更好的表現。

與Kaggle競賽相同,測試在嚴格條件下進行,確保公開榜測試集保持無數據污染且沒有信息泄露。

每道題僅嘗試一次。

低算力與中等算力版本各返回一個答案;而采用采樣-排序機制的高算力版本會返回若干答案,并附帶一個評分。

根據算力版本不同,OpenAI模型的得分如下:

  • o3-preview(高算力版本,計入排名第一與排名第二的答案):50/50
  • o3-preview(高算力版本,僅計入排名第一的答案):47/50
  • o3-preview(中等算力版本):46/50
  • o3-preview(低算力版本):43/50

即便將NemoSkills的AIMO2冠軍模型,遷移到比Kaggle更強的硬件上運行,o3-preview的低算力版本仍然多解出7題。

中等算力版本解出了與低算力版本相同的題目,并額外多解出3題,總計46/50。

高算力版本在僅計入排名第一答案時得分47/50;若同時計入排名第二的答案則為50/50。

這表明,o3-preview在原則上,具備為全部50道題產生正確答案的能力。

這一結果與AIMO2中,全部2k+支Kaggle參賽隊伍的最佳模型組合分相當——后者總計也解出47/50。

8塊H100,英偉達AI僅提1分

此前,拿下第一和第二名的團隊——NemoSkills和imagination-research,再次參與了重估。

為了更好了解模型的全部潛力,團隊獲準訪問一臺8×H100 GPU,總計640GB顯存的機器。

在AIMO2中,為了讓模型能在Kaggle平臺上運行,賽事對參賽隊伍施加了資源限制:

每支隊伍提供4塊L4 GPU,總計96 GB 顯存(VRAM)。

在本次評測中,組委會移除了各隊為適配Kaggle資源限制,讓模型得以在50道公開榜題目上充分發揮其全部能力。

最終結果如何?

· NemoSkills得分35/50,較其在Kaggle公開榜的33/50有所提升;

· imagination-research也得到35/50,較其在Kaggle公開榜的34/50提升。

開源與閉源,差距再次縮小

不過,在報告與比較分數時需要謹慎。

AIMO2-combined的47/50分大致類似于一種「pass@2k+」類型的分數(亦即「多樣本通過率」):

在每題2k+次嘗試中,只要至少有一次解答正確即可計為通過,且不再進行其他排序。

更一般地,常用的「pass@n」類型分數指某個(固定黑箱的)模型被查詢n次,只要正確解包含在這n個輸出中,就據此報告該分數(即使模型內部還能運行更多次)。

多次查詢之間不允許保留模型狀態。

當然,2k+次提交對應的模型并不相同;而嚴格講,pass@n要求底層是同一個模型,因此pass@2k+只是一個近似分數。

o3-preview的低算力與中等算力分數,以及高算力版本的47/50,均屬于pass@1類型分數。

在這三個算力級別中,o3-preview低算力版本未能解出的7道數學題包括:2道幾何、2道代數和3道組合。

盡管o3-preview表現非常強,但有一道名為「RUNNER」(見下方圖表)的問題尤為突出:

該題被NemoSkills解出,但o3-preview的低算力與中等算力版本未能解出,而在高算力版本中其正確答案僅排名第二。

相反,另一道題「EIGHTS」在高算力版本中以排名第一的答案被解出。

該題未被AIMO2前五名模型解出,卻被若干其他排名較低的AIMO2模型解出。

以上這些結果,皆具魯棒性。

原因在于:題目數量多且難度高,多數達到國家數學奧賽水平,少部分略易或略難,接近IMO難度級別。

對所有o3-preview版本的評測,都在一個很短的時間窗口內(數小時)完成。

并且AIMO獲得了原始API輸出的訪問權限,便于復核與分析。

這些結果代表了基于AI的推理,在極具挑戰性的領域邁出的一個里程碑式進展。

順便提一句,AIMO Progress Prize 3(AIMO3)將于2025年秋季啟動。

難度等級將再次提升,題目將以國際數學奧林匹克(IMO)水平為中心。關于時間安排、獎金池以及改進后的競賽形式的完整細節將適時公布。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-24 12:19:45

2025-04-27 08:54:00

英偉達開源模型

2024-12-23 07:40:00

AI模型數學

2024-12-09 09:35:00

AI數據訓練

2024-12-02 08:00:00

2025-05-15 08:52:00

2025-11-06 08:59:00

2023-05-22 13:31:06

GPT-4語言能力智商

2025-06-03 08:15:00

2024-09-14 12:51:16

2025-07-21 11:48:54

OpenAIIMOLLM

2025-08-15 12:50:19

2025-09-04 09:04:13

2025-06-12 14:20:35

谷歌DeepMindAI

2023-10-04 08:07:06

CopilotGitHub

2023-09-02 11:21:54

代碼ChatGPT

2025-05-22 09:08:40

2024-10-14 14:31:36

2025-07-21 09:00:00

2025-05-28 00:00:00

點贊
收藏

51CTO技術棧公眾號

亚洲免费成人| 在线一区二区三区视频| ...中文天堂在线一区| 不卡一卡2卡3卡4卡精品在| 国产性xxxx高清| 青青草视频在线免费观看| 欧美专区18| 久久精品国产亚洲一区二区| 中文字幕无人区二| 深夜视频一区二区| 亚洲一区二区三区影院| 四虎永久国产精品| 天天操天天操天天操| 精品一区二区av| 青草青草久热精品视频在线网站| 欧美精品久久久久久久久46p| 欧美三级午夜理伦三级小说| 欧美精品v国产精品v日韩精品 | 91网站免费视频| 日本一区二区三区视频在线看| 久久免费看少妇高潮| 91天堂在线观看| 日韩欧美国产另类| 日韩视频在线一区二区三区 | 波多野结衣精品| 中文字幕不卡在线观看| 国内不卡一区二区三区| 国产性猛交普通话对白| 91成人入口| 精品视频色一区| 99久久国产宗和精品1上映| 牛牛电影国产一区二区| 中文字幕一区二区在线观看| 欧美精品v日韩精品v国产精品| 亚洲第九十九页| 久久99久久99| 国产精品男人爽免费视频1| 久久艹免费视频| 91久久黄色| 九九热精品视频在线播放| 手机免费观看av| 欧美理论在线播放| 欧美日韩亚洲综合一区 | 肉色超薄丝袜脚交69xx图片| 99精品国产九九国产精品| 色综合久久六月婷婷中文字幕| 欧美日韩系列| 三级av在线播放| 99久久精品国产毛片| 国产激情美女久久久久久吹潮| 中文字幕人妻一区二区三区视频 | 日韩一级片免费看| 成人午夜视频在线| aa成人免费视频| 亚洲第一大网站| 国产高清无密码一区二区三区| 91久久精品日日躁夜夜躁国产| 一级特黄aaaaaa大片| 久久国产精品一区二区| 国产美女精品视频免费观看| 一区二区三区在线免费观看视频| 美女网站一区二区| 国产男人精品视频| 国产精品久久777777换脸| 久久精品国产一区二区三区免费看| 国产精品免费久久久久久| 最新中文字幕在线观看视频| 精品一区二区在线观看| 成人在线国产精品| 超碰在线观看99| www.av亚洲| 日本欧美色综合网站免费| av在线电影网| 伊人婷婷欧美激情| 可以在线看的av网站| 欧美日韩国产综合视频| 国产亚洲精久久久久久| 亚洲精品视频一二三| www久久日com| 婷婷国产在线综合| 久草精品在线播放| 亚洲午夜国产成人| 亚洲精品一区二区三区在线观看| 一出一进一爽一粗一大视频| 伊人亚洲精品| 精品国产伦一区二区三区观看方式 | 国产成人综合亚洲91猫咪| 国产女人水真多18毛片18精品| 欧美中文在线| 亚洲同性gay激情无套| 999一区二区三区| 午夜无码国产理论在线| 日韩免费性生活视频播放| 奇米影音第四色| 日韩精品中文字幕吗一区二区| 亚洲国产一区二区三区四区| 国产又粗又猛又爽又黄的视频四季 | 亚洲天堂一二三| 成人免费视频免费观看| 日韩一区二区电影在线观看| 日韩中文字幕影院| 国产欧美一区二区精品秋霞影院 | 波多一区二区| 欧美日韩免费不卡视频一区二区三区 | 一区二区三区视频观看| 久久综合亚洲色hezyo国产| 久久永久免费| 国产日韩欧美精品| 美女写真理伦片在线看| 欧美性猛交xxxxx水多| 国产精品一色哟哟| 先锋影音在线资源站91| 一本色道久久综合亚洲精品按摩| 57pao国产成永久免费视频| 免费成人蒂法| 九九精品在线观看| 夜夜嗨av禁果av粉嫩avhd| 91麻豆国产香蕉久久精品| 日韩视频 中文字幕| 欧美在线se| 亚洲天堂精品在线| 久久久国产高清| 国产成人精品免费视频网站| 亚洲综合第一| 素人一区二区三区| 日韩精品中文字幕在线观看| 老司机免费视频| 亚洲最大黄网| 国产综合在线观看视频| 国产福利小视频在线观看| 中文字幕精品一区二区三区精品| 免费av观看网址| 第四色中文综合网| 欧美黄色www| www夜片内射视频日韩精品成人| 中文字幕亚洲区| 亚州精品一二三区| 日韩欧美高清在线播放| 国产精品美女网站| 高清国产福利在线观看| 在线欧美日韩精品| 国产小视频自拍| 久久久久在线| 日本一区免费看| 日韩精品影院| 一夜七次郎国产精品亚洲| 无码任你躁久久久久久久| 91色九色蝌蚪| 日韩欧美xxxx| 凹凸成人精品亚洲精品密奴| 国产精品成人观看视频国产奇米| 九九九伊在人线综合| 中文字幕日韩一区| 亚洲午夜激情影院| 久久精品亚洲欧美日韩精品中文字幕| 欧美高清激情视频| 精品国产伦一区二区三| 洋洋av久久久久久久一区| 日本天堂在线播放| 国产精品夜夜夜| 欧美不卡福利| 成人国产一区二区三区精品麻豆| 中文字幕亚洲欧美在线| 6—12呦国产精品| 伊人一区二区三区| 人妻无码一区二区三区| 久久中文在线| 久久99国产精品一区| 一区二区视频| 欧洲亚洲妇女av| 嫩草香蕉在线91一二三区| 欧美一级国产精品| 日韩精品一区二区三| 久久影院视频免费| 亚洲美女性囗交| 亚洲午夜伦理| 日本在线观看一区| 视频国产精品| 琪琪第一精品导航| 久久久久久国产精品免费无遮挡| 欧美成人综合网站| 手机av免费观看| 亚洲精品免费一二三区| 日本高清www| 精品一区二区三区日韩| 可以在线看的av网站| 成久久久网站| 电影午夜精品一区二区三区| 日韩欧美另类一区二区| 久久伊人精品一区二区三区| 熟妇人妻一区二区三区四区| 欧美撒尿777hd撒尿| 久久精品国产亚洲AV无码男同| 国产亚洲欧美日韩在线一区| 四虎成人在线播放| 久久一区国产| 黄色一级片在线看| 欧美韩日一区| 欧美精品一区在线发布| 亚洲国产视频二区| 国产精品久久久久久久久久 | 午夜av免费观看| 欧美精品一二三区| 亚洲欧美一二三区| 亚洲国产成人av网| 色老板免费视频| 91麻豆精品秘密| 欧美性生交xxxxx| 国内一区二区视频| 欧洲熟妇精品视频| 在线亚洲精品| 欧美精品卡一卡二| 久久久久亚洲| 亚洲精品视频一二三| 九九热线有精品视频99| 产国精品偷在线| 成人自拍视频| 国产精品视频自拍| 日韩电影免费观看高清完整版| 久久久久久久久久久av| gogo在线观看| www日韩欧美| jizz在线观看中文| 亚洲欧美日韩区| 性xxxx18| 精品国产精品一区二区夜夜嗨| 999久久久久| 欧美精品久久一区| 一级片一区二区三区| 欧美人与z0zoxxxx视频| 波多野结衣电影在线播放| 欧美性xxxx18| av黄色在线播放| 黑人巨大精品欧美一区二区一视频| 久久久久久久久久99| 一区二区三区在线免费| 日韩成人短视频| 亚洲男人的天堂在线aⅴ视频| 自拍偷拍第9页| 国产农村妇女毛片精品久久麻豆 | 少妇丰满尤物大尺度写真| 精品一区二区三区在线播放| 色婷婷综合网站| 美国三级日本三级久久99| xxxx一级片| 蜜桃av噜噜一区二区三区小说| 中文字幕视频在线免费观看| 日本人妖一区二区| 中文字幕天天干| 麻豆精品一区二区综合av| 污色网站在线观看| 精品一区二区在线免费观看| 男女视频在线观看网站| 国产一区二区精品久久99| 中文字幕一二三| 成人免费看的视频| 在线观看av中文字幕| 久久久久久久久久电影| 天天干天天操天天拍| 日韩一区有码在线| 久久机热这里只有精品| 精品久久久久久久中文字幕| 国产视频1区2区| 欧美日韩你懂的| 不卡的日韩av| 亚洲精品在线视频| 中文字幕在线观看日本| 不卡伊人av在线播放| 好久没做在线观看| 全球成人中文在线| 国产精品美女午夜爽爽| 999久久久| 亚洲日产av中文字幕| 亚洲欧洲精品一区二区三区波多野1战4 | 精品99久久久久成人网站免费 | 在线免费观看av网址| 欧美久久久一区| 亚洲国产综合一区| 亚洲午夜未满十八勿入免费观看全集 | 高清中文字幕一区二区三区| 久久精品国产91精品亚洲| 麻豆福利在线观看| 国产精品人成电影| 在线精品国产亚洲| 五月婷婷一区| 日韩香蕉视频| 中文字幕一区二区在线观看视频 | 在线观看成人毛片| 亚洲一区二区黄色| 日批视频免费观看| 欧美一区二区久久| 日本一区二区三区在线观看视频| 精品国产一区久久久| 草草在线观看| 成人黄色生活片| 欧美理论电影在线精品| 一级黄色免费在线观看| 午夜在线一区二区| 特种兵之深入敌后| 中文字幕欧美区| 全部毛片永久免费看| 欧美一区二区三区免费观看视频| 欧美视频免费一区二区三区| 欧美精品在线看| 精品176极品一区| 久久综合给合久久狠狠色| 欧美在线看片| 亚洲最大综合网| 91香蕉视频黄| 国产精品99re| 日韩欧美在线一区二区三区| av免费在线一区二区三区| 555www成人网| 99国产精品久久一区二区三区| 涩涩涩999| 久久婷婷激情| 国产精品无码网站| 亚洲成人激情av| 亚洲第一黄色片| 久久91亚洲精品中文字幕奶水| 免费视频成人| 亚洲欧洲中文| 日韩av一区二| 国产美女永久免费无遮挡| 欧美日韩亚洲视频一区| 免费观看的毛片| 欧美丰满少妇xxxxx| 精品国产亚洲日本| 最新精品视频| 久久精品国产**网站演员| 国产真人做爰视频免费| 色婷婷综合久色| 黄色大片在线免费观看| 日韩美女免费视频| 国产传媒欧美日韩成人精品大片| 欧美一区2区三区4区公司二百| 激情一区二区| 成人欧美精品一区二区| 一区二区三区免费| 国产aⅴ一区二区三区| 久久综合久久美利坚合众国| 伊人亚洲精品| 亚洲精品国产suv一区88| 国产一区二区在线视频| 黑人操日本美女| 天天综合网 天天综合色| 亚洲AV无码一区二区三区性| 欧美韩日一区二区| 老司机在线精品视频| 97xxxxx| 国产农村妇女毛片精品久久麻豆| 中文字幕 欧美激情| 日韩在线中文字| 老牛影视精品| 久久久av水蜜桃| 日韩精品成人一区二区三区| 久久久久亚洲av无码麻豆| 亚洲欧美电影院| 亚洲av综合色区无码一区爱av | 欧美福利在线播放| 亚洲国产精品一区二区第四页av| 久久精品国产亚洲a| 可以直接看的黄色网址| 亚洲丁香久久久| 午夜精品久久久久久久久久蜜桃| 日韩av一区二区三区美女毛片| 蜜臀av性久久久久蜜臀aⅴ四虎| 永久免费未视频| 精品国产1区2区3区| 午夜激情在线播放| 一区二区三区欧美成人| 国产综合一区二区| 国产精品成人久久| 一色桃子一区二区| 在线视频亚洲欧美中文| 欧在线一二三四区| 亚洲女同一区二区| 视频一区二区三区国产| 成人97在线观看视频| 成人在线视频你懂的| 精品视频无码一区二区三区| 国产精品国产三级国产普通话99| 精品久久人妻av中文字幕| 91av在线网站| 无需播放器亚洲| wwwwww日本| 欧美一区二区人人喊爽| 男人皇宫亚洲男人2020| 国产精品一二三在线观看| 久久久久久久综合| 精品国自产拍在线观看| 国产精彩精品视频| 亚洲午夜极品| 多男操一女视频| 日韩精品极品在线观看| 日韩激情欧美| 另类小说第一页| 欧美日韩国产一区二区| av网站在线看| 亚洲黄色一区二区三区|