精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

2025 IMO真題撕碎AI數(shù)學(xué)神話,全球頂尖模型齊翻車!冠軍銅牌都拿不到

人工智能 新聞
AI做奧數(shù)的神話,剛剛被戳破了!最新出爐的2025 IMO數(shù)學(xué)競(jìng)賽中,全球頂尖AI模型無一例外翻車了。即便是冠軍Gemini也只拿下可憐的31分,連銅牌都摸不到。Grok-4更是擺爛到底,連DeepSeek-R1都令人失望。看來,AI想挑戰(zhàn)人類奧數(shù)大神,還為時(shí)尚早。

如果你以為,如今的LLM已經(jīng)無所不能,那剛剛出爐的2025大模型數(shù)學(xué)競(jìng)賽結(jié)果,恐怕要讓你大跌眼鏡了。

現(xiàn)在,各模型的分?jǐn)?shù)已經(jīng)在MathArena上發(fā)布。

怎么說呢,所有大模型都翻車了。

即使得分最高的冠軍Gemini,也只拿到了31%的分?jǐn)?shù)。憑這個(gè)成績(jī),連拿銅牌都不大可能。

圖片

也就是說,AI想超越目前頂級(jí)的人類數(shù)學(xué)選手,還差得遠(yuǎn)呢。

圖片

蘇黎世聯(lián)邦理工學(xué)院SRI實(shí)驗(yàn)室的博士生Jasper Dekoninck,發(fā)了一篇博客記錄此次大賽的詳細(xì)過程。

圖片

大模型參加數(shù)學(xué)競(jìng)賽,全部翻車!

在今年4月,來自ETH Zurich等機(jī)構(gòu)的MathArena團(tuán)隊(duì),就曾推翻AI會(huì)做數(shù)學(xué)題這個(gè)神話。

當(dāng)時(shí)他們發(fā)現(xiàn),在美國(guó)數(shù)學(xué)奧賽上,頂級(jí)AI模型得分不足5%,當(dāng)時(shí)的DeepSeek-R1還是冠軍來著,得分4.76%。

圖片

圖片

而在這屆2025國(guó)際數(shù)學(xué)奧林匹克(IMO)上,全球的AI頂流們又齊聚一堂了。

為了測(cè)驗(yàn)AI們的數(shù)學(xué)能力天花板,MathArena項(xiàng)目組這次祭出了數(shù)學(xué)界的終極boss——2025年IMO真題。

國(guó)際學(xué)生奧林匹克競(jìng)賽(IMO)是全球18歲以下數(shù)學(xué)學(xué)生的頂尖賽事。參賽者都經(jīng)過了大量訓(xùn)練,每道題都有數(shù)小時(shí)的解答時(shí)間。

IMO真題是什么水平呢?它們能難倒全球數(shù)學(xué)能力最頂尖的高中生,甚至還能分分鐘勸退無數(shù)大學(xué)數(shù)學(xué)教授。

在2024年,美國(guó)隊(duì)的六名參賽者得分在87-99%之間。而陶哲軒在13歲時(shí),就獲得了IMO的金牌。

圖片

這次,組委會(huì)希望了解,這些大模型是否能達(dá)到拿到奧數(shù)獎(jiǎng)牌的里程碑級(jí)別,比如銅牌(前50%)、銀牌(前25%)甚至金牌(前8%)。

另外,為了防止「開卷作弊」這個(gè)問題,評(píng)測(cè)團(tuán)隊(duì)特意選了一個(gè)巧妙的時(shí)間:題目剛剛發(fā)布,他們就開始讓AI們答題了,所以這些大模型不太可能在數(shù)據(jù)集中提前見過這些數(shù)學(xué)題。

可以說,這些基準(zhǔn)測(cè)試是既未受污染,又是可解釋的。

而AI們的所有答案,都是由兩位奧數(shù)專家評(píng)委雙盲評(píng)分的,標(biāo)準(zhǔn)的嚴(yán)苛程度堪比IMO官方。每道題滿分7分。

此次的參賽選手,陣容也是空前豪華,堪稱是AI界的夢(mèng)之隊(duì)。

· o3(OpenAI扛把子) 

· o4-mini(OpenAI小鋼炮) 

· Gemini 2.5 Pro(谷歌第一大將) 

· Grok-4(馬斯克家的理工男) 

· DeepSeek-R1(國(guó)產(chǎn)尖子生)

之所以選擇這五位參賽選手,是因?yàn)樗鼈兇饲岸荚贛athArena中有出色的表現(xiàn)。

其中,每個(gè)模型都使用推薦的超參數(shù)運(yùn)行,并且設(shè)置了64000的最大token限制。

Prompt如下——

你的任務(wù)是為以下問題寫出一個(gè)證明解決方案。你的證明將由人工評(píng)委根據(jù)準(zhǔn)確性、全面性和清晰性進(jìn)行評(píng)分。在撰寫證明時(shí),請(qǐng)遵循以下指南: 

-你正在撰寫一份證明,而不是證明大綱。每一步都應(yīng)該仔細(xì)解釋并記錄。如果解釋不充分,評(píng)委將認(rèn)為你無法解釋清楚,從而降低你的分?jǐn)?shù)。 

-你可以使用通用的定理和引理,但前提是它們必須是眾所周知的。一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn)是:如果該結(jié)果有名稱,并且足夠有名以至于有維基百科頁面或類似的內(nèi)容對(duì)其進(jìn)行描述,則允許使用。任何來自論文的結(jié)果,如果它不會(huì)在高中或本科低年級(jí)數(shù)學(xué)課程中教授,則不應(yīng)使用。任何此類結(jié)果的使用將立即導(dǎo)致你的成績(jī)?yōu)榱恪?nbsp;

-在你的證明中不要跳過計(jì)算步驟。清楚地解釋做了哪些變換,以及為什么在計(jì)算的每一步中這些變換是被允許的。 

-你應(yīng)該使用正確的LaTeX符號(hào)來編寫公式和數(shù)學(xué)符號(hào)。你應(yīng)當(dāng)將這些公式包含在適當(dāng)?shù)姆?hào)中(行內(nèi)公式使用 "\\(" 和 "\\)",塊狀公式使用 "\\[" 和 "\\]"),以增強(qiáng)證明的清晰度。不要使用任何Unicode字符。 

-你的證明應(yīng)該是自包含的。 

-如果你對(duì)某個(gè)具體步驟不確定,或者不知道如何證明一個(gè)中間結(jié)果,請(qǐng)明確說明。指出你的不確定性比做出錯(cuò)誤的陳述或主張要好得多。

為了公平,項(xiàng)目組這次采取了一種「best of 32」的策略。

也就是,每道題都會(huì)跑出32個(gè)不同答案,然后讓AI自己當(dāng)裁判,通過一輪輪PK選出最強(qiáng)解法后,才會(huì)送去給人類評(píng)審打分。這樣,模型在推理時(shí),就會(huì)盡可能多地?cái)U(kuò)展計(jì)算資源。

因此,這次比賽可以說不僅是卷得離譜,燒錢也燒得令人心疼——

比如,Grok-4的單題評(píng)測(cè)成本就高達(dá)20美元,所以24題的總成本,就超過了480刀!

所以,大模型們的表現(xiàn)如何?

金銀銅,全軍覆沒

Gemini 2.5 Pro,全場(chǎng)最高分

Gemini 2.5 Pro在滿分42分的考卷中,拿到了13分,約等于31%。

這個(gè)分?jǐn)?shù),連銅牌的門檻都沒摸到。

而即使是作為表現(xiàn)最好的AI,Gemini也依然有不少毛病。

比如,遇到不會(huì)做的題時(shí),它會(huì)編出一些看起來似乎很權(quán)威的假定理,比如「根據(jù)史密斯-約翰遜超平方引理可得」。

但實(shí)際上,這個(gè)定理根本就不存在!

圖片

圖片

此前Gemini 2.5 Pro的答題情況

Grok-4:翻車最嚴(yán)重,基本沒救了

而最近因?yàn)锳I女友事件大出風(fēng)頭的Grok-4,則嚴(yán)重翻車了。

它的表現(xiàn)堪稱災(zāi)難:它給出的絕大多數(shù)答案只有最終結(jié)果,完全不解釋,整個(gè)就是一副「我懶得證明,我就是知道」的擺爛態(tài)度。

而顯著落后的一個(gè)選手除了Grok-4,還有DeepSeek-R1。

這兩個(gè)AI在此次奧數(shù)中的成績(jī),相較于它們?cè)贛athArena基準(zhǔn)測(cè)試中的早期成績(jī),退步明顯。

圖片

此前Grok 3 mini的答題情況

AI解題的獨(dú)特姿勢(shì):做不出來,我就跳過

在這個(gè)過程中,研究者們還發(fā)現(xiàn)了AI做數(shù)學(xué)題的一個(gè)有趣現(xiàn)象。

通常,在人類選手參加IMO比賽時(shí),他們要么一題全部做對(duì),要么干脆拿0分,拿3分、4分這樣的中等分?jǐn)?shù),其實(shí)是很少見的。

不過大模型可就完全不一樣了,它們特別擅長(zhǎng)考個(gè)「及格邊緣線」。

也就是說,它們時(shí)常能捕捉到正確的解題思路,方向是對(duì)的,但是一到最關(guān)鍵的地方就會(huì)掉鏈子,邏輯跳躍嚴(yán)重。

尤其是到了該證明的關(guān)鍵一步,它們就不證明了。而這恰恰是人類選手最不容易出錯(cuò)的地方。

對(duì)此,評(píng)審組的感受是:AI現(xiàn)在已經(jīng)能抓住「人類感」的思路,但是在細(xì)節(jié)能力上,還是差點(diǎn)火候。

而如果AI們能把這些邏輯問題給搞定,未來它們的成績(jī)說不定還真能沖上領(lǐng)獎(jiǎng)臺(tái)。

圖片

此前DeepSeek-R1的答題情況

2025 IMO真題

我們來看看,今年幾道IMO真題長(zhǎng)什么樣子。

問題1:

圖片

問題2:

圖片

問題3:

圖片

問題4:

圖片

問題5:

圖片

問題6:

圖片

AI離成為奧數(shù)大師,究竟還有多遠(yuǎn)?

也許你會(huì)有疑問,自己平時(shí)測(cè)這些大模型的時(shí)候,做數(shù)學(xué)題并沒有這么強(qiáng)啊。

原因當(dāng)然就在于,這次大模型們的「Best-of-32」大法了,如果不是用了這個(gè)策略,很多模型的得分連10分都沒有。

這也就揭示出這樣一個(gè)現(xiàn)實(shí):想要讓模型發(fā)揮得好,就得拼資源、拼算力、拼試錯(cuò)次數(shù)。

如果只是普通用戶隨便跑一遍模型,根本不可能達(dá)到這種效果。

總之,這場(chǎng)「AI數(shù)學(xué)奧賽」,已經(jīng)暴露出了很多關(guān)鍵問題。比如想法沒問題,但存在邏輯鏈的短板;會(huì)判斷解法質(zhì)量,但還得靠大量計(jì)算。

或許再過幾年,某個(gè)AI真的能打出滿分42的神級(jí)操作,但顯然,今天的AI還達(dá)不到這個(gè)成就。

目前來說,人類數(shù)學(xué)選手們還是安全的,還可以放心睡個(gè)好覺。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-03 02:25:00

2025-07-21 09:00:00

2025-07-22 10:27:27

2025-04-03 09:42:05

2020-10-05 21:47:30

AI 數(shù)據(jù)人工智能

2025-05-28 11:44:24

AI模型研究

2025-10-22 00:00:00

2025-05-22 09:13:47

2025-05-19 17:18:57

AI模型o3

2024-07-26 09:33:22

2025-08-11 08:57:00

模型AI數(shù)學(xué)

2024-04-11 12:30:40

2024-11-12 09:14:52

2025-07-24 16:30:48

陶哲軒金牌AI

2025-11-14 09:15:39

2025-09-28 09:08:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产日韩三级| 97人人在线| 日韩午夜高潮| 亚洲石原莉奈一区二区在线观看| 亚洲免费一级视频| 操你啦在线视频| 91在线丨porny丨国产| 国产精品69精品一区二区三区| 久久成人小视频| 爱高潮www亚洲精品| 日韩欧美在线看| 日本黄色a视频| 婷婷五月综合激情| 激情五月激情综合网| 国产91精品高潮白浆喷水| www.4hu95.com四虎| av一级亚洲| 欧美三级电影在线看| 国产毛片视频网站| 黄页视频在线播放| 久久久久久影视| 国产91aaa| 一级黄色大片网站| 亚洲综合二区| 欧美激情欧美激情| 国产黄色录像片| 国产欧美日韩一区二区三区四区 | 国产香蕉97碰碰久久人人| 中文字幕av一区二区三区人妻少妇 | 成人小视频免费在线观看| 国产精品丝袜一区二区三区| www成人在线| 影音先锋国产精品| 久久中文字幕国产| 能直接看的av| 国产精品一区2区3区| 精品盗摄一区二区三区| 手机av在线网站| 国产精品99久久久久久董美香| 午夜精品福利一区二区三区蜜桃| 女女同性女同一区二区三区按摩| av播放在线| 国产亚洲一区二区三区在线观看| 国产一区二区三区色淫影院| 成人乱码一区二区三区| 国产呦萝稀缺另类资源| 国产乱肥老妇国产一区二| 午夜一级黄色片| 久久一区中文字幕| 国产精品96久久久久久| 无码免费一区二区三区| 久久美女性网| 日本一区二区三区四区视频| 亚洲黄色小说图片| 亚洲欧美日本日韩| 欧美自拍大量在线观看| 九一国产在线观看| 性色一区二区| 国产成人一区二区三区小说| 波多野结衣网站| 日韩高清欧美激情| 国产精品美女免费视频| 中文字幕乱码无码人妻系列蜜桃| 日本欧美大码aⅴ在线播放| 国产成人综合一区二区三区| 樱花视频在线免费观看| 免费看欧美女人艹b| 成人网欧美在线视频| 99国产精品欲| jizz一区二区| 日本在线高清视频一区| av在线二区| 国产精品国产自产拍高清av王其| 中文字幕欧美人与畜| 在线免费观看污| 亚洲国产日韩av| 97在线免费公开视频| 久久精品97| 欧美一级理论片| 国产精品扒开腿做爽爽爽a片唱戏| 台湾亚洲精品一区二区tv| 国产亚洲精品成人av久久ww | 亚洲视频在线一区二区| 福利在线一区二区| sese综合| 777午夜精品视频在线播放| 国产精品熟妇一区二区三区四区 | 久久国产三级精品| 99视频日韩| 黄网在线观看| 亚洲精品视频在线看| 日韩精品xxxx| 久久爱.com| 亚洲第一视频网| 国产精品成人无码免费| 国产综合自拍| 国产精品日韩在线观看| 国精品人妻无码一区二区三区喝尿| 26uuu久久综合| 2025韩国大尺度电影| 草草在线视频| 69久久夜色精品国产69蝌蚪网| 亚洲色图欧美日韩| 日韩在线不卡| 91精品国产91久久久久久久久| 亚洲天堂视频在线| 99精品在线免费| 干日本少妇视频| 香蕉视频亚洲一级| 精品国产在天天线2019| 正在播放国产对白害羞| 99国产精品视频免费观看一公开 | 伊人精品久久| 最近2019免费中文字幕视频三 | 色菇凉天天综合网| 深夜视频在线观看| 99精品美女| 国产精品www色诱视频| 国产小视频免费观看| 中文字幕在线观看一区二区| 中文字幕日本最新乱码视频| 亚洲高清999| 日韩一级裸体免费视频| 精品不卡一区二区| 成人av免费在线观看| 黄色网zhan| 欧美高清影院| 永久免费看mv网站入口亚洲| 午夜精品三级久久久有码| 国产一区二区剧情av在线| 色噜噜狠狠一区二区三区| 午夜欧美激情| 亚洲大尺度美女在线| 青娱乐免费在线视频| 精品一区二区在线播放| 日韩欧美亚洲在线| 精品91久久| 国产午夜精品理论片a级探花| 国产网友自拍视频| 国产69精品久久久久777| 女同性恋一区二区| 国产精品久久久久久久久久久久久久久| 亚洲欧洲xxxx| 波多野结衣mp4| 久久久精品免费观看| 久热免费在线观看| 要久久电视剧全集免费| 欧美做受高潮1| 欧美中文在线| 色呦呦一区二区三区| 30一40一50老女人毛片| 国产亚洲毛片| 欧美日韩一区二区视频在线观看| 都市激情国产精品| 亚洲精品国偷自产在线99热| 欧美bbbbbbbbbbbb精品| 久久久亚洲精品石原莉奈| 国产精品-区区久久久狼| 久草成人资源| 国产成人97精品免费看片| 国产永久免费高清在线观看| 欧美午夜精品久久久| 九九热久久免费视频| 麻豆国产精品一区二区三区| 自拍偷拍一区二区三区| 欧美影院精品| 久久久久久久一区二区三区| 午夜黄色小视频| 91高清视频免费看| 一二三四在线观看视频| 国产在线观看一区二区| 18禁裸男晨勃露j毛免费观看| 嫩草国产精品入口| 国产精品18久久久久久麻辣| 韩国中文字幕在线| 亚洲成av人影院在线观看| 国产成人无码一区二区三区在线| 久久伊人中文字幕| 亚洲免费黄色录像| 在线观看亚洲| 亚洲欧洲在线一区| 大桥未久女教师av一区二区| 欧美一级视频在线观看| 91se在线| 精品久久一区二区| 91porny九色| 亚洲精品国产视频| 六月婷婷七月丁香| 国产精品自拍网站| 欧美 日韩精品| 97精品在线| 含羞草久久爱69一区| 成人自拍视频网| 久久97精品久久久久久久不卡| 四虎影院在线播放| 欧美一区二区国产| 波多野结衣一区二区在线| 亚洲免费观看高清完整版在线 | 久久免费视频这里只有精品| 国产区视频在线播放| 日韩三级视频在线看| 黄色片中文字幕| 亚洲色图一区二区| 国产手机在线观看| 丁香天五香天堂综合| the porn av| 99日韩精品| 亚洲五码在线观看视频| 日韩av在线中文字幕| 精品欧美日韩在线| 深夜福利一区| 国产精品综合久久久| 中文在线中文资源| 国内精品400部情侣激情| 毛片在线播放a| 亚洲一区二区黄| 亚洲欧洲视频在线观看| 精品三级在线看| 国产又黄又粗又猛又爽| 色老头久久综合| 国产精品成人aaaa在线| 亚洲精品日日夜夜| 精品无码一区二区三区蜜臀| 久久久久久久电影| 成人影视免费观看| 99re成人精品视频| 久久久久亚洲AV成人网人人小说| 国产在线观看一区二区| 手机免费看av网站| 看国产成人h片视频| 欧美精品无码一区二区三区| aa级大片欧美三级| 免费拍拍拍网站| 好看不卡的中文字幕| 亚洲色婷婷久久精品av蜜桃| 五月激情久久久| 亚洲国产一区二区精品视频 | 亚洲色图av在线| 无码精品黑人一区二区三区| 精品日韩在线一区| 亚洲国产精品久久久久爰性色| 91精品国产综合久久国产大片| 中文字幕一区二区三区人妻四季| 在线看不卡av| 欧美另类高清videos的特点| 色国产综合视频| 成人毛片一区二区三区| 91福利国产精品| 国产在线观看第一页| 欧美午夜精品久久久久久孕妇 | 亚洲精品在线电影| 亚洲精品成人区在线观看| 日韩女优制服丝袜电影| 午夜精品久久久久久久91蜜桃| 日韩欧美一二三四区| 懂色av一区二区三区四区 | 国产三级在线免费| 中文字幕精品一区二区精品| 在线中文资源天堂| 美女精品久久久| 黄色小说在线播放| 88xx成人精品| a屁视频一区二区三区四区| 国产精品日韩一区| 人人九九精品视频| 精品视频一区二区三区四区| 在线成人动漫av| 婷婷五月色综合| 欧美高清不卡| 国产l精品国产亚洲区久久| 日本va欧美va瓶| 国产精品中文久久久久久| 成人精品一区二区三区四区| 精品人妻一区二区三区视频| 亚洲国产精品激情在线观看| 强制高潮抽搐sm调教高h| 一区二区三区色| 天堂网av手机版| 欧美日韩一级黄| 亚洲国产999| 亚洲色图狂野欧美| 成人毛片av在线| 欧美一区在线直播| 亚洲aⅴ网站| 久久av免费一区| 91一区二区三区四区| 国产日韩欧美精品在线观看| 丝袜诱惑制服诱惑色一区在线观看| 国产三级三级看三级| 粉嫩av亚洲一区二区图片| 丰满少妇高潮一区二区| 成人免费在线视频观看| 国产一级18片视频| 在线电影院国产精品| 婷婷开心激情网| 久久亚洲综合国产精品99麻豆精品福利| 9999在线视频| 91精品国产综合久久香蕉的用户体验| 大香伊人久久精品一区二区| 亚洲一区精彩视频| 99精品免费视频| 午夜天堂在线视频| 久久综合国产精品| 免费中文字幕在线观看| 欧美日韩在线观看一区二区| 人妻一区二区三区| 日韩中文字幕在线看| 亚洲电影观看| 超碰97在线人人| 99视频精品全国免费| 999精品网站| av中文字幕在线不卡| 久久免费看少妇高潮v片特黄| 福利一区福利二区微拍刺激| 亚洲第一页综合| 久久精品小视频| 国产一区二区三区影视| 久久久久久国产精品免费免费| 你懂的国产精品永久在线| 手机在线看福利| 久久久久亚洲蜜桃| 特一级黄色大片| 精品免费视频一区二区| 久热国产在线| 国产裸体写真av一区二区 | 国产精品一二三在线观看| 免费看欧美美女黄的网站| 中文字幕成人动漫| 一本到三区不卡视频| 亚洲 欧美 自拍偷拍| 欧美极品在线播放| 日韩欧洲国产| 91国在线高清视频| 国产一区二区在线视频| 欧美自拍偷拍网| 欧美视频精品在线观看| 国产毛片在线| 国产精品久久久久久搜索| 欧美精选一区二区三区| 成人午夜激情av| 国产欧美综合在线| 乱子伦一区二区三区| 亚洲色图综合网| 黄色精品视频| 亚洲高清在线播放| 老司机精品视频导航| 免费一级特黄3大片视频| 欧美色视频一区| 在线激情网站| 国产有码一区二区| 久久久久久久久国产一区| 污视频在线观看免费网站| 亚洲欧洲中文日韩久久av乱码| 97超碰人人模人人人爽人人爱| 日韩有码视频在线| 国产一区二区三区| 欧美这里只有精品| 成人av电影免费在线播放| 羞羞影院体验区| 亚洲香蕉成视频在线观看| 欧美大片1688网站| 亚洲免费视频播放| 国产成人鲁色资源国产91色综| 日韩成人免费在线视频| 亚洲男人的天堂在线| 国产精品99| 日韩精品手机在线观看| 成人久久18免费网站麻豆 | 欧美高清dvd| 亚洲制服国产| 精品久久久久久一区二区里番| 性高湖久久久久久久久| 国产美女网站视频| 日韩精品一区二区三区视频播放| 成人在线黄色电影| 水蜜桃一区二区三区| 国产一区二区剧情av在线| 黄色片视频网站| 在线精品国产成人综合| 欧美久久一区二区三区| 无码人妻丰满熟妇区96| 国产精品无圣光一区二区| av中文字幕第一页| 欧美最顶级的aⅴ艳星| 亚洲精品网址| 国产精品1000部啪视频| 7777精品伊人久久久大香线蕉最新版| av白虎一区| 亚洲欧美国产不卡| 成人av在线网| 一级黄色片在线看| 国产91精品青草社区| 97精品一区二区| 免费黄色在线视频| 欧美一级日韩一级| 午夜日韩成人影院| 欧美亚洲黄色片| 成人免费在线视频观看| 免费资源在线观看| av成人午夜|