精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

奧賽級(jí)AI基準(zhǔn)來(lái)了:難倒所有模型,GPT-4o僅考34分,上海交大出品

人工智能 新聞
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)推出多學(xué)科認(rèn)知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達(dá)到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達(dá)到20%。

為了進(jìn)一步挑戰(zhàn)AI系統(tǒng),大家已經(jīng)開始研究一些最困難的競(jìng)賽中的問題,特別是國(guó)際奧林匹克競(jìng)賽和算法挑戰(zhàn)。

但目前尚無(wú)奧林匹克級(jí)別的、多學(xué)科的基準(zhǔn),能夠全面評(píng)估綜合解決問題的能力,以全面檢驗(yàn)人工智能的綜合認(rèn)知能力。

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)推出多學(xué)科認(rèn)知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達(dá)到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達(dá)到20%。

這一鮮明的對(duì)比凸顯了他們基準(zhǔn)測(cè)試的巨大難度和嚴(yán)謹(jǐn)性,證明了它在突破當(dāng)前 AI 能力界限方面的有效性。

圖片

OlympicArena不僅是一套題庫(kù),還做了一些創(chuàng)新,比如為避免模型“刷題”,團(tuán)隊(duì)引入數(shù)據(jù)泄漏檢測(cè)技術(shù),采用N-gram預(yù)測(cè)檢測(cè)數(shù)據(jù)泄露,確認(rèn)99.6%的題目未被預(yù)訓(xùn)練數(shù)據(jù)污染。

除此之外還提供了一套全面的資源來(lái)支持人工智能研究,包括基準(zhǔn)數(shù)據(jù)集、開源注釋平臺(tái)、詳細(xì)的評(píng)估工具和具有自動(dòng)提交功能的排行榜。

圖片

OlympicArena難度水平

OlympicArena覆蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)、計(jì)算機(jī)科學(xué)7大領(lǐng)域,細(xì)分34個(gè)分支(如數(shù)論、量子物理、有機(jī)化學(xué))。題目來(lái)源包括國(guó)際數(shù)學(xué)奧賽(IMO)、國(guó)際物理奧賽(IPhO)等62項(xiàng)頂尖賽事,共11163道雙語(yǔ)題目(中英對(duì)照),實(shí)際的難度如何。

AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)基于此,做了OlympicArena題目的難度驗(yàn)證,按照14個(gè)標(biāo)桿模型(去除Qwen2-72B-Chat)的結(jié)果對(duì)數(shù)據(jù)子集和數(shù)據(jù)集維度做難度分布,從圖中可以看到,OlympicArena整體難度偏難,僅低于AGI-Eval團(tuán)隊(duì)私有的兩個(gè)高中數(shù)學(xué)競(jìng)賽題目。

圖片

AGI-Eval評(píng)測(cè)模型榜單

“奧賽題是檢驗(yàn)AI科學(xué)思維的絕佳試金石。”這類高難度題目不僅需要知識(shí)儲(chǔ)備,更考驗(yàn)邏輯推導(dǎo)、空間想象、符號(hào)理解等綜合能力。在這場(chǎng)超級(jí)測(cè)試中,那擅長(zhǎng)代碼、學(xué)科競(jìng)賽的推理系模型表現(xiàn)如何?

AGI-Eval大模型評(píng)測(cè)社區(qū)也做了新的模型評(píng)測(cè),接入最新的推理系模型以及大語(yǔ)言標(biāo)桿模型。

從整體表現(xiàn)上看o1和DeepSeek-R1的水平基本持平,但是在化學(xué)、生物學(xué)、天文學(xué)、物理上o1表現(xiàn)好于DeepSeek-R1,特別是天文學(xué)上o1得分達(dá)92.47%,但數(shù)學(xué)、地理方面DeepSeek-R1優(yōu)于o1。

圖片

推理系模型和新迭代的模型版本效果都有明顯提升,詳細(xì)排名及得分可上官網(wǎng)查看。

圖片

學(xué)術(shù)難度分析

從能力測(cè)試上可以看到模型在不同學(xué)科的表現(xiàn)水平不同,在天文學(xué)上o1得分高達(dá)92.47%。是天文學(xué)很簡(jiǎn)單嗎?基于此,團(tuán)隊(duì)也做了相關(guān)的學(xué)科分析,從下面的箱合圖中可以看到(中位數(shù)越小越難):

  • 化學(xué)、生物、地理和天文為一檔,該檔模型中位數(shù)大于0.6,從箱型大小可以得到構(gòu)建優(yōu)先級(jí)為:天文 > 化學(xué) > 生物 > 地理
  • 物理為單獨(dú)一檔,該檔模型中位數(shù)0.5附近,箱型大小較大
  • 數(shù)學(xué)為單獨(dú)一檔,該檔模型中位數(shù)0.3附近,箱型大小極大

客觀來(lái)說(shuō),在數(shù)學(xué)物理上R1、o1、o3-mini表現(xiàn)能力更好,能力水平也會(huì)更穩(wěn)定。

圖片

題型分析

除對(duì)模型進(jìn)行能力評(píng)測(cè)外,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)也做了相關(guān)的題型分析,提煉出以下雷達(dá)圖,從圖中可以看到1-5排名的推理模型對(duì)其它模型產(chǎn)生了碾壓的態(tài)勢(shì),特別是在非選擇題題型上,建議構(gòu)建題目以單問的生成題為主。

圖片

△通用模型6-10

難度分析

同時(shí)也對(duì)模型在面對(duì)不同難度題目做了分析,可以看到頭部模型在Easy難度基本已接近100%的準(zhǔn)確率,且無(wú)區(qū)分度;Medium/Hard難度是推理系模型拉開的主戰(zhàn)場(chǎng),且Meidum難度已達(dá)到90%的準(zhǔn)確率,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

圖片

預(yù)測(cè)分析,用Medium、Hard擬合Easy,Easy、Hard擬合Medium,以及Easy、Medium擬合Hard,可以得到如下圖(在Ideal Fit線上方的為超出預(yù)期,線下的為低于預(yù)期)。

  • O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現(xiàn),但在Medium上略低于預(yù)期
  • 平衡點(diǎn):即Easy、Medium、Hard上分?jǐn)?shù)為多少時(shí)三公式有解,說(shuō)明模型表現(xiàn)均衡,Easy = 1, Medium = 0.6695, Hard = 0.1897

圖片

圖片

圖片

結(jié)語(yǔ)

OlympicArena的誕生,是對(duì)現(xiàn)有模型的試金石,更是對(duì)AI研發(fā)路徑的深刻啟示:僅靠數(shù)據(jù)堆砌無(wú)法實(shí)現(xiàn)真正的智能。未來(lái)的AI應(yīng)該學(xué)會(huì)像奧賽選手一樣拆解問題、關(guān)聯(lián)知識(shí)、嚴(yán)謹(jǐn)推導(dǎo)。

當(dāng)模型能力達(dá)到這樣的水平時(shí),對(duì)模型的評(píng)測(cè)的題目難度及評(píng)測(cè)要求也越來(lái)越高,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

基于此,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)創(chuàng)新性地提出了人機(jī)協(xié)作評(píng)測(cè)模式,并推出10q的全新玩法。待測(cè)模型需要在同一套system prompt下指導(dǎo)真實(shí)用戶學(xué)習(xí)一個(gè)知識(shí)點(diǎn)并完成quiz,基于模型與用戶的高質(zhì)量多輪對(duì)話數(shù)據(jù),產(chǎn)出更加高置信度的評(píng)測(cè)結(jié)論。

在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-16 08:40:00

模型智能語(yǔ)音

2024-06-17 18:04:38

2024-07-11 11:53:56

2024-08-05 08:46:00

模型測(cè)評(píng)

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-06-27 12:45:30

2024-05-15 17:34:15

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-05-14 11:29:15

2025-08-11 08:42:00

GPT-5AI模型

2025-02-18 12:30:00

2024-04-01 08:00:00

AI模型

2024-11-28 15:51:19

GPT-4o微軟

2025-05-26 09:05:00

2025-06-06 14:25:04

模型自然語(yǔ)言AI

2024-07-31 13:20:14

2024-09-24 11:13:14

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-06-04 13:53:22

代碼模型AI

2024-08-14 14:30:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲天堂av在线播放| 亚洲理论在线观看| 国产精品 欧美在线| 一区二区三区在线观看免费视频| 亚洲精品aaa| 亚洲国产毛片aaaaa无费看 | 欧美第一黄网免费网站| 韩国av中国字幕| 色香欲www7777综合网| 亚洲特级片在线| 久久天堂国产精品| 99精品免费观看| 久久精品日韩欧美| 久久综合久久美利坚合众国| 国产麻豆xxxvideo实拍| 国外成人福利视频| 欧美日韩国产专区| 日本一区二区三区四区五区六区| 亚洲色欧美另类| 国产在线播放一区三区四| 456国产精品| 欧美成人黄色网| 日韩欧美高清在线播放| 亚洲精品成a人在线观看| 美女在线视频一区二区| 不卡一二三区| 亚洲国产视频一区| 少妇高潮流白浆| 噜噜噜噜噜在线视频| 国产伦精品一区二区三区视频青涩 | 日本黄色小说视频| 国产欧美日韩| 亚洲国产精品专区久久| 久久精品一二三四| 国产在视频一区二区三区吞精| 香蕉久久一区二区不卡无毒影院 | 午夜理伦三级做爰电影| 一区二区三区在线免费看| 欧美日韩亚洲综合一区二区三区| 久久久噜噜噜www成人网| 青草视频在线免费直播| 亚洲人吸女人奶水| 一区二区在线观看网站| 草碰在线视频| 国产欧美日韩精品a在线观看| 久久av免费一区| 日本高清视频免费看| 高清久久久久久| 91在线精品观看| 国产又黄又粗又长| 久久国产精品露脸对白| 国产精品网红直播| 在线观看日批视频| 秋霞午夜鲁丝一区二区老狼| 国产成人精品日本亚洲| 在线视频一区二区三区四区| 香蕉成人久久| 欧美综合一区第一页| 久久精品国产成人av| 亚洲在线黄色| 日本不卡高字幕在线2019| 九九精品免费视频| 久久深夜福利| 日本国产高清不卡| 日本精品入口免费视频| 日本不卡在线视频| 国产精品普通话| 国产裸体永久免费无遮挡| 国产一区91精品张津瑜| 国产精品久久久久久久免费大片| 日韩在线观看视频一区| 99久久精品99国产精品| 欧美裸体网站| 午夜在线视频| 一区二区三区色| 国产高清av在线播放| 伊人久久视频| 欧美网站一区二区| 97人人模人人爽人人澡| 99香蕉久久| 亚洲少妇激情视频| 在线观看天堂av| 国内自拍视频一区二区三区| 国外成人性视频| 精品黑人一区二区三区| 久久精品久久久精品美女| 亚洲综合在线小说| 日韩一区二区三区不卡| 欧美激情一区二区三区在线| 四虎免费在线观看视频| 国产乱妇乱子在线播视频播放网站| 亚洲成人av一区| 午夜欧美福利视频| 伊色综合久久之综合久久| 日韩av在线一区| 成年人网站在线观看视频| 狠狠色狠狠色综合日日tαg| 浅井舞香一区二区| 国产精品熟女久久久久久| 成人免费不卡视频| 视频一区亚洲| av中文在线资源库| 欧美精品视频www在线观看| 日本不卡视频一区| 色狮一区二区三区四区视频| 久久久久久成人精品| 日本一区二区三区久久| 成人性生交大片免费看中文| 污视频在线免费观看一区二区三区 | 中文字幕在线网站| 99热精品一区二区| 无码毛片aaa在线| 亚洲高清黄色| 亚洲国产精品99| 婷婷社区五月天| 免费欧美在线| 国产综合色一区二区三区| 成人短视频在线观看| 欧美性猛交xxxx偷拍洗澡| 毛片毛片毛片毛片毛| 清纯唯美亚洲综合一区| 午夜精品久久久久久99热| 国产精品无码在线播放| 久久久不卡网国产精品二区| 日韩在线观看a| 成人黄色91| 国产亚洲欧美视频| 看片网址国产福利av中文字幕| 国产一区二区在线观看视频| 日韩资源av在线| 三妻四妾完整版在线观看电视剧| 欧美一个色资源| 国产精品1区2区3区4区| 久久一区中文字幕| 黄色国产精品一区二区三区| 91cn在线观看| 制服丝袜在线91| 美国一级黄色录像| 日韩高清电影一区| 欧美日韩一区二区视频在线观看| www成人免费观看| 亚洲成av人片在线观看香蕉| 欧美成人免费看| 国产精品综合二区| 超碰10000| 视频精品二区| 色综合五月天导航| 亚洲狼人综合网| 亚洲国产日韩av| 国产又粗又长又爽| 国产亚洲成人一区| 欧美日韩另类丝袜其他| 成人av三级| 亚洲网址你懂得| 亚洲视频久久久| 亚洲欧洲av另类| 在线免费看v片| 欧美黄污视频| 国产精品视频福利| 九色porny丨首页入口在线| 亚洲国产一区二区三区在线观看| 国产成人在线观看网站| 91蜜桃传媒精品久久久一区二区| 男女超爽视频免费播放| 亚洲午夜久久| 国产美女精品视频免费观看| 免费a级人成a大片在线观看| 日韩一区二区在线免费观看| 免费在线视频观看| 97国产精品videossex| 久久精品香蕉视频| 欧美残忍xxxx极端| 99在线影院| 一个人看的www视频在线免费观看| 亚洲精品一区中文字幕乱码| 中文字幕乱码人妻无码久久| 中文字幕制服丝袜一区二区三区| 精产国品一二三区| 在线亚洲伦理| 亚洲日本理论电影| 国产91精品入| 国产成人精品视频| av网站大全在线| 日韩精品免费在线| 中文字幕在线观看免费| 亚洲成人精品影院| 中文字幕黄色网址| 国产成人在线视频免费播放| 欧美 日韩 国产在线观看| 久久中文字幕av| 国产精品日韩高清| 先锋影音一区二区| 97国产精品免费视频| 91最新在线| 亚洲电影在线看| 在线观看视频中文字幕| 偷拍一区二区三区四区| 久草手机视频在线观看| 99精品欧美一区| 日韩欧美理论片| 久久高清国产| www.欧美黄色| 日本高清免费电影一区| 黄色91av| 蜜桃在线一区| 国产精品日日做人人爱| 国产在线天堂www网在线观看| 日韩网站免费观看| 青青九九免费视频在线| 日韩一区二区三区av| 欧美在线视频精品| 午夜视频一区二区| 久久免费看少妇高潮v片特黄 | 精品夜夜嗨av一区二区三区| 2018国产在线| 中文无码久久精品| 性欧美大战久久久久久久免费观看| 香蕉成人app| 国产色婷婷国产综合在线理论片a| 在线观看爽视频| 欧美激情性做爰免费视频| √天堂资源地址在线官网| 国产视频亚洲视频| 高清一区二区三区四区| 制服视频三区第一页精品| 无码久久精品国产亚洲av影片| 亚洲国产精品久久人人爱蜜臀| 五月天激情丁香| 中文字幕精品三区| 日本一级免费视频| 91丨porny丨国产| 玖玖爱在线精品视频| 高潮精品一区videoshd| 夜夜爽久久精品91| 久久草av在线| 福利片一区二区三区| 奇米一区二区三区| 日本www.色| 日本女优在线视频一区二区| 久久久精品在线视频| 国产一二三四区在线观看| 午夜久久免费观看| 最近看过的日韩成人| 久久大综合网| 中文字幕在线中文字幕日亚韩一区| 成人影视亚洲图片在线| 神马影院午夜我不卡| 日韩精品欧美激情一区二区| 亚洲v国产v在线观看| 成人精品影院| 亚洲美女网站18| 欧美激情偷拍自拍| 天天操天天干天天玩| 久久精品国内一区二区三区水蜜桃| 亚洲日本精品国产第一区| 日韩免费一区| 欧美xxxx吸乳| 国产精品草草| 日韩欧美一区二| 丝袜亚洲另类欧美| 亚洲一级免费观看| 国产伦精品一区二区三区免费| 亚洲av无码久久精品色欲| 成人网在线播放| 91av在线免费| 中文字幕国产精品一区二区| 黄色录像一级片| 一级做a爱片久久| 亚洲精品1区2区3区| 91成人免费在线| 一级片在线观看视频| 日韩视频免费观看高清完整版在线观看 | 日韩三级免费| 97热精品视频官网| 亚洲黄色免费av| 国产精品久久久久影院日本| 伊人久久大香| 国产一级精品aaaaa看| 欧美日韩在线观看视频小说| 老司机av福利| a91a精品视频在线观看| 亚洲欧美另类动漫| 国产精品69久久久久水密桃 | 中文字幕国产一区二区| 国产精品丝袜一区二区| 亚洲午夜免费视频| 潘金莲一级淫片aaaaaa播放| 欧美日韩的一区二区| 丰满人妻一区二区三区免费| 精品爽片免费看久久| 在线观看黄色av| 久久久久久久久久婷婷| 在线一区视频观看| 国产精品亚洲综合| 精品国产一区二区三区av片| www.激情网| 日韩专区中文字幕一区二区| 樱花草www在线| 久久老女人爱爱| 久久久久无码国产精品| 色88888久久久久久影院野外| 国产欧美日韩成人| 亚洲欧美激情另类校园| 中文字幕在线三区| 国产成人一区三区| 日韩高清在线免费观看| 最近中文字幕免费mv| 久久久777| 无码av免费精品一区二区三区| 亚洲国产精品成人综合| 国产无遮挡免费视频| 5858s免费视频成人| 欧美男男同志| 欧美精品激情在线| 国产精品白丝久久av网站| 麻豆成人在线播放| 亚洲激情网站| 四川一级毛毛片| 国产精品不卡在线观看| 久久精品无码av| 精品少妇一区二区三区视频免付费| 国产无套粉嫩白浆在线2022年| 久久噜噜噜精品国产亚洲综合| 国产精品毛片无码| 亚洲一区在线直播| 青青草国产成人av片免费| 色噜噜在线观看| 亚洲国产你懂的| av中文字幕第一页| 色久欧美在线视频观看| 肉色欧美久久久久久久免费看| 国产一区二区三区高清视频| 欧美区一区二| 中文字幕乱码在线人视频| 中文字幕中文字幕中文字幕亚洲无线| 亚洲第一区av| 亚洲社区在线观看| 3d欧美精品动漫xxxx无尽| 欧美精品一区二区三区四区五区 | 青青久在线视频| 欧美在线国产精品| 免费看久久久| 亚洲午夜精品久久久久久人妖| 白白色 亚洲乱淫| 国产做受高潮漫动| 亚洲精品自产拍| 欧美黑人粗大| 手机在线观看国产精品| 免费高清在线一区| 911国产在线| 日韩欧美自拍偷拍| 羞羞视频在线免费国产| 成人黄动漫网站免费| 亚洲视频免费| 国内精品久久99人妻无码| 色悠久久久久综合欧美99| 国产精品一区在线看| 国产女人精品视频| 欧美一区二区三区免费看| 911亚洲精选| 欧美性xxxx极品hd满灌| 精品无人乱码| 国产欧美亚洲视频| 欧美日韩视频| 三叶草欧洲码在线| 欧洲日韩一区二区三区| 日本最新在线视频| 91沈先生播放一区二区| 最新亚洲一区| 国产精品天天干| 777午夜精品免费视频| 丁香花在线电影小说观看| 久久视频在线观看中文字幕| 麻豆精品视频在线观看视频| 永久av免费网站| 精品国产乱码久久久久久闺蜜| а√天堂中文资源在线bt| 欧美aaaaa喷水| 老鸭窝一区二区久久精品| 久久网中文字幕| 亚洲欧美综合图区| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 中文字幕亚洲综合| 99亚洲乱人伦aⅴ精品| 成人在线看视频| 亚洲精选免费视频| 视频在线不卡| 亚洲自拍偷拍在线| 亚洲欧美日韩专区| 麻豆天美蜜桃91| 亚洲天堂av在线播放| 日韩中文字幕无砖| 久久久精品麻豆| 亚洲国产精品久久久久秋霞影院| 福利视频在线看| 国产精品永久入口久久久| 免费在线观看精品| 欧美不卡视频在线观看| 久久影院免费观看| 精品一区二区三区在线|