精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為防AI刷題,Nature等頂刊最新封面被做成數(shù)據(jù)集,考驗(yàn)?zāi)P涂茖W(xué)推理能力|上海交通大學(xué)

人工智能 新聞
上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合,提出了MAC(多模態(tài)學(xué)術(shù)封面)基準(zhǔn):既然科學(xué)知識(shí)本身在不斷演進(jìn),為什么不用最新的科學(xué)內(nèi)容來測試AI呢?

近年來,以GPT-4o、Gemini 2.5 Pro為代表的多模態(tài)大模型,在各大基準(zhǔn)測試(如MMMU)中捷報(bào)頻傳,紛紛刷榜成功。

然而,這些令人矚目的進(jìn)展也帶來了一個(gè)愈發(fā)嚴(yán)峻的問題:當(dāng)現(xiàn)有的“題庫”逐漸被提前預(yù)訓(xùn)練進(jìn)模型,我們?nèi)绾尾拍艹掷m(xù)、準(zhǔn)確地評估這些頂尖AI的真實(shí)能力?

為了應(yīng)對這一挑戰(zhàn),上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合,提出了MAC(多模態(tài)學(xué)術(shù)封面)基準(zhǔn):既然科學(xué)知識(shí)本身在不斷演進(jìn),為什么不用最新的科學(xué)內(nèi)容來測試AI呢?

研究團(tuán)隊(duì)利用《Nature》《Science》《Cell》等188種頂級期刊的最新封面作為測試素材,從超過25,000個(gè)圖文對中構(gòu)建測試集。這些期刊每周或每月都會(huì)發(fā)布新刊,每期封面都經(jīng)過頂尖科學(xué)家和專業(yè)編輯精心打造,蘊(yùn)含著最前沿、最復(fù)雜的科學(xué)概念,從而評測多模態(tài)大模型是否能夠理解藝術(shù)化表達(dá)的視覺元素與科學(xué)概念之間的深層關(guān)聯(lián)。

結(jié)果發(fā)現(xiàn),包括GPT-5-thinking在內(nèi)的頂尖模型在面對這些最新科學(xué)內(nèi)容時(shí)表現(xiàn)出了令人意外的局限性。表現(xiàn)最好的Step-3,準(zhǔn)確率也僅為79.1%,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%

這項(xiàng)研究將發(fā)表在2025年語言模型大會(huì)(COLM)上。

測試設(shè)計(jì):精心設(shè)計(jì)的”語義陷阱”

MAC的核心挑戰(zhàn)在于:如何確保AI不能通過膚淺的視覺特征“蒙對”答案,而是更加深入的建立科學(xué)概念的理解。

研究者們設(shè)計(jì)了兩種測試任務(wù):

  • 看圖選文:給出期刊封面,從四個(gè)封面故事中選出對應(yīng)的文本;
  • 看文選圖:給出封面故事,從四張封面中選出最匹配的圖片。

關(guān)鍵在于“陷阱”的設(shè)計(jì),為了防止AI通過膚淺特征作答,研究者們利用先進(jìn)的嵌入模型(如CLIP)精心篩選出三個(gè)“語義干擾項(xiàng)”,從而使得它們在表面上與正確答案極為相似,只有真正理解科學(xué)概念的AI才能做出正確選擇。

舉個(gè)例子,如果正確的封面故事是關(guān)于“癌癥耐藥性機(jī)制”,那么干擾項(xiàng)可能是“癌癥產(chǎn)生機(jī)理”或“癌細(xì)胞”——都與癌癥相關(guān),但科學(xué)概念完全不同。

盡管頂尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能準(zhǔn)確識(shí)別出選項(xiàng)圖片中的“藥丸”和“處方單”等視覺元素,但它們都未能將這些元素與封面故事中核心的“耐藥性”或“癌癥治療機(jī)制”等科學(xué)概念聯(lián)系起來,最終導(dǎo)致選擇錯(cuò)誤。

此外,研究者們還構(gòu)建了MAC-2025年度快照,專門選取2024年1月至2025年2月發(fā)布的最新期刊內(nèi)容,并計(jì)劃每年更新,從而盡可能減少評估中的數(shù)據(jù)污染問題,確保即使對最新的模型也能保持足夠的挑戰(zhàn)性。

頂尖AI也會(huì)“理解偏差”

研究團(tuán)隊(duì)使用MAC-2025測試集,對包括GPT-4o和Step-3在內(nèi)的業(yè)界領(lǐng)先模型進(jìn)行了全面評估。

結(jié)果令人意外:即便是表現(xiàn)最強(qiáng)的Step-3,準(zhǔn)確率也僅為79.1%,這與它們在其他基準(zhǔn)上近乎完美的表現(xiàn)形成了鮮明對比。更有趣的是,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。

同時(shí),GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出當(dāng)前多模態(tài)AI的一個(gè)關(guān)鍵局限:雖然在視覺識(shí)別方面已經(jīng)相當(dāng)出色,但在需要跨模態(tài)深層推理的科學(xué)理解任務(wù)上,距離人類水平還有相當(dāng)差距。

DAD方法:讓AI學(xué)會(huì)“分步思考”

面對這一挑戰(zhàn),研究團(tuán)隊(duì)沒有止步于發(fā)現(xiàn)問題,而是進(jìn)一步提出了DAD的解決方案。

DAD的核心思想是“分工協(xié)作”:

  • 描述階段:讓多模態(tài)大模型(如GPT-4o)對封面圖片進(jìn)行詳細(xì)的視覺描述,并生成偽思維鏈;
  • 推理階段:將描述結(jié)果和原始問題一起交給專門的語言推理模型,由它進(jìn)行高層分析并做出最終選擇。

這種結(jié)構(gòu)化的兩步法顯著提升了模型表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,使用DAD方法后,多個(gè)模型的準(zhǔn)確率都獲得了明顯提升,證明了推理時(shí)間擴(kuò)展在多模態(tài)科學(xué)理解任務(wù)中的有效性。

有趣的是,這種”先看再想”的方式,某種程度上模擬了人類專家在面對復(fù)雜科學(xué)問題時(shí)的思維過程——先仔細(xì)觀察現(xiàn)象,再結(jié)合背景知識(shí)進(jìn)行深入分析。

雙重動(dòng)態(tài)機(jī)制:確保持續(xù)挑戰(zhàn)性

傳統(tǒng)基準(zhǔn)測試的最大問題是“一次性”——發(fā)布后內(nèi)容固定,很快就會(huì)被模型“學(xué)會(huì)”。MAC通過動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)問題構(gòu)建兩種機(jī)制提出了一種動(dòng)態(tài)基準(zhǔn)構(gòu)建范式:

動(dòng)態(tài)數(shù)據(jù):時(shí)間推進(jìn)帶來的自然難度提升

研究團(tuán)隊(duì)做了一個(gè)巧妙的對比實(shí)驗(yàn):讓模型分別在早期期刊數(shù)據(jù)(MAC-Old)和最新數(shù)據(jù)(MAC-2025)上測試。結(jié)果發(fā)現(xiàn),所有模型在處理新知識(shí)時(shí)都表現(xiàn)出明顯的性能下降

這說明科學(xué)知識(shí)的自然演進(jìn)本身就能為基準(zhǔn)測試提供持續(xù)的挑戰(zhàn)性。隨著新理論、新發(fā)現(xiàn)、新技術(shù)的不斷涌現(xiàn),期刊封面所展現(xiàn)的科學(xué)概念也在持續(xù)更新,自然而然地對AI模型形成新的考驗(yàn)。

動(dòng)態(tài)問題構(gòu)建:利用最新AI技術(shù)提升測試難度

更有意思的是第二種機(jī)制:研究者們保持MAC-2025的題目內(nèi)容不變,僅使用更強(qiáng)的嵌入模型(如與論文同期發(fā)布的SigLip2)重新生成語義干擾項(xiàng)。

結(jié)果顯示,所有模型的準(zhǔn)確率都出現(xiàn)了進(jìn)一步的下滑。這揭示了一個(gè)有趣的現(xiàn)象:AI領(lǐng)域的進(jìn)步不僅能提升模型能力,也能同步提升測試難度

當(dāng)我們有了更好的語義理解工具時(shí),就能構(gòu)造出更加精妙的“陷阱”,讓基準(zhǔn)測試始終保持在技術(shù)發(fā)展的前沿。這兩種機(jī)制的結(jié)合,確保了MAC能夠與科學(xué)發(fā)展和AI技術(shù)發(fā)展“齊頭并進(jìn)”,避免了傳統(tǒng)靜態(tài)基準(zhǔn)容易過時(shí)的問題。

展望未來,MAC基準(zhǔn)有望發(fā)展成為一個(gè)更加完善的評估平臺(tái)。研究團(tuán)隊(duì)計(jì)劃不僅擴(kuò)展到更多科學(xué)期刊,還將考慮加入其他形式的動(dòng)態(tài)科學(xué)內(nèi)容,如最新的學(xué)術(shù)會(huì)議論文、科學(xué)新聞等。

同時(shí),隨著AI技術(shù)的快速發(fā)展,MAC基準(zhǔn)本身也需要通過年度為周期的持續(xù)發(fā)布,來實(shí)現(xiàn)基準(zhǔn)測試的持續(xù)演進(jìn)。

當(dāng)AI的能力不斷逼近人類時(shí),我們需要的正是這樣能夠與科學(xué)發(fā)展和技術(shù)進(jìn)步一同演進(jìn)的“試金石”,讓我們更真實(shí)地理解AI的能力邊界,也更清晰地看到通往真正智能的道路。

作者簡介

論文第一作者是上海交通大學(xué)博士研究生蔣沫晗。他的研究方向包括多模態(tài)大模型,大模型智能體等。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉,他本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。他的研究工作發(fā)表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會(huì)議,近五年論文谷歌學(xué)術(shù)總引用次數(shù)12000余次,H-index23。

項(xiàng)目鏈接:https://github.com/mhjiang0408/MAC_Bench

論文地址:https://arxiv.org/pdf/2508.15802

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-17 08:43:00

模型推理訓(xùn)練

2024-08-14 14:00:00

模型框架

2021-12-02 15:57:46

AI 數(shù)據(jù)人工智能

2022-09-19 15:53:20

AI圖片

2010-02-06 09:15:14

ACMICPC

2025-04-25 10:57:39

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-08-11 17:58:00

AI圖像生成數(shù)據(jù)

2021-07-08 15:30:21

AI 計(jì)算人工智能

2025-07-02 08:50:00

AI智能體模型

2025-05-30 09:10:00

2025-04-25 09:22:44

2025-02-03 12:21:51

2024-09-09 08:30:00

2025-07-28 09:06:00

2023-09-05 17:42:18

2015-03-16 11:54:55

云計(jì)算

2023-06-05 10:01:18

模型測評

2024-04-16 12:17:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日本一区精品| 亚洲精美色品网站| 好吊色这里只有精品| www.桃色av嫩草.com| 国产女优一区| 一本色道久久88精品综合| 一起操在线视频| 岛国毛片av在线| 久久久久久久久久久久久夜| 成人日韩在线电影| 日本一级黄色大片| 久久蜜桃av| 精品999在线播放| 青青草原国产在线视频| 草草在线观看| 亚洲男人天堂av| 欧美国产二区| 精品人妻伦一二三区久久| 美女黄色成人网| 久久999免费视频| 欧美激情视频二区| 精品午夜电影| 日韩三级在线观看| 日本激情视频在线| xxxx视频在线| 亚洲男人电影天堂| 亚洲精品9999| 日本v片在线免费观看| 国产在线播精品第三| 国产成人午夜视频网址 | 国产亚洲美州欧州综合国| 91精品网站| 国产又粗又猛又爽| 天堂在线亚洲视频| 91国产高清在线| 久久精品99久久久久久| 婷婷综合在线| 国产亚洲一区二区精品| 黄色性生活一级片| av成人app永久免费| 欧美一区二区日韩| 色91精品久久久久久久久| 在线观看国产精品一区| 欧美精品亚洲精品| 欧美肥妇bbwbbw| 精品产国自在拍| 亚洲第一在线视频| www日本在线观看| 国产一区二区三区免费观看在线 | 中文字幕在线精品| 免费观看av网站| 亚洲欧美校园春色| 日韩精品中文字幕在线观看| 国产精品扒开腿做爽爽爽a片唱戏| 国产剧情一区二区在线观看| 欧美日韩在线三级| 天天色综合社区| 成人午夜一级| 欧美日韩亚洲丝袜制服| 中文久久久久久| 99re66热这里只有精品4| 在线一区二区三区做爰视频网站| 日本在线视频www| 92国产精品视频| 亚洲r级在线观看| 91视频在线视频| 日韩有码一区二区三区| 26uuu另类亚洲欧美日本老年| 国产精品7777| 99热这里只有精品8| 91av视频在线免费观看| 国产精品乱子伦| 久色成人在线| 国产精品稀缺呦系列在线| 久久精品国产亚洲AV无码男同 | 波多野结衣国产| 9色精品在线| 久久国产精品首页| 成年人二级毛片| 欧美特黄一级| 欧美一级电影久久| 国产午夜麻豆影院在线观看| 免费在线视频一区| 亚洲精品中文在线影院| 国产区一区二| 中文字幕超碰在线| 青青青在线视频免费观看| 成人字幕网zmw| 亚洲国产日韩欧美在线99| ww久久中文字幕| 亚洲人体偷拍| 爱情岛论坛亚洲品质自拍视频网站| 男人天堂网在线视频| 亚洲国内精品| 情事1991在线| 国产一区二区三区三州| 粉嫩久久99精品久久久久久夜| 精品欧美一区二区三区久久久| 可以在线观看的av网站| 成人免费在线播放视频| 精品国产一区二区三区久久狼黑人| 亚洲熟女一区二区三区| 亚欧日韩另类中文欧美| 日韩中文字幕在线视频| 国产一级黄色av| 日韩精品电影在线| http;//www.99re视频| 精品亚洲综合| 一区二区三区四区在线播放 | av成人手机在线| 一个色妞综合视频在线观看| 日本va中文字幕| 成人性生交大片免费看96| 在线观看精品自拍私拍| 日韩 国产 在线| 精品一区二区成人精品| 免费av在线一区二区| 91三级在线| 在线免费视频一区二区| 星空大象在线观看免费播放| 91精品综合| 国产精品xxxxx| 人妻va精品va欧美va| 国产精品电影一区二区| 成人亚洲视频在线观看| 欧美韩一区二区| 久久人体大胆视频| 欧美日韩a v| 97久久精品人人澡人人爽| 国产免费内射又粗又爽密桃视频| 91福利精品在线观看| 亚洲成人aaa| 欧美三根一起进三p| 久久精品国产精品青草| 日本一区美女| 超碰一区二区| 日韩成人中文字幕在线观看| 国产一级二级三级| 国产一区二区按摩在线观看| 亚洲欧美在线网| 日本成人片在线| 亚洲网站在线播放| 亚洲s码欧洲m码国产av| 9人人澡人人爽人人精品| 欧美 亚洲 视频| 亚洲超碰在线观看| 久久久精品美女| 国产精品一级视频| 中文字幕一区二区三| 日本高清久久久| 欧美成人激情| 国产99视频在线观看| 欧美日本网站| 色先锋资源久久综合| 97伦伦午夜电影理伦片| 亚洲中午字幕| 日本一区二区精品| 欧美日韩尤物久久| 这里只有精品在线观看| 无码久久精品国产亚洲av影片| 国产午夜一区二区三区| 熟女少妇精品一区二区| 欧美综合久久| 国产精品一区二区三区在线播放| 9191在线观看| 91精品久久久久久蜜臀| 欧美视频www| 国产成人午夜99999| 青草网在线观看| 果冻天美麻豆一区二区国产| 91高清视频在线免费观看| 欧美日韩在线精品一区二区三区激情综| 欧美日韩免费在线观看| 久久亚洲AV无码专区成人国产| 日韩二区三区在线观看| aaa免费在线观看| 日韩激情综合| 日本欧美国产在线| 日本不卡不卡| 精品粉嫩aⅴ一区二区三区四区 | 一区二区91| 欧美日韩一区二区视频在线 | 欧美精品99久久久**| 日韩女优一区二区| 不卡av电影在线播放| 激情视频综合网| 91成人看片| 国内外成人免费视频| 免费污视频在线一区| 欧美成人免费va影院高清| 午夜影院在线视频| 欧美日韩一区二区在线观看| 免费又黄又爽又色的视频| 99国产精品久久久久久久久久久| 手机在线看福利| 国产精品观看| 日韩视频在线观看国产| 午夜视频在线观看精品中文| 欧美在线视频免费播放| 哥也色在线视频| 日韩精品免费一线在线观看| 97成人在线观看| 精品成人在线视频| 亚洲女人久久久| 久久在线观看免费| 成年人看片网站| 日本va欧美va欧美va精品| 18禁裸男晨勃露j毛免费观看| 狠狠做六月爱婷婷综合aⅴ| 51成人做爰www免费看网站| 成人福利视频| 久久久噜噜噜久噜久久| 二区在线播放| 国产亚洲欧美日韩一区二区| 亚洲男人第一天堂| 911国产精品| 天堂网视频在线| 亚洲亚洲精品在线观看| 日本一级片免费| 久久久噜噜噜久久中文字幕色伊伊| 少妇性l交大片7724com| 男男视频亚洲欧美| 欧美少妇性生活视频| 在线播放精品| 视频一区二区视频| 欧美一区二区三区高清视频| 精品日本一区二区三区| 视频成人永久免费视频| 国产精品吴梦梦| 欧美三级精品| 日本成人黄色片| 丝袜诱惑一区二区| 97在线视频免费| 日韩123区| 久久99国产精品久久久久久久久| 免费av毛片在线看| 国产一区二区三区精品久久久| 日韩一区二区三区不卡| 精品久久国产字幕高潮| av中文字幕播放| 日韩精品中文字幕在线一区| 国产精品久久久久久久成人午夜| 欧美性感一类影片在线播放| 最近免费中文字幕大全免费版视频| 黑人巨大精品欧美一区二区三区| 黄色激情视频在线观看| 亚洲国产精品久久艾草纯爱| 精品少妇久久久| 亚洲一区二区三区四区五区黄| 久久久久久天堂| 亚洲综合图片区| 国产午夜福利片| 亚洲成a人v欧美综合天堂下载 | 国产视频欧美| www国产黄色| 久热综合在线亚洲精品| 日韩欧美xxxx| 日韩电影在线观看网站| 亚洲一级片网站| 激情久久五月天| 午夜免费福利网站| 国产精品77777| 无码人妻精品一区二区三区99不卡| 国产69精品久久久久777| 日韩欧美中文视频| 国产aⅴ精品一区二区三区色成熟| 人妻 丝袜美腿 中文字幕| av午夜一区麻豆| 偷拍夫妻性生活| 亚洲国产精品黑人久久久| 99久久精品久久亚洲精品| 亚洲人成亚洲人成在线观看图片| 欧美人妻精品一区二区三区| 亚洲国产精品自拍| 国产精品一区二区三区四| 在线亚洲免费视频| 国产三级在线观看视频| 欧美va亚洲va香蕉在线| 天堂中文在线8| 综合久久五月天| a免费在线观看| 性欧美亚洲xxxx乳在线观看| 成人亚洲欧美| 成人久久一区二区三区| 51精品国产| 欧美一区亚洲二区| 国产精品久久占久久| r级无码视频在线观看| 久久性天堂网| 人妻换人妻仑乱| 26uuu亚洲| 亚洲精品卡一卡二| 天天色 色综合| 一级片在线免费观看视频| 精品欧美久久久| www.亚洲.com| 国内精品久久久久久影视8| 高清亚洲高清| 国产91免费视频| 日韩精品永久网址| 真人抽搐一进一出视频| 玖玖玖国产精品| 久久久精品人妻一区二区三区| 久久一留热品黄| 天天干中文字幕| 欧美午夜片在线观看| 国产视频一视频二| 日韩性xxx| 国产在线拍偷自揄拍精品| 欧美顶级毛片在线播放| 潘金莲一级淫片aaaaaa播放1| 午夜综合激情| 老熟女高潮一区二区三区| 亚洲国产成人在线| 日韩精品一区二区不卡| 欧美巨大另类极品videosbest | 中文字幕精品久久久久| 超碰97国产精品人人cao| 国产一区香蕉久久| 久久99精品久久久久久园产越南| 欧美a级免费视频| 免费观看在线综合| 90岁老太婆乱淫| 精品国产乱码久久久久酒店 | 一区二区三区福利视频| 日韩亚洲欧美一区二区三区| av在线免费观看网站| 欧美中文字幕在线| 久久九九热re6这里有精品| 好吊色视频988gao在线观看| 日韩精品电影在线观看| 熟女少妇一区二区三区| 偷拍一区二区三区四区| 性中国古装videossex| 久久成人综合视频| 伊人亚洲精品| 在线播放豆国产99亚洲| 日本不卡视频在线| 亚洲午夜精品久久久久久高潮| 天天操天天干天天综合网| 黄色av中文字幕| 欧美国产精品日韩| 一区二区三区欧洲区| 激情五月五月婷婷| 国产一区二区精品久久99| 日本一级特级毛片视频| 777午夜精品免费视频| 日韩在线资源| 成人羞羞国产免费| 98精品视频| 亚洲精品在线网址| 亚洲欧美一区二区三区国产精品| 国产乱色精品成人免费视频| 日韩一区在线视频| 国产精品久一| 国产911在线观看| 成a人片亚洲日本久久| 日本三级午夜理伦三级三| 日韩av在线免播放器| 香蕉伊大人中文在线观看| 欧洲视频一区二区三区| 日本伊人精品一区二区三区观看方式| 国产三级短视频| 91精品国产高清一区二区三区 | 国产suv精品一区二区| 欧美猛男同性videos| 中文字幕第88页| 亚洲人成网站色在线观看| 亚洲高清在线观看视频| 97av在线影院| 成人羞羞动漫| 91福利区一区二区三区| 亚洲黄色小说网址| 91精品国产91久久| 欧美人与牛zoz0性行为| 自拍偷拍一区二区三区四区| 亚洲免费在线观看| 天堂av资源在线| 国产精品久久国产精品99gif| 欧美韩国日本在线观看| 国产免费无码一区二区| 欧美性jizz18性欧美| 国产高清在线| 444亚洲人体| 久久久青草婷婷精品综合日韩| 国产破处视频在线观看| 精品欧美一区二区三区精品久久| 女厕盗摄一区二区三区| 一区二区三区国| a美女胸又www黄视频久久| 中文无码精品一区二区三区| 免费91麻豆精品国产自产在线观看| www.亚洲一二| 欧美日韩中文不卡| 性做久久久久久久久| 99视频在线观看地址| 国产精品乱码| 麻豆91精品91久久久的内涵| 国产精彩视频在线观看| 在线看国产精品|