為防AI刷題,Nature等頂刊最新封面被做成數(shù)據(jù)集,考驗(yàn)?zāi)P涂茖W(xué)推理能力|上海交通大學(xué)
近年來,以GPT-4o、Gemini 2.5 Pro為代表的多模態(tài)大模型,在各大基準(zhǔn)測試(如MMMU)中捷報(bào)頻傳,紛紛刷榜成功。
然而,這些令人矚目的進(jìn)展也帶來了一個(gè)愈發(fā)嚴(yán)峻的問題:當(dāng)現(xiàn)有的“題庫”逐漸被提前預(yù)訓(xùn)練進(jìn)模型,我們?nèi)绾尾拍艹掷m(xù)、準(zhǔn)確地評估這些頂尖AI的真實(shí)能力?
為了應(yīng)對這一挑戰(zhàn),上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合,提出了MAC(多模態(tài)學(xué)術(shù)封面)基準(zhǔn):既然科學(xué)知識(shí)本身在不斷演進(jìn),為什么不用最新的科學(xué)內(nèi)容來測試AI呢?

研究團(tuán)隊(duì)利用《Nature》《Science》《Cell》等188種頂級期刊的最新封面作為測試素材,從超過25,000個(gè)圖文對中構(gòu)建測試集。這些期刊每周或每月都會(huì)發(fā)布新刊,每期封面都經(jīng)過頂尖科學(xué)家和專業(yè)編輯精心打造,蘊(yùn)含著最前沿、最復(fù)雜的科學(xué)概念,從而評測多模態(tài)大模型是否能夠理解藝術(shù)化表達(dá)的視覺元素與科學(xué)概念之間的深層關(guān)聯(lián)。

結(jié)果發(fā)現(xiàn),包括GPT-5-thinking在內(nèi)的頂尖模型在面對這些最新科學(xué)內(nèi)容時(shí)表現(xiàn)出了令人意外的局限性。表現(xiàn)最好的Step-3,準(zhǔn)確率也僅為79.1%,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。
這項(xiàng)研究將發(fā)表在2025年語言模型大會(huì)(COLM)上。
測試設(shè)計(jì):精心設(shè)計(jì)的”語義陷阱”
MAC的核心挑戰(zhàn)在于:如何確保AI不能通過膚淺的視覺特征“蒙對”答案,而是更加深入的建立科學(xué)概念的理解。
研究者們設(shè)計(jì)了兩種測試任務(wù):
- 看圖選文:給出期刊封面,從四個(gè)封面故事中選出對應(yīng)的文本;
- 看文選圖:給出封面故事,從四張封面中選出最匹配的圖片。
關(guān)鍵在于“陷阱”的設(shè)計(jì),為了防止AI通過膚淺特征作答,研究者們利用先進(jìn)的嵌入模型(如CLIP)精心篩選出三個(gè)“語義干擾項(xiàng)”,從而使得它們在表面上與正確答案極為相似,只有真正理解科學(xué)概念的AI才能做出正確選擇。

舉個(gè)例子,如果正確的封面故事是關(guān)于“癌癥耐藥性機(jī)制”,那么干擾項(xiàng)可能是“癌癥產(chǎn)生機(jī)理”或“癌細(xì)胞”——都與癌癥相關(guān),但科學(xué)概念完全不同。
盡管頂尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能準(zhǔn)確識(shí)別出選項(xiàng)圖片中的“藥丸”和“處方單”等視覺元素,但它們都未能將這些元素與封面故事中核心的“耐藥性”或“癌癥治療機(jī)制”等科學(xué)概念聯(lián)系起來,最終導(dǎo)致選擇錯(cuò)誤。
此外,研究者們還構(gòu)建了MAC-2025年度快照,專門選取2024年1月至2025年2月發(fā)布的最新期刊內(nèi)容,并計(jì)劃每年更新,從而盡可能減少評估中的數(shù)據(jù)污染問題,確保即使對最新的模型也能保持足夠的挑戰(zhàn)性。
頂尖AI也會(huì)“理解偏差”
研究團(tuán)隊(duì)使用MAC-2025測試集,對包括GPT-4o和Step-3在內(nèi)的業(yè)界領(lǐng)先模型進(jìn)行了全面評估。

結(jié)果令人意外:即便是表現(xiàn)最強(qiáng)的Step-3,準(zhǔn)確率也僅為79.1%,這與它們在其他基準(zhǔn)上近乎完美的表現(xiàn)形成了鮮明對比。更有趣的是,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。
同時(shí),GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出當(dāng)前多模態(tài)AI的一個(gè)關(guān)鍵局限:雖然在視覺識(shí)別方面已經(jīng)相當(dāng)出色,但在需要跨模態(tài)深層推理的科學(xué)理解任務(wù)上,距離人類水平還有相當(dāng)差距。

DAD方法:讓AI學(xué)會(huì)“分步思考”
面對這一挑戰(zhàn),研究團(tuán)隊(duì)沒有止步于發(fā)現(xiàn)問題,而是進(jìn)一步提出了DAD的解決方案。
DAD的核心思想是“分工協(xié)作”:
- 描述階段:讓多模態(tài)大模型(如GPT-4o)對封面圖片進(jìn)行詳細(xì)的視覺描述,并生成偽思維鏈;
- 推理階段:將描述結(jié)果和原始問題一起交給專門的語言推理模型,由它進(jìn)行高層分析并做出最終選擇。
這種結(jié)構(gòu)化的兩步法顯著提升了模型表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,使用DAD方法后,多個(gè)模型的準(zhǔn)確率都獲得了明顯提升,證明了推理時(shí)間擴(kuò)展在多模態(tài)科學(xué)理解任務(wù)中的有效性。
有趣的是,這種”先看再想”的方式,某種程度上模擬了人類專家在面對復(fù)雜科學(xué)問題時(shí)的思維過程——先仔細(xì)觀察現(xiàn)象,再結(jié)合背景知識(shí)進(jìn)行深入分析。
雙重動(dòng)態(tài)機(jī)制:確保持續(xù)挑戰(zhàn)性
傳統(tǒng)基準(zhǔn)測試的最大問題是“一次性”——發(fā)布后內(nèi)容固定,很快就會(huì)被模型“學(xué)會(huì)”。MAC通過動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)問題構(gòu)建兩種機(jī)制提出了一種動(dòng)態(tài)基準(zhǔn)構(gòu)建范式:

動(dòng)態(tài)數(shù)據(jù):時(shí)間推進(jìn)帶來的自然難度提升
研究團(tuán)隊(duì)做了一個(gè)巧妙的對比實(shí)驗(yàn):讓模型分別在早期期刊數(shù)據(jù)(MAC-Old)和最新數(shù)據(jù)(MAC-2025)上測試。結(jié)果發(fā)現(xiàn),所有模型在處理新知識(shí)時(shí)都表現(xiàn)出明顯的性能下降。
這說明科學(xué)知識(shí)的自然演進(jìn)本身就能為基準(zhǔn)測試提供持續(xù)的挑戰(zhàn)性。隨著新理論、新發(fā)現(xiàn)、新技術(shù)的不斷涌現(xiàn),期刊封面所展現(xiàn)的科學(xué)概念也在持續(xù)更新,自然而然地對AI模型形成新的考驗(yàn)。
動(dòng)態(tài)問題構(gòu)建:利用最新AI技術(shù)提升測試難度
更有意思的是第二種機(jī)制:研究者們保持MAC-2025的題目內(nèi)容不變,僅使用更強(qiáng)的嵌入模型(如與論文同期發(fā)布的SigLip2)重新生成語義干擾項(xiàng)。
結(jié)果顯示,所有模型的準(zhǔn)確率都出現(xiàn)了進(jìn)一步的下滑。這揭示了一個(gè)有趣的現(xiàn)象:AI領(lǐng)域的進(jìn)步不僅能提升模型能力,也能同步提升測試難度。
當(dāng)我們有了更好的語義理解工具時(shí),就能構(gòu)造出更加精妙的“陷阱”,讓基準(zhǔn)測試始終保持在技術(shù)發(fā)展的前沿。這兩種機(jī)制的結(jié)合,確保了MAC能夠與科學(xué)發(fā)展和AI技術(shù)發(fā)展“齊頭并進(jìn)”,避免了傳統(tǒng)靜態(tài)基準(zhǔn)容易過時(shí)的問題。
展望未來,MAC基準(zhǔn)有望發(fā)展成為一個(gè)更加完善的評估平臺(tái)。研究團(tuán)隊(duì)計(jì)劃不僅擴(kuò)展到更多科學(xué)期刊,還將考慮加入其他形式的動(dòng)態(tài)科學(xué)內(nèi)容,如最新的學(xué)術(shù)會(huì)議論文、科學(xué)新聞等。
同時(shí),隨著AI技術(shù)的快速發(fā)展,MAC基準(zhǔn)本身也需要通過年度為周期的持續(xù)發(fā)布,來實(shí)現(xiàn)基準(zhǔn)測試的持續(xù)演進(jìn)。
當(dāng)AI的能力不斷逼近人類時(shí),我們需要的正是這樣能夠與科學(xué)發(fā)展和技術(shù)進(jìn)步一同演進(jìn)的“試金石”,讓我們更真實(shí)地理解AI的能力邊界,也更清晰地看到通往真正智能的道路。
作者簡介
論文第一作者是上海交通大學(xué)博士研究生蔣沫晗。他的研究方向包括多模態(tài)大模型,大模型智能體等。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉,他本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。他的研究工作發(fā)表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會(huì)議,近五年論文谷歌學(xué)術(shù)總引用次數(shù)12000余次,H-index23。
項(xiàng)目鏈接:https://github.com/mhjiang0408/MAC_Bench
論文地址:https://arxiv.org/pdf/2508.15802

































