為防AI刷題，Nature等頂刊最新封面被做成數(shù)據(jù)集，考驗(yàn)?zāi)Ｐ涂茖W(xué)推理能力|上海交通大學(xué)

2025-08-26 09:07:00

上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合，提出了MAC（多模態(tài)學(xué)術(shù)封面）基準(zhǔn)：既然科學(xué)知識(shí)本身在不斷演進(jìn)，為什么不用最新的科學(xué)內(nèi)容來測試AI呢？

近年來，以GPT-4o、Gemini 2.5 Pro為代表的多模態(tài)大模型，在各大基準(zhǔn)測試（如MMMU）中捷報(bào)頻傳，紛紛刷榜成功。

然而，這些令人矚目的進(jìn)展也帶來了一個(gè)愈發(fā)嚴(yán)峻的問題：當(dāng)現(xiàn)有的“題庫”逐漸被提前預(yù)訓(xùn)練進(jìn)模型，我們?nèi)绾尾拍艹掷m(xù)、準(zhǔn)確地評估這些頂尖AI的真實(shí)能力？

為了應(yīng)對這一挑戰(zhàn)，上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合，提出了MAC（多模態(tài)學(xué)術(shù)封面）基準(zhǔn)：既然科學(xué)知識(shí)本身在不斷演進(jìn)，為什么不用最新的科學(xué)內(nèi)容來測試AI呢？

研究團(tuán)隊(duì)利用《Nature》《Science》《Cell》等188種頂級期刊的最新封面作為測試素材，從超過25,000個(gè)圖文對中構(gòu)建測試集。這些期刊每周或每月都會(huì)發(fā)布新刊，每期封面都經(jīng)過頂尖科學(xué)家和專業(yè)編輯精心打造，蘊(yùn)含著最前沿、最復(fù)雜的科學(xué)概念，從而評測多模態(tài)大模型是否能夠理解藝術(shù)化表達(dá)的視覺元素與科學(xué)概念之間的深層關(guān)聯(lián)。

結(jié)果發(fā)現(xiàn)，包括GPT-5-thinking在內(nèi)的頂尖模型在面對這些最新科學(xué)內(nèi)容時(shí)表現(xiàn)出了令人意外的局限性。表現(xiàn)最好的Step-3，準(zhǔn)確率也僅為79.1%，開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。

這項(xiàng)研究將發(fā)表在2025年語言模型大會(huì)（COLM）上。

測試設(shè)計(jì)：精心設(shè)計(jì)的”語義陷阱”

MAC的核心挑戰(zhàn)在于：如何確保AI不能通過膚淺的視覺特征“蒙對”答案，而是更加深入的建立科學(xué)概念的理解。

研究者們設(shè)計(jì)了兩種測試任務(wù)：

看圖選文：給出期刊封面，從四個(gè)封面故事中選出對應(yīng)的文本；
看文選圖：給出封面故事，從四張封面中選出最匹配的圖片。

關(guān)鍵在于“陷阱”的設(shè)計(jì)，為了防止AI通過膚淺特征作答，研究者們利用先進(jìn)的嵌入模型（如CLIP）精心篩選出三個(gè)“語義干擾項(xiàng)”，從而使得它們在表面上與正確答案極為相似，只有真正理解科學(xué)概念的AI才能做出正確選擇。

舉個(gè)例子，如果正確的封面故事是關(guān)于“癌癥耐藥性機(jī)制”，那么干擾項(xiàng)可能是“癌癥產(chǎn)生機(jī)理”或“癌細(xì)胞”——都與癌癥相關(guān)，但科學(xué)概念完全不同。

盡管頂尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能準(zhǔn)確識(shí)別出選項(xiàng)圖片中的“藥丸”和“處方單”等視覺元素，但它們都未能將這些元素與封面故事中核心的“耐藥性”或“癌癥治療機(jī)制”等科學(xué)概念聯(lián)系起來，最終導(dǎo)致選擇錯(cuò)誤。

此外，研究者們還構(gòu)建了MAC-2025年度快照，專門選取2024年1月至2025年2月發(fā)布的最新期刊內(nèi)容，并計(jì)劃每年更新，從而盡可能減少評估中的數(shù)據(jù)污染問題，確保即使對最新的模型也能保持足夠的挑戰(zhàn)性。

頂尖AI也會(huì)“理解偏差”

研究團(tuán)隊(duì)使用MAC-2025測試集，對包括GPT-4o和Step-3在內(nèi)的業(yè)界領(lǐng)先模型進(jìn)行了全面評估。

結(jié)果令人意外：即便是表現(xiàn)最強(qiáng)的Step-3，準(zhǔn)確率也僅為79.1%，這與它們在其他基準(zhǔn)上近乎完美的表現(xiàn)形成了鮮明對比。更有趣的是，開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。

同時(shí)，GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出當(dāng)前多模態(tài)AI的一個(gè)關(guān)鍵局限：雖然在視覺識(shí)別方面已經(jīng)相當(dāng)出色，但在需要跨模態(tài)深層推理的科學(xué)理解任務(wù)上，距離人類水平還有相當(dāng)差距。

DAD方法：讓AI學(xué)會(huì)“分步思考”

面對這一挑戰(zhàn)，研究團(tuán)隊(duì)沒有止步于發(fā)現(xiàn)問題，而是進(jìn)一步提出了DAD的解決方案。

DAD的核心思想是“分工協(xié)作”：

描述階段：讓多模態(tài)大模型（如GPT-4o）對封面圖片進(jìn)行詳細(xì)的視覺描述，并生成偽思維鏈；
推理階段：將描述結(jié)果和原始問題一起交給專門的語言推理模型，由它進(jìn)行高層分析并做出最終選擇。

這種結(jié)構(gòu)化的兩步法顯著提升了模型表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示，使用DAD方法后，多個(gè)模型的準(zhǔn)確率都獲得了明顯提升，證明了推理時(shí)間擴(kuò)展在多模態(tài)科學(xué)理解任務(wù)中的有效性。

有趣的是，這種”先看再想”的方式，某種程度上模擬了人類專家在面對復(fù)雜科學(xué)問題時(shí)的思維過程——先仔細(xì)觀察現(xiàn)象，再結(jié)合背景知識(shí)進(jìn)行深入分析。

雙重動(dòng)態(tài)機(jī)制：確保持續(xù)挑戰(zhàn)性

傳統(tǒng)基準(zhǔn)測試的最大問題是“一次性”——發(fā)布后內(nèi)容固定，很快就會(huì)被模型“學(xué)會(huì)”。MAC通過動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)問題構(gòu)建兩種機(jī)制提出了一種動(dòng)態(tài)基準(zhǔn)構(gòu)建范式：

動(dòng)態(tài)數(shù)據(jù)：時(shí)間推進(jìn)帶來的自然難度提升

研究團(tuán)隊(duì)做了一個(gè)巧妙的對比實(shí)驗(yàn)：讓模型分別在早期期刊數(shù)據(jù)（MAC-Old）和最新數(shù)據(jù)（MAC-2025）上測試。結(jié)果發(fā)現(xiàn)，所有模型在處理新知識(shí)時(shí)都表現(xiàn)出明顯的性能下降。

這說明科學(xué)知識(shí)的自然演進(jìn)本身就能為基準(zhǔn)測試提供持續(xù)的挑戰(zhàn)性。隨著新理論、新發(fā)現(xiàn)、新技術(shù)的不斷涌現(xiàn)，期刊封面所展現(xiàn)的科學(xué)概念也在持續(xù)更新，自然而然地對AI模型形成新的考驗(yàn)。

動(dòng)態(tài)問題構(gòu)建：利用最新AI技術(shù)提升測試難度

更有意思的是第二種機(jī)制：研究者們保持MAC-2025的題目內(nèi)容不變，僅使用更強(qiáng)的嵌入模型（如與論文同期發(fā)布的SigLip2）重新生成語義干擾項(xiàng)。

結(jié)果顯示，所有模型的準(zhǔn)確率都出現(xiàn)了進(jìn)一步的下滑。這揭示了一個(gè)有趣的現(xiàn)象：AI領(lǐng)域的進(jìn)步不僅能提升模型能力，也能同步提升測試難度。

當(dāng)我們有了更好的語義理解工具時(shí)，就能構(gòu)造出更加精妙的“陷阱”，讓基準(zhǔn)測試始終保持在技術(shù)發(fā)展的前沿。這兩種機(jī)制的結(jié)合，確保了MAC能夠與科學(xué)發(fā)展和AI技術(shù)發(fā)展“齊頭并進(jìn)”，避免了傳統(tǒng)靜態(tài)基準(zhǔn)容易過時(shí)的問題。

展望未來，MAC基準(zhǔn)有望發(fā)展成為一個(gè)更加完善的評估平臺(tái)。研究團(tuán)隊(duì)計(jì)劃不僅擴(kuò)展到更多科學(xué)期刊，還將考慮加入其他形式的動(dòng)態(tài)科學(xué)內(nèi)容，如最新的學(xué)術(shù)會(huì)議論文、科學(xué)新聞等。

同時(shí)，隨著AI技術(shù)的快速發(fā)展，MAC基準(zhǔn)本身也需要通過年度為周期的持續(xù)發(fā)布，來實(shí)現(xiàn)基準(zhǔn)測試的持續(xù)演進(jìn)。

當(dāng)AI的能力不斷逼近人類時(shí)，我們需要的正是這樣能夠與科學(xué)發(fā)展和技術(shù)進(jìn)步一同演進(jìn)的“試金石”，讓我們更真實(shí)地理解AI的能力邊界，也更清晰地看到通往真正智能的道路。

作者簡介

論文第一作者是上海交通大學(xué)博士研究生蔣沫晗。他的研究方向包括多模態(tài)大模型，大模型智能體等。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉，他本科畢業(yè)于復(fù)旦大學(xué)，博士畢業(yè)于加州大學(xué)伯克利分校，師從Trevor Darrell教授。他的研究工作發(fā)表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會(huì)議，近五年論文谷歌學(xué)術(shù)總引用次數(shù)12000余次，H-index23。

項(xiàng)目鏈接：https://github.com/mhjiang0408/MAC_Bench

論文地址：https://arxiv.org/pdf/2508.15802

責(zé)任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)集模型