精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型全軍覆沒(méi),中科院自動(dòng)化所推出多圖數(shù)學(xué)推理新基準(zhǔn) | CVPR 2025

人工智能 新聞
近日,中國(guó)科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH。

挑戰(zhàn)多圖數(shù)學(xué)推理新基準(zhǔn),大模型直接全軍覆沒(méi)?!

事情是這樣的。

近日,中國(guó)科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH(該工作已被CVPR 2025錄用),這是一個(gè)精心策劃的多圖數(shù)學(xué)推理數(shù)據(jù)集,旨在全面評(píng)估MLLM(多模態(tài)大語(yǔ)言模型)在多視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力。

圖片

結(jié)果評(píng)估下來(lái)發(fā)現(xiàn),GPT-4o僅得分32.1,類(lèi)o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數(shù)學(xué)推理上難度

截止目前,多模態(tài)大模型在數(shù)學(xué)推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而,現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測(cè)試大多局限于單一視覺(jué)場(chǎng)景(單圖推理),這與現(xiàn)實(shí)世界中復(fù)雜的多視覺(jué)數(shù)學(xué)應(yīng)用(多圖推理)相去甚遠(yuǎn)。

基于這一情況,多圖數(shù)學(xué)推理數(shù)據(jù)集MV-MATH應(yīng)運(yùn)而生。

MV-MATH介紹

MV-MATH包含2009個(gè)高質(zhì)量數(shù)學(xué)問(wèn)題,涵蓋了從K-12教育場(chǎng)景中提取的真實(shí)問(wèn)題。

每個(gè)問(wèn)題都結(jié)合了多個(gè)圖像和文本,形成了圖文交錯(cuò)的多視覺(jué)場(chǎng)景。

這些問(wèn)題分為選擇題、填空題和多步問(wèn)答題三種類(lèi)型,覆蓋了11個(gè)數(shù)學(xué)領(lǐng)域,包括解析幾何、代數(shù)、度量幾何、組合學(xué)、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計(jì)學(xué),并分為三個(gè)難度級(jí)別。

圖片

下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對(duì)比以及分布情況:

(a)與現(xiàn)有數(shù)學(xué)基準(zhǔn)的比較(圓圈大小代表圖片數(shù)量);(b)每個(gè)問(wèn)題的長(zhǎng)度分布;(c)每個(gè)問(wèn)題的圖像數(shù)量分布。

圖片

數(shù)據(jù)集特點(diǎn)

(1)多視覺(jué)場(chǎng)景

MV-MATH數(shù)據(jù)集中的每個(gè)問(wèn)題都包含多個(gè)圖像(2-8個(gè)圖片),這些圖像與文本交織在一起,形成了復(fù)雜的多視覺(jué)場(chǎng)景。

MV-MATH中的每個(gè)問(wèn)題都是從真實(shí)的K-12場(chǎng)景中收集而來(lái),這種設(shè)計(jì)更接近于現(xiàn)實(shí)世界中的數(shù)學(xué)問(wèn)題,能夠更好地評(píng)估MLLM在處理多視覺(jué)信息時(shí)的推理能力。

(2)豐富的標(biāo)注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性,每個(gè)樣本都經(jīng)過(guò)了至少兩名標(biāo)注者的交叉驗(yàn)證。標(biāo)注內(nèi)容包括問(wèn)題、答案、詳細(xì)分析以及圖像關(guān)聯(lián)性,為模型評(píng)估提供了詳細(xì)的信息。

(3)多樣化的數(shù)學(xué)領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級(jí)幾何的11個(gè)數(shù)學(xué)領(lǐng)域,并根據(jù)詳細(xì)答案的長(zhǎng)度劃分為3個(gè)難度等級(jí),能夠全面評(píng)估MLLM在不同數(shù)學(xué)領(lǐng)域的推理能力。

(4)圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標(biāo)簽,根據(jù)據(jù)圖像是否相關(guān),數(shù)據(jù)集被分為兩個(gè)子集:相互依賴(lài)集(Mutually Dependent Set,MD)和獨(dú)立集(Independent Set,ID)。

在MD子集中,圖像之間相互關(guān)聯(lián),理解一個(gè)圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨(dú)立,可以單獨(dú)解釋。

例如,下圖中前兩個(gè)題目屬于相互依賴(lài)集,最后一個(gè)為題目屬于獨(dú)立集。

圖片

多圖推理綜合評(píng)估

研究團(tuán)隊(duì)在MV-MATH上進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)測(cè)了24個(gè)主流開(kāi)源和閉源多模態(tài)大模型。

實(shí)驗(yàn)結(jié)果表明,即使是最先進(jìn)的MLLM在多視覺(jué)數(shù)學(xué)任務(wù)中也面臨著巨大的挑戰(zhàn),其表現(xiàn)與人類(lèi)能力之間存在顯著差距。

圖片

從模型總體表現(xiàn)來(lái)看,在MV-MATH數(shù)據(jù)集上,表現(xiàn)最好的模型是Claude-3.5,其整體準(zhǔn)確率為33.9%,遠(yuǎn)低于人類(lèi)水平(76.5%)。

其他表現(xiàn)較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開(kāi)源模型LLaVA-OneVision-Chat-72B取得了26.2%的準(zhǔn)確率,僅次于Qwen-vl-max。類(lèi)o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說(shuō)明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外,模型在不同領(lǐng)域的表現(xiàn)也存在差異。

在算術(shù)領(lǐng)域,Claude-3.5的準(zhǔn)確率最高,達(dá)到54.2%;而在組合幾何領(lǐng)域,其準(zhǔn)確率僅為27.0%。

這表明MLLM在處理需要復(fù)雜圖像理解和推理的領(lǐng)域時(shí)存在較大困難。

與此同時(shí),團(tuán)隊(duì)針對(duì)題目難度模型提示、圖像關(guān)聯(lián)性以及圖像輸入方式四個(gè)維度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了更細(xì)粒度的分析。

圖片

具體而言,如圖中(a)所示,在不同難度級(jí)別上,模型的表現(xiàn)也有所不同。

在簡(jiǎn)單問(wèn)題上,GPT-4o的準(zhǔn)確率最高,達(dá)到40.3%;而在中等難度問(wèn)題上,Claude-3.5的準(zhǔn)確率最高,為37.5%。在困難問(wèn)題上,所有模型的表現(xiàn)都大幅下降,Claude-3.5的準(zhǔn)確率僅為26.6%。

而圖(b)表明,對(duì)于閉源模型,CoT和few-shot對(duì)MV-MATH多圖推理并不一定有效。對(duì)于所有的開(kāi)源模型,CoT和few-shot都會(huì)降點(diǎn)。

在圖像關(guān)聯(lián)性上,MD子集包含相互依賴(lài)的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數(shù)模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達(dá)到 7.8%。

這一觀察結(jié)果表明,大多數(shù)模型在處理數(shù)學(xué)場(chǎng)景中的相互依賴(lài)圖像任務(wù)上面臨挑戰(zhàn),凸顯了MLLM在處理數(shù)學(xué)多視覺(jué)環(huán)境中跨圖像相互依賴(lài)關(guān)系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結(jié)果一致表明,在所有測(cè)試模型中,圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入,這表明保留圖像的位置和順序信息對(duì)于多圖推理至關(guān)重要。

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺(jué)信息在增強(qiáng)模型解釋和處理復(fù)雜數(shù)學(xué)場(chǎng)景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強(qiáng)大性能。然而目前視覺(jué)大模型的慢推理仍然沒(méi)有一個(gè)固定的范式。

本研究通過(guò)大量實(shí)驗(yàn)證實(shí)了MLLM在復(fù)雜多視覺(jué)感知與圖像交叉理解上仍然存在困難,在多圖數(shù)學(xué)推理上存在極大的改進(jìn)空間。

本研究旨在全面評(píng)估MLLM在多視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力,推動(dòng)多圖數(shù)學(xué)推理的進(jìn)一步發(fā)展。

論文鏈接:https://arxiv.org/abs/2502.20808
主頁(yè)鏈接:https://eternal8080.github.io/MV-MATH.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-07-16 09:18:06

2023-04-18 10:12:06

模型解碼

2025-06-09 08:30:00

2025-07-21 08:51:00

2025-11-20 12:51:07

2025-06-24 11:50:37

模型數(shù)據(jù)開(kāi)源

2025-07-07 08:42:00

大模型AIChatGPT

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2024-06-11 08:55:00

2024-06-05 09:22:43

2024-08-12 08:20:00

自動(dòng)化研究

2025-05-29 09:08:00

模型推理AI

2025-05-09 08:40:00

2021-10-21 15:20:35

智能自動(dòng)化Science

2024-09-14 12:52:59

個(gè)性化定位大模型

2025-10-30 16:04:35

AI模型機(jī)器人

2025-09-08 18:08:28

AIClockBenchAGI

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-08-08 13:04:28

2025-10-11 09:20:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

永久91嫩草亚洲精品人人| 日韩不卡视频在线观看| 成人免费的视频| 热久久免费国产视频| 亚洲精品电影院| 国产一区二区三区免费在线| 亚洲成人av电影| 日韩久久在线| 亚洲精品无amm毛片| 日韩中文字幕区一区有砖一区| 久久黄色av网站| 中文成人无字幕乱码精品区| 国产伊人久久| 午夜视频一区在线观看| 亚洲午夜激情| 日本韩国一区| 国产ts人妖一区二区| 国产精品久久中文| 男人的天堂一区| 久久久久久久久丰满| 亚洲人成免费电影| 国产一级免费片| 亚洲伦理网站| 色噜噜狠狠色综合中国| 国产一二三区在线播放| 免费在线黄色影片| 成人激情免费电影网址| 91精品久久久久久久久久入口| 在线观看日韩中文字幕| 午夜精品偷拍| 久久综合网hezyo| 无码人妻丰满熟妇啪啪欧美| 欧美日韩看看2015永久免费| 日韩亚洲欧美高清| 天堂在线中文在线| 日韩一级二级| 在线亚洲人成电影网站色www| 和岳每晚弄的高潮嗷嗷叫视频| 麻豆视频在线| 国产精品久久久久影院色老大| 久久久福利视频| 欧美特黄一级视频| 成人精品视频一区二区三区 | 美女100%一区| 午夜精品爽啪视频| 日本xxxxxxxxxx75| 国精一区二区三区| 亚洲一区二区高清| 老司机午夜免费福利视频| 国产视频在线播放| 国产精品国产三级国产aⅴ中文| 青青影院一区二区三区四区| 欧美孕妇孕交| 国产亚洲人成网站| 日韩电影免费观看在| 国产精品久久一区二区三区不卡| 久久精品夜夜夜夜久久| 国产综合 伊人色| 神马午夜电影一区二区三区在线观看| 高清av一区二区| 国产伦精品一区二区三区照片91| 亚洲精品字幕在线| 99精品欧美一区| 免费看成人午夜电影| 日产精品久久久久久久性色| 久久久久久久久久久电影| 蜜桃传媒视频麻豆第一区免费观看| 日韩a级作爱片一二三区免费观看| 久久综合国产精品| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 精品欧美aⅴ在线网站 | 日韩黄色免费电影| 国产精品三级美女白浆呻吟| 亚洲系列第一页| 国产乱码字幕精品高清av| caoporn国产精品免费公开| 不卡的日韩av| 91蝌蚪国产九色| 亚洲国产欧美日韩| 尤物yw193can在线观看| 老司机亚洲精品| 久久精品国产久精国产一老狼| jizz18女人高潮| 91精品国产自产拍在线观看蜜| 欧美精品生活片| 日韩大片免费在线观看| 日一区二区三区| 91网站在线看| 无码国产色欲xxxx视频| 久久97超碰国产精品超碰| 91久久综合亚洲鲁鲁五月天| 亚洲国产精品欧美久久| 久久色成人在线| 最新国产精品久久| 97在线视频免费观看完整版| 91成人在线免费观看| www.桃色.com| 米奇777超碰欧美日韩亚洲| 久久精品视频导航| 国产超碰人人爽人人做人人爱| 麻豆国产精品一区二区三区| 国内一区二区三区在线视频| 69久久夜色| 大桥未久av一区二区三区| xxww在线观看| 色天天色综合| 美女av一区二区| 国产午夜麻豆影院在线观看| 国产黄色精品网站| 婷婷五月色综合| 色a资源在线| 欧美日韩一区二区电影| 午夜视频在线观看国产| 亚洲一区在线| 国产精品一区二区久久| 天堂成人在线| 91原创在线视频| 免费观看国产视频在线| 久久电影tv| 亚洲国产成人久久| 日韩欧美综合视频| 免费观看成人av| 美乳视频一区二区| ririsao久久精品一区| 91.麻豆视频| 中文字幕第24页| 国产精品女主播一区二区三区| 97超碰人人模人人爽人人看| 日本在线人成| 欧美影视一区在线| 日韩网站在线播放| 亚洲一级高清| 成人资源视频网站免费| 91三级在线| 91精品国产综合久久福利| 手机看片国产日韩| 丝瓜av网站精品一区二区 | 91av在线免费观看视频| 成人午夜免费在线观看| 亚洲美女偷拍久久| 国产高清999| 亚洲成人国产| 91免费版网站入口| 国产乱色在线观看| 69久久夜色精品国产69蝌蚪网| 欧美老女人性生活视频| 日韩在线一区二区三区| 日本一区视频在线观看免费| 午夜日韩成人影院| 亚洲图片欧洲图片av| 中文字幕免费观看| 国产亚洲欧美日韩日本| www.色就是色| 成人看的羞羞网站| 91精品国产综合久久香蕉最新版 | 欧美日韩日本国产| 中文字幕在线免费看线人| 国产精品资源| 日韩av不卡播放| 日韩国产91| 欧美成人午夜免费视在线看片| 99久久久无码国产精品免费| 一区二区三区欧美在线观看| 四虎精品一区二区| 在线一区视频| 亚洲精品欧美精品| 成人乱码手机视频| 欧美国产精品人人做人人爱| 老熟妇高潮一区二区高清视频 | 一级片在线免费播放| 国产精品丝袜91| 亚洲妇熟xx妇色黄蜜桃| 黄色欧美成人| 日韩福利一区二区三区| 最新亚洲国产| 久久久久久久国产| 全色精品综合影院| 欧美精品精品一区| 精品少妇爆乳无码av无码专区| 91在线精品秘密一区二区| 亚洲 欧美 日韩系列| 亚洲乱码在线| 精品在线不卡| 亚洲精品毛片| 国内伊人久久久久久网站视频 | 成人福利一区| 国产精品爱久久久久久久| 国产在线更新| 日韩精品中文字幕在线| 在线视频欧美亚洲| 亚洲国产一区视频| 夜夜春很很躁夜夜躁| 国产精品亚洲专一区二区三区 | 亚洲欧洲在线播放| 国产精品玖玖玖| 五月婷婷另类国产| 亚洲欧洲综合网| 91首页免费视频| 中文字幕丰满乱码| 久久国产精品99国产| 天天做天天爱天天高潮| 婷婷精品在线观看| 91蜜桃网站免费观看| 日韩制服诱惑| 久久久久中文字幕2018| 91caoporn在线| 亚洲精品国精品久久99热 | 久久夜色精品亚洲| 亚洲欧洲国产日本综合| 亚欧洲乱码视频| 成人精品亚洲人成在线| 欧美丝袜在线观看| 日日摸夜夜添夜夜添精品视频| 久久人人爽人人爽人人av| 日韩精品久久| 裸模一区二区三区免费| 亚洲日本va午夜在线电影| 国产欧美精品一区二区三区介绍| www视频在线观看| 久久99精品久久久久久青青91| www.视频在线.com| 亚洲欧美制服丝袜| 香蕉久久一区二区三区| 日韩免费性生活视频播放| 在线观看中文字幕码| 91久久久免费一区二区| 一区二区三区视频免费看| 一区二区三区四区视频精品免费| jizz日本在线播放| 久久精品亚洲国产奇米99| 一级特级黄色片| 99re这里只有精品6| 稀缺小u女呦精品呦| 国产精品99久久久久久久女警| 天天摸天天舔天天操| 蜜臀av一级做a爰片久久| 国产日韩成人内射视频| 久久青草久久| 国产精品免费观看久久| 亚洲综合99| 亚洲不卡中文字幕无码| 日韩午夜av在线| 黄色一级片在线看| 一区二区三区导航| 成年人视频观看| 午夜亚洲视频| 女性隐私黄www网站视频| 久久九九免费| 尤蜜粉嫩av国产一区二区三区| 日本不卡视频在线| www.国产视频.com| 国产一区二区三区免费| 日本女人黄色片| 粉嫩一区二区三区在线看| 国产高清成人久久| 91在线云播放| 国产1区2区在线观看| 国产精品卡一卡二| 精品国产视频在线观看| 国产一区日韩二区欧美三区| 日本中文字幕观看| 国产一区二区美女诱惑| 成人啪啪18免费游戏链接| 99久久精品情趣| 亚洲激情视频小说| 国产精品美女久久久久aⅴ| 夫妻性生活毛片| 亚洲制服欧美中文字幕中文字幕| 亚洲精品午夜久久久久久久| 欧美视频免费在线| 中国女人一级一次看片| 69成人精品免费视频| 成人毛片视频免费看| 日韩精品久久久久| 成人免费黄色网页| 色综合视频网站| 成人勉费视频| 成人中心免费视频| 黄色成人美女网站| 亚洲欧美日韩精品在线| 一区二区自拍| 成人性生交免费看| 国产98色在线|日韩| 玖玖爱在线观看| 亚洲柠檬福利资源导航| 国产精品视频久久久久久久| 在线观看精品一区| 亚洲卡一卡二卡三| 亚洲午夜色婷婷在线| 在线视频观看国产| 日韩av手机在线| 午夜视频在线观看精品中文 | 日韩一级片免费在线观看| 亚洲老头老太hd| 1024在线播放| 国产成人精品视频在线观看| 欧美欧美在线| 视频一区免费观看| 亚洲精品免费观看| 午夜精品久久久久久久99热影院| 成人av在线资源网站| 2017亚洲天堂| 欧美视频在线看| 国产成人精品av在线观| 一区二区三区久久精品| 亚洲色图欧美视频| 久久精品国产欧美激情| 伊人久久国产| 成人在线免费观看一区| 色喇叭免费久久综合网| 草草久久久无码国产专区| 国产在线一区二区| 国产午夜福利一区| 欧美日韩国产丝袜另类| 国产成人精品一区二区无码呦| 中文字幕久热精品在线视频| 98色花堂精品视频在线观看| 3d动漫啪啪精品一区二区免费| 欧美日韩激情| 丰满人妻中伦妇伦精品app| 豆国产96在线|亚洲| 熟女av一区二区| 欧美日韩久久久一区| 蝌蚪视频在线播放| 97香蕉久久夜色精品国产| 亚洲综合影院| www.一区二区.com| 国产一区不卡精品| 国产精品国产精品88| 欧美日韩一二区| 成年人视频网站在线| 欧美中在线观看| 亚洲精品456| 日韩av片在线看| 99精品国产99久久久久久白柏| 中文在线观看免费网站| 精品国产一区a| 欧美xxxbbb| 国产成人免费电影| 亚洲高清网站| 加勒比精品视频| 精品成人av一区| 亚洲三级黄色片| 秋霞av国产精品一区| 亚洲最好看的视频| 日本精品www| 国产清纯美女被跳蛋高潮一区二区久久w | 51国产成人精品午夜福中文下载| 亚洲精品国产偷自在线观看| 国产老头和老头xxxx×| 一区二区三区中文在线| 亚洲AV无码国产精品午夜字幕 | 国产又黄又猛又粗又爽| 亚洲欧美日韩成人| 经典三级一区二区| 日韩国产一区久久| 麻豆精品一区二区综合av| 精品在线观看一区| 日韩一区二区三区观看| 久久99亚洲网美利坚合众国| 国产精品一区二区三区观看| 一区二区国产精品| 免费看污片网站| 欧美日精品一区视频| av超碰免费在线| 国产一区再线| 日韩—二三区免费观看av| 中文字幕第69页| 日韩午夜精品电影| 欧美办公室脚交xxxx| 日本一区免费看| 国产伦精品一区二区三区在线观看 | 九九视频免费观看视频精品| 丰满少妇在线观看| 一区二区三区四区视频精品免费| 无码精品一区二区三区在线 | 美女日批免费视频| wwwwww.欧美系列| 一级黄色片视频| 91精品国产高清自在线 | 97se亚洲国产综合在线| 亚洲精品久久久久久久蜜桃| 久久久av亚洲男天堂| 国产精品一线| 黄大色黄女片18第一次| 亚洲成a人v欧美综合天堂下载| 高清中文字幕一区二区三区| 亚洲v日韩v综合v精品v| 国产精品日本| 无码黑人精品一区二区| 日韩精品在线视频观看| 国产精品亚洲欧美日韩一区在线| 日韩欧美视频网站| 国产精品成人免费在线| 亚洲 美腿 欧美 偷拍| 91精品久久久久久久久青青| 国产精品美女| 欧美久久久久久久久久久久| 在线电影欧美日韩一区二区私密| 九色丨蝌蚪丨成人|