精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小學數學題,大模型集體不及格!達摩院推出新基準VCBench

人工智能 新聞
來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態數學推理任務而設計的綜合基準。

大模型做數學題的能力很強,可是它們真的能夠理解基本的數學原理嗎?

拿小學生的數學題進行測試,人類平均得分為93.30%,而大模型的表現讓人意外:

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的綜合表現最佳,但仍未突破50%準確率。

why?

因為大模型可能并不能真正理解基本數學元素和視覺概念。

現有的視覺數學基準測試主要集中在知識導向的評估上,容易受到大型語言模型中預先嵌入的知識的影響。

上述結論來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態數學推理任務而設計的綜合基準。

該基準主要面向小學 1-6 年級的數學問題,即并不涉及復雜的數學或幾何推理,但高度依賴于顯式的視覺依賴性的問題。

解決這種問題,需要模型識別和整合圖像中的視覺特征,并理解不同視覺元素之間的關系。

圖片

△論文標題:Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

VCBench現已全面開源,代碼可見文末。

強調vision-centric而非knowledge-centric

與以往側重知識評估的基準不同,VCBench更強調視覺為核心的評測。

它主要針對無需專業知識、而是依賴于對數學圖像和概念的常見感知推理的問題。

這種方法與兒童的學習路徑相符——他們首先掌握的是視覺推理能力,隨后才逐步獲取領域特定的知識

圖片

聚焦多圖推理

VCBench聚焦于多圖(interleave)的問題輸入形式,每個問題平均包含3.9張圖像,顯著高于現有的多圖Benchmark。

這種設計要求模型能夠顯式地整合來自多幅圖像的視覺線索,并推理這些元素如何相互作用,這更符合現實世界中的情境——信息往往分散在多個視覺輸入之中

圖片

全面評估純視覺推理的多種能力

VCBench全面地評估了純視覺推理的多種能力,涵蓋了六大核心認知領域:時間與日歷空間與位置感幾何與形狀物體與運動推理與觀察以及組織與模式

此外,它還評估了五種不同的認知能力:時間推理幾何推理邏輯推理空間推理以及模式識別

圖片

綜合實驗分析結果

在VCBench的綜合實驗測試中,人類平均得分93.30%,顯著優于所有AI模型,表明當前任務對人類而言可解,但對AI系統仍具挑戰性;

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表現最佳,但仍未突破50%準確率;

開源模型表現整體趨勢低于閉源模型,且表現參差不齊,可能與架構差異、多模態整合程度或訓練數據質量有關;

大模型在推理、找規律一類問題上表現較好,但在空間幾何表現很差,說明在由小學數學題構建的評測基準中,大模型的邏輯推理能力是過剩的,但是視覺和幾何感知則嚴重不足。

圖片

單圖實驗對照結果

VCBench的一個核心目標是評估模型多圖像依賴的推理能力,但為了驗證模型是否真正具備跨圖像組合推理(compositional reasoning)而非依賴單圖優化,需引入單圖實驗作為對照。

如下圖所示,將文字和圖片整合成一張大圖。

圖片

單圖和多圖結果對比表明,除專為多圖設計的模型外,大多數模型在單圖場景下表現顯著優于多圖(平均提升42.3%)。

例如,Emu2-Chat單圖性能飆升281.5%,Qwen-VL-Max提升21.3%,說明常規模型更擅長從孤立圖像提取信息,但缺乏跨圖像關聯和時序推理等關鍵能力。

圖片

思維鏈(CoT)對模型性能的影響分析

VCBench團隊在三個閉源模型上對比了加入CoT以后對模型性能的影響,得到如下結論:

1、在需要多步邏輯推理的任務中(如模式識別、幾何推理),CoT能帶來顯著性能提升(如Qwen-VL-Max在reasoning任務上提升40%),說明通過顯式分解推理步驟,幫助模型更好地整合視覺和語言信息,減少邏輯跳躍錯誤。

2、效果具有任務依賴性:對感知型任務(如日歷讀取、方向判斷)效果有限甚至產生干擾。這類任務更依賴直接視覺感知而非分步推理,CoT的中間步驟反而可能降低效率。

圖片

錯誤類型分布分析

錯誤類型可分為以下5種:

  • 視覺感知錯誤:模型對視覺內容的誤讀或未能準確感知;
  • 計算錯誤:算術計算過程中的失誤;
  • 上下文誤讀:模型錯誤解讀文本內容;
  • 邏輯錯誤:推理過程中的出錯;
  • 答案整合錯誤:未能直接回答問題或提供多個相互沖突的答案。

VCBench團隊對四個頂尖模型的所有錯題進行了手動錯誤分類,從而能夠精準識別每個模型在不同錯誤類別中的相對弱點。

圖片

通過分析,得到了如下結論:

1、視覺感知錯誤在所有模型中占比最高,是當前多模態模型最薄弱的環節。所有模型的視覺感知錯誤占比均超過50%,其中Gemini2-Flash高達62%。這表明基礎視覺理解能力仍是當前多模態模型的主要瓶頸。

2、計算錯誤(4-7%)和上下文誤解錯誤率普遍較低(3-6%),其中Gemini2-Flash(3%)和Claude(4%)表現最佳,而QVQ(6%)略高,可能反映其存在過度推理傾向。

3、邏輯推理能力在不同模型之間存在顯著差異。Claude的邏輯錯誤率最高(33%),這反映了其推理穩定性在本基準中欠佳。

4、答案整合方面,GPT-4o的答案整合錯誤率最高(23%),可能因其探索性推理產生多個答案而犧牲了響應規范性。

論文鏈接:http://arxiv.org/abs/2504.18589數據倉庫:https://huggingface.co/datasets/cloudcatcher2/VCBench代碼:https://github.com/alibaba-damo-academy/VCBench網頁:https://alibaba-damo-academy.github.io/VCBench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-07-05 09:57:11

2025-07-10 08:52:00

2018-06-07 10:34:22

開源DFSMN語音識別

2025-05-30 09:17:00

2024-07-16 13:24:38

2022-04-12 14:36:58

達摩院訓練模型

2025-09-24 13:04:01

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2023-06-06 14:16:06

ChatGPTAI

2025-03-11 13:49:20

2025-07-08 09:07:00

2023-06-15 13:45:41

模型AI

2025-02-08 14:10:00

模型系統AI

2017-04-11 09:33:12

JS面試題應聘者

2024-11-12 09:14:52

2025-04-18 09:13:00

2021-01-13 12:39:46

科技趨勢電子器件量子霸權

2025-10-20 09:12:00

2024-08-07 14:40:00

AI數據
點贊
收藏

51CTO技術棧公眾號

国产视频亚洲| 在线不卡一区| 国产蜜臀av在线一区二区三区| 国产精品88a∨| 婷婷激情四射网| aaa国产精品视频| 欧美色图在线视频| 一级做a爰片久久| 人妻91麻豆一区二区三区| 久久婷婷av| 欧美激情a∨在线视频播放| 右手影院亚洲欧美| 国产亚洲亚洲国产一二区| 亚洲va中文字幕| 五月天久久综合网| 亚洲国产精品国自产拍久久| 日本女优在线视频一区二区| 欧美黑人一级爽快片淫片高清| 亚洲无人区码一码二码三码的含义| 国产剧情一区二区在线观看| 色婷婷久久99综合精品jk白丝| 成人手机在线播放| aaa在线观看| 99久久国产综合色|国产精品| 国产中文欧美精品| 69亚洲精品久久久蜜桃小说| 国产精品地址| 九九综合九九综合| 国产麻豆a毛片| 欧美丝袜丝交足nylons172| 亚洲成人免费在线视频| 一个人看的视频www| 日本成人伦理电影| 黑人狂躁日本妞一区二区三区 | 亚洲午夜一区二区三区| 伊人久久婷婷色综合98网| 欧美日韩影视| 欧美日韩亚洲一区二| 成人中文字幕+乱码+中文字幕| 中日韩黄色大片| 国产精品久久| 精品国产视频在线| 少妇人妻好深好紧精品无码| 丝袜连裤袜欧美激情日韩| 日韩欧美在线不卡| 欧美一级免费在线| 国产精品国产亚洲精品| 欧美人与性动xxxx| 在线观看国产中文字幕| 美女网站视频一区| 欧美最新大片在线看| 午夜精品久久久内射近拍高清| 999av小视频在线| 亚洲午夜免费视频| 搞av.com| 秋霞伦理一区| 色综合久久66| 黄色一级二级三级| 成人自拍视频网| 欧美日本在线观看| 91丨porny丨九色| 成人爽a毛片免费啪啪红桃视频| 精品日本一线二线三线不卡| 国产a√精品区二区三区四区| 在线日韩成人| 日韩精品日韩在线观看| 国产sm调教视频| 日韩大片在线观看| 欧美成人剧情片在线观看| 久久国产露脸精品国产| 亚洲麻豆视频| 国产激情999| 国产精品女同一区二区| 国产乱码精品一区二区三区av| 成人av片网址| 水莓100国产免费av在线播放| 久久午夜羞羞影院免费观看| 亚洲精品9999| 先锋影音在线资源站91| 午夜久久久久久| 大香煮伊手机一区| 亚洲精品tv| 欧美精品一区男女天堂| 无码人妻精品一区二区三应用大全| 成人情趣视频网站| 色在人av网站天堂精品| 久久国产精品免费看| 男女男精品网站| 翡翠波斯猫1977年美国| 精品99又大又爽又硬少妇毛片| 亚洲欧洲日产国码二区| 国产免费黄色一级片| av成人免费看| 亚洲成人av在线| 国产无遮挡在线观看| 女生裸体视频一区二区三区| 欧美诱惑福利视频| 国产免费久久久| 久久久久一区二区三区四区| 青青草原网站在线观看| 中文字幕高清在线播放| 91精品国产综合久久小美女 | 99国产精品久久久久久久久久久 | 欧美黄色aaaa| 日韩av电影国产| 精品国自产在线观看| 久久男人中文字幕资源站| 潘金莲一级淫片aaaaaa播放1| 天堂中文av在线资源库| 欧美一级视频精品观看| 国产高清一区二区三区四区| 伊人精品在线| 亚洲一区中文字幕在线观看| 国产精品一区二区婷婷| 婷婷综合五月天| 天天做天天干天天操| 天天躁日日躁狠狠躁欧美巨大小说| 久久九九亚洲综合| aaa在线视频| 99re这里都是精品| 男人日女人的bb| 国产精品高潮久久| 亚洲欧美激情一区| 日韩欧美a级片| 国产成人福利片| 特级黄色录像片| 日本午夜精品久久久久| 在线播放国产一区二区三区| 日本中文字幕网| 成人免费视频caoporn| 国产欧美自拍视频| 成人豆花视频| 日韩在线视频播放| 波多野结衣视频在线看| 91日韩在线专区| 日韩av综合在线观看| aaa国产精品视频| 欧美激情综合色综合啪啪五月| 国产欧美日韩成人| 亚洲女子a中天字幕| 国产黑丝在线视频| 欧美精品99| 97se亚洲综合| 国产又色又爽又黄刺激在线视频| 欧美大片拔萝卜| 欧美成欧美va| 成人午夜精品在线| 国产欧美日韩网站| 久久aimee| 91成品人片a无限观看| 五月婷婷丁香花| 色综合视频在线观看| 波多野结衣一本| 午夜一区在线| 视频一区视频二区视频三区视频四区国产 | 又骚又黄的视频| 国产精品九色蝌蚪自拍| 亚洲涩涩在线观看| 欧美高清日韩| 国内精品一区二区| 欧美电影免费观看网站| 永久免费看mv网站入口亚洲| 国产一区二区在线不卡| 一区二区三区免费| av网页在线观看| 天堂一区二区在线免费观看| 亚洲v欧美v另类v综合v日韩v| 欧美a视频在线| 久99久在线视频| 四虎永久在线观看| 欧美在线视频日韩| 欧美人妻精品一区二区三区| 99精品国产一区二区三区不卡| 国产日韩一区二区在线| 日韩欧美视频在线播放| 亚洲影院污污.| 黄色在线网站噜噜噜| 伊人久久精品视频| 国内老熟妇对白xxxxhd| 精品久久久久久久中文字幕| 手机看片国产日韩| 国产91精品精华液一区二区三区| 青青草原成人网| 色综合五月天| 国产伦理久久久| 欧美暴力调教| 久久久久久国产| 成人高潮成人免费观看| 日韩免费看网站| 中文字幕一区二区人妻视频| 亚洲精品第1页| 女人又爽又黄免费女仆| 国产美女精品人人做人人爽 | 芒果视频成人app| 久久夜色精品国产| 日韩二区三区| 日韩视频在线你懂得| 一二三区免费视频| 亚洲一区二区三区四区在线观看 | 91精品欧美一区二区三区综合在| 日韩乱码在线观看| 最近日韩中文字幕| 国产特黄级aaaaa片免| 国产高清不卡一区| 亚洲欧洲日本精品| 香蕉久久久久久久av网站| 佐佐木明希av| 日韩成人精品一区| 欧美久久久久久一卡四| 成人台湾亚洲精品一区二区| 成人中文字幕+乱码+中文字幕| 欧美性suv| 亚洲91av视频| 四季久久免费一区二区三区四区| 伊人久久精品视频| 黄色片在线看| 日韩精品在线免费观看视频| 精品人妻aV中文字幕乱码色欲| 在线视频欧美区| 欧美性猛交bbbbb精品| 亚洲v日本v欧美v久久精品| 青青草手机视频在线观看| 中文字幕在线不卡一区 | 9999国产精品| 日韩精品伦理第一区| 婷婷激情久久| 久久久一本精品99久久精品| 成功精品影院| 成人av片网址| 亚洲一二三区视频| 91青青草免费观看| 欧美1区2区3| 亚洲综合日韩在线| 91嫩草国产线观看亚洲一区二区 | 欧美极品美女电影一区| 97caopron在线视频| 久久精品电影一区二区| 免费观看在线黄色网| 日韩中文字幕免费| 丝袜美腿美女被狂躁在线观看| 一区三区二区视频| 亚洲精品传媒| 久久久97精品| 污片在线免费观看| 久久久久国产精品免费| www欧美xxxx| 91精品国产乱码久久久久久久久| a√中文在线观看| 69av成年福利视频| 超碰国产一区| 国产精品久久久久91| 国产亚洲人成a在线v网站 | 天天插天天操天天射| 日本aⅴ免费视频一区二区三区 | 成人精品小蝌蚪| 性农村xxxxx小树林| 91亚洲国产成人精品一区二三| 中国极品少妇videossexhd| 99在线热播精品免费| 强伦人妻一区二区三区| 国产欧美日韩中文久久| 国产麻豆a毛片| 亚洲综合一区二区| 在线观看精品国产| 在线观看国产精品网站| 国产精品欧美亚洲| 精品不卡在线视频| 久久精品国产亚洲a∨麻豆| 日韩中文字幕在线免费观看| 中文字幕伦理免费在线视频 | av一级黄色片| 亚洲国产精品yw在线观看| 美女做暖暖视频免费在线观看全部网址91 | 麻豆av在线播放| 欧美在线激情视频| 玖玖精品在线| 水莓100在线视频| 7777精品伊人久久久大香线蕉超级流畅| 国产免费av电影| 亚洲国产精品电影| h视频在线免费| 欧美日韩国产成人| 欧洲精品一区二区三区| 亚洲自拍高清视频网站| 四虎影视精品| 一级一片免费播放| 一区二区91| 午夜剧场在线免费观看| 波多野结衣中文一区| 麻豆视频免费在线播放| 亚洲一区免费视频| 中国a一片一级一片| 精品人在线二区三区| 91caoporn在线| 91av在线视频观看| 激情五月综合婷婷| 日本欧美色综合网站免费| 国产综合精品| 日韩av.com| 久久免费偷拍视频| 国产无码精品在线观看| 欧美欧美欧美欧美| 国产资源在线看| 97婷婷涩涩精品一区| 国产精品一区二区美女视频免费看| 欧美精品一区二区三区四区五区 | 91亚洲欧美激情| 日韩av网址在线| 亚洲男同gay网站| 国产一区二区丝袜| 精品高清久久| 欧美亚洲一二三区| 国产成人福利片| 中文字幕另类日韩欧美亚洲嫩草| 欧美性生交片4| 深夜福利在线观看直播| 久久99久久99精品免观看粉嫩| 国产一区二区色噜噜| 日韩国产高清一区| 男人的天堂成人在线| 女同性恋一区二区三区| 一区二区三区欧美| 国产黄色av网站| 久久色精品视频| 久久久国产精品网站| 日韩国产欧美一区| 免费在线亚洲| 免费看污黄网站在线观看| 黄色一区二区在线| 狠狠躁夜夜躁av无码中文幕| 欧美精品免费在线观看| 亚洲热av色在线播放| 亚洲欧美日产图| 日本不卡一区二区三区| mm131丰满少妇人体欣赏图| 欧美三级xxx| 你懂的在线播放| 奇门遁甲1982国语版免费观看高清 | 丝袜美腿亚洲综合| 三上悠亚ssⅰn939无码播放| 色哟哟在线观看一区二区三区| 日本私人网站在线观看| 日本精品一区二区三区在线播放视频| 欧美成人午夜77777| 久在线观看视频| 久久天天做天天爱综合色| 黄色片中文字幕| 伊人激情综合网| 亚洲精品一区av| 国产香蕉一区二区三区| 国产激情一区二区三区桃花岛亚洲| 欧产日产国产v| 亚洲成人a**站| 日本久久免费| 亚洲精品9999| 国产伦精品一区二区三区在线观看| 日韩欧美中文字幕视频| 日韩欧美国产精品一区| 国产在线88av| 日韩av一级大片| 久久电影网电视剧免费观看| 久久免费看少妇高潮v片特黄| 欧美成人三级在线| 交100部在线观看| 日韩成人在线资源| 久久国产精品露脸对白| 中文字幕在线观看成人| 亚洲国产高潮在线观看| 外国成人直播| 特级西西444| 91视频91自| 91亚洲精品国偷拍自产在线观看 | 中文字幕中文字幕一区三区| 国产精品456| 亚洲精品中文字幕乱码三区91| 丝袜美腿精品国产二区| av成人app永久免费| 99热成人精品热久久66| 国产精品国产三级国产aⅴ原创 | 99久久精品国产一区二区三区 | 日韩欧美激情在线| 性孕妇free特大另类| 在线视频一区观看| 99国产欧美另类久久久精品| 11024精品一区二区三区日韩| 久久久久久久国产| 日韩一区二区在线免费| 国产伦精品一区二区三区精品| 91电影在线观看| 人人超在线公开视频| 午夜精品一区二区在线观看 | 欧美α欧美αv大片| 九九热线视频只有这里最精品| 国产一级黄色录像片| 国产日韩欧美高清在线| 黄色片一区二区三区| 成人黄色av播放免费| 久久都是精品| 精品无码黑人又粗又大又长| 日韩中文字幕网|