精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 Spotlight | 多模態大模型暴露短板?EMMA基準深度揭秘多模態推理能力

人工智能 新聞
當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的復雜多模態推理!一項最新研究推出的 EMMA 基準測試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。

「三個點電荷 + Q、-2Q 和 + 3Q 等距放置,哪個向量最能描述作用在 + Q 電荷上的凈電力方向?」

圖片

在解這道題時,我們可以通過繪制受力分析草圖輕松解決。但即使是先進的多模態大語言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原則時,錯誤地判斷斥力的方向(例如,錯誤地將 + 3Q 對 + Q 的斥力方向判斷為右下方而非正確的左上方)。

這個看似簡單的物理問題,卻暴露了多模態大模型一個「致命缺陷」:當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的復雜多模態推理!一項最新研究推出的 EMMA 基準測試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。

目前該研究已被 ICML 2025 接收為 spotlight,代碼數據已全部開源!

圖片

  • 標題: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
  • 論文鏈接: https://www.arxiv.org/pdf/2501.05444
  • 項目主頁:https://emma-benchmark.github.io/
  • 代碼倉庫: https://github.com/EMMA-Bench/EMMA
  • 數據集: https://huggingface.co/datasets/luckychao/EMMA
  • 單位: 電子科技大學,中山大學,華盛頓大學,微軟,香港中文大學

目前已有多個模型 / 方法在 EMMA 上驗證其多模態推理能力,研究發現:即使最先進的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落后人類專家超 20%!

圖片

研究者們還邀請了人類專家完成題目,并對比了人類專家與 AI 模型的解題過程。可以看出人類專家在面對 EMMA 中的復雜問題時,傾向于借助簡潔的手繪草圖進行「視覺化思考和空間模擬」,高效地找到解題路徑。與之形成鮮明對比的是,模型(如 o3)則依賴于詳盡的、結構化的文本步驟進行推理。這種差異凸顯了當前 MLLMs 在處理多模態信息時,更偏向于運用其強大的語言邏輯能力進行處理,而較少展現出類人的、以視覺為核心的直觀洞察和靈活高效的解題策略。

圖片

EMMA:深度考量 MLLMs 的多模態推理極限

將文本與圖像信息有機結合、協同進行推理,是人類智能的一項核心能力。然而,多模態大語言模型是否真正具備這種深層次、非割裂的多模態推理能力,至今仍缺乏系統而深入的研究。當前的主流基準測試往往偏重于「文本主導」的推理過程,或僅需利用「淺層的視覺感知」而非「視覺推理」便可解決問題,難以全面衡量模型在復雜任務中對視覺與語言信息的整合能力,因而無法有效評估其真實的多模態理解與推理水平。

為應對這一挑戰,研究者們提出了 EMMA—— 一個專為評估 MLLMs 在數學、物理、化學和代碼這四大領域進行原生多模態推理而設計的增強型基準,具體如下圖所示。EMMA 中的任務要求高級的跨模態推理,這些問題無法通過在單一模態中獨立思考來解決,從而為 MLLMs 的推理能力提供了更嚴苛、更全面的「試金石」。

圖片

EMMA 不僅僅是一個新的評估數據集,它是一套精心設計的「考題」,旨在全面考察 MLLMs 在以下方面的能力:

  • 真正的多模態融合: EMMA 的首要標準是考驗模型是否能進行「真」多模態推理。這意味著問題必須同時深度依賴視覺信息(如圖表、示意圖、化學結構、代碼可視化)和文本信息(問題描述、邏輯條件)才能解決,從而檢驗模型在不同模態間無縫切換與深度整合的能力。
  • 跨學科的嚴峻挑戰: 為了全面評估模型的泛化能力,EMMA 覆蓋了數學、物理、化學和代碼這四大核心科學與工程領域。這些領域的問題本質上要求精確的邏輯演繹和對特定領域知識的運用,為 MLLMs 提供了復雜且多樣化的推理場景。
  • 細粒度能力診斷與性能極限探索: EMMA 不滿足于籠統的評分,而是為每個學科下的具體技能(例如,數學中的「2D 變換」、「3D 空間模擬」,物理中的「受力分析」、「場模擬」等,如上圖所示)提供了細致的分類。這種設計使得研究者能夠精確分析模型在特定推理環節上的優勢與不足,繪制出模型能力的「細粒度畫像」。

該研究具有以下幾個主要發現:

  • 整體表現堪憂: 即使最先進的模型(如 Gemini-2.5-pro-exp-03-25) ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落后人類專家超 20%。無論采用何種提示策略或計算擴展方式,模型都未能有效彌合與人類之間的差距。
  • 思維鏈 (CoT) 并非萬能藥: 盡管思維鏈提示在文本推理任務中表現出色,但在 EMMA 的多模態挑戰下,其對模型性能的提升有限,甚至對某些開源模型產生負面影響。
  • 測試時計算擴展效果不彰: 即使通過增加候選答案數量(如多數投票、Best-of-N,錦標賽策略)等方式擴展測試時的計算資源,也未能有效彌補模型在根本視覺推理能力上的缺陷。
  • 視覺推理是核心瓶頸: 錯誤分析表明,MLLMs 常常在需要精確空間模擬、多跳視覺推理以及視覺與文本信息整合的任務上失敗,尤其是在視覺輔助能極大簡化解題路徑的問題上。這進一步強調了需要開發新型視覺與語言深度融合的機制。

數據集構建:嚴謹篩選與細粒度剖析

EMMA 的構建過程經過精心設計,旨在確保其能夠有效評估深層多模態推理能力。

圖片

  • 數據來源與篩選: EMMA 包含從現有基準(如 MathVision, MathVista, OlympiadBench, MMMU 等)中通過嚴格篩選流程(如上圖所示,過濾掉僅憑文本或「文本 + 圖像描述」就能解決的問題)獲得的 992 個問題,并與相關領域專家合作手動構建了 1,796 個全新問題,總計 2,788 個問題。
  • 領域覆蓋與技能評估:

a.數學: 包含 2D 變換、3D 空間模擬、路徑追蹤、多跳視覺對象計數、模式推理等。

b.物理: 包含 3D 場模擬、圖表推理、路徑追蹤、多跳視覺推理等。

c.化學: 包含基于知識的計數、結構識別、反應模擬等。

d.代碼: 包含圖表選擇代碼、代碼選擇圖表、基于目標圖像修改代碼(提供或不提供原始圖像)等任務,側重數據可視化。

  • 精細化分類: 每個問題都被賦予了細致的技能標簽,以便對模型的各項能力進行深入分析。
  • 人工驗證與質量控制: 所有問題,特別是新構建的問題和分類標簽,都經過領域專家的嚴格審查或創建,以確保問題的質量、相關性以及對多模態推理能力的真實考察。

最終得到 EMMA 數據集的關鍵統計信息及數據分布如下:

圖片

實驗與結果:SOTA 模型面臨嚴峻考驗

研究團隊在 EMMA 上評估了 10 個 SOTA MLLMs,包括開源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和閉源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。

圖片

  • 普遍表現不佳: 所有模型在 EMMA 上的表現均不理想,與人類專家存在巨大差距,凸顯了當前模型在解決復雜多模態推理任務上的局限性。

  • CoT 效果分化: 對于閉源模型,CoT 提示通常能帶來性能提升;但對于開源模型,CoT 反而可能導致性能下降,這可能與模型未能有效利用語言輔助多模態推理有關。

圖片

  • 測試時計算擴展難補短板: 盡管采用多數投票、Best-of-N、錦標賽選擇等策略增加計算量能在一定程度上提升性能,但提升幅度有限,遠不足以彌合與人類水平的差距。這表明僅僅增加文本 CoT 的候選數量,難以彌補模型在視覺推理步驟上的根本性不足。

錯誤分析:視覺推理是核心癥結

圖片

  • 錯誤類型分析: 對 o1 模型 在 EMMA-mini 的數學和代碼部分的錯誤分析顯示,視覺推理錯誤占比最高(52.83%),其次是感知錯誤(30.19%),而文本推理錯誤和知識缺乏錯誤占比較小。這進一步證明視覺推理是主要的性能瓶頸。

圖片

  • CoT 對視覺密集型任務的負面影響: 雖然在「多跳計數」這類「語言可以輔助推理」的任務中,我們看到部分閉源模型在 CoT 的輔助下性能有所提升,但在如「2D 變換」這類「高度依賴視覺模擬和空間想象」的任務上,文本 CoT 甚至會對某些模型性能產生負面影響,這提示我們需要新的范式來改進視覺推理。

圖片

  • 實例分析: 一個典型的錯誤案例是,在判斷磁場力方向時,模型(o1)雖然知道應使用「右手定則」,但在模擬拇指指向時出錯,這源于其有限的視覺空間想象能力。

未來展望:跨模態智能

EMMA 基準系統性地揭示了當前多模態智能在跨越語言與視覺鴻溝時所面臨的具體挑戰與瓶頸,并通過設計精細的任務集合,為下一代跨模態模型的發展明確了實踐方向與關鍵突破點。

盡管當前的多模態模型取得了顯著的進步,但仍面臨著兩個重要的技術瓶頸:

  • 一方面,由于視覺和文本之間信息密度和抽象層次的巨大差異,多模態模型在預訓練階段難以充分實現模態特征的精準對齊和融合,嚴重制約了模型后續在推理階段的表現;
  • 另一方面,目前模型普遍缺乏視覺信息生成與動態交互的能力,難以實現真正意義上的跨模態互動與視覺狀態的實時更新。

因此,未來多模態智能的發展趨勢必將從現有的語言主導推理模式逐步轉向更深入的模態間動態協作模式。具體而言,下一代模型不僅需要具備視覺動作推理(如調用圖像編輯工具輔助推理)的能力,更要實現視覺狀態的主動更新和跨模態反饋,從而高效地驅動下一輪語言 - 視覺交互推理。EMMA 所揭示的這些具體挑戰與路徑,將有助于研究人員更清晰地設計新型多模態模型結構與訓練策略,真正推動跨模態智能向更高層次邁進。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 08:21:16

2024-08-08 13:04:28

2025-11-11 08:45:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-11-05 08:51:33

2023-08-30 13:23:00

模型訓練

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態大模型Python

2025-06-10 03:30:00

2023-12-28 17:31:44

PixelLM性能模型

2025-06-03 08:30:00

模型生成AI

2024-09-25 14:53:00

2025-06-27 08:40:00

模型推理AI

2025-10-15 14:02:29

AI模型自動駕駛

2025-07-04 16:50:07

工具AI模型

2023-05-08 10:14:07

模型AI

2025-03-19 09:30:00

2024-11-11 15:11:23

點贊
收藏

51CTO技術棧公眾號

亚洲跨种族黑人xxx| 福利精品视频在线| caoporn国产精品免费公开| 国产在线欧美在线| 奇米亚洲欧美| 91精品国产手机| 狠狠97人人婷婷五月| 国产九色在线| 国产福利91精品一区| 欧美在线激情视频| 青草影院在线观看| 蜜桃精品wwwmitaows| 欧美一区二区三区白人| 国产免费成人在线| 成人区精品一区二区不卡| 99re视频这里只有精品| 成人字幕网zmw| 日韩在线视频不卡| 国产精品地址| 久久精品国产一区| 永久免费av无码网站性色av| h视频久久久| 欧美久久久一区| 亚洲爆乳无码专区| av小说在线播放| 日韩码欧中文字| 欧美在线一区二区三区四区| 黄色av网址在线| 国产在线麻豆精品观看| 国产成人一区二区三区| 99热国产在线观看| 欧美精品福利| 久久国产精品电影| 亚洲国产精品一区二区久久hs| 色综合久久中文| 精品国产制服丝袜高跟| 三级黄色片免费看| 国产精品1区在线| 欧美偷拍一区二区| 国产一级不卡毛片| 范冰冰一级做a爰片久久毛片| 亚洲图片欧美一区| 成人短视频在线观看免费| 中文字幕日本在线观看| 欧美国产日韩一二三区| 欧美人xxxxx| 黄色片在线看| 久久久亚洲高清| 精品国产综合久久| 日韩精品福利| 久久欧美一区二区| 欧美精品尤物在线| 成人高清免费观看mv| 国产视频一区二区在线观看| 欧洲亚洲一区二区三区四区五区| 欧美日韩国产亚洲沙发| 国产视频一区二区三区在线观看| 欧美三级电影在线播放| 欧美成人综合在线| 久久久久久免费| 视频在线一区二区三区| 2017亚洲天堂1024| 亚洲欧美日韩综合aⅴ视频| 国产女主播av| 97人人爽人人澡人人精品| 亚洲第一激情av| 精品这里只有精品| 成人短视频app| 欧美性生活影院| 亚洲天堂av一区二区三区| 亚洲日本视频在线| 日韩成人中文电影| 免费看污片网站| 日韩精品首页| 欧美国产激情18| 日韩精品视频免费看| 午夜在线一区二区| 国产日韩av高清| www.黄色片| 91丨porny丨国产| 天堂一区二区三区| 91网在线看| 日韩欧美成人网| 一区二区三区视频网| 成人精品在线| 日韩电影中文字幕在线| 亚洲色图 激情小说| 亚洲国产一区二区三区在线播放| 欧美精品第一页在线播放| 久久久久久不卡| 国产一本一道久久香蕉| 好吊色欧美一区二区三区四区| 国产综合视频一区二区三区免费| 日韩理论片一区二区| 日韩欧美亚洲天堂| 中文字幕日本一区| 日韩精品有码在线观看| 制服丨自拍丨欧美丨动漫丨| 亚洲激情在线| 成人黄色免费在线观看| 深夜福利免费在线观看| 亚洲人成亚洲人成在线观看图片| 国产精品无码一区二区在线| 日本一区二区三区中文字幕| 亚洲国产黄色片| 欧美激情精品久久久久久免费| 亚洲精品色图| 亚洲在线观看视频| 岛国在线视频| 欧美日韩免费在线| 久久久久99人妻一区二区三区 | 91久久久一线二线三线品牌| 神马精品久久| 亚洲国产日韩在线一区模特| 男人添女人下面免费视频| 欧美日韩导航| 色综合色综合久久综合频道88| 亚洲 小说区 图片区| av综合在线播放| 2021国产视频| 欧美综合影院| 色妞欧美日韩在线| 欧美日韩 一区二区三区| 99久久久久免费精品国产 | 麻豆九一精品爱看视频在线观看免费| 91视频88av| av在线播放免费| 91福利在线免费观看| 污污内射在线观看一区二区少妇| 在线观看日韩| 91在线|亚洲| 欧美成年黄网站色视频| 欧美日韩一区 二区 三区 久久精品| www.日本高清| 亚洲美女啪啪| 国产乱码精品一区二区三区中文 | 好吊色视频一区二区三区| 91成人观看| 91久久国产综合久久91精品网站| 成年人在线观看网站| 色婷婷av一区二区三区gif| aa片在线观看视频在线播放| 亚洲三级电影在线观看| 肥熟一91porny丨九色丨| 欧洲一区二区三区| 亚洲精品一区二区在线观看| 国产香蕉在线视频| 99在线精品免费| 日本www在线视频| 人妖一区二区三区| 日韩**中文字幕毛片| 户外极限露出调教在线视频| 91精品91久久久中77777| 精品成人无码一区二区三区| 免费观看成人av| 一区二区三区欧美成人| 中文字幕成人| 欧美国产日韩中文字幕在线| 色婷婷视频在线| 色综合久久综合网欧美综合网 | 国产精品国产福利国产秒拍| av在线中文| 5566中文字幕一区二区电影| 丝袜美腿小色网| av高清久久久| 久久久久久三级| 香蕉综合视频| 国产伦精品一区二区三区四区免费| bbw在线视频| 亚洲欧美日韩一区在线| 中文字幕在线2018| 亚洲在线视频免费观看| 精品人妻无码一区二区三区| 蜜臀av性久久久久蜜臀aⅴ| 日本老太婆做爰视频| 欧洲亚洲视频| 国产有码在线一区二区视频| 蜜臀av在线| 亚洲人成网站777色婷婷| 中文字幕一区二区三区四区免费看 | 国产jizz18女人高潮| 国产精品系列在线播放| 男人添女人下面高潮视频| 欧美一区二区性| 99视频国产精品免费观看| 范冰冰一级做a爰片久久毛片| 中文字幕免费国产精品| 亚洲AV无码乱码国产精品牛牛 | 天堂av手机在线| 99亚洲伊人久久精品影院红桃| 水蜜桃亚洲精品| 成人春色在线观看免费网站| 国产福利精品视频| 男人天堂亚洲天堂| 在线精品高清中文字幕| 人妻va精品va欧美va| 欧美日韩久久不卡| 黄色在线观看国产| 亚洲精品中文在线| 国产传媒国产传媒| 99精品1区2区| 91精品国产三级| 日本不卡一二三区黄网| 国产精品无码一区二区在线| 在线成人激情| 亚洲欧洲久久| 宅男在线一区| 国产精品一级久久久| 久久亚洲国产精品尤物| 国产91精品黑色丝袜高跟鞋| 青草在线视频| 久久综合88中文色鬼| 国产一级网站视频在线| 亚洲第一网站免费视频| 精品二区在线观看| 欧美午夜理伦三级在线观看| 麻豆久久久久久久久久| 亚洲综合色成人| 国产这里有精品| 一区免费观看视频| 91麻豆制片厂| 亚洲国产精品二十页| 白丝女仆被免费网站| 成人v精品蜜桃久久一区| 中文字幕在线视频一区二区| 久久国产综合精品| 一区二区三区网址| 日韩电影在线观看一区| 日韩免费毛片视频| 亚洲中字在线| 精品99在线视频| 国产农村妇女毛片精品久久莱园子| 亚洲精品国产suv一区88| 91成人超碰| 在线观看三级网站| 一区二区日韩欧美| 黄黄视频在线观看| 中文字幕免费一区二区三区| 欧洲xxxxx| 自产国语精品视频| 在线观看免费黄色片| 亚洲老妇激情| 波多野结衣 作品| 黄色精品免费| 国产v片免费观看| 性欧美长视频| 欧美三级理论片| 久久99精品国产.久久久久久| 久热精品在线观看视频| 美女性感视频久久| 成人黄色一级大片| 国产一区二区在线看| 又黄又爽又色的视频| 成人性生交大合| 国产性生活毛片| 久久久99久久精品欧美| 久久久久久久久福利| 中文字幕一区日韩精品欧美| 精品国产精品国产精品| 亚洲午夜三级在线| 国产精品一区无码| 欧美日本在线视频| 不卡视频在线播放| 精品中文字幕久久久久久| 国产中文在线| 久久亚洲私人国产精品va| 天天干在线视频论坛| 51精品在线观看| 精品乱码一区二区三区四区| 91丝袜美腿美女视频网站| av不卡一区二区| 欧美在线3区| 欧美国内亚洲| 欧美女人性生活视频| 美国av一区二区| 国产精品日日摸夜夜爽| 91色porny蝌蚪| 中文字幕求饶的少妇| 亚洲va在线va天堂| 国产精品乱码一区二区视频| 91精品欧美一区二区三区综合在 | 久草热视频在线观看| 免费人成在线不卡| 国产a级黄色片| 国产精品国产馆在线真实露脸| 久久久久久久久久久网 | 欧美在线视频免费| 成人国产精品一区二区网站| 九九99玖玖| 91精品天堂福利在线观看| 尤物av无码色av无码| 久久国产尿小便嘘嘘| 99久久人妻无码中文字幕系列| 国产精品欧美极品| 日本少妇久久久| 欧美高清精品3d| 国产色在线 com| 欧美精品久久久久久久久久| 亚洲精品555| 国产嫩草一区二区三区在线观看| 精品午夜久久| 人体内射精一区二区三区| 久久激情五月激情| 亚洲国产av一区| 亚洲午夜羞羞片| 99久久精品日本一区二区免费| 亚洲精品视频在线播放| 国产盗摄在线视频网站| 亚洲va码欧洲m码| 日本一区二区三区视频| 国模无码视频一区二区三区| 国产精品亚洲午夜一区二区三区 | 亚洲图片另类小说| 亚洲成人精品一区| 国产ts人妖调教重口男| 伊人伊成久久人综合网站| 国产精品原创| 国产精品自拍首页| 欧美日本不卡| 亚洲图色中文字幕| 国产精品夫妻自拍| 日韩欧美国产另类| 亚洲女人天堂色在线7777| 19禁羞羞电影院在线观看| 成人自拍视频网站| 中文字幕一区二区三区在线视频| 高潮一区二区三区| 中文一区一区三区高中清不卡| 色屁屁影院www国产高清麻豆| 亚洲国产成人精品一区二区| 国产精品蜜臀| 国产精品自拍首页| 亚洲激情国产| 中文字幕影片免费在线观看| 五月婷婷综合在线| 人妻偷人精品一区二区三区| 欧美激情视频给我| 天堂久久av| 黄色一级片黄色| 成人av在线资源网站| 国产在线精品观看| 亚洲高清在线观看| 中文字幕21页在线看| 另类小说综合网| 久久夜色精品| 妖精视频在线观看免费| 欧美精品1区2区| av网址在线免费观看| 91久久极品少妇xxxxⅹ软件| 欧美日韩亚洲一区| 中文在线观看免费视频| 午夜a成v人精品| 四虎精品在永久在线观看| 情事1991在线| 日本女优一区| 在线一区二区不卡| 亚洲制服欧美中文字幕中文字幕| 国产综合在线播放| 热久久免费国产视频| 成人羞羞视频播放网站| 想看黄色一级片| 亚洲va国产天堂va久久en| 欧美日韩视频精品二区| 国产美女精品视频| 影音先锋日韩在线| 人妻无码中文久久久久专区| 色一区在线观看| 精精国产xxxx视频在线| 国产精品一区二区三区在线观| 宅男噜噜噜66国产日韩在线观看| 国产肥白大熟妇bbbb视频| 欧美人伦禁忌dvd放荡欲情| 国产深夜视频在线观看| 欧美日韩天天操| 精东粉嫩av免费一区二区三区| 免费在线看黄网址| 亚洲老头同性xxxxx| 中文成人在线| 日日橹狠狠爱欧美超碰| 国产精品国产三级国产普通话蜜臀| 精品人妻伦一二三区久久| 欧美性资源免费| 亚洲人体av| 黄色在线观看av| 欧美一区二区三区男人的天堂| 中文在线免费视频| 最近免费观看高清韩国日本大全| 91丨porny丨蝌蚪视频| 国产精品视频第一页| 国产91精品视频在线观看| 99久久99视频只有精品| 成人在线视频免费播放| 欧美日韩一区二区不卡| 91福利在线尤物| 天天操天天干天天玩| 久久久久久久久久久电影| 亚洲国产欧美另类| 国产主播欧美精品| 丝袜亚洲精品中文字幕一区| 久久av高潮av无码av喷吹|