精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o3絞盡腦汁僅答對40%的題目,開源模型基本亂猜?MMSI-Bench:多圖空間智能試金石

人工智能 新聞
這一專為多圖像空間智能設計的MMSI-Bench由上海人工智能實驗室、香港中文大學、浙江大學、清華大學、上海交通大學、香港大學以及北京師范大學的研究者們共同完成。

AI能看圖,也能講故事,但能理解“物體在哪”“怎么動”嗎?

空間智能,正是大模型走向具身智能的關鍵拼圖。

面對1000道多圖推理題,開源大模型集體失守——準確率不到30%,甚至不如瞎猜!就連最強的OpenAI o3,也只答對了41%。

這一專為多圖像空間智能設計的MMSI-Bench由上海人工智能實驗室、香港中文大學、浙江大學、清華大學、上海交通大學、香港大學以及北京師范大學的研究者們共同完成。

圖片

多圖像空間智能VQA基準測試

MLLM在連接語言視覺、理解物理世界方面進展飛速,是通往具身AGI的關鍵。其中,空間智能(即理解物體位置、運動等空間關系的能力)至關重要,是自動駕駛、機器人導航與操作等應用的基礎。

然而,當前評估MLLM空間智能普遍存在一些問題:

  1. 單圖像局限多數僅考察單圖像內的簡單關系。
  2. 低估真實世界復雜性真實空間理解需跨多圖像追蹤、關聯實體。
  3. 多圖像覆蓋不足現有少數多圖像基準對空間智能的覆蓋既不全面也不深入。
  4. 模板化與合成數據依賴模板或合成場景限制了問題的多樣性與真實性。

因此,缺乏能檢驗真實多圖像推理的基準,就無法可靠衡量和提升MLLM的空間認知。為此,MMSI-Bench的提出正是為了彌補這一評測空白。

圖片

MMSI-Bench是一個用于評估MLLM多圖像空間推理能力的VQA基準,設計過程中重點考慮了空間理解的關鍵要素和數據質量的可靠性。

核心理念:人工主導的樣本構建

MMSI-Bench采用完全以人為中心的設計。六位資深3D視覺研究員投入超300小時,從12萬余張圖像中精選并構建了1000個高質量問答對。

每個問題均極具挑戰、答案無歧義,且必須整合多圖像信息解答。問題配有精心設計的干擾項和詳盡的步驟化標準推理過程,并經第二標注員嚴格審核,確保質量。

全面的任務分類:系統評估空間推理維度

圖片

為系統評估多圖像空間推理,MMSI-Bench圍繞相機/智能體、物體、區域三個基本空間元素及其位置關系、屬性、運動狀態構建了全面任務分類。共定義10種基礎空間推理任務和1種多步推理(MSR)類別:

  • 位置關系:相機-相機、相機-物體、相機-區域、物體-物體、物體-區域、區域-區域。
  • 屬性:測量(長度、大小等)、外觀(形狀等)。
  • 運動:相機運動、物體運動。
  • 多步推理 (MSR):整合基礎類型進行復雜順序推理。

除MSR外,其他類別問題均基于兩張圖像,專注核心的多圖像整合能力。

多樣化的數據來源:覆蓋真實世界場景

為確保評估的全面性和真實性,MMSI-Bench圖像全部源于真實的、多樣化的場景數據集,包括ScanNet,Matterport3D(室內3D場景),nuScenes,Waymo(自動駕駛),AgiBot-World(機器人),DAVIS 2017(視頻物體分割),Ego4D(第一人稱視角視頻)及DTU(局部場景重建)。這些豐富數據源使MMSI-Bench能構建覆蓋廣泛真實世界場景的問答對。

實驗結果揭示MLLM短板

圖片

作者在MMSI-Bench上對34個廣泛使用的MLLM(包括商業模型如o3,GPT-4.5,GPT-4o等,以及開源模型如Qwen2.5-VL,InternVL系列等)進行了全面評估。

主要發現包括:

  1. MLLM在多圖像空間推理上舉步維艱即便是最先進的MLLM也表現出顯著局限。多數模型平均分僅略高于25%的隨機猜測。表現最佳的商業模型OpenAI o3準確率僅41.0%,而人類高達97.2%,差距超56%,凸顯了MMSI-Bench的挑戰性。“思考模式”等策略提升有限,“盲眼GPT-4o”(無圖像輸入)準確率近乎隨機,證明了任務對真實視覺空間推理的依賴。
  2. 先進開源模型仍落后于商業模型表現最佳的開源模型Qwen2.5-VL-72B平均準確率為30.7%,明顯落后于頂尖商業模型。
  3. 多步推理和相機運動理解是重災區多數模型在MSR任務上性能低于單步任務平均水平。尤其開源模型在相機運動任務上表現不佳,暗示MLLM理解自身運動的能力堪憂。
  4. 模型規模擴大增益有限同系列模型增加參數帶來的性能提升有限(如Qwen2.5-VL-72B僅比32B高3%)。這表明數據質量和多樣性可能是當前提升復雜空間推理能力的主要瓶頸,而非模型規模。
  5. 提示工程效果有限語言提示(如Zero-Shot CoT)和視覺提示(如PATS匹配)對性能提升甚微,甚至有負面影響,佐證了模型基礎空間理解能力的缺失。

為探究MLLM在多圖像空間推理上的瓶頸,作者對代表性模型(GPT-4o)的推理過程進行了細致的人工分析,歸納出四種主要錯誤類型:

  • 定位錯誤 (Grounding errors):未能正確識別或定位圖像中的關鍵物體或細節。
  • 重疊匹配與場景重建錯誤 (Overlap-matching and scene-reconstruction errors):無法識別和匹配不同圖像間的對應點,或難以基于此重建連貫場景。此為各類模型中最常見的錯誤。
  • 情境轉換推理錯誤 (Situation-transformation reasoning errors):在不同參考對象或相對/絕對方向間進行空間方向推理時出錯。
  • 空間邏輯錯誤 (Spatial-logic errors):純粹空間邏輯推理缺陷,如幻覺、錯誤應用傳遞性或選錯參照物。

這些錯誤分類清晰指出了當前MLLM在空間智能方面的具體短板。

MMSI-Bench每個問題均附帶高質量的人類標注推理過程,基于此,作者開發了一套自動化的錯誤分析流程,以高效、規模化地診斷模型失敗原因。

該流程利用強大語言模型(如GPT-4o)作為評估器,結合基準問題、圖像、標準答案及MMSI-Bench提供的人類標注參考推理,判斷待評估模型推理過程的正確性,并從上述四種錯誤類型中識別關鍵錯誤。

此自動化錯誤分析流程的價值:

  • 有效性與標注的重要性:提供人類標注推理步驟時,自動化分析與人類專家判斷的匹配度達71.8%(若僅提供標準答案則降至53.6%),凸顯高質量標注對可靠自動化錯誤分析的關鍵作用。
  • 規模化診斷能力:可對眾多模型在全部MMSI-Bench問題上進行系統性錯誤歸因,為模型改進指明方向。
  • 關注“過程正確”:即便答案正確,推理過程也可能存在嚴重缺陷,強調了評估推理過程本身的重要性。

通過人工洞察與自動化工具的結合,MMSI-Bench不僅衡量模型表現,更深入探究失敗原因,為推動MLLM空間智能發展提供有力支持。

總結與展望

目前已有多個團隊在打造面向多模態大模型(MLLM)的空間智能評測,而MMSI-Bench具備以下特點:

  1. 專注多圖像空間智能:十個基礎任務都基于兩張圖片,進階多步推理任務會用到更多圖片。
  2. 高質量:所有題目均由人工精心設計:從選圖、出題,到干擾項設置與逐步推理標注,全流程把控。
  3. 貼近真實場景:圖片來自自動駕駛、機器人操作、場景掃描等真實環境;題目關注真實場景的理解與推理。沒有使用任何合成數據或者不貼合真實場景的問題。
  4. 評測全面且有挑戰:研究者評測了 34 個模型(幾乎涵蓋所有受眾廣的閉源和開源模型),發現模型與人類表現仍有巨大差距,多數開源模型僅相當于隨機猜測。這可能是目前模型-人類差距最大的基準評測。
  5. 完整推理過程:每個樣本都附帶人類標注的推理流程,可解釋答案正確性,也便于自動化定位模型錯誤。

MMSI-Bench作為專為多圖像空間智能設計的挑戰性綜合基準,通過對34個頂尖MLLM的評估,清晰揭示了其與人類水平的巨大鴻溝。希望MMSI-Bench能成為社區寶貴資源,推動開發空間感知更強、更魯棒的多模態AI系統,加速通往真正理解并與物理世界交互的AGI。

項目主頁: https://runsenxu.com/projects/MMSI_BenchArXiv

論文: https://arxiv.org/abs/2505.23764Hugging Face

數據集:https://huggingface.co/datasets/RunsenXu/MMSI-BenchGitHub

代碼庫: https://github.com/OpenRobotLab/MMSI-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-30 17:02:31

2020-09-17 14:35:50

運營商網絡覆蓋基站

2018-02-07 09:05:27

區塊鏈特性優勢

2025-05-28 11:43:48

多模態大模型RBench-V

2024-04-07 01:00:00

模型P圖

2025-09-15 09:12:00

2025-04-23 08:30:05

2025-03-10 09:36:00

2024-12-24 16:15:04

2025-09-15 14:42:55

o3視覺推理開源

2013-10-14 09:38:21

虛擬化云計算

2025-05-27 15:23:05

智能體訓練AI

2025-05-28 00:00:00

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2015-09-17 09:01:26

創業智能硬件

2025-04-17 09:02:00

2025-04-18 11:18:51

2010-08-09 17:23:57

IT外包

2025-08-21 15:48:16

2025-07-29 00:50:45

點贊
收藏

51CTO技術棧公眾號

亚洲一区二区三区乱码| 欧美重口另类videos人妖| 色网站在线视频| 啦啦啦中文在线观看日本| 波多野结衣一区二区三区| 欧美一级淫片播放口| 青青草自拍偷拍| 在线精品自拍| 欧美午夜不卡视频| 日韩精品在线观看av| 丁香婷婷在线| 成人国产一区二区三区精品| 国产精品久久久久久久久久小说 | 国产精品伦理一区二区| 超碰97人人在线| 成年人视频免费| 国内精品99| 色一区av在线| 99久久国产精| 久久爱www.| 日本乱码高清不卡字幕| 欧美在线观看视频免费| www黄在线观看| aaa国产一区| 91精品啪aⅴ在线观看国产| 天天干在线播放| 午夜久久一区| 亚洲精品久久一区二区三区777 | 欧美精品v日韩精品v国产精品| 在线播放一级片| 一区二区三区成人精品| 九九精品视频在线观看| 久操视频在线观看免费| 久久精品66| 日韩一级大片在线观看| 中文字幕成人在线视频| 中文字幕成在线观看| 亚洲第一综合色| 中文字幕の友人北条麻妃| av网页在线| 久久久精品2019中文字幕之3| 国产精品免费一区二区三区观看| 91精品国产乱码久久久| 蜜桃精品视频在线观看| 国产精国产精品| 欧美h在线观看| 99re国产精品| 久久琪琪电影院| 久久久久久久久99| 国产一区二区三区四区三区四| 久久婷婷国产麻豆91天堂| 欧美成人短视频| 日韩欧美高清在线播放| 在线成人一区二区| 亚洲精品乱码久久久久久久久久久久| 精品三级av| 日韩福利视频在线观看| 亚洲色图欧美日韩| 久久久久观看| 亚洲老头同性xxxxx| 成人乱码一区二区三区av| 欧美日韩一本| 亚洲人成亚洲人成在线观看| 朝桐光av一区二区三区| 免费视频亚洲| 在线观看中文字幕亚洲| 911国产在线| 91成人国产| 欧美大片第1页| 欧美亚洲天堂网| 亚洲激情网址| 2019中文字幕在线观看| 久久久精品视频网站 | 亚洲av无日韩毛片久久| 婷婷久久免费视频| 日韩欧美一级片| 国产一级黄色录像| 琪琪久久久久日韩精品| 亚洲欧洲在线视频| 欧美一级特黄高清视频| 午夜天堂精品久久久久| 欧美在线视频免费| 中文字幕精品无码亚| 国产专区欧美精品| 国产麻豆日韩| 国产69久久| 亚洲美女精品一区| 成人在线免费观看av| 国产成人久久精品麻豆二区| 欧美一区二区精品| 三级电影在线看| 欧美电影《睫毛膏》| 欧美富婆性猛交| 精品人妻一区二区三区潮喷在线 | 欧美性极品xxxx娇小| 中文字幕第36页| 日韩高清一区| 亚洲人精品午夜在线观看| 日韩一级片大全| 99精品热视频只有精品10| 国产精品久久久久久久久借妻| 国产又大又黄的视频| av不卡免费在线观看| 中文字幕欧美日韩一区二区三区| 欧美午夜大胆人体| 欧美性大战久久久久久久蜜臀| 日韩av福利在线观看| 亚洲精品国产精品粉嫩| 欧美老少配视频| 黄色一区二区视频| 99久免费精品视频在线观看 | 99久久久无码国产精品衣服| 综合久久十次| 国产精品久久久久久av| 人妻视频一区二区三区| 亚洲私人影院在线观看| 精品免费国产一区二区| 黑人久久a级毛片免费观看| 日韩中文字幕第一页| 久久久久女人精品毛片九一| 国产精品一二三四区| 婷婷久久青草热一区二区| √天堂8资源中文在线| 8v天堂国产在线一区二区| 免费毛片视频网站| 亚洲国产裸拍裸体视频在线观看乱了中文 | 老司机精品福利视频| 91麻豆国产精品| 福利视频在线看| 欧美午夜影院在线视频| 最新日本中文字幕| 午夜国产欧美理论在线播放| 国产精品一区二区三区毛片淫片 | 91美女片黄在线观看91美女| 日韩精品久久一区二区| 精品一区二区三区中文字幕在线| 在线视频国产日韩| 亚洲中文字幕无码爆乳av| 91麻豆国产自产在线观看| 久久这里只有精品23| 国产另类在线| 久久青草福利网站| 三级视频在线看| 午夜视频一区在线观看| 高清中文字幕mv的电影| 伊人精品视频| 极品尤物一区二区三区| 麻豆视频在线观看免费网站黄| 亚洲国产天堂久久综合| 日韩在线视频免费播放| www.日韩精品| 精品国产成人av在线免| 女人av一区| 国产精品啪视频| 最近高清中文在线字幕在线观看| 欧美视频中文字幕| 欧美美女性生活视频| 韩国女主播成人在线| 日本精品免费视频| 午夜电影一区| 性色av一区二区三区| 日韩精品系列| 在线国产亚洲欧美| 欧美性x x x| 粉嫩av亚洲一区二区图片| 免费一级特黄特色毛片久久看| 嫩草国产精品入口| 日本中文字幕成人| av二区在线| 日韩一区二区三区观看| 国产一级av毛片| www激情久久| 亚洲一区二区蜜桃| 色欧美自拍视频| 国产精品第3页| 国产三级视频在线看| 欧美探花视频资源| 黄色录像一级片| av亚洲精华国产精华精| 女性女同性aⅴ免费观女性恋| 亚洲激情播播| 国产欧美日韩高清| 国产丝袜在线观看视频| 日韩电影在线观看永久视频免费网站 | 日本一区二区三区视频在线看 | 亚洲精品动漫| 伊人久久久久久久久久久| 中文字幕视频二区| 亚洲精品成人a在线观看| 91精品国产自产| 老司机午夜精品| 亚洲熟妇无码av在线播放| 农村少妇一区二区三区四区五区| 7777kkkk成人观看| 大片免费播放在线视频| 欧美一区二区三区精品| 黄色大片网站在线观看| 久久久久久麻豆| 三日本三级少妇三级99| 99亚洲伊人久久精品影院红桃| 欧美一区二区福利| 一区二区三区四区高清视频 | 日韩黄色a级片| 日本一区二区三区四区在线视频| 亚洲国产欧美91| 亚洲在线电影| www.国产亚洲| 欧美精选一区二区三区| 91福利视频导航| 日韩精品三区| 久久久女女女女999久久| 888av在线| 亚洲经典中文字幕| 国产乱淫av免费| 亚洲欧美另类图片小说| 国产熟妇久久777777| 国产精品69久久久久水密桃| 日本免费黄视频| 亚洲国产成人精品女人| 欧美一区二区福利| 黄色免费大全亚洲| 91久久久久久| 成人看片网页| 久久久久久久久久国产精品| 91在线看片| 精品网站999www| 成人免费公开视频| 欧美疯狂做受xxxx富婆| 日本视频网站在线观看| 亚洲午夜激情av| 久久久精品视频在线| 国产精品毛片a∨一区二区三区 | 久久久国产精品午夜一区ai换脸| 日本少妇xxxx软件| 国产在线视频一区二区| 国产小视频精品| 久久99伊人| 成人综合视频在线| 在线精品亚洲| 亚洲精品天堂成人片av在线播放| 人人网欧美视频| 国产伦精品一区二区三区视频孕妇 | 中文字幕国产传媒| 国产视频一区免费看| 大地资源第二页在线观看高清版| 欧美日韩在线二区| 欧美中日韩免费视频| 日韩电影在线观看完整免费观看| 国产91一区二区三区| 日韩在线观看中文字幕| 亚洲xxx大片| 国产精品视频一区视频二区| 国产视频观看一区| 国产精品一站二站| 成人免费视频a| 99综合99| 69堂成人精品视频免费| 136福利精品导航| 国产麻豆一区二区三区在线观看| 超碰一区二区三区| 国产一区二区三区四区五区在线 | 麻豆91精品视频| 黄色三级视频在线| 麻豆成人久久精品二区三区红| 日本久久久久久久久久久久| 免费精品视频在线| 中文字幕22页| 国产资源在线一区| 久草视频福利在线| 91亚洲大成网污www| 女同毛片一区二区三区| 91免费在线视频观看| 男人的天堂av网| 国产精品免费看片| 久久精品一区二区三区四区五区 | 国产一区激情在线| 中文字幕第六页| 国产.欧美.日韩| 丰满少妇一区二区三区| 亚洲国产精品二十页| 性欧美一区二区| 一区二区三区资源| 日本网站免费观看| 91福利在线看| 精品人妻一区二区三区蜜桃| 亚洲精品第一国产综合精品| 亚洲三级中文字幕| 日韩成人av网| 里番在线观看网站| 国内精品伊人久久| 日韩成人亚洲| 高清视频一区| 国产剧情一区| 神马午夜伦理影院| 在线亚洲激情| 色戒在线免费观看| 成人亚洲精品久久久久软件| 久久久久久国产精品无码| 亚洲美女屁股眼交3| 一级黄色大片视频| 欧美肥胖老妇做爰| 毛片在线播放网站| 欧美成人精品激情在线观看| 国内精彩免费自拍视频在线观看网址| 国产成人精品在线播放| 高清国产一区二区三区四区五区| 国产精品日韩欧美一区二区| 国产一区二区在线| 男女视频网站在线观看| 免费欧美在线视频| 人妻av一区二区| 综合激情成人伊人| 黄色片视频网站| 欧美一区永久视频免费观看| 欧美一区二区少妇| 久久成人一区二区| 日本黄色一区| 免费看污久久久| 午夜精品视频| 在线观看免费成人av| 成人av资源站| 免费在线观看黄色小视频| 精品欧美激情精品一区| 国产黄色小视频在线观看| 一级做a爰片久久毛片美女图片| 男女在线观看视频| 国产精品成人播放| 香蕉久久精品日日躁夜夜躁| 肉大捧一出免费观看网站在线播放| 久久久久国产一区二区| 精品黑人一区二区三区观看时间| 亚洲欧美激情插| 91麻豆精品在线| 亚洲欧美日韩中文在线制服| heyzo中文字幕在线| 91久久久久久久久久久久久| 欧美电影一二区| www.欧美日本| www国产亚洲精品久久麻豆| 小泽玛利亚一区二区免费| 欧美日韩激情一区| 国产在线你懂得| 色综合久久久久久中文网| 日本一区二区乱| 黄色网址在线免费看| 狠狠色丁香久久婷婷综| 日韩一卡二卡在线观看| 欧美影片第一页| 国产在线中文字幕| 国产精品美女免费| 狠狠做深爱婷婷综合一区| 欧美精品一区免费| 91丨九色丨黑人外教| 韩国av免费观看| 欧美精品一区二区蜜臀亚洲| 国产美女一区视频| 国产伦精品一区二区三区| 亚洲高清毛片| 波多野结衣办公室33分钟| 欧美日韩亚洲网| 黄色av免费在线看| 国产日韩欧美91| 99久久国产综合精品成人影院| 艹b视频在线观看| 亚洲天堂av一区| 国内毛片毛片毛片毛片| 九色精品美女在线| 欧洲亚洲一区二区三区| 丝袜老师办公室里做好紧好爽| 91在线观看污| 美女黄页在线观看| 久久激情视频免费观看| 久久国际精品| 可以看毛片的网址| 99re亚洲国产精品| 久久久久久无码午夜精品直播| 在线性视频日韩欧美| 欧洲亚洲精品久久久久| 一级二级三级欧美| 国产成人高清在线| 国产黄色免费观看| 日韩高清欧美高清| 国产精品99精品一区二区三区∴| 亚洲资源视频| 国产乱人伦精品一区二区在线观看| 免费在线观看av网址| 亚洲国产黄色片| 中文不卡1区2区3区| 亚洲欧洲在线一区| 国产宾馆实践打屁股91| 天天干在线播放| 久久精品国产电影| 久久香蕉精品香蕉| 五月天婷婷影视| 亚洲成av人片在www色猫咪| 日本精品专区| 亚洲一区二区三| 国产农村妇女毛片精品久久莱园子| 永久免费看mv网站入口78| 91精品国产福利在线观看|