精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大語言模型的空間智能探秘：突破與挑戰

十一月雨_55

發布于 2024-12-27 14:34

瀏覽

0收藏

人們在日常生活中需要視覺空間智能來處理空間信息，但多模態大語言模型在這方面的能力尚未得到充分研究。本文構建了 VSI - Bench 基準測試，對模型進行評估和分析，有助于了解模型的優勢和不足，為提升模型的視覺空間智能提供方向，推動相關領域發展，如機器人、自動駕駛和 AR/VR 等，使模型能更好地應用于實際場景。

本文圍繞多模態大語言模型（MLLMs）的視覺空間智能展開研究。首先介紹了視覺空間智能的概念及相關能力分類，接著提出了包含 5000 多個問答對的 VSI - Bench 基準，涵蓋多種類型任務及不同場景視頻。通過對 15 個模型的評估，發現 MLLMs 雖有一定視覺空間智能但低于人類，空間推理是其性能瓶頸，傳統語言推理技術效果不佳，而生成認知地圖可提升空間距離能力。

摘要&解讀

人類擁有從連續的視覺觀察中記住空間的視覺空間智能。然而，在百萬規模視頻數據集上訓練的多模態大語言模型（MLLMs）能否也從視頻中“在空間中思考”呢？我們提出了一個新的基于視頻的視覺空間智能基準（VSI - Bench），包含超過5000個問答對，并發現MLLMs展現出了具有競爭力的——盡管低于人類的——視覺空間智能。我們通過語言和視覺方式探究模型如何表達它們在空間中的思考，并發現雖然空間推理能力仍然是MLLMs達到更高基準性能的主要瓶頸，但局部世界模型和空間感知確實在這些模型中出現了。值得注意的是，流行的語言推理技術（例如，思維鏈、自一致性、思維樹）未能提高性能，而在問答過程中明確生成認知地圖則增強了MLLMs的空間距離能力。

研究背景:隨著多模態大語言模型（MLLMs）在語言智能方面取得進展，其視覺空間智能的研究相對不足，盡管該能力在機器人、自動駕駛和 AR/VR 等領域具有重要性。以往的空間智能測試多關注紙筆任務或 2D 圖像、純語言方面的理解，缺乏基于真實視頻對 MLLMs 視覺空間智能的有效評估。
研究貢獻:

a.提出了新的基于視頻的視覺空間智能基準 VSI - Bench，包含豐富多樣的任務和真實場景視頻數據，能全面評估 MLLMs 的視覺空間智能。

b.通過語言和視覺兩種方式探究 MLLMs 在空間中的思考過程，發現了其空間推理能力的瓶頸以及局部世界模型和空間感知的存在。

c.證明了在問答過程中明確生成認知地圖可增強 MLLMs 的空間距離能力，為提升模型性能提供了新的方向。

實現設計:

a.數據收集與處理：整合 ScanNet、ScanNet++和 ARKitScenes 等數據集，統一數據格式，包括視頻處理、元信息提取和類別篩選等步驟，為基準構建提供數據基礎。

b.問答對生成：基于統一的元信息和精心設計的問題模板自動生成大部分問答對，并對路線規劃任務進行人工注釋，同時設計了嚴格的質量審查流程，確保數據質量。

c.模型評估設置：選擇 15 個涵蓋不同模型家族和規模的 MLLMs，采用零樣本設置和貪婪解碼，根據答案類型設計了合適的評估指標（如 MCA 任務用準確率，NA 任務用平均相對準確率），并設定了機會水平基線和人類水平性能參考。

實驗結果:

a.人類在基準測試中平均準確率達 79%，遠超 MLLMs。專有模型 Gemini1.5 Pro 表現較好但仍有差距，開源模型中部分表現出競爭力，但多數低于機會水平基線。

b.空間推理是 MLLMs 性能的主要瓶頸，約 71%的錯誤源于此，而傳統語言推理技術如思維鏈、自一致性和思維樹等在基準上反而導致性能下降。

c.MLLMs 在記憶空間時形成局部世界模型，在定位相鄰物體的認知地圖中準確率達 64%，但隨距離增加準確性下降；使用認知地圖可使相對距離任務準確率提高 10%，使用真實認知地圖比基線有 20% - 32%的增益。

1. 引言

在購買家具時，我們經常會試著回憶起客廳的樣子，以想象想要的柜子是否合適。估計距離是困難的，但即使只看過一次，人類也能在腦海中重構空間，回憶起房間里的物體、它們的位置和大小。我們生活在一個充滿感官信息的三維世界中，視覺信號圍繞著我們并為我們提供基礎，使我們能夠感知、理解并與之互動。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

圖1：無論是在家中、工作場所還是其他地方，感知空間、記住其布局并按需檢索這些空間信息以回答問題的能力是視覺空間智能的一個關鍵方面。最近的多模態大語言模型（MLLMs）能夠理解一般視頻，但當面對環境的視頻記錄時，它們能“在空間中思考”嗎？它們能否構建一個準確的、隱性的“認知地圖”，從而使它們能夠回答關于空間的問題？使用MLLMs增強空間智能的優勢和局限性是什么？我們通過為MLLMs設置視頻數據、構建視覺問答（VQA）基準來檢查它們的回憶，并檢查MLLMs實際記住和理解的內容來深入研究這些問題。

視覺空間智能需要感知和在心理上操縱空間關系[26]；它需要多種能力，包括關系推理以及在自我中心和非自我中心視角之間轉換的能力（見第2節）。雖然大語言模型（LLMs）[3, 6, 9, 35, 59, 65, 66, 75, 79, 80, 85, 100]已經提高了語言智能，但視覺空間智能盡管與機器人技術[7, 8, 21, 62]、自動駕駛[77]和增強現實/虛擬現實（AR/VR）[12, 27, 53]相關，但仍未得到充分探索。

多模態大語言模型（MLLMs）[1, 4, 15, 33, 41, 47, 47, 76]整合了語言和視覺，在開放式對話和實際任務（如網絡智能體[21, 28, 32, 34]）中表現出強大的思考和推理能力。為了在視覺空間領域提升這種智能，我們引入了VSI - Bench，這是一個基于視頻的基準，包含來自近290個真實室內場景視頻的超過5000個問答對（見第3節）。視頻數據通過捕捉連續的時間輸入，既類似于我們觀察世界的方式，又能實現比靜態圖像更豐富的空間理解和推理。在VSI - Bench上評估開源和閉源模型表明，盡管模型和人類之間存在很大的性能差距，但MLLMs在視頻理解、文本理解和空間推理等挑戰下仍展現出了新興的視覺空間智能（見第4節）。

為了分析模型行為，并受到雙重編碼理論[18]的啟發——該理論認為語言和視覺處理是不同但互補的，我們提示選定的模型進行自我解釋（語言方面）和生成認知地圖（視覺方面）。對自我解釋的分析表明，與視覺感知、語言智能或時間處理相比，空間推理是VSI - Bench上性能不佳的主要因素（見第5節）。“認知地圖”代表環境的內部布局[60, 78]，使我們能夠評估MLLMs的隱性空間世界模型，并發現MLLMs構建了強大的局部模型，但全局模型較弱（見第6節）。此外，標準的語言推理技術未能提高我們基準測試的性能。然而，明確生成和使用認知地圖可以提高空間距離問答的能力。

即使對于人類來說，表達視覺空間智能也是困難的（而且通常是零碎的）[26]。通過這項工作，我們旨在鼓勵社區探索為前沿模型賦予視覺空間智能，并為這個方向鋪平道路并提供啟示。

2. 視覺空間智能

我們討論視覺空間智能的預備知識和范圍，為后續分析提供背景和框架。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

術語使用：我們使用“智能”而不是“認知”，因為它的范圍更廣，并且“空間認知”是認知心理學的一個分支[81]。在我們的工作中，我們在“空間智能”前加上“視覺”，因為空間智能的存在與感官模式無關（例如，盲人可以通過其他感官感知空間）[26]。鑒于我們專注于視頻輸入，我們討論視覺空間智能。
研究范圍：雖然經典的空間智能測試也包括紙筆任務，如心理旋轉測試[72]，但我們的重點是適用于現實世界環境的視覺空間智能，特別是在家庭、辦公室和工廠等常見空間中。
分類：基于認知心理學[11, 26, 55, 60]和我們在第3節中的基準任務的人類經驗，我們提供了視覺空間智能可能需要的能力分類（圖2）。視覺感知、語言智能、時間處理和空間推理是VSI - Bench所需的四個領域。例如，[11]表明視覺對象和空間處理在神經上是不同的，這促使將“視覺感知”和“空間推理”作為獨立的領域。我們將空間推理分為兩個廣泛的能力：關系推理和自我中心 - 非自我中心轉換。

關系推理是通過距離和方向識別物體之間關系的能力。它還包括依靠關于其他物體大小的視覺空間常識來推斷物體之間的距離。例如，知道一個標準飲料罐大約12厘米高，人類可以通過比較視覺比例來估計其他物體的大小。

自我中心 - 非自我中心轉換涉及在以自我為中心（自我中心）的視圖和以環境為中心（非自我中心）的視圖之間切換。在我們的設置中，每個自我中心視頻幀都映射到非自我中心的物體位置和相機軌跡。當人類觀察空間時，他們將自我中心的感知轉換為非自我中心的心理地圖，從而能夠從不同的視角進行觀察——這對于相對方向或路線規劃等任務至關重要。這種轉換依賴于新視角的可視化和視覺空間工作記憶[2]，即保持和操作空間信息的能力，例如通過從新的自我中心輸入更新物體位置[20, 54]。

VSI - Bench中的每個任務都需要感知、語言和時間能力以及不同程度的空間推理。例如，對于路線規劃任務，自我中心 - 非自我中心轉換比物體大小估計重要得多。這些因素為視覺空間智能的復雜性提供了一些背景信息。

3. VSI - Bench

3.1. 概述

我們引入VSI - Bench來從自我中心視頻中定量評估MLLMs的視覺空間智能。VSI - Bench由來自288個真實視頻的超過5000個問答對組成。這些視頻來自公共室內3D場景重建數據集ScanNet[19]、ScanNet++[94]和ARKitScenes[5]的驗證集，代表了不同的環境——包括住宅空間、專業環境（如辦公室、實驗室）和工業空間（如工廠）——以及多個地理區域。重新利用這些現有的3D重建和理解數據集提供了準確的對象級注釋，我們在問題生成中使用這些注釋，并可能有助于未來研究MLLMs與3D重建之間的聯系。VSI - Bench質量很高，經過了迭代審查，以盡量減少問題的模糊性并去除從源數據集中傳播的錯誤注釋。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

VSI - Bench包括三種類型的八個任務：配置、測量估計和時空。配置任務（物體計數、相對距離、相對方向、路線規劃）測試模型對空間配置的理解，對人類來說更直觀（見第4節中MLLM和人類性能的比較）。測量估計（物體大小、房間大小和絕對距離）對任何具身智能體都有價值。雖然對人類和模型來說，精確預測測量值都非常困難，但更好的距離和其他測量的感知直觀上與更好的視覺空間智能相關，并支持許多需要空間意識的任務，如與物體的交互和導航。時空任務如出現順序測試模型對視頻中所見空間的記憶。圖3展示了VSI - Bench任務的概述，圖5展示了數據集的統計信息。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

3.2. 基準構建

我們開發了一個復雜的基準構建管道，以有效地大規模生成高質量的問答（QA）對，如圖4所示。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

數據收集和統一：我們通過將各種數據集標準化為統一的元信息結構來開始數據集構建，確保與數據集無關的QA對生成。我們的基準匯總了現有的3D室內場景理解和重建數據集：ScanNet[19]、ScanNet++[94]和ARKitScenes[5]。這些數據集提供了能夠進行空間重建的高保真視頻掃描，確保MLLMs僅通過視頻輸入就能回答空間級別的問題。此外，它們的對象級3D注釋有助于我們生成問題。我們將數據集解析為統一的元信息格式，包括對象類別、邊界框、視頻規格（分辨率和幀率）等。
問答生成：QA對主要使用元信息和問題模板自動注釋；路線規劃任務是人工注釋的。我們為每個任務精心設計和完善了問題模板，并為人工注釋者提供了指導方針。有關更詳細的設計，請參見附錄B.1。
人工參與的質量審查：盡管使用了人工注釋的數據源和精心設計的QA生成方法，但某些模糊性和錯誤不可避免地仍然存在，主要是由于源數據集中固有的注釋錯誤。我們在整個基準構建過程中實施了人工參與的驗證協議。這種迭代的質量保證是雙向的：當評估者標記出模糊或錯誤的問題時，我們追溯錯誤來源并刪除有問題的數據樣本或相應地修改元信息、問題模板或QA生成規則，以糾正來自同一來源的其他錯誤問題。在每次人工審查周期后，我們更新和迭代基準，直到它滿足我們的質量標準。

4. 在VSI - Bench上的評估

4.1. 評估設置

基準模型：我們全面評估了來自不同模型家族的15個支持視頻的MLLMs，涵蓋了各種參數規模和訓練方法。對于專有模型，我們考慮Gemini1.5[76]和GPT - 4o[33]。對于開源模型，我們評估了來自InternVL2[14]、ViLA[44]、LongViLA[88]、LongVA[98]、LLaVA - OneVision[39]和LLaVA - NeXT - Video[99]的模型。所有評估均在零樣本設置下進行，并使用每個模型的默認提示。為確?？芍貜托?，我們對所有模型使用貪婪解碼。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

MRA為計算數字預測與真實值之間的相似度提供了更可靠和有區分度的測量方法。

機會水平基線：我們提供了兩個基線：

機會水平（隨機）是MCA任務的隨機選擇準確率（不適用于NA任務）。
機會水平（頻率）表示MLLMs通過總是為每個任務選擇最頻繁的答案所能達到的最高性能。這確定了由于固有長尾答案或不平衡多項選擇分布可能導致的性能提升。

人類水平性能：我們隨機抽取400個問題（每個任務50個）的子集，我們將其稱為VSI - Bench（tiny）。人類評估者獨立回答每個問題，并使用上述指標評估他們的表現。為了進行比較，我們還報告了Gemini1.5 Pro在VSI - Bench（tiny）上的表現。有關評估設置的詳細信息，請參見附錄C。

4.2. 主要結果

表1展示了模型在VSI - Bench上的整體表現。我們的主要觀察結果如下：

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

人類水平性能：不出所料，人類評估者在我們的基準測試中平均準確率達到79%，比表現最好的模型高出33%。值得注意的是，人類在配置和時空任務上的表現非常高，從94%到100%不等，這表明人類的直觀性。相比之下，在需要精確估計絕對距離或大小的三個測量任務上，人類和表現最好的MLLM之間的性能差距要小得多，這表明MLLMs在需要定量估計的任務中可能具有相對優勢。
專有MLLMs：盡管與人類存在顯著的性能差距，但領先的專有模型Gemini1.5 Pro取得了有競爭力的結果。它大大超過了機會水平基線，并在絕對距離和房間大小估計等任務中接近人類水平的表現。值得注意的是，雖然人類評估者在空間理解物理世界方面有多年的經驗，但MLLMs僅在互聯網視頻等二維數字數據上進行訓練。
開源MLLMs：頂級開源模型如LLaVA - NeXT - Video - 72B和LLaVA - OneVision - 72B表現出與閉源模型高度競爭的性能，僅比領先的Gemini1.5 Pro落后4%到5%。然而，大多數開源模型（12個中的7個）的表現低于機會水平基線，這表明它們的視覺空間智能存在顯著局限性。

盲評：我們比較了MLLMs的性能與“機會水平（頻率）”和“無視覺（blind）”結果，使用了六個最強模型（3個開源和3個閉源）的平均值。如圖6所示，“啟用 - 禁用”的持續改進和“禁用 - 機會”的普遍下降表明，視頻對我們的VSI - Bench是必要且有益的，盲模型的表現低于機會水平。同時，無論是否啟用視覺，MLLMs在絕對距離估計、路線規劃和相對方向任務上都難以超越機會水平，這凸顯了這些任務的難度。需要注意的是，在物體大小方面，“無視覺”模型已經明顯優于機會水平，這可能是由于在語言模型訓練期間學到的常識知識。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

5. MLLMs在空間中的語言思考方式

為了更好地理解模型何時以及為何成功或失敗，并闡明它們所具備的視覺空間智能的方面，我們在這里從語言角度以及在第6節從視覺角度研究MLLMs在空間中的思考方式。我們首先提示在VSI - Bench中表現最好的MLLM，Gemini1.5 Pro[76]，用語言表達其內部推理過程。

5.1. 通過自我解釋進行探究

自我解釋是一種與傳統模型解釋（如LIME顯著圖[69]）相當的流行方法，用于理解LLM生成的響應[25, 31, 51]，并廣泛用于分析語言模型行為[64, 96]。我們隨機抽取了163個錯誤答案的子集，提示MLLM為預測答案提供解釋，并手動仔細審查這些解釋。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

案例研究：圖7展示了一個成功案例和一個錯誤案例的自我解釋。在這兩個例子中，當在空間中思考時，MLLM表現出了先進的視頻理解能力，其時間戳描述的準確性令人印象深刻。該模型還形成了正確的逐步推理過程，為相對方向任務概述了“確定自身方向”、“定位洗碗機”和“可視化象限”等步驟。此外，全局坐標系的構建（圖 7，左）表明 MLLMs 可能擁有或構建了一個隱性的世界模型。MLLM 并非使用孤立的幀、短片段或隨機猜測，而是利用全局空間上下文和推理來正確推斷。

在錯誤示例（圖 7，右）中，我們可以識別出諸如自我中心 - 非自我中心轉換和關系推理等有缺陷的視覺空間能力，如在圖 2 中所介紹的。在視頻中，相機向右平移，將視角從床邊轉移到墻壁和窗戶。模型遵循這個自我中心視角，回答說“要面向窗戶所在的墻壁，必須向右轉”，而不是創建一個反映從門到床的路線實際需要向左轉的非自我中心視角。

錯誤分析：為了量化并確定在我們的基準測試中表現最佳的 MLLM 的主要瓶頸，我們分析了它在 VSI - Bench（tiny）上的錯誤，將它們分為四種不同類型，這些類型源于我們概述的視覺空間能力（圖 2）以及在檢查時對錯誤的明確四類分類：

視覺感知錯誤，源于未識別的對象或錯誤分類的對象類別；
語言智能錯誤，由邏輯、數學推理或語言理解缺陷引起；
關系推理錯誤包括空間關系推理中的錯誤，即距離、方向和大?。?/li>
自我中心 - 非自我中心轉換錯誤，源于錯誤的非自我中心空間布局或不恰當的視角轉換。

如圖 8 所示，大約 71%的錯誤歸因于空間推理（如在圖 2 中的本體概念），這表明：

空間推理是 MLLM 在 VSI - Bench 上性能的主要瓶頸。

進一步的分析和案例研究見附錄 E.2。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

5.2. 思維鏈方法在視覺空間任務中的局限性

提示技術提高了大型模型在各種任務中的推理和問題解決能力[32, 34, 73, 82]。它們的成功促使我們研究這些語言提示方法是否也能提高 MLLMs 在 VSI - Bench 中的視覺空間能力。我們研究了三種流行的提示技術（更多細節見附錄 B.3）：

零樣本思維鏈（CoT）。遵循[37, 86]，我們在提示中添加“讓我們逐步思考”。
帶有 CoT 的自一致性。我們遵循[84]，將 MLLM 的溫度設置為 1.0 以鼓勵多樣化推理，然后將五次運行（與零樣本 CoT 一起使用）中的多數共識作為最終預測。
思維樹（ToT）。遵循[92]中的“創意寫作”實踐，我們將推理分為計劃生成和答案預測。MLLM 首先起草并選擇一個計劃，然后生成三個候選答案并選擇最自信的一個作為預測。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

如圖 9 所示，令人驚訝的是，所有三種語言推理技術都導致了 VSI - Bench 上的性能下降。零樣本 CoT 和 ToT 使平均性能降低了約 4%，而自一致性雖然略好，但仍比無提示基線低 1.1%。外觀順序和絕對距離估計任務的單方面改進很容易解釋，因為它們在語言智能錯誤中占很大比例（見圖 8）。相比之下，房間大小和物體大小任務有 8%到 21%的大幅下降，這表明鼓勵模型更多地思考不僅不可靠，而且可能有害。同時，如表 2 所示，零樣本 CoT 在通用視頻理解基準 VideoMME[24]上實現了 1.6%的改進。因此，我們的結果表明：

語言提示技術雖然在語言推理和一般視覺任務中有效，但對空間推理有害。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

6. MLLMs在空間中的視覺思考方式

由于人類在進行空間推理時會下意識地構建空間的心理表征[58, 78]，我們探索 MLLMs 如何記憶空間。

6.1. 通過認知地圖進行探究

我們提示 MLLMs 使用認知地圖來表達它們對所看到空間的內部表征，認知地圖是一種在特定環境中記憶物體的成熟框架[60, 78]。我們提示表現最佳的 MLLM，Gemini1.5 Pro，根據視頻輸入在一個 10×10 的網格中預測物體中心位置（見圖 11b 關于網格大小的消融實驗和附錄 B.4 中的提示）。我們在圖 10 中展示了生成的認知地圖的示例。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

為了定量評估這些認知地圖，我們評估了每個地圖中所有對象對之間的歐幾里得距離。如果兩個對象在網格上的距離與真實認知地圖中的距離偏差不超過一個網格單元，我們就認為該距離是正確的。如圖 11 所示，我們將地圖距離分為八個不同的區間進行分析。有趣的是，我們發現 MLLM 在其認知地圖中定位相鄰對象的準確率達到了 64%，這表明它具有較強的局部空間意識。然而，隨著兩個對象之間距離的增加，這種準確率顯著下降，這表明：

當記憶空間時，MLLM 從給定視頻中在其腦海中形成一系列局部世界模型，而不是一個統一的全局模型。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

這一觀察結果與從離散視頻幀形成全局空間表示的挑戰相一致，這對 MLLMs 來說本身就是困難的。雖然這對人類來說可能也不是一件容易的事，但他們可能能夠更準確地構建這樣的全局空間表示。

6.2. 通過認知地圖更好地進行距離推理

鑒于 MLLMs 在記憶空間時的局部意識（見圖 10 和圖 11）以及心理意象對人類空間思維的重要性，我們研究生成和使用認知地圖是否可以幫助 MLLMs 在 VSI - Bench 的相對距離任務中進行空間推理。這測試了通過認知地圖產生的局部距離意識是否能轉化為更好的距離回憶和推理。

多模態大語言模型的空間智能探秘：突破與挑戰-AI.x社區

我們提示 Gemini1.5 Pro 首先根據給定的視頻和問題生成一個認知地圖，然后使用預測的地圖來回答問題。如表 3a 所示，我們發現使用心理意象使 MLLM 的相對距離準確率提高了 10%。使用真實認知地圖比基線提高 20%到 32%的增益凸顯了構建場景準確心理地圖的重要性，這強制了全局一致的拓撲結構，但也表明這種心理意象只是難題的一部分，盡管是關鍵的一部分。這些結果表明構建一個心理空間世界模型或認知地圖作為 MLLMs 解決視覺空間推理的有價值的前置任務或有前途的解決方案。

7. 相關工作

除了第 2 節中的視覺空間智能，我們還在以下兩個相關領域為我們的工作奠定基礎：

具有視覺空間意識的 MLLMs：基于 LLMs[3, 9, 65, 66, 75, 79, 80]強大的語言和推理能力以及現代視覺編碼器[29, 63, 67]的特征提取能力，MLLMs，尤其是視覺 MLLMs，展現出了前所未有的視覺理解能力[33, 39, 76, 83, 88, 99]，這是朝著開發世界模型[48]和具身智能體[17, 21, 36, 57]的有前途的方向。然而，將 MLLMs 基于現實世界對模型的視覺空間智能提出了重大挑戰，促使了最近的努力[10, 13, 16, 40, 46, 91, 102]。與先前主要關注通過 2D 圖像[68, 74, 90]或僅通過語言[56, 70, 87, 87, 89]理解空間信息的工作不同，我們的工作使用真實世界視頻評估模型的視覺空間智能，這更緊密地反映了人類對世界的理解和具身智能體的應用場景。
在視頻上對 MLLMs 進行基準測試：隨著 MLLMs 在靜止圖像的感知、推理和多學科任務中表現出令人印象深刻的性能[38, 50, 95, 96]，人們越來越關注評估 MLLMs 的視頻理解能力[23, 24, 42, 43, 49, 52, 53, 61, 93]。例如，Video - MME[24]全面評估了 MLLMs 在各種視頻相關任務中的表現，包括識別和感知。EgoSchema[53]和 OpenEQA[62]使用自我中心視頻評估 MLLMs 的理解能力。盡管它們很重要，但大多數先前的工作都集中在內容級別的理解[24, 42, 53, 61]，這主要是 2D 圖像理解的時間擴展，沒有考慮 3D 空間。超越先前的基準，我們的工作建立了一個測試平臺，使用視頻作為理解現實世界的接口，評估基于 3D 視頻的模型視覺空間智能。

8. 討論與未來工作

我們通過構建 VSI - Bench 并研究 MLLMs 在其上的性能和行為來研究模型如何觀察、記憶和回憶空間。我們對 MLLMs 在空間中的語言和視覺思考方式的分析確定了視覺空間智能的現有優勢（例如，突出的感知、時間和語言能力）和瓶頸（例如，自我中心 - 非自我中心轉換和關系推理）。雖然流行的語言提示方法未能提高空間推理能力，但構建明確的認知地圖確實增強了 MLLMs 的空間距離推理能力。未來的改進途徑包括特定任務的微調、開發用于空間推理的自監督學習目標或為 MLLMs 定制的視覺空間提示技術。

參考資料

標題：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
作者：Jihan Yang1* Shusheng Yang1? Anjali W. Gupta1? Rilyn Han2? Li Fei-Fei3 Saining Xie1
單位：1紐約大學 2耶魯大學 3斯坦福大學
標簽：多模態大語言模型、視覺空間智能、人工智能、基準測試
概述: 本文主要研究多模態大語言模型（MLLMs）的視覺空間智能，通過構建 VSI - Bench 基準測試，分析 MLLMs 在其中的表現、思考方式及能力瓶頸，并探討了提升其視覺空間智能的方法。
鏈接：https://arxiv.org/pdf/2412.14171

本文轉載自 ??旺知識??，作者：旺知識

標簽

已于2024-12-27 16:24:18修改

贊

收藏

回復

舉報

回復

相關推薦

《多模態大語言模型綜述》重大升級

angel ? 5257瀏覽 ? 0回復
揭秘多模態：人工智能領域的新突破

sword_hero ? 5162瀏覽 ? 0回復
多模態視覺-語言大模型的架構演進

angel ? 7089瀏覽 ? 0回復
多模態大型語言模型（MLLM）綜述

AIRoobt ? 7780瀏覽 ? 0回復
「多模態大模型」解讀 | 突破單一文本模態局限

Baihai_IDP ? 4652瀏覽 ? 0回復
大型語言模型（LLM）在機器人領域的機遇、挑戰與展望

AIRoobt ? 7731瀏覽 ? 0回復
大語言模型實踐中的挑戰與應對

sbf_2000 ? 4289瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 3885瀏覽 ? 0回復
多模態大模型數據分析與實踐

zhcs333 ? 6667瀏覽 ? 0回復
多模態語言模型實戰之音樂轉錄

51CTO內容精選 ? 4308瀏覽 ? 0回復
探秘大語言模型數據合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 4038瀏覽 ? 0回復
機械鸚鵡與真正的智能：大語言模型推理能力的迷思

Baihai_IDP ? 4051瀏覽 ? 0回復
醫學領域大模型與多模態大模型的綜合調查

知識圖譜科技 ? 4089瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 4380瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 4877瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 3775瀏覽 ? 0回復
5W字長文 Agent多智能體探秘：架構設計、交互模式與應用實踐深度剖析

柏企閱文 ? 4376瀏覽 ? 0回復
2025年最值得關注的十大多模態大語言模型！

Halo咯咯 ? 1.1w瀏覽 ? 0回復
面向未來通信的大語言模型綜述：基礎、應用與挑戰

AIRoobt ? 6886瀏覽 ? 0回復

十一月雨_55

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

NeurIPS'25香港城大+騰訊+浙大Retrv-R1：“壓縮 + 推理“驅動多模態檢索效率效果新SOTA 3天前發布
Meta提出DreamGym：合成經驗把Agent學習成本砍掉 80%，效果超SOTA 30% 2025-11-12 00:17:14發布

熱門推薦

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！ 0回復

ICLR25賓大提出REGENT：檢索增強通用智能體，看兩眼就會學新技能，1.38億參數打贏百億模型 0回復

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

上一篇： OpenAI Sora震撼登場：20秒打造專業級視頻，開啟創意新紀元！

下一篇：大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

社區精華內容

目錄

精品不卡在线视频| 亚洲国产精品影院| 91手机视频在线观看| 免费在线观看日韩| 免费短视频成人日韩| 欧美日韩免费一区二区三区视频| 福利网在线观看| 神宫寺奈绪一区二区三区| 丝袜脚交一区二区| 欧美国产日韩一区二区三区| 四虎永久免费影院| 精品亚洲a∨一区二区三区18| 午夜久久电影网| 亚洲高清在线播放| 亚洲国产精品无码久久| 久久久久久久高潮| 欧美丰满少妇xxxx| 性欧美13一14内谢| 久久伦理中文字幕| 日本精品免费观看高清观看| 伊人再见免费在线观看高清版| 深夜福利免费在线观看| 国产在线视频一区二区三区| 热久久这里只有| 免费一级片在线观看| 日韩欧美自拍| 亚洲色图欧美制服丝袜另类第一页| 国产九九九视频| 国产精品久久乐| 激情成人在线视频| bt天堂新版中文在线地址| 尤物在线视频| 久久精品欧美一区二区三区麻豆| 国产精品亚洲综合| 国产精品九九九九| 日韩精品久久久久久| 97免费中文视频在线观看| 亚洲色图综合区| 999久久久亚洲| 伊人久久久久久久久久久久久| 久草免费资源站| 精品视频在线一区| 91精品国产综合久久婷婷香蕉 | 欧美日韩成人综合天天影院 | 自拍网站在线观看| 亚洲电影一区二区| r级无码视频在线观看| 中中文字幕av在线| 一区二区三区中文在线| 美女黄色片网站| 免费av网站在线看| 亚洲欧洲成人自拍| 伊人久久大香线蕉av一区| 第三区美女视频在线| 久久久久久久综合狠狠综合| 麻豆精品蜜桃一区二区三区| 在线观看xxx| 91在线视频网址| 久久精品一区二区三区不卡免费视频| 天堂中文网在线| 99久久国产免费看| 免费在线国产精品| 九色在线免费| 中文字幕的久久| 亚洲欧美日韩精品久久久 | 国产亚洲人成网站| 日韩精品欧美在线| av电影在线网| 综合精品久久久| 亚洲色欲久久久综合网东京热| 波多野结衣中文字幕久久| 午夜精品视频在线观看| 久久久久久久久久久福利| 一根才成人网| 欧美日韩一区久久| 青娱乐精品在线| 国产成人tv| 亚洲欧美日韩直播| 国产精品麻豆一区| 中文字幕一区二区精品区| 欧美肥臀大乳一区二区免费视频| 久草国产精品视频| 日本成人中文字幕| 亚洲自拍欧美另类| 同心难改在线观看| 日本一区二区三区视频视频| 综合网五月天| av在线最新| 在线观看亚洲精品视频| 国内av一区二区| 久久精品福利| 少妇精69xxtheporn| 欧美日韩偷拍视频| 久久久噜噜噜| 97自拍视频| 久青草国产在线| 亚洲欧美激情在线| 久久婷婷五月综合色国产香蕉| 久久69成人| 欧美精品一区二区高清在线观看 | 国产精品一在线观看| 日韩在线观看精品| 西西44rtwww国产精品| 美女视频黄a大片欧美| 国产乱码精品一区二区三区中文 | 夜夜嗨av一区二区三区中文字幕 | 天堂一区二区三区| 污污的视频在线观看| 欧美色播在线播放| 青娱乐精品在线| 青草国产精品| 欧日韩在线观看| 成人av免费播放| 国产女人18水真多18精品一级做| 日本aa在线观看| 欧美成人毛片| 亚洲欧美中文字幕| 国产无套内射又大又猛又粗又爽| 麻豆国产精品视频| 久久久久久欧美精品色一二三四| 国产精品久久麻豆| 在线观看av一区二区| 亚洲av成人精品一区二区三区| 色偷偷综合网| 国产精品久久久一区| 五月婷婷六月激情| 亚洲一二三专区| 中文字幕一二三区| 欧美成人直播| 国产美女精品免费电影| 国产九九在线| 在线一区二区视频| 泷泽萝拉在线播放| 日韩一级免费| 国产综合av一区二区三区| a级在线观看| 91精品国产综合久久精品app | 亚洲国产日韩在线一区| 91综合视频| 国产三级精品网站| av大片在线播放| 在线视频亚洲一区| 欧美成人国产精品一区二区| 欧美一级播放| 鲁丝一区鲁丝二区鲁丝三区| 性欧美又大又长又硬| 精品福利一区二区三区 | 欧美午夜片欧美片在线观看| 性欧美18—19sex性高清| 欧美一区二区三区另类| 亚洲wwwav| 伊人影院蕉久影院在线播放| 日韩美一区二区三区| 欧美日韩免费一区二区| 国产传媒久久文化传媒| 日韩美女爱爱视频| 老司机凹凸av亚洲导航| 5566日本婷婷色中文字幕97| 香蕉久久一区二区三区| 色综合网站在线| 国产又粗又黄又猛| 毛片不卡一区二区| 精品少妇人妻av一区二区| 精品精品视频| 97在线观看免费| 人成在线免费视频| 欧美色精品天天在线观看视频| 无码人妻丰满熟妇啪啪欧美| 麻豆精品久久精品色综合| 国产对白在线播放| 国产精品任我爽爆在线播放| 欧美一级大胆视频| 成人免费视频| 日韩精品在线网站| 三级黄色在线视频| 欧美高清一级片在线观看| 欧美精品 - 色网| 亚洲福利专区| 日本在线播放一区| 精品视频在线一区| 欧美一级淫片videoshd| 1024国产在线| 精品国产凹凸成av人导航| 亚洲综合久久网| 中文字幕一区二区三区视频 | 日韩精品三级| 欧美综合第一页| 求av网址在线观看| 亚洲高清色综合| 做爰视频毛片视频| 亚洲一区国产视频| 日本免费www| 国产成人在线视频网址| 男人透女人免费视频| 亚洲精品一区二区在线看| 精品在线不卡| 亚洲欧美在线人成swag| 91国产精品视频在线| 国产大片在线免费观看| 日韩欧美中文一区| 黄色av网站免费观看| 一区二区三区影院| 精品人妻无码一区二区三区换脸| 国产一区二三区| 丁香婷婷激情网| 亚洲三级观看| 日本高清xxxx| 成人一二三区| 久久综合九色99| 大奶一区二区三区| 成人欧美一区二区三区在线| 在线亚洲人成| 97视频com| 日本一本在线免费福利| 中文字幕国产亚洲2019| 手机看片福利在线观看| 精品少妇一区二区三区视频免付费 | 日本一区二区在线免费播放| 亚洲妇熟xxxx妇色黄| 中文字幕亚洲情99在线| 久久精品色图| 亚洲精品国产拍免费91在线| 国产熟女一区二区三区四区| 91官网在线免费观看| 91在线看视频| 午夜视频一区在线观看| 欧美黄色免费观看| |精品福利一区二区三区| 亚洲精品午夜视频| 91美女视频网站| 五十路六十路七十路熟婆| 国产成人综合自拍| 欧美xxxx黑人| 国产精品456露脸| 午夜影院免费观看视频| 国内久久精品视频| 成年人三级黄色片| 秋霞成人午夜伦在线观看| 欧美精品第三页| 久久一区二区三区超碰国产精品| 337p粉嫩大胆噜噜噜鲁| 99精品国产在热久久婷婷| 成年人网站国产| 在线日韩视频| 久久久久久久久久网| 极品中文字幕一区| 国产免费黄色一级片| 欧美精品aa| 黄色激情在线视频| 亚洲精品系列| 99久久激情视频| 视频一区国产视频| 国产精品入口免费软件| 首页国产欧美久久| 欧美特级aaa| 韩国理伦片一区二区三区在线播放| 久久婷婷中文字幕| 国产激情一区二区三区| zjzjzjzjzj亚洲女人| 播五月开心婷婷综合| 大地资源二中文在线影视观看| 99精品偷自拍| 日韩av片在线| 亚洲欧美国产77777| 久久亚洲av午夜福利精品一区| 亚洲国产一区二区在线播放| 啦啦啦免费高清视频在线观看| 色婷婷综合久久久久中文一区二区 | 三级电影在线看| 久久综合给合久久狠狠狠97色69| 老熟妇一区二区| 综合中文字幕亚洲| 久久久综合久久| 狠狠躁夜夜躁人人爽天天天天97 | 美女露胸视频在线观看| 欧洲午夜精品久久久| 日韩一区二区三区免费视频| 成人网在线免费看| 日韩精品导航| 亚洲成人18| 在线播放亚洲| 啊啊啊国产视频| 国产乱人伦偷精品视频免下载| 国产大尺度视频| 久久久国产精品午夜一区ai换脸| 中文乱码字幕高清一区二区| 亚洲一区电影777| 国产一区免费看| 欧美成人a∨高清免费观看| 欧美日韩激情视频一区二区三区| www.日本久久久久com.| 99在线视频影院| 国产精品亚洲一区二区三区| av一级亚洲| 香蕉久久夜色| 最新成人av网站| 国产一区二区在线观看免费视频| hitomi一区二区三区精品| 亚洲国产精品一区二区久久hs| 亚洲第一久久影院| 一级黄色大片免费| 日韩av在线精品| 国产精品va在线观看视色| 欧美一级电影免费在线观看| 精品一区视频| 相泽南亚洲一区二区在线播放| 亚洲精品视频啊美女在线直播| 欧美大片久久久| 久久日韩粉嫩一区二区三区| 精品97人妻无码中文永久在线| 欧美亚洲自拍偷拍| 外国精品视频在线观看| 欧美尺度大的性做爰视频| 九色成人搞黄网站| 精品日本一区二区三区在线观看| 欧美成人自拍| 黄色成人免费看| 久久色在线视频| 天天插天天操天天干| 精品少妇一区二区三区在线播放| 亚洲视频tv| 国产经典一区二区| 天天躁日日躁成人字幕aⅴ| 国产精品啪啪啪视频| 久久国产精品99精品国产| 国产精品815.cc红桃| 疯狂蹂躏欧美一区二区精品| 性生活黄色大片| 欧美成人自拍视频| www久久久| 日韩wuma| 日韩国产在线观看| 成人免费网站黄| 狠狠色狠狠色综合日日五| 色欲久久久天天天综合网| 色综合视频一区中文字幕| 国产精品99久久免费| a级黄色片网站| 精品一区二区综合| 免费观看特级毛片| 欧美日韩的一区二区| 欧美69xxx| 91精品在线影院| 围产精品久久久久久久| 天天操天天干天天做| 国产精品久久久久久久久久免费看| 日韩精品一区不卡| 国产香蕉精品视频一区二区三区| 欧美aa视频| 亚洲v欧美v另类v综合v日韩v| 免费观看30秒视频久久| 熟女少妇内射日韩亚洲| 欧美天堂一区二区三区| 91网页在线观看| 国产日韩欧美日韩大片| 欧美韩日高清| www激情五月| 亚洲一卡二卡三卡四卡五卡| 欧美熟女一区二区| 97成人超碰免| 精品久久国产| 日本超碰在线观看| 亚洲精品自拍动漫在线| 丰满肥臀噗嗤啊x99av| 97精品视频在线播放| 综合亚洲色图| 在线黄色免费看| 一区二区三区在线看| 五月婷在线视频| 国产精品wwwwww| 911久久香蕉国产线看观看| 日韩成人av影院| 色综合夜色一区| 色老头视频在线观看| 99国精产品一二二线| 99成人免费视频| 99久久久无码国产精品不卡| 日韩午夜激情电影| yellow在线观看网址| 婷婷四月色综合| 国产成人在线色| 在线视频一区二区三区四区| 色偷偷噜噜噜亚洲男人的天堂| 一区二区中文字幕在线观看| 男人天堂999| 亚洲蜜桃精久久久久久久| 午夜国产在线视频| 国产精品午夜视频| 在线成人h网| 538精品视频| 亚洲精品ady| 国产麻豆一区二区三区| 久久网站免费视频| 亚洲精选视频在线| 岛国在线视频免费看| 国产99在线播放| 蜜臀av性久久久久av蜜臀妖精 | 欧美激情综合色综合啪啪| 欧美日韩成人| 精品免费99久久|