精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025) 原創

發布于 2025-5-29 06:32
瀏覽
0收藏

摘要 

交錯多模態理解與生成能力 —— 使模型能夠以任意順序生成和解釋圖像與文本 —— 已成為多模態學習的關鍵領域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現有基準在數據規模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰,我們推出 MMIE,這是一個大規模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態理解與生成能力。MMIE 包含 20,000 個精心策劃的多模態查詢,涵蓋 3 個類別、12 個領域和 102 個子領域,包括數學、編程、物理、文學、健康和藝術等。它支持交錯的輸入和輸出,并提供選擇題和開放式問題格式的混合,以評估多樣化的能力。此外,我們提出了一種可靠的自動化評估指標,利用通過人工標注數據和系統評估標準微調的評分模型,旨在減少偏差并提高評估準確性。大量實驗證明了我們的基準和指標在全面評估交錯 LVLMs 方面的有效性。具體而言,我們評估了八種 LVLMs,結果顯示即使是最佳模型也有顯著的改進空間,大多數僅取得中等結果。我們相信 MMIE 將推動交錯 LVLMs 發展的進一步突破。我們在??https://mmie-bench.github.io/??公開發布我們的基準和代碼。 

1 引言 

“真正的評估在于不同模態的無縫交織?!?nbsp;

隨著大型視覺語言模型(LVLMs)的發展,多模態學習取得了顯著進步(Liu 等人,2023a;Zhu 等人,2023;Dai 等人,2023),這些模型能夠處理涉及圖像和文本的各種任務。盡管如此,大多數這些模型僅限于用于文本生成的多模態任務,如視覺問答(VQA)和圖像描述,這并未充分反映多模態能力的潛力。為了拓寬其應用,交錯的文本和圖像生成已成為一個關鍵研究領域(Liu 等人,2024)。它要求模型以任意順序生成圖像和文本,從而增強多模態系統的通用性和有效性。這為各種復雜應用開辟了可能性,如多步推理(Lu 等人,2024;Kazemi 等人,2024)、多模態情境分析(Yang 等人,2021)和視覺敘事(Huang 等人,2016)。 

盡管最近的 LVLMs 正在發展以支持交錯的文本和圖像生成(Team,2024;Xie 等人,2024;Chern 等人,2024;Zhou 等人,2024),但由于以下兩個挑戰,全面的評估基準仍然滯后: 

1.1 構建模態一致基準的難度 

第一個挑戰在于構建模態對齊的多模態數據集的困難,其中輸入和輸出都包含圖像和文本。當前基準主要關注單模態輸出任務(Fu 等人,2023;Li 等人,2024a;Zhang 等人,2023),僅評估生成圖像或文本的質量,而沒有對模態之間的關鍵聯系進行基準測試,例如文本 - 圖像的連貫性和一致性。盡管有一些數據集支持 LVLMs 的交錯多模態評估方法(Liu 等人,2024),但其數據集受到規模有限和查詢格式狹窄的限制,主要集中在 VQA 任務上。 

1.2 缺乏自動化評估指標 

第二個挑戰是缺乏適用于交錯生成的自動化評估指標。人工評估成本高且耗時,難以在實際應用中擴展。當前的自動化評估指標通常要么評估生成文本的質量(例如 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)),要么評估生成圖像的質量(例如 FID(Heusel 等人,2017))。盡管最近的評估策略,如使用 CLIPScore(Hessel 等人,2021)和視覺語言模型(VLMs)(Chen 等人,2023;Liu 等人,2024),可以評估不同模態之間的聯系,但它們嚴重依賴特定模型的預訓練知識(例如 CLIP 訓練數據)或遵循嚴格的人工定義規則。這些方法在一定程度上會引入偏差和不確定性,常常導致結果不一致(Mahmoud 等人,2024)。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖1 MMIE基準的典型樣本,展示其支持多圖像輸入和輸出,并為每個查詢提供真實標簽。MMIE跨不同領域評估模型,確保對其能力的全面評估。#注釋:該圖呈現了MMIE基準中具有代表性的樣本,直觀體現出基準在多圖像模態交互方面的支持情況,以及其評估的全面性。

為解決這些限制,我們引入 MMIE,這是一個用于 LVLMs 的大規模多模態交錯理解評估基準,并提出了可靠的自動化指標。MMIE 從四個多模態數據集精心策劃而來,涉及 3 個類別、12 個領域和 102 個子領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS(電氣工程與計算機科學)。該數據集包含 20,000 個多模態問題,支持交錯的輸入和輸出。它具有選擇題和開放式問題格式的混合,以評估各個領域的廣泛能力。如表 2 所示,MMIE 在深度和廣度上都超越了現有的交錯多模態基準,特別是在解決復雜問題和開放式創意任務方面?;诰牟邉澋臄祿?,我們進一步提出了一種由評分模型驅動的自動化指標。具體來說,我們首先為每個類別設計全面的評估標準。然后,我們策劃一個細粒度的人工標注評分數據集,并使用該數據集微調 InternVL2(Chen 等人,2024c)以獲得評分模型。使用 MMIE,我們評估了四個開源交錯多模態 LVLMs,以及先進 LVLMs(如 GPT-4o)與文本到圖像生成模型(如 Stable Diffusion 3(Esser 等人,2024))的組合。我們的主要貢獻總結如下: 

?我們推出了用于評估 LVLMs 的最大高質量交錯多模態基準 MMIE,該數據集將公開發布。 

?MMIE 對 LVLMs 提出了重大挑戰,表現最佳的模型(例如 GPT-4o + SDXL)得分僅為 65.47%,突顯了巨大的改進空間。 

?所提出的評分模型可靠,已證明與人工評估相當。 

2 相關工作 

2.1 交錯多模態理解與生成 

多模態學習發展迅速,在整合文本和圖像模態方面取得了重大進展。大型視覺語言模型(LVLMs)的最新進展(Liu 等人,2023a;Zhu 等人,2023;2024;Dai 等人,2023;Xia 等人,2024b;c),要么通過整合如 Stable Diffusion(Rombach 等人,2022)這樣的擴散模型驅動,要么使用如 Chameleon(Team,2024)和 Show-o(Xie 等人,2024)這樣的基于令牌的混合模態結構,使模型不僅能夠理解和生成跨模態的內容,還能進行交錯多模態理解和生成。隨著對更豐富、更交互式 AI 的需求增長,交錯多模態理解和生成正在成為下一代 LVLMs 發展的重要組成部分。 

2.2 LVLM 基準 

盡管多模態學習發展迅速,但評估基準仍遠非完美。以前的基準主要關注評估 LVLMs 的基礎感知能力(Lu 等人,2022;Gurari 等人,2018),例如 GQA(Hudson & Manning,2019),缺乏評估高級推理所需的深度。最近,已提出了幾個高質量的評估基準來評估這些模型的推理能力(Li 等人,2024a;Zhang 等人,2023;Liu 等人,2023a;b;Yu 等人,2023;Xia 等人,2024a;Jiang 等人,2024b;Zhang 等人,2024b;b;c;Jiang 等人,2025),例如 MMMU(Yue 等人,2024)和 MME(Fu 等人,2023)。然而,這些基準不支持交錯的圖像和文本理解與生成。像 MINT-1T(Awadalla 等人,2024)、MANTIS(Jiang 等人,2024a)和 OBELICS(Laurenc?on 等人,2024)這樣的大規模交錯多模態數據集主要是為預訓練模型開發的。然而,它們缺乏文本和圖像之間的精確對齊,不適合評估和基準測試。最近引入了一個小規模的交錯多模態基準(Liu 等人,2024),但其有限的數據規模和查詢質量阻礙了其評估的全面性。MMIE 填補了這一空白,提供了一個支持交錯多模態理解和生成的全面評估框架。我們的數據集包括多個領域的多樣化查詢。通過評估 LVLMs 的感知和生成能力,它提供了更全面的評估。 

2.3 多模態任務的評估指標 

傳統評估指標,如用于文本質量的 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)和用于圖像質量的 FID(Heusel 等人,2017),僅適用于單模態輸出任務。最近的指標,如 CLIPScore(Hessel 等人,2021)和 X-IQE(Chen 等人,2023),已嘗試通過引入多模態模型來評估文本和圖像之間的一致性來解決這一問題。然而,這些指標僅衡量對齊,缺乏對輸出質量的全面評估。此外,許多多模態指標依賴于基于 GPT 的模型(Liu 等人,2024),給整個評估系統帶來了不可控的偏差。為了克服這些缺點,我們提出了一種自動指標,以最大限度地減少偏差并提供對生成結果的全面分析。 

3 MMIE 基準 

3.1 概述 

在本節中,我們介紹 MMIE,這是一個多樣化和全面的基準,用于評估跨廣泛任務的交錯多模態理解和生成。如表 2 所示,MMIE 由 20,103 個精心策劃的樣本組成,涵蓋 12 個領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。每個查詢都經過精心選擇、篩選和完善,以確保在所涵蓋的主題中具有高質量和相關性。此外,MMIE 強調對三種基本能力的評估:感知、推理和生成。與以前評估單模態(Fu 等人,2023;Yue 等人,2024;Li 等人,2024b)輸出結果的基準不同,MMIE 專門設計用于評估模型理解和生成任意順序的交錯文本和圖像的能力。這種評估超越了基本感知,要求模型進行復雜推理,利用不同模態的特定主題知識。 

表2 MMIE與其他LVLM基準的比較。Inter-I:交錯輸入;Inter-O:交錯輸出;Multi-I:多圖像輸入;Multi-O:多圖像輸出。#注釋:該表通過多維度對比,清晰展現了MMIE基準相較于其他LVLM基準在數據規模、模態支持、領域覆蓋等方面的優勢。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

3.2 數據集策劃 

MMIE 中的數據策劃過程包括兩個階段,每個階段都旨在確保我們基準中各個類別的全面覆蓋和高質量表示。我們詳細說明如下: 

在第一階段,我們收集并重組四個多模態數據集,以符合交錯的圖像和文本格式,并將它們分類為三個類別 —— 情境分析、基于項目的學習和多步推理,如圖 2 所示。具體來說,對于基于項目的學習,我們從 Wikihow(Yang 等人,2021)中提取數據,該數據最初設計用于測試模型根據給定的文本和圖像上下文選擇正確程序步驟的能力。我們將其調整為交錯的文本和圖像格式。對于情境分析,我們從 VIST(Huang 等人,2016)中抽取樣本,這是一個自然交錯的多模態數據集,設計用于視覺敘事任務,挑戰模型無縫整合敘事文本和圖像。情境分析和基于項目的學習數據集都具有交錯的輸入和輸出。為了用更復雜和多樣化的任務擴展基準,我們進一步引入了支持交錯輸入的專注于多步推理的數據集。為此,我們從 MathVista(Lu 等人,2024)和 ReMI(Kazemi 等人,2024)中獲取示例,它們共同提供了 3,600 個涵蓋從函數到統計主題的問題。這些查詢的答案格式包括選擇題(從幾個選項中選擇一個)和開放式問題(直接生成內容)。從這四個數據集中提取樣本后,我們通過壓縮、重組和整合來自多個來源的問題,將它們合并并完善為一個有凝聚力的基準,確保與我們的評估目標一致。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖2 MMIE中類別和領域的分布。#注釋:此圖以可視化方式呈現了MMIE基準在類別和領域上的分布情況,有助于直觀理解其覆蓋的范圍和結構。

在第二階段,我們實施了多步驟質量控制過程,以確保數據集的完整性和一致性。首先,我們應用詞匯重疊和源 URL 相似性檢查,以識別和標記潛在的重復條目,然后對其進行人工審核和刪除。接下來,對每個數據集進行精心審核,以確保格式和排版的一致性,確保符合標準化結構。差異得到糾正,以在整個數據集中保持統一性。最終,我們總共收集了 12 個領域的 20,103 個實例,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。詳細的分類和數據集統計數據見表 1。有關數據集策劃的更多信息,請參閱附錄 A.1。 

表1 數據集統計。#注釋:此表對MMIE數據集的各項統計數據進行了匯總,包括問題總數、不同類別占比、格式分布等關鍵信息。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

3.3 自動化評估指標 

由于傳統指標如 BLEU、BERTScore 和 CLIP-Score 無法提供對多模態輸出質量的全面評估,現有基準使用 GPT-4 系列作為評分模型,這可能在評分過程中引入固有偏差(Liu 等人,2024)。為了確保對各種 LVLMs 的全面和無偏評估,如圖 3 所示,我們提出了一種由我們微調的 LVLM 驅動的自動化評估指標,以協助評分。在這里,我們選擇 InternVL-2-4B(Chen 等人,2024c)作為我們評分系統的基礎,因為它在多模態推理任務中的強大性能和對多圖像輸入的支持。此外,我們微調 InternVL-2-4B 以減輕潛在偏差。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖3 評分模型的流程。#注釋:該圖展示了MMIE評分模型的工作流程,體現了從數據處理到評分生成的完整過程。

具體來說,我們首先構建一個高質量的多模態評分數據集,涵蓋我們基準的所有方面,并附帶詳細的評分標準和參考答案。在此過程中,我們從四個 LVLMs——MiniGPT-5(Zheng 等人,2023)、EMU-2(Sun 等人,2024)、GILL(Koh 等人,2023)和 Anole(Chern 等人,2024)收集了 800 個響應?;诘孛嬲鎸崢撕?,我們使用帶有明確標準的六點評分量表定義評估標準。一組專家為每個級別生成參考答案,并將所有分數統計轉換為百分比格式。這些標準和參考答案共同構成了 MMIE 的強大評分標準。遵循該標準,人工注釋者嚴格對響應進行評分。評分標準和構建過程的詳細示例在附錄 A.9 和附錄 A.3 中提供。 

構建評分數據集后,我們微調 InternVL-2-4B 模型,并使用微調版本作為我們的評分模型。為了驗證其性能,我們隨機選擇 200 個帶有人工評分標簽的新樣本,并將我們模型的結果與其他評分模型的結果進行比較。結果表明,與其他 LVLMs 相比,微調模型顯著提高了人工評分與我們模型生成評分之間的一致性,從而在各種任務中實現了更準確和可靠的評估。我們將在第 4.3 節中詳細討論實驗結果。 

3.4 與現有多模態基準的比較 

MMIE 在三個關鍵方面超越了現有基準。首先,大多數以前的多模態基準僅支持單模態輸入或輸出,而 MMIE 通過實現交錯的文本和圖像理解與生成來彌補這一差距。我們的數據集確保了強大的模態對齊,將多模態問答對重構為交錯的文本和圖像指令格式,然后進行人工審核以保證質量。此外,這些場景反映了現實世界的應用,如多模態腳本生成、數據圖表分析和多模態故事生成。其次,與最近的交錯理解基準(Liu 等人,2024)相比,MMIE 規模更大,涵蓋的主題范圍更廣,包含推理和時間理解技能,允許進行更全面的評估。最后,MMIE 引入了一個由微調 LVLM 驅動的可靠評分系統,顯著提高了評分的準確性和可靠性。表 2 突出了我們的基準與現有基準之間的差異,展示了 MMIE 在規模、多樣性和評分方法方面的優勢。 

4 實驗 

MMIE 為支持交錯多模態輸入和輸出的現有開源 LVLMs(交錯 LVLMs)以及最先進的 LVLMs 與文本到圖像生成模型(集成 LVLMs)的集成提供了系統評估。在本節中,我們旨在回答以下關鍵問題:(1)哪種交錯 LVLM 在 MMIE 上總體表現最佳?(2)集成 LVLMs 的效果如何?(3)評估的 LVLMs 是否對某個領域有偏好?(4)與傳統指標和其他 LVLM 評估相比,我們提出的模型驅動指標有多有用? 

4.1 實驗設置 

基線模型 

我們首先對四個開源交錯 LVLMs 進行基準測試。(1)MiniGPT-5(Zheng 等人,2023),一種結合了 MiniGPT-4 和 Stable Diffusion 的多模態模型,專門用于連貫的圖像 - 文本生成。(2)EMU-2(Sun 等人,2024),一種 37B 參數模型,擅長上下文學習和多模態推理,(3)GILL(Koh 等人,2023),一種專門用于生成和檢索交錯輸出的模型,(4)Anole(Chern 等人,2024),基于 Chameleon(Team,2024),一種擅長文本質量的模型,增加了視覺和多模態生成能力。 

為了擴大比較范圍,我們還與由文本輸出 LVLMs(即 GPT-4o(Achiam 等人,2023)、Gemini-1.5(Reid 等人,2024)、LLaVA-v1.6-34b(Liu 等人,2023a)和 Qwen-VL-2-72b(Wang 等人,2024))和文本到圖像生成模型(即 Openjourney(ope)、Stable Diffusion 3 Medium(Esser 等人,2024)、Stable Diffusion XL turbo、Flux.1-dev(flu))組成的集成 LVLMs 進行比較。我們將交錯的文本和圖像輸入提供給 LVLM 以生成文本,然后將該文本饋送到文本到圖像生成模型以生成圖像。此過程產生的多模態輸出被視為用于評估的交錯輸出。 

人工注釋者 

我們組織了一組頂級高校的高年級學生,他們為評分數據集的策劃做出了貢獻。為確保評估的全面性和一致性,我們為基準的每個類別制定了詳細的標準(詳細信息見附錄 A.9)。 

評估指標 

我們使用第 3.3 節中提出的指標評估所有模型的性能,該指標由基于 InternVL-2-4B(Chen 等人,2024c)微調的 LVLM 驅動,以確??煽康脑u分。 

4.2 主要結果 

在本節中,我們展示了在 MMIE 基準上的綜合評估。交錯 LVLMs 和集成 LVLMs 的詳細性能分別如表 3 和表 4 所示。我們的主要發現總結如下:

表3 四個支持交錯圖像和文本輸入輸出的開源LVLMs在MMIE上的性能,以百分比顯示。#注釋:此表呈現了不同開源LVLMs在MMIE基準上的具體性能表現,為評估模型能力提供了數據支撐。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

表4 與最先進的集成文本到圖像模型的LVLMs(稱為集成LVLMs)在MMIE上的比較。*:LLaVA僅支持單圖像輸入,因此跳過所有多圖像查詢。#注釋:該表對比了集成LVLMs與其他模型的性能,突出了集成模型在某些任務中的表現。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

具有挑戰性的評估和有希望的方向 

如表 3 所示,所有評估的交錯 LVLMs 表現不佳,平均得分為 50.80%。即使集成了 GPT-4o 等先進模型和文本到圖像生成模型,如表 4 所示,達到的最佳分數(GPT-4o + SDXL)為 65.47%。這凸顯了 MMIE 的高難度和挑戰性。有趣的是,最新的交錯 LVLM Anole(Chern 等人,2024)與之前的交錯 LVLMs 相比有顯著改進,平均得分分別比 MiniGPT-5、GILL 和 EMU-2 高 8.4%、7.0%、21.8%。這表明交錯的文本和圖像模型作為多模態理解和生成未來進展的有希望方向的潛力越來越大。為了促進 MMIE 的更廣泛采用,我們提取了 1,000 個樣本以創建一個迷你集。詳細結果可在附錄 A.5 中找到。 

交錯 LVLMs 與集成 LVLMs 之間的差距 

現有的交錯 LVLMs 仍然相當有限。為了增強我們對基準的評估和分析,我們在實驗中將非交錯 LVLMs 與 T2I 模型集成。這種集成 LVLMs 方法在所有類別中平均比以前的開源交錯 LVLMs 性能提高了 25.2%。具體而言,集成模型在情境分析、基于項目的學習和多步推理中分別比交錯模型的最佳性能高出 14.6%、26.3% 和 16.1%。令人驚訝的是,集成 LVLMs 在基于項目的學習中表現異常出色,所有基于 LLaVA-34b 的模型得分都在 70% 以上。這些發現表明,將非交錯 LVLMs 的強大理解能力與 T2I 模型的生成能力相結合,為未來的研究提供了一條有希望的途徑。 

不同領域的模型性能 

如之前在表 3 和表 4 中所示,模型性能因數據的不同類別而異,在基于項目的學習中取得最佳結果,在情境分析中得分最低。這表明模型的性能因類別而異,可能是由于訓練數據分布的固有問題。例如,Anole(Chern 等人,2024)在基于項目的學習數據中得分為 59.05%,但在情境分析中僅為 48.95%,表明它擅長創造性的開放式生成,但在處理詳細的特定學科知識方面有所不足。深入到更細粒度的領域,如圖 4 所示,不同的模型對某些領域的數據表現出偏好。在基于項目的學習的七個領域中,包括教育、金融、健康、哲學、體育、藝術和 EECS,幾乎所有模型在更容易理解的領域,如哲學、藝術和教育中表現良好,但在需要更高推理能力的更復雜領域,如金融和 EECS 中面臨挑戰。圖 4 還顯示,在文本和圖像質量、文本 - 圖像連貫性、方法質量和實用性、創造力和參與度、風格一致性和對應性等標準的得分普遍逐漸下降,表明所有模型都嚴重缺乏文本和圖像對齊以及使用交錯輸出來解決現實世界問題的能力。詳細結果可在附錄 A.7 中找到。 


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖4 基于我們的標準,每個模型在基于項目的學習的七個領域中的平均和總分。我們取GPT-4o、Gemini-1.5、LLaVA-v1.6-34b和Qwen-VL2-72b在四個文本到圖像擴散模型上的平均值。#注釋:此圖展示了不同模型在基于項目的學習的多個領域中的表現情況,反映出模型在不同領域的能力差異。

4.3 我們的模型驅動指標與人工注釋的一致性如何? 

在本節中,我們進一步驗證了我們提出的指標的有效性。在這里,我們進行了一項實驗,使用幾種差異和相似性指標,即余弦相似度、均方誤差(MSE)、平均絕對誤差(MAE)和皮爾遜系數,來評估其與人工注釋的相關性。為了進行比較,我們報告了傳統多模態對齊指標(即 CLIPScore)和 LVLMs(包括 GPT-4o)判斷的分數,GPT-4o 已在(Liu 等人,2024)中用作指標。如表 5 所示,我們的指標與人工評估結果表現出最接近的一致性,證明是最可靠的。我們的評分模型有效地捕捉了圖像和文本序列的多模態特征,并通過精確的復雜推理對其進行判斷。相比之下,其他 LVLMs 和 CLIPScore 往往主要關注理解序列信息,但在把握序列之間的關系和準確判斷它們之間的對齊方面有所不足。總之,實驗表明我們的指標是評估交錯多模態生成的穩健和可靠的標準。我們在附錄 A.4 和 A.8 中分別提供了 MMIE-Score 的評分偏差和泛化性分析。 

表5 評分LVLMs和傳統圖像文本對齊指標的比較。#注釋:該表對不同評分模型和傳統指標進行了對比,驗證了MMIE提出的指標的可靠性和優越性。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

5 錯誤分析 

本節對評估過程中發現的錯誤進行了詳細分析。我們將關鍵挑戰分為兩類:時間理解和推理能力。具體而言,時間理解問題涉及多模態信息理解和跨模態連貫性,而推理問題涉及復雜推理和生成能力。這一分析源于專家注釋者在評分過程中的觀察,不僅突出了模型當前的局限性,還為未來的發展提供了潛在的改進方向。詳細示例見圖 5。更多案例可在附錄 C 中找到。 

5.1 時間理解能力 

主要錯誤在于跨模態連貫性和生成適應性。許多模型難以生成與伴隨文本準確對應的圖像,導致嚴重的信息差距、扭曲和冗余。 

跨模態連貫性 

最常見的錯誤之一是文本和圖像生成之間的不連貫。由于多模態對齊的不足,生成的圖像中的細節通常模糊或完全缺失,使其難以與文本中描述的上下文對齊。一個典型的例子如圖 5 所示,模型正確理解了 “瀏覽器圖像:HowToUseSkypes.png” 方法并產生了準確的文本響應。然而,它生成的相應圖像僅由顏色塊組成,缺乏與文本建立連貫性和對齊所需的必要細節。 

生成適應性 

另一個重大錯誤是生成響應的不靈活性。例如,模型只能理解給定的文本并產生簡單、缺乏細節的響應。例如,在圖 5 中,模型的回復僅包含標題 “下一步是編寫”,而沒有進一步詳細說明所涉及的步驟或過程,這與提供的查詢示例不同。這個問題可能源于文本理解和生成的弱點。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖5 模型失敗的示例。介紹并分類了四種典型的錯誤類型,即文本和圖像生成之間的不連貫、生成響應的不靈活性、多模態信息理解差以及無法處理復雜推理任務。#注釋:該圖通過具體示例展示了模型在評估中出現的典型錯誤類型,為分析模型缺陷提供了直觀參考。

5.2 推理能力 

在評估模型的推理能力時,最普遍的錯誤類型出現在多模態信息理解和復雜推理中。值得注意的是,許多模型甚至在理解交錯信息方面表現出重大錯誤(Jin 等人,2024b;a;Chen 等人,2024a;b;Zhang 等人,2024a),這不可避免地導致后續推理錯誤。 

多模態信息理解 

評估 LVLMs 推理能力的一個關鍵錯誤是它們難以理解多模態查詢,特別是從圖像中提取視覺信息。一個常見的問題是,模型正確解釋了查詢的文本組件,但未能完全理解圖像中的視覺細節。例如,在比較四個數據集體積的條形圖的情況下,每個數據集由 y 軸上具有相應高度的條形表示,模型可能識別圖表的標題和標簽,但忽略條形本身傳達的關鍵信息 —— 例如數據集的相對大小。這凸顯了模型傾向于關注表面級文本線索,而不深入探究圖像中嵌入的更深層次的圖形含義。這也凸顯了一個更廣泛的趨勢:LVLMs 表現出強烈的偏向于處理文本,而不是從視覺數據和其他非文本模態中提取細微信息。 

復雜推理 

另一個重大錯誤是模型無法處理復雜推理任務。如圖 5 所示,模型在多步推理中表現出明顯的弱點。例如,在生物系統的影響分析中,模型正確預測毛毛蟲的減少會導致鳥類種群的下降,但未能推斷出次級效應 —— 植物種群會增加。另一個例子見于算術問題,其中模型犯了明顯的錯誤,例如未能計算三角形的精確長度。這些例子強調了加強模型多步推理能力的必要性,使其在處理復雜任務時更加穩健和可靠。 

6 結論 

本文介紹了 MMIE,這是一個用于交錯圖像和文本理解與生成的大規模、多樣化基準。MMIE 跨越廣泛的領域,提供了用于交錯多模態理解和生成的全面評估框架,具有 20,000 個查詢。該數據集涵蓋廣泛的領域,確保了對 LVLMs 各個維度的高質量評估。此外,我們提出的模型驅動指標基于輸入的圖像 - 文本上下文,有效地評估了輸出的圖像 - 文本信息的質量。我們的大量實驗進一步表明,我們提出的指標提供了穩健的、類似人工的評估性能,顯著減少了錯誤和偏差。盡管如此,我們觀察到現有模型表現不佳,特別是在復雜和深度交錯的多模態任務中,凸顯了該領域未來面臨的挑戰和機遇。 

倫理聲明 

本文專注于交錯大型視覺語言模型的評估。使用新構建的人工注釋數據集來微調評分模型。該數據集是按照倫理指南策劃的,以確保不包含敏感信息,并在注釋過程中盡量減少偏差。評估過程旨在透明和可重復,遵循研究完整性和倫理行為的高標準。沒有收集或處理個人可識別數據。 

可重復性聲明 

為了確保我們結果的可重復性,我們已做出大量努力提供所有必要的細節和材料。具體而言,我們在第 3 節中包括了數據集創建過程的全面描述,包括注釋指南和數據收集方法,并在附錄 A.1 中進一步闡述?;鶞屎驮u估程序在第 4 節中詳細描述,所使用的指標明確定義,以促進獨立驗證。 



本文轉載自??AIRoobt?? ,作者:Diji Yang等


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-29 06:32:07修改
收藏
回復
舉報
回復
相關推薦
亚洲第一色视频| 日本黄色特级片| 欧美人与禽猛交乱配| 成人一级视频在线观看| 欧美亚洲国产视频| 国产精品无码无卡无需播放器| 欧美大陆国产| 亚洲自拍另类综合| 欧美一区二区福利| 国产免费一区二区三区免费视频| 伊人影院久久| 日日骚久久av| 国产一级二级av| 日韩成人影音| 亚洲已满18点击进入久久| 免费看国产精品一二区视频| 一区二区不卡视频在线观看| 99成人精品| 久久久精品视频成人| 日韩精品一区二区三区高清免费| 成人亚洲免费| 狠狠色噜噜狠狠狠狠97| 女女同性女同一区二区三区按摩| 色就是色亚洲色图| 国产精品99久久久久久宅男| 青青草成人在线| 免费一级全黄少妇性色生活片| 禁断一区二区三区在线| 日韩欧美一级二级三级久久久| 一本久道中文无码字幕av| 欧美v亚洲v| 中文字幕亚洲区| 欧美一区国产一区| 日本黄视频在线观看| 国产一区免费电影| 国产精品久久久久久超碰| 日韩欧美激情视频| 午夜久久99| 久久久av免费| 国产精品麻豆免费版现看视频| 女仆av观看一区| 日韩欧美国产综合| 久久久久久久高清| 成人在线视频观看| 欧美日韩国产黄| 人妻无码久久一区二区三区免费| www免费视频观看在线| 国产精品美日韩| 亚洲一区二区三区四区中文| 国产日本在线| 国产日韩三级在线| 欧美在线日韩精品| 巨骚激情综合| 国产亚洲成av人在线观看导航| 久久精品日产第一区二区三区精品版 | 亚洲精品在线a| 欧美精品一二三区| 美女在线视频一区二区| 国产精品天堂蜜av在线播放| 欧美亚一区二区| 另类小说第一页| 日韩另类视频| 欧美性xxxxx极品少妇| 欧美亚洲日本在线观看| abab456成人免费网址| 欧美亚洲尤物久久| 国内自拍第二页| 视频精品一区二区三区| 欧美va亚洲va| 亚洲精品理论片| 中文字幕亚洲影视| 中文字幕欧美国内| 日本在线一级片| 亚洲人体偷拍| 国产精品6699| 91精品国产乱码久久久| 国产乱码精品一区二区三区五月婷| 亚洲free性xxxx护士hd| www.四虎在线观看| 91麻豆精品一区二区三区| 日韩一区二区三区资源| 国产一区精品| 亚洲丝袜精品丝袜在线| 国产aaa免费视频| 国产美女精品写真福利视频| 91福利视频久久久久| 九九久久久久久| 老司机精品在线| 尤物九九久久国产精品的分类| 国产在线免费看| 欧美日韩国产综合网| 欧美精品电影在线| 日韩精品在线观看免费| 欧美精品三级| 国产成人精品综合| 97caocao| 成人国产亚洲欧美成人综合网| 精品一区久久久| 超碰在线国产| 一区二区在线观看av| 精品无码国产一区二区三区av| 日本不良网站在线观看| 欧美日韩国产大片| 99riav国产精品视频| 同性恋视频一区| 日韩中文字幕不卡视频| 欧美偷拍第一页| 亚洲深爱激情| 91精品国产综合久久香蕉最新版 | 久久精品国产99久久6| 国产精品偷伦一区二区| 亚洲aaaaaaa| 中文字幕视频一区二区三区久| 青青草视频在线免费播放| 国产精品亚洲d| 欧美一区二区三区在线视频| 欧美成人三级伦在线观看| 国产一区二区亚洲| 欧美精品免费在线观看| 久一视频在线观看| 精品一区二区在线观看| 精品国产二区在线| 黄色av电影在线观看| 黑人巨大精品欧美一区二区一视频 | 九色视频网站在线观看| 亚洲情趣在线观看| 六月丁香激情网| 国产精久久一区二区| 亚洲电影av在线| 欧美成人短视频| 日韩午夜激情| 91超碰在线电影| 国产高清自拍视频在线观看| 一区二区三区四区精品在线视频 | 国产一级片免费| 青草av.久久免费一区| 国产午夜精品一区| 黄色视屏免费在线观看| 91国产丝袜在线播放| 成熟妇人a片免费看网站| 婷婷综合电影| 国产91精品久久久久久| 丰满熟妇乱又伦| 亚洲色图制服诱惑| 手机看片福利日韩| 日韩精品导航| 欧美精品久久久久a| 国产又爽又黄免费软件| 国产欧美久久久精品影院| 日本黄大片在线观看| 国产 日韩 欧美 综合 一区| 久久艳片www.17c.com| 一卡二卡三卡在线| 国产视频一区在线观看| 亚洲 高清 成人 动漫| 国内视频在线精品| 欧美激情手机在线视频| 国产v片在线观看| 亚洲素人一区二区| 男生操女生视频在线观看| 一区二区三区国产精华| 91久久综合亚洲鲁鲁五月天| 香蕉视频网站在线观看| 欧美日韩激情一区二区三区| 国产毛片欧美毛片久久久| 久久久久国产精品一区三寸 | 国产厕拍一区| 国内外成人免费激情在线视频| www.xxx国产| 亚洲一区二区欧美日韩| 欧美xxxx×黑人性爽| 一区视频在线| 久久99精品国产一区二区三区| 9999热视频在线观看| 亚洲欧美日韩综合| 黄色片视频免费| 国产午夜亚洲精品不卡| 99久久国产宗和精品1上映| 欧美三级伦理在线| 欧美孕妇与黑人孕交| 欧美女v视频| 色婷婷狠狠综合| 性欧美精品男男| 国产精品一区二区免费不卡| 免费拍拍拍网站| 羞羞答答一区二区| 国产极品精品在线观看| 97人人在线| 91精品国产日韩91久久久久久| 欧美日韩在线观看成人| 丁香五精品蜜臀久久久久99网站| 日韩少妇内射免费播放| av一区二区在线观看| 成人精品在线视频| 欧美黄色视屏| 亚洲免费视频一区二区| 国产乡下妇女三片| 亚洲精品视频观看| www.男人天堂| 黑人精品欧美一区二区蜜桃| 97免费视频观看| 国产麻豆精品久久| 亚洲一区二区三区视频| 国产h片在线观看| 中文字幕亚洲综合| www.五月婷| 在线观看欧美黄色| 久久免费看少妇高潮v片特黄| 99久久伊人精品| 国产又大又黄又粗又爽| 狠狠入ady亚洲精品经典电影| 麻豆传媒一区| 欧美在线在线| 欧美韩国理论所午夜片917电影| 3p视频在线观看| 精品成a人在线观看| 瑟瑟视频在线免费观看| 亚洲一区二区成人在线观看| 久操视频在线观看免费| 成年人国产精品| 91视频最新入口| 午夜性色一区二区三区免费视频| 欧美日韩国产精品一卡| 美国十次综合久久| 国产脚交av在线一区二区| bl视频在线免费观看| 日韩中文娱乐网| а天堂8中文最新版在线官网| 精品国产91洋老外米糕| 久久国产香蕉视频| 午夜精品久久久| 久久国产精品国语对白| 国产精品视频一区二区三区不卡| 天堂www中文在线资源| 青青草一区二区三区| 国内外免费激情视频| 很黄很黄激情成人| 在线视频不卡一区二区三区| 免费毛片在线不卡| 国产精品区一区二区三含羞草| 亚洲国产综合在线观看| 高清欧美一区二区三区| 日韩三级免费| 久久视频免费在线播放| 国产一级在线| 亚洲欧美日韩网| 四虎影视在线播放| 亚洲国产三级网| 色噜噜一区二区三区| 日韩欧美的一区二区| 国产乱色精品成人免费视频| 欧美日韩中文国产| 免费看一级视频| 日韩欧美黄色动漫| 无码一区二区三区| 色综合久久中文综合久久97| 91精品国产乱码在线观看| 亚洲制服丝袜一区| 欧美日韩成人免费观看| 亚洲欧美另类小说| 亚洲欧美卡通动漫| 亚洲色图一区二区三区| 天天做夜夜爱爱爱| 亚洲欧洲国产日本综合| 国产精品精品软件男同| 国产精品久久久久aaaa樱花 | 亚洲欧美激情一区二区| 国产视频123区| 国产精品麻豆网站| 亚洲一二三四五六区| 中文字幕乱码久久午夜不卡 | 亚洲丝袜另类动漫二区| 亚洲av鲁丝一区二区三区| 亚洲精品国产无天堂网2021| 久久精品视频免费在线观看| 午夜激情综合网| 国产综合精品视频| 欧美无砖专区一中文字| 中文字幕有码无码人妻av蜜桃| 欧美日韩小视频| 国产精品久久综合青草亚洲AV| 精品国产成人在线影院 | 亚洲跨种族黑人xxx| 欧美黄色小说| 伊人久久久久久久久久| 日本中文字幕在线视频| 欧美大胆a视频| 99爱在线观看| 欧美主播福利视频| www.久久久久爱免| 国产精品美女久久久久av福利| 女同另类激情重口| 少妇特黄a一区二区三区| 国产精品不卡| 国产成人一区二区三区别| 性伦欧美刺激片在线观看| 天堂在线资源视频| 国产在线视频不卡二| 中文字幕一区二区三区乱码不卡| 久久久久久电影| аⅴ天堂中文在线网| 亚洲一区二区精品久久av| 日韩一级在线视频| 69精品人人人人| 外国精品视频在线观看 | 一本色道久久综合亚洲精品婷婷| 欧美激情一级片一区二区| 欧美亚洲一二三区| 精品一区二区综合| 中文字幕精品久久久| 成人欧美一区二区三区白人| 日韩欧美性视频| 欧美久久久久久久久久| 熟妇人妻中文av无码| 精品国产视频在线| 欧美13videosex性极品| 国产精品色悠悠| 精品国产导航| 看一级黄色录像| 日韩精品电影在线观看| 人妻 丝袜美腿 中文字幕| 91亚洲精华国产精华精华液| 老熟妇高潮一区二区三区| 色综合视频在线观看| av网站免费播放| 一区二区三区日韩在线| 岛国毛片av在线| 成人性生交大片免费看视频直播| 日韩av资源网| 黄网站色视频免费观看| 麻豆精品一区二区三区| 亚洲午夜福利在线观看| 亚洲精品欧美激情| 一本色道久久综合熟妇| 亚洲欧美在线磁力| heyzo在线| 91在线播放国产| 欧美日韩激情| 国模无码视频一区二区三区| 成人教育av在线| 欧美国产日韩综合| 欧美精品一二三四| 91网在线播放| 国产成人黄色av| 亚洲三级精品| av在线播放亚洲| 福利91精品一区二区三区| 91嫩草丨国产丨精品| 欧美日韩视频在线观看一区二区三区| 婷婷在线免费视频| 992tv成人免费视频| 国产成人在线中文字幕| 国产免费裸体视频| 国产精品一二三四区| av片在线免费看| 69久久99精品久久久久婷婷| 午夜激情在线观看| 国产精品视频不卡| 日本a口亚洲| 特级丰满少妇一级| 1区2区3区精品视频| 一二三四区视频| 日韩在线视频一区| 欧美高清免费| 在线视频欧美一区| 成人综合激情网| 久久亚洲成人av| 亚洲成人av在线| 三级在线看中文字幕完整版| 久久精品一区二区三区不卡免费视频| 国产一区二区三区久久久久久久久 | 在线综合欧美| 国产熟女一区二区| 欧美熟乱第一页| 国产在线二区| 91入口在线观看| 狠狠综合久久| www.av欧美| 欧美剧在线免费观看网站 | 99热都是精品| 成人高清伦理免费影院在线观看| 国产在线观看免费av| 亚洲精品一区二区在线观看| 国产在线精彩视频| 欧美性xxxx69| 国产风韵犹存在线视精品| 久草视频免费在线| 日韩精品视频在线观看免费| 性欧美hd调教| 91xxx视频| 久久这里只有精品视频网| 最新中文字幕免费| 久久国产精品亚洲| 欧美黑人做爰爽爽爽| 午夜精品久久久久久久无码 | 久久久久久国产精品视频| 亚洲级视频在线观看免费1级| 搜成人激情视频| 日韩人妻一区二区三区蜜桃视频| 成人深夜在线观看|