精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) 原創

發布于 2024-7-4 07:51
瀏覽
0收藏

摘要:基于強大的大語言模型(LLMs),最近的生成型多模態大語言模型(MLLMs)作為一個重要的研究領域,展示了在理解和生成方面的顯著能力。在這項工作中,我們引入了一個名為SEED-Bench的基準測試,以評估MLLMs的生成理解能力,作為對生成模型進行全面評估的初步步驟。SEED-Bench包含19,000道多項選擇題,配有精確的人類標注(是現有基準的6倍),涵蓋了包括圖像和視頻模態理解在內的12個評估維度。我們開發了一個先進的流程,用于生成針對特定評估維度的多項選擇題,集成了自動過濾和人工驗證過程。由人類注釋得出的具有真實選項的多項選擇題,使得模型性能的評估能夠客觀且高效,無需在評估過程中進行人工或GPT干預。我們進一步評估了18個模型在所有12個維度上的表現,涵蓋了空間和時間理解。通過評估結果揭示現有MLLMs的局限性,我們希望SEED-Bench能為未來的研究提供啟示。我們將推出并持續維護一個排行榜,為社區提供一個評估和研究模型能力的平臺。

1.引言

近年來,大語言模型(LLMs)在各種開放性任務中展示了卓越的理解、推理和生成文本的能力。利用LLMs的強大通用性,生成型多模態大語言模型(MLLMs)在多模態理解和生成方面展示了增強的能力。然而,目前的MLLMs主要通過有限數量的定性示例或使用不適合評估開放形式輸出的現有基準來評估其性能。例如,在VQAv2中,只有當模型的輸出與標準答案完全匹配時,答案才被視為正確,而標準答案通常只有一兩個詞。缺乏一個全面客觀的基準來評估MLLMs,這對比較和研究各種模型的性能構成了重大挑戰。

并行研究工作已經做出努力,開發專門評估MLLMs的基準,如表1所示。例如,LVLM-eHub和LAMM利用各種計算機視覺任務的現有公共數據集作為評估樣本,并使用人類注釋者或GPT來評估模型預測的質量、相關性和實用性。然而,在評估過程中涉及人類和GPT不僅降低了效率,還導致了評估的主觀性增加和準確性降低。MME和MMBench通過構建判斷題或選擇題進一步推進了MLLMs的客觀評估,涵蓋了各種能力維度。將模型的輸出限制在判斷題或A/B/C/D選項上,方便了準確率的計算,作為評估的客觀指標。然而,這些基準相對較小的規模(少于3K樣本)引入了評估統計的不穩定性。

表1:現有多模態大語言模型基準的比較。“H/G 評估”表示評估過程中是否使用人類或GPT。

SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖1:左圖:SEED-Bench中12個評估維度的概述,包括空間和時間理解,柱狀圖中的數字表示每個維度中人類標注的多項選擇題的數量。右圖:顯示18個模型在12個評估維度上的平均準確率的整體排行榜。

在這項工作中,我們專注于評估MLLMs的生成理解能力,作為對生成模型進行全面評估的初步步驟,引入了一個名為SEED-Bench的基準測試。SEED-Bench涵蓋了圖像和視頻模態的12個評估維度。SEED-Bench包含19,000道多項選擇題,標準答案由人類注釋得出(是MME的9倍,MMBench的6倍)。我們設計了一個復雜的流程,用于生成針對特定評估維度的多項選擇題,并進一步結合自動過濾機制和人工驗證過程,以確保問題的質量和標準答案的準確性。

具體來說,對于圖像,我們利用各種基礎模型提取其視覺信息,包括圖像級別的描述、實例級別的描述和文本元素。對于視頻,我們利用原始人類注釋提供視覺信息。然后我們將視覺信息輸入ChatGPT/GPT-4,通過專門設計的提示生成針對特定評估維度的問題以及四個候選選項和一個標準答案。我們進一步利用多個LLMs過濾掉可以在沒有視覺輸入的情況下回答的問題。最后,我們雇傭人類注釋者選擇每個多項選擇題的正確選項,并將每個問題分類到一個評估維度中,最終得到一個包含19,000道多項選擇題的清晰且高質量的基準測試。我們的流程支持跨多個領域擴展評估數據,并將繼續擴展基準測試以增加更多評估維度。

基于SEED-Bench,我們全面評估了包括LLMs、ImageLLMs和VideoLLMs在內的18個模型在所有12個維度上的表現。不同于MMBench使用ChatGPT將模型的預測與多項選擇題中的選項匹配(僅實現了87.0%的匹配率),我們遵循GPT-3的方法計算每個候選選項的對數似然值,并選擇最高值作為最終預測,而不依賴模型的指令遵循能力輸出“A”或“B”或“C”或“D”。通過分析12個維度的結果,我們對現有多模態模型在空間和時間理解能力進行了全面比較。我們觀察到大多數MLLMs在所有12個評估維度上仍表現有限,并驚訝地發現VideoLLMs在時間理解方面未能實現與ImageLLMs相競爭的表現。通過評估結果,我們希望SEED-Bench能夠為未來探索更高級的MLLMs提供啟示。我們將推出一個評估平臺并持續維護一個排行榜,用于評估和比較模型性能。

2.相關工作

多模態大語言模型

隨著大語言模型(LLM)的顯著成功,最近的研究致力于生成型多模態大語言模型(MLLMs),通過利用LLMs的強大通用性來提高多模態理解和生成能力。一些工作進一步考慮視頻輸入,并利用LLMs的巨大能力來進行視頻理解任務。在SEED-Bench中,我們提供了對這些模型的全面定量評估,以徹底評估和比較它們在生成理解方面的表現。

多模態大語言模型的基準測試

隨著多模態大語言模型(MLLMs)的快速發展,一些并行工作提出了各種評估MLLMs的基準。例如,GVT通過匯總兩個語義級理解任務(VQA和圖像描述)和兩個細粒度任務(對象計數和多類識別)來構建基準,但其評估僅限于視覺理解的有限方面。LVLM-eHub結合多個現有的計算機視覺基準,并開發了一個在線平臺,在該平臺上兩個模型被提示回答與圖像相關的問題,并雇用人類注釋者比較模型的預測。評估過程中涉及人類注釋者不僅引入了偏見,還帶來了顯著的成本。LAMM通過使用實體提取從開放形式的預測中獲取關鍵答案,并利用GPT評估答案與標準答案的相關性和準確性,來評估圖像和點云任務。依賴實體提取和GPT指標可能影響評估的準確性和可靠性。MME和MMBench分別通過構建2914道判斷題和2974道多項選擇題,旨在增強MLLMs的客觀評估。考慮到這些基準相對較小的規模,其評估結果可能表現出不穩定性。在這項工作中,我們引入了SEED-Bench,以提供對MLLMs的客觀和全面的評估,其中包含19K道多項選擇題,涵蓋了包括空間和時間理解在內的12個評估維度。

3. SEED-Bench

我們的基準包含19K道多項選擇題,帶有精確的人類注釋,涵蓋了包括空間和時間理解在內的12個評估維度。在本節中,我們首先在3.1節中介紹SEED-Bench的評估維度。在3.2節中介紹數據來源,并在3.3節中介紹構建多項選擇題的流程。最后,我們在3.4節描述了MLLMs回答多項選擇題的評估策略。

3.1 評估維度

為了全面評估MLLMs的視覺理解能力,SEED-Bench包括12個評估維度,涵蓋空間和時間理解,如表2所示。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖2:SEED-Bench的數據樣本,涵蓋包括空間和時間理解在內的12個評估維度。每個評估維度包含由人類注釋得出的多項選擇題及其標準選項。

表2:SEED-Bench的評估維度,包括空間和時間理解。我們省略了示例問題中的圖像。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

空間理解

在空間理解評估中,我們考慮了9個維度,涵蓋了圖像級和實例級的感知和推理。

- 場景理解:該維度關注圖像中的全局信息。通過整體理解圖像來回答問題。

- 實例身份:該維度涉及圖像中某個實例的識別,包括某個對象的存在或類別。評估模型的對象識別能力。

- 實例屬性:該維度與實例的屬性有關,如顏色、形狀或材質。評估模型對對象視覺外觀的理解。

- 實例位置:該維度關注某個指定實例的絕對位置。要求模型正確定位問題中提到的對象。

- 實例計數:該維度要求模型計算圖像中特定對象的數量。這需要模型理解所有對象,并成功計算所指對象的實例數量。

- 空間關系:該維度要求模型識別圖像中兩個提到的對象之間的相對空間關系。

- 實例互動:該維度要求模型識別兩個對象或人之間的狀態關系或互動關系。

- 視覺推理:該維度評估模型是否能夠基于視覺信息進行推理。這需要模型充分理解圖像并利用其常識知識來正確回答問題。

- 文本理解:在這個維度中,模型應回答有關圖像中文本元素的問題。

時間理解

在時間理解評估中,我們考慮了3個維度,側重于動作的識別、預測和過程理解。

- 動作識別:在該維度中,模型需要識別視頻中展示的動作。評估的不僅是捕捉時間動態的能力,還包括對物理動作、人類動作和對象之間動態互動的知識。

- 動作預測:該維度的目標是通過視頻前段預測未來的動作,這需要理解視頻的上下文信息和時間推理。

- 過程理解:該維度要求模型捕捉所有關鍵動作并對它們進行時間排序。我們旨在評估模型的時間細粒度理解和過程推理能力。

3.2 數據來源

為了創建一個涵蓋各種評估維度的基準,我們需要收集包含豐富視覺信息的圖像和具有豐富時間動態的視頻,以便構建多樣且具有挑戰性的多項選擇題。在SEED-Bench中,我們使用經過過濾的CC3M數據集來構建空間理解問題。具體來說,考慮到CC3M原始描述的噪音,我們使用Tag2Text為每張圖像生成描述。我們過濾掉描述中名詞不超過5個的圖像,以確保剩余圖像的信息豐富性,以便構建問題。

我們進一步采用Something-Something-v2(SSV2)、Epic-kitchen 100和Breakfast數據集來構建時間理解問題。SSV2是一個動作識別數據集,包括174個基本動作的細粒度類別,我們從其驗證集中采用了1740個視頻。我們還選擇了Epic-kitchen 100數據集中有時間注釋動作標簽的138個長視頻。此外,Breakfast數據集中的視頻和細粒度動作分割注釋用于過程理解任務。

3.3 多項選擇題

如圖3所示,我們生成多項選擇題的流程包括問題/答案生成和驗證。為了生成問題/答案對,我們首先利用各種基礎模型提取視覺信息,包括圖像級描述、實例級描述和文本元素。基于與特定評估維度相對應的專門設計的提示,ChatGPT/GPT-4隨后生成問題和四個候選選項,其中一個為標準答案。為了驗證問題/答案對,我們過濾掉可以通過多個LLMs在沒有視覺信息的情況下正確回答的問題。我們進一步雇傭人類注釋者選擇正確選項并將每個問題分類到一個評估維度。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖3:SEED-Bench生成圖像多項選擇題的流程概述。

(a) 我們首先利用各種基礎模型提取視覺信息,包括圖像級描述、實例級描述和文本元素。基于與特定評估維度相對應的專門設計的提示,ChatGPT/GPT-4隨后生成問題和四個候選選項,其中一個為標準答案。(b) 我們進一步利用LLMs篩選問題,并雇傭人類注釋者選擇正確選項,并將每個問題分類到一個評估維度。

視覺信息提取

為了構建與空間理解相關的問題,我們使用多種預訓練模型將每張圖像的豐富信息解釋為文本,以便ChatGPT/GPT-4能夠理解圖像并相應地創建問題。為了構建與時間理解相關的問題,考慮到從視頻中提取可靠的時間信息(尤其是細粒度動作和長期時間上下文)非常困難,我們利用視頻數據集的標準注釋。我們將探索如何基于自動提取的視頻信息生成問題。

圖像的視覺信息提取包括以下部分:

- 圖像描述:圖像描述包含圖像的整體描述。我們使用BLIP2和Tag2Text為每張圖像創建描述。前者為整個圖像創建描述,而后者基于每個實例的描述生成描述。兩個模型相輔相成,以單個句子的形式描述圖像內容。

- 實例描述:除了可能忽略圖像中具體細節的描述外,我們還使用實例級描述從圖像中提取視覺信息,包括對象檢測、屬性檢測和密集描述。具體來說,我們使用SAM對圖像中的每個實例進行分割,并根據分割結果獲取它們的邊界框。對象標簽使用Tag2Text獲得。此外,我們還使用屬性檢測器獲取圖像中每個實例的屬性。最后,我們使用GRiT生成密集描述,使用簡短句子描述圖像中每個檢測到的實例。這些實例級描述對圖像描述是補充,進一步豐富了每張圖像的視覺信息。

- 文本元素:除了對象,圖像中的文本也包含描述圖像的重要信息。我們使用PaddleOCR檢測文本元素。

問題-答案生成

在從圖像和視頻中提取視覺信息后,我們讓ChatGPT/GPT-4基于提取的信息或視頻注釋生成多項選擇題。對于每個空間理解評估,我們仔細設計提示,要求ChatGPT/GPT-4根據提取的視覺信息創建四個候選選項的問題。我們使用ChatGPT為所有評估維度創建問題,除了推理維度,我們使用GPT-4因為其卓越的推理能力。對于每個問題,我們要求ChatGPT/GPT-4創建一個正確選項和三個干擾選項。我們試圖通過使三個錯誤選項與正確選項相似來使多項選擇題具有挑戰性。生成不同評估維度多項選擇題的詳細提示列在圖4中。對于生成與時間理解相關的問題,我們使用選定視頻的標準注釋作為

多項選擇題的答案,并雇傭ChatGPT生成三個干擾選項。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖4:為不同評估維度生成多項選擇題的提示語。

(翻譯:

默認指令:

“你是一個AI視覺助手,可以分析單張圖像。你會收到描述圖像的三種信息,包括圖像的描述、對象檢測和屬性檢測結果。對象檢測結果中提供了對象類型及其詳細坐標。屬性檢測結果中的每一行代表一個對象類別及其坐標,以及其屬性。所有坐標以邊界框的形式表示,格式為(x1, y1, x2, y2),數值范圍從0到1。這些值分別對應左上角x,左上角y,右下角x,右下角y。你的任務是使用提供的信息,創建關于圖像的多項選擇題,并提供選項和答案。

不要直接提到邊界框坐標,而是利用這些數據用自然語言解釋場景。包括對象數量、對象位置、對象之間的相對位置等細節。

在使用描述和坐標信息時,直接解釋場景,不要提及信息來源是描述或邊界框。始終回答時要像是你在直接看圖像。

創建多個問題,每個問題有4個選項。通過不在問題中包含視覺內容的細節來使問題具有挑戰性,以便用戶首先需要推理這些內容。創建一個有四個選項(A、B、C和D)的多項選擇題,確保一個選項是正確的,其他三個選項是合理但不正確的。對于每個問題,嘗試通過創建一個非常類似于正確答案但錯誤的選項來增加其挑戰性。

請注意,給定的信息可能是不準確的圖像描述,因此圖像中可能沒有被檢測描述,而某些項目在屬性檢測中可能會被多次檢測到。因此,僅在你對答案有信心時才創建問題。不要解釋你的選擇。”

場景理解指令:

“創建關于圖像主要內容的復雜問題。應該能夠通過快速瀏覽整個圖像回答問題,而不必直接仔細查看單個對象或人。問題不應與圖像中的單個對象相關,而應與此圖片的整體主題相關。”

實例身份指令:

“創建關于圖像中出現對象身份的復雜問題,例如其類型/類別或其存在。例如,你可以問‘某個對象是什么?’或‘某個對象是否出現在圖像中?’。回答問題時,預期需要快速查看圖像中提到的對象。”

實例屬性指令:

“創建關于某個對象屬性的復雜問題,例如其顏色、形狀或細粒度類型。回答問題時,需要仔細查看圖像中某個對象的視覺外觀,但不必考慮其他方面的信息,如空間位置或其身份。”

實例定位指令:

“創建關于圖像中某個對象位置的復雜問題。問題應基于對象的坐標創建。回答問題時,需要找到提到的對象,并查看其在圖像中的位置。預期在不必查看其他對象的情況下回答問題。”

實例計數指令:

“創建涉及某個對象出現次數的問題。以‘有多少....’開頭。問題的選項應為數字。回答問題時,需要找到并計數圖像中提到的所有對象。”

空間關系指令:

“創建關于兩個對象之間空間關系的問題。問題主要應基于兩個對象的坐標。回答問題時,需要找到提到的兩個對象,并找到它們的相對空間關系來回答問題。”

實例互動指令:

“創建關于兩個對象之間關系和連接的問題,例如‘某人正在對某個對象做什么’和‘兩個對象之間的關系是什么’。回答問題時,需要找到提到的兩個對象,仔細查看圖像,并稍微推理圖像以理解它們的關系。”

視覺推理指令:

“創建超越描述場景的復雜問題。回答此類問題時,首先應理解視覺內容,然后基于背景知識或推理,解釋為什么事情會這樣發生,或為用戶的請求提供指導和幫助。通過不在問題中包含視覺內容的細節來使問題具有挑戰性,以便用戶首先需要推理這些內容。”

文本識別指令:

“創建與圖像中的文本相關的問題。描述問題時不要提及OCR中的任何內容,而要像直接查看圖像一樣。”)

自動過濾

我們的基準旨在評估MLLMs的多模態視覺語言理解能力。然而,我們發現一些生成的問題可以通過LLMs在不看圖像的情況下正確回答。我們認為這些問題對于評估MLLMs的視覺理解能力沒有幫助。為此,我們將生成的問題(不含圖像)輸入三個強大的LLMs,包括Vicuna-7B、Flan-T5-XXL和LLaMA-7B,并要求它們回答這些問題。我們經驗發現,5.52%的生成問題可以通過所有三個LLMs正確回答。我們將這些問題從基準中篩選掉。

人類注釋

為了確保SEED-Bench的準確性和客觀性,我們進一步雇傭人類注釋者驗證生成的問題/答案對。人類注釋者被要求為每個多項選擇題選擇正確答案并將每個問題分類到一個評估維度。如果一個問題不能基于視覺輸入回答,或者沒有正確選擇,或者有多個正確選擇,它將被人類注釋者丟棄。最終得到一個包含19K道多項選擇題的清晰、高質量且分類良好的評估基準。每個評估維度多項選擇題的數量統計如圖1所示。我們可以觀察到文本識別維度的問題最少,有85個樣本,實例定位維度的問題最多,有4649個樣本。我們將在未來保持不同評估維度多項選擇題的均勻分布。

表3:不同模型在SEED-Bench上的評估結果,其中“Spatial”顯示了在評估空間理解的九個維度上的平均表現,“Temporal”顯示了在評估時間理解的三個維度上的平均表現。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

3.4 評估策略

不同于MMBench使用ChatGPT將模型的預測與多項選擇題中的選項匹配(僅實現了87.0%的匹配率),我們采用答案排名策略來評估現有的MLLMs與多項選擇題。具體來說,對于每個問題的每個選擇,我們計算MLLM生成該選擇內容的可能性。我們選擇可能性最高的選項作為模型的預測。我們的評估策略不依賴于模型輸出“A”或“B”或“C”或“D”的指令遵循能力。此外,這種評估策略消除了多項選擇題選項順序對模型性能的影響。

4 評估結果

4.1 模型

基于我們的SEED-Bench,我們評估了包括3個LLMs(即Flan-T5、Vicuna、LLaMA)、12個ImageLLMs(即OpenFlamingo、BLIP-2、MiniGPT-4、LLaVa、mPLUG-Owl、InstructBLIP、Otter、MultimodalGPT、GVT、PandaGPT、VPGTrans、LLaMA-Adapter V2)和3個VideoLLMs(即VideoChat、Video-ChatGPT和Valley)在內的18個模型。每個模型都在包括空間和時間理解的12個維度上進行了評估。對于ImageLLMs,除了評估其空間理解能力外,我們還旨在調查其在多個幀之間進行時間推理的能力。對于VideoLLMs,我們探討了其在輸入單張圖像時,空間理解能力是否有所退化。

4.2 結果

不同模型在SEED-Bench上的評估結果列在表1中,其中準確率指正確回答的多項選擇題相對于問題總數的比例。我們驚訝地發現,InstructBLIP不僅在評估空間理解的九個維度的平均結果中取得了最佳表現,而且在評估時間理解的三個維度的平均結果中也超過了VideoLLMs。我們在圖5中展示了SEED-Bench上各種評估維度的排行榜,以提供對不同模型的全面評估。基于所有評估維度平均結果的總體排行榜顯示在圖1中。為了更好地展示模型在不同評估維度中的能力,我們進一步在圖6中可視化了每個模型在每個評估維度中的排名,其中顏色越深表示排名越高。我們可以觀察到,BLIP系列模型在多個評估維度中取得了競爭性結果,但在視覺推理和動作識別方面表現不佳。VideoLLM Valley在大多數評估維度中表現次優。LLaVa在文本識別評估中表現出與其他評估維度相比無與倫比的能力。就具體評估維度而言,MiniGPT-4和mPLUG-Owl模型在視覺推理方面表現更好,而VPGTrans模型在動作識別和過程理解方面表現出色。LLaMA Adapter V2模型在動作識別方面表現更加熟練。此外,Multimodal GPT、Otter、Openflamingo、GVT和三種VideoLLMs在各種評估維度中表現均衡。

 

SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖5:SEED-Bench上不同評估維度的排行榜。


SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024) -AI.x社區

圖6:各模型在不同評估維度中的表現示意圖,其中顏色越深表示排名越高。

4.3 分析

通過對各種模型在SEED-Bench上的全面和客觀評估,我們觀察到了一些可以為未來工作帶來啟示的發現。

大多數MLLMs在所有12個評估維度上的表現仍然有限。如圖1和圖5所示,除BLIP系列模型外,大多數MLLMs在平均表現和超過三個單一評估維度上的表現均未達到50%的準確率。在某些特定的評估維度(例如視覺推理)中,大多數MLLMs似乎取得了較高的準確率。然而,當將MLLMs的表現與LLMs進行比較時,我們發現大多數MLLMs的性能提升仍然相對有限。

MLLMs在全局圖像理解上表現相對較高。在場景理解和視覺推理的評估中,大多數MLLMs的準確率超過40%,且所有MLLMs的表現均優于LLMs。這表明,MLLMs在圖像的全局理解和推理方面比在其他需要細粒度實例級理解的評估維度上更為熟練。

InstructBLIP在12個評估維度中的8個維度上表現最佳。我們觀察到,InstructBLIP在8個評估維度上超過了其他模型,可能的解釋如下:(a) InstructBLIP的指令調整數據包含總計1600萬樣本(比其他指令調整數據集更大),涵蓋了廣泛的多模態任務,甚至包括OCR和時間視覺推理的QA數據。(b) 在執行InstructBLIP的指令調整時,LLMs的權重被凍結,這可能緩解了災難性遺忘。然而,InstructBLIP系列模型在動作識別和過程理解方面表現仍然較差,這與指令調整數據顯著不同。例如,在需要理解細粒度動作的Something-Something-v2上的動作識別方面,InstructBLIP系列模型的性能提升相比LLMs并不顯著(低于2%)。這表明InstructBLIP系列模型可能在分布外數據上的泛化能力較差。

MLLMs在理解對象間的空間關系方面表現較弱。排名最高的InstructBLIP在空間關系評估中的準確率僅為40%,這表明識別實例之間的相對空間關系是具有挑戰性的,因為可能存在多種空間關系的排列和組合。此外,某些情況下對象之間的空間關系可能會引起歧義,使得確定它們的關系變得困難。

大多數MLLMs在文本識別方面表現不佳。除了InstructBLIP,所有其他模型在文本識別方面的準確率均低于40%,這主要是由于多模態預訓練數據集中缺乏文本元素。由于準確識別和提取圖像中的文本能力非常重要,未來的工作應開發更好地處理文本識別的模型,通過在包含豐富文本元素的視覺數據集上進行預訓練。

VideoLLMs在空間理解方面取得了令人鼓舞的結果。例如,VideoChat在實例定位中的準確率為39.98%(排名第4),超過了LLaVa 11.55%,且僅比排名第一的模型低3.58%。這表明,VideoChat在預訓練和指令調整階段聯合訓練圖像和視頻數據時,其空間理解能力沒有退化。

大多數MLLMs在細粒度時間理解方面表現不佳。值得注意的是,在過程理解的評估中,排名最高的模型VPGTrans的準確率僅比LLaMA高出5%。接下來的4個MLLMs的性能提升相比LLaMA甚至低于1.2%。這表明,ImageLLMs和VideoLLMs在執行細粒度時間推理以識別和排序視頻中的關鍵動作方面都非常困難。

VideoLLMs在時間理解方面未能實現競爭力的表現。盡管VideoLLMs在視頻數據上進行了指令調整,但在時間理解的評估維度上并未表現出顯著優勢。令人驚訝的是,兩種VideoLLMs(Video-ChatGPT和Valley)在動作識別、動作預測和過程理解方面的表現甚至低于大多數ImageLLMs。這表明現有VideoLLMs在細粒度動作識別、時間關系理解和時間推理方面的能力仍然有限。最近的研究工作也提出了對現有VideoLLMs的類似擔憂。

5.結論

在這項工作中,我們提出了一個大規模基準SEED-Bench,以對多模態大語言模型(MLLMs)的生成理解進行全面和客觀的評估。SEED-Bench包含19K道帶有精確人類注釋的多項選擇題,涵蓋了包括空間和時間理解在內的12個評估維度。我們設計了一個先進的流程來創建針對特定評估維度的多項選擇題,促進了跨各種領域的評估數據的可擴展性。我們還整合了自動過濾和人工驗證,以提高生成問題和答案的質量。我們對18個模型進行了全面評估,分析和比較了它們的表現,為未來的研究提供了見解。我們計劃推出并持續維護一個排行榜,為社區提供評估模型性能的平臺。我們將繼續通過更多數據進一步拓寬SEED-Bench的評估維度。

Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

1Tencent AI Lab

2ARC Lab, Tencent PCG


本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/2zdueb2OiCSCvZLochkP9Q??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-7-4 17:42:12修改
收藏
回復
舉報
回復
相關推薦
www在线视频| 伊人成人在线观看| 日韩mv欧美mv国产网站| 色8久久人人97超碰香蕉987| 亚洲图片都市激情| 亚洲国产综合网| 天堂成人国产精品一区| 日韩视频免费中文字幕| 最近日本中文字幕| 欧美性www| 亚洲v中文字幕| 手机看片福利永久国产日韩| www.香蕉视频| 日韩精品免费专区| 欧美激情一二区| 俄罗斯毛片基地| 久久99精品国产自在现线| 欧美影院一区二区三区| 亚洲精品无码国产| 4p变态网欧美系列| 中文字幕 日本| 福利一区在线| 日韩欧美国产网站| 男人天堂网站在线| 99reav在线| 大尺度一区二区| 国产精品露脸自拍| 国产精品777777| 激情欧美日韩| 蜜臀久久99精品久久久久久宅男 | 久中文字幕一区| 国产男女裸体做爰爽爽| 天堂一区二区在线| 26uuu另类亚洲欧美日本一| 看片网站在线观看| 色综合天天爱| 伊人伊成久久人综合网站| 无码人妻精品一区二区三区99不卡| 免费视频成人| 91传媒视频在线播放| 国产精品裸体瑜伽视频| 日本精品600av| 中文字幕字幕中文在线中不卡视频| 免费成人av网站| 欧美77777| 国产999精品久久| 91传媒在线免费观看| 中文字幕一区二区三区四区视频| 亚洲永久免费精品| 97视频色精品| 日韩精品在线免费视频| 亚洲人成在线影院| 97av在线视频免费播放| 国产精品日日夜夜| 日韩视频免费| 欧美中文字幕第一页| 久久久国产精品成人免费| 红桃视频亚洲| 国内精品400部情侣激情| 久久国产露脸精品国产| 韩国精品一区二区三区| 久久久久这里只有精品| 免费在线观看亚洲| 中文亚洲字幕| 国内免费精品永久在线视频| 日韩黄色a级片| 99热在线精品观看| 国产91亚洲精品| 91porny九色| 久久国产精品免费| 92国产精品视频| 国产综合在线播放| 91麻豆免费看片| 清纯唯美一区二区三区| 97视频在线观看网站| 国产精品美女www爽爽爽| 国产免费色视频| 先锋影音在线资源站91| 亚洲aⅴ怡春院| 国产成人无码一二三区视频| 欧美xnxx| 欧美精品粉嫩高潮一区二区| 在线观看免费看片| 琪琪久久久久日韩精品| 国产丝袜一区二区三区免费视频 | 国产精品国产三级国产aⅴ| 国产乱一区二区| 国产自产在线视频一区| 黄网在线观看| 国产精品麻豆久久久| 国产成人免费高清视频| 极品在线视频| 777午夜精品免费视频| 久久国产免费视频| 国产成人3p视频免费观看| 久久久91精品| 四虎成人永久免费视频| 久草热8精品视频在线观看| 91免费国产视频| 少妇精品高潮欲妇又嫩中文字幕| 成人免费视频一区二区| 神马影院一区二区| av中文在线资源库| 欧美精品亚洲一区二区在线播放| 性感美女一区二区三区| 精品久久久久久久久久久下田| 欧美人与性动交| 波多野结衣日韩| 成人毛片老司机大片| 欧美一级二级三级九九九| 91精选在线| 欧美性一区二区| 无码人妻精品一区二区三| 欧美精品羞羞答答| 国色天香2019中文字幕在线观看| 亚洲天堂中文网| 久久综合九色综合97婷婷女人| 在线观看福利一区| 极品在线视频| 欧美一区二区三区喷汁尤物| 成年人网站免费看| 狠狠综合久久| 4444kk亚洲人成电影在线| 国内在线精品| 午夜视频久久久久久| 特级西西444www| 欧洲乱码伦视频免费| 欧洲成人免费视频| 黄色aaa毛片| 一卡二卡三卡日韩欧美| 182午夜在线观看| av亚洲在线观看| 国产a∨精品一区二区三区不卡| 国产小视频一区| 亚洲乱码国产乱码精品精98午夜 | 高清成人在线| 日韩av网站在线| 日本学生初尝黑人巨免费视频| 国产一区二区三区不卡在线观看| 亚洲欧美日产图| 福利一区二区免费视频| 一区二区三区视频免费| 国产三级精品三级在线观看| 99视频精品在线| 国产精品第157页| 亚洲一区二区免费在线观看| 美女国内精品自产拍在线播放| 国产毛片一区二区三区va在线| 国产精品麻豆久久久| 天天干天天操天天做| 国产高清一区| 国产日韩欧美另类| 久草资源在线| 日韩欧美一区在线观看| 欧美日韩成人免费观看| 国产成人免费在线观看不卡| 国产成人亚洲综合无码| 在线播放一区二区精品视频| 欧美xxxx18国产| 亚洲不卡免费视频| 午夜欧美在线一二页| 黄色正能量网站| 久久黄色网页| 亚洲欧美精品| 日韩一区二区三区在线看| 欧美激情综合亚洲一二区| 三级在线观看网站| 欧美性猛交xxxx久久久| 一区二区三区伦理片| 免费一级欧美片在线观看| 亚洲一区三区| 亚洲精品在线播放| 欧美一级片在线播放| 国产三级在线观看| 制服丝袜日韩国产| 久久精品美女视频| 国产婷婷色一区二区三区四区| 污污的网站18| 欧美激情麻豆| 久久综合色一本| 国内欧美日韩| 欧美激情第6页| 激情小说 在线视频| 欧美日韩国产综合视频在线观看| 国产97免费视频| 99精品视频在线观看免费| 午夜视频在线瓜伦| 欧美激情1区2区| 日本10禁啪啪无遮挡免费一区二区 | 国产伦精品一区二区三区视频痴汉 | 女人黄色免费在线观看| 亚洲欧美国产精品久久久久久久| 中文字幕一区二区三区波野结| 亚洲欧美成人一区二区三区| 亚洲 欧美 日韩在线| 麻豆国产精品777777在线| 亚洲 自拍 另类小说综合图区| 精品产国自在拍| 国产富婆一区二区三区| 91av一区| 91精品国产91久久久久久不卡| h网站视频在线观看| 精品黑人一区二区三区久久| 国产无遮挡又黄又爽又色视频| 一区二区三区在线视频免费观看 | 国产av无码专区亚洲av| 天天av天天翘天天综合网色鬼国产| 国产综合精品久久久久成人av| 风间由美性色一区二区三区 | 国产成人在线视频网站| 日韩在线xxx| 欧美日韩91| 日韩免费三级| 噜噜噜天天躁狠狠躁夜夜精品| 91在线精品播放| 成人看片网页| 66m—66摸成人免费视频| www视频在线看| 中文字幕日韩有码| 久久久久久久久亚洲精品| 日韩一区二区三区观看| 中文字幕人妻互换av久久| 午夜亚洲福利老司机| 九九九久久久久| 亚洲欧美日韩中文字幕一区二区三区| 中文幕无线码中文字蜜桃| 岛国一区二区在线观看| 日本亚洲一区二区三区| 精品一区二区三区在线播放| 天天爱天天操天天干| 亚洲欧美网站| www..com日韩| 亚洲久久在线| 欧美日韩福利在线| 欧美日韩网站| 国产一区二区三区播放| 97在线精品| 在线视频欧美一区| 日韩免费在线| 亚洲精品一区二区三区樱花 | 国产精品自拍视频一区| 亚洲精品高清视频在线观看| 久久av红桃一区二区禁漫| 国产欧美日本一区二区三区| 91成人破解版| 国产丝袜在线精品| 亚洲精品91在线| 中文字幕免费观看一区| 国产性生活毛片| 高清国产午夜精品久久久久久| 国产黄色一区二区三区 | 成人网站免费观看| 99久久精品99国产精品| 一本加勒比波多野结衣| 91丨九色丨蝌蚪丨老版| 性久久久久久久久久| 久久午夜免费电影| 欧美黄色高清视频| 国产精品国产三级国产aⅴ入口| 欧洲性xxxx| 中文字幕一区二区三区不卡| 破处女黄色一级片| 亚洲综合自拍偷拍| 色网站在线播放| 色乱码一区二区三区88| 波多野结衣绝顶大高潮| 69av一区二区三区| 亚洲av无码片一区二区三区| 亚洲国产精品电影在线观看| 日本黄在线观看| 伊人久久大香线蕉av一区二区| av在线播放网站| 理论片在线不卡免费观看| 亚洲淫性视频| 欧美诱惑福利视频| 国产精成人品2018| 亚洲xxxx视频| 亚洲宅男一区| 欧美少妇一级片| 在线亚洲自拍| 国产成人无码av在线播放dvd| 蜜桃精品在线观看| 日本少妇xxxx软件| 久久九九国产精品| 成人免费精品动漫网站| 高跟丝袜欧美一区| 91影院在线播放| 亚洲黄页视频免费观看| 成年女人的天堂在线| 欧美激情在线视频二区| 国产一区二区主播在线| 国产精品久久久久久久免费大片| 久久爱www成人| 国产91在线亚洲| 日韩主播视频在线| 超碰中文字幕在线观看| 99精品国产一区二区三区不卡| www.涩涩爱| 亚洲一区二区三区四区在线观看| 成年人视频免费| 亚洲精品一区在线观看| 91精品国产91久久久久游泳池| 欧美精品国产精品日韩精品| 巨胸喷奶水www久久久免费动漫| 俄罗斯精品一区二区三区| 日本a级不卡| 国产视频一视频二| 国产成人aaaa| 欧洲性xxxx| 日韩欧美成人区| 超碰在线播放97| 色吧影院999| xx欧美xxx| 国产视频一区二区三区四区| 色综合天天爱| 九九九在线观看视频| 99麻豆久久久国产精品免费 | 天堂网在线观看国产精品| 日日碰狠狠躁久久躁婷婷| 成人午夜视频在线观看| 日韩成人短视频| 欧美日韩不卡一区| 国产高清视频在线观看| 777精品视频| a级日韩大片| 国产精品视频二| 国产精品456| 神马久久精品综合| 欧美精品在线观看一区二区| av在线之家电影网站| 国产99久久久欧美黑人| 婷婷国产精品| 国产白丝袜美女久久久久| 国产99久久久国产精品潘金| 永久免费看mv网站入口| 欧美高清性hdvideosex| 在线免费av网站| 国产精品自产拍在线观看| 国语产色综合| 日日噜噜噜噜久久久精品毛片| 久久久一区二区| 国产精品第5页| 亚洲日本aⅴ片在线观看香蕉| 自拍偷拍欧美视频| 就去色蜜桃综合| 天堂va蜜桃一区二区三区漫画版 | 亚洲色图丝袜美腿| 国产又粗又猛又黄又爽无遮挡| 少妇高潮久久久久久潘金莲| 欧美日韩破处视频| 综合久久国产| 国产福利一区二区三区视频在线 | 色婷婷精品大在线视频| 久久久久久久久亚洲精品| 国产成人在线一区二区| 精品日本12videosex| 国产高潮免费视频| **性色生活片久久毛片| 国产精品人人妻人人爽| 欧美成人h版在线观看| 亚洲综合网站| 97国产精东麻豆人妻电影| 久久嫩草精品久久久精品一| 无码人妻精品一区二区三区9厂| 国产亚洲欧美日韩美女| 免费成人高清在线视频| av久久久久久| av电影在线观看一区| 无码人妻精品一区二区三区蜜桃91| 中文字幕欧美视频在线| 国产成人免费av一区二区午夜 | 久久久青草婷婷精品综合日韩| x88av在线| 欧美一区二区在线视频| 成人性生交大片免费看在线播放| 久久精品国产精品国产精品污| 日本亚洲欧美天堂免费| 男人操女人的视频网站| 亚洲第一福利网| 黄色欧美视频| 日本男女交配视频| 久久精品一区二区三区不卡| 国产精品人妻一区二区三区| 国模精品系列视频| 日韩极品一区| 岛国精品一区二区三区| 色综合久久综合网| а√天堂8资源在线官网| 精品免费二区三区三区高中清不卡| 日韩国产精品大片| 国产亚洲第一页| 国产一区二区久久精品| 一区二区三区视频免费视频观看网站 | 日韩网站在线播放| 欧美精品久久一区| 在线观看欧美日韩电影| a级黄色片网站| 久久人人爽爽爽人久久久| 99热这里只有精品在线| 日韩av不卡电影|