Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel

發(fā)布于 2024-9-24 10:19

瀏覽

0收藏

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2409.12191
Github鏈接：https://github.com/QwenLM/Qwen2-VL

亮點直擊
本文介紹了Qwen系列大型視覺語言模型的最新成員：Qwen2-VL系列，該系列包括三款開放權(quán)重模型，總參數(shù)量分別為20億、80億和720億。如圖1所示，Qwen2-VL的關(guān)鍵進展包括：

在各種分辨率和寬高比上的最先進理解能力：Qwen2-VL在視覺基準測試中表現(xiàn)出色，包括DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。
對長時間視頻（超過20分鐘）的理解能力：Qwen2-VL能夠理解超過20分鐘的視頻，增強了其進行高質(zhì)量視頻問答、對話、內(nèi)容創(chuàng)作等的能力。
強大的設(shè)備操作代理能力：憑借先進的推理和決策能力，Qwen2-VL可以與手機、機器人等設(shè)備集成，實現(xiàn)基于視覺輸入和文本指令的自主操作。
多語言支持：為了服務(wù)全球受眾，Qwen2-VL不僅支持英語和中文，還支持包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等在內(nèi)的多語言上下文理解。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

效果展示

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

總結(jié)速覽

解決的問題

Qwen2-VL系列旨在重新定義傳統(tǒng)的固定分辨率視覺處理方法，解決了在處理不同分辨率圖像時的效率和準確性問題。

提出的方案

引入了“Naive Dynamic Resolution”機制，使模型能夠動態(tài)處理不同分辨率的圖像，并生成不同數(shù)量的視覺tokens，從而提升視覺表示的效率和準確性。

應(yīng)用的技術(shù)

Naive Dynamic Resolution機制：動態(tài)處理圖像分辨率。
Multimodal rotary position embedding （M-RoPE）：有效融合文本、圖像和視頻的位置信息。
統(tǒng)一處理范式：同時處理圖像和視頻，增強視覺感知能力。
擴展規(guī)律：探索大規(guī)模視覺語言模型（LVLM）的擴展規(guī)律，通過模型大小（2B、8B和72B參數(shù)）和訓練數(shù)據(jù)的增加來提升性能。

達到的效果

Qwen2-VL系列在各類多模態(tài)基準測試中表現(xiàn)出色，特別是Qwen2-VL-72B模型，其性能與領(lǐng)先模型如GPT-4o和Claude3.5-Sonnet相當，超越了其他通用模型。

方法

Qwen2-VL系列由三種大小的模型組成，分別為Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超參數(shù)和重要信息。Qwen2-VL在各種規(guī)模的LLM中采用了675M參數(shù)的Vison Transformer（ViT），確保了ViT的計算負載在不同規(guī)模的LLM中保持恒定。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型架構(gòu)

下圖2展示了Qwen2-VL的全面結(jié)構(gòu)。保留了Qwen-VL框架，該框架集成了視覺編碼器和語言模型。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

針對不同的規(guī)模適配，實現(xiàn)了一種具有大約675百萬參數(shù)的ViT，能夠處理圖像和視頻輸入。在語言處理方面，選擇了更強大的Qwen2語言模型系列。為了進一步增強模型有效感知和理解視頻中的視覺信息的能力，引入了幾個關(guān)鍵升級：

簡單動態(tài)分辨率：Qwen2-VL的一項關(guān)鍵架構(gòu)改進是引入了簡單動態(tài)分辨率支持。與其前身不同，Qwen2-VL現(xiàn)在可以處理任意分辨率的圖像，動態(tài)將其轉(zhuǎn)換為可變數(shù)量的視覺tokens。為支持此功能，修改了ViT，去除了原始的絕對位置嵌入，并引入了2D-RoPE，以捕捉圖像的二維位置信息。

在推理階段，不同分辨率的圖像被打包成一個單一序列，打包長度受到控制，以限制GPU內(nèi)存使用。此外，為減少每幅圖像的視覺tokens，在ViT后采用了一個簡單的多層感知器（MLP）層，將相鄰的2×2 token壓縮為一個token，并在壓縮的視覺tokens的開頭和結(jié)尾放置特殊的<|vision_start|>和<|vision_end|> tokens。因此，分辨率為224×224的圖像在使用patch_size=14的ViT編碼后，將在進入LLM之前壓縮為66個tokens。

Multimodal rotary position embedding （M-RoPE） 另一個關(guān)鍵架構(gòu)增強是Multimodal Rotary Position Embedding（M-RoPE）的創(chuàng)新。與傳統(tǒng)的1D-RoPE（用于LLM）僅能編碼一維位置信息不同，M-RoPE有效地建模了多模態(tài)輸入的位置信息。這通過將原始旋轉(zhuǎn)embedding分解為三個組成部分：時間、高度和寬度實現(xiàn)。對于文本輸入，這些組件使用相同的位置ID，使得M-RoPE在功能上等同于1D-RoPE。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

在處理圖像時，每個視覺token的時間ID保持不變，而高度和寬度組件則根據(jù)token在圖像中的位置分配不同的ID。對于視頻，視為一系列幀，每幀的時間ID遞增，而高度和寬度組件遵循與圖像相同的ID分配模式。在輸入包含多種模態(tài)的情況下，每種模態(tài)的位置編號通過將前一模態(tài)的最大位置ID加一來初始化。M-RoPE不僅增強了位置信息的建模，還減少了圖像和視頻的位置ID值，使模型在推理時能夠推斷更長的序列。

統(tǒng)一的圖像與視頻理解 Qwen2-VL采用混合訓練方案，結(jié)合圖像和視頻數(shù)據(jù)，確保在圖像理解和視頻理解方面的熟練度。為了盡可能完整地保留視頻信息，以每秒兩幀的頻率采樣每個視頻。此外，將3D卷積與深度為二的卷積結(jié)合，以處理視頻輸入，使模型能夠處理3D pipeline 而非2D塊，從而在不增加序列長度的情況下處理更多視頻幀。

為了保持一致性，每幅圖像被視為兩個相同的幀。為了平衡長視頻處理的計算需求與整體訓練效率，動態(tài)調(diào)整每個視頻幀的分辨率，將每個視頻的總tokens數(shù)限制為16384。該訓練方法在模型理解長視頻的能力與訓練效率之間取得了平衡。

訓練

遵循Qwen-VL，采用三階段訓練方法。在第一階段，專注于訓練ViT組件，利用大量圖像-文本對提升大型語言模型（LLM）的語義理解。在第二階段，解凍所有參數(shù)，使用更廣泛的數(shù)據(jù)進行更全面的學習。最后階段，鎖定ViT參數(shù)，專注于使用指令數(shù)據(jù)集進行LLM的微調(diào)。

模型在多樣化的數(shù)據(jù)集上進行預訓練，包括圖像-文本對、光學字符識別（OCR）數(shù)據(jù)、交錯的圖像-文本文章、視覺問答數(shù)據(jù)集、視頻對話和圖像知識數(shù)據(jù)集。數(shù)據(jù)源主要來自清理過的網(wǎng)頁、開源數(shù)據(jù)集和合成數(shù)據(jù)，數(shù)據(jù)截止日期為2023年6月。這種多樣的數(shù)據(jù)組成對發(fā)展強大的多模態(tài)理解能力至關(guān)重要。

在初始預訓練階段，Qwen2-VL接觸到約6000億個tokens。Qwen2-VL的LLM組件使用Qwen2中的參數(shù)初始化，而視覺編碼器則基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替代。此階段主要學習圖像-文本關(guān)系、通過OCR進行文本內(nèi)容識別以及圖像分類任務(wù)，為模型建立視覺-文本關(guān)聯(lián)的扎實基礎(chǔ)。

第二階段的預訓練標志著重要進展，涉及額外的8000億個與圖像相關(guān)的數(shù)據(jù)。此階段引入了更多混合圖像-文本內(nèi)容，促進了對視覺和文本信息之間相互作用的更細致理解。視覺問答數(shù)據(jù)集的納入提升了模型對圖像相關(guān)查詢的響應(yīng)能力，同時，多任務(wù)數(shù)據(jù)集的引入對模型同時處理多種任務(wù)的能力至關(guān)重要，這在處理復雜的現(xiàn)實世界數(shù)據(jù)集時尤為重要。純文本數(shù)據(jù)繼續(xù)在維持和提高模型語言能力方面發(fā)揮關(guān)鍵作用。

在整個預訓練階段，Qwen2-VL處理了總計1.4萬億個tokens，包括文本tokens和圖像tokens。然而，訓練過程中僅對文本tokens提供監(jiān)督。這種對廣泛而多樣的語言和視覺場景的接觸確保模型深入理解視覺和文本信息之間的復雜關(guān)系，從而為各種多模態(tài)任務(wù)奠定堅實基礎(chǔ)。

在指令微調(diào)階段，采用ChatML格式構(gòu)建指令跟隨數(shù)據(jù)集。該數(shù)據(jù)集不僅包括純文本對話數(shù)據(jù)，還包含多模態(tài)對話數(shù)據(jù)。多模態(tài)組件包括圖像問答、文檔解析、多圖像比較、視頻理解、視頻流對話和基于代理的交互。對數(shù)據(jù)構(gòu)建的綜合方法旨在增強模型理解和執(zhí)行各種模態(tài)下廣泛指令的能力。通過納入多樣化的數(shù)據(jù)類型，希望開發(fā)出更具多樣性和魯棒性的語言模型，能夠處理復雜的多模態(tài)任務(wù)，以及傳統(tǒng)的基于文本的交互。

數(shù)據(jù)格式

與Qwen-VL一致，Qwen2-VL也使用特殊tokens來區(qū)分視覺和文本輸入。Tokens <|vision_start|>和<|vision_end|>插入在圖像特征序列的開始和結(jié)束，以劃定圖像內(nèi)容。

對話數(shù)據(jù) 在對話格式方面，使用ChatML格式構(gòu)建指令調(diào)優(yōu)數(shù)據(jù)集，每個交互的陳述用兩個特殊tokens（<|im_start|>和<|im_end|>），以便于對話的結(jié)束。藍色tokens的部分表示受監(jiān)督的部分。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺Agent 為了將Qwen2-VL發(fā)展為通用的VL-Agent，將各種代理任務(wù)（如UI操作、機器人控制、游戲和導航）視為順序決策問題，使Qwen2-VL能夠通過多步行動執(zhí)行來完成任務(wù)。對于每個任務(wù)，首先定義一組可允許的動作和關(guān)鍵詞模式（下劃線）以供功能調(diào)用。然后，Qwen2-VL分析觀察結(jié)果，進行推理和規(guī)劃，執(zhí)行所選動作，并與環(huán)境互動以獲取新觀察。這一循環(huán)反復進行，直到任務(wù)成功完成。通過整合各種工具并利用大型視覺語言模型（LVLM）的視覺感知能力，Qwen2-VL能夠迭代執(zhí)行涉及現(xiàn)實世界視覺交互的日益復雜的任務(wù)。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多模態(tài)模型基礎(chǔ)設(shè)施

Qwen2-VL模型在阿里云的PAI-Lingjun智能計算服務(wù)上進行訓練，利用其可擴展的計算、自動恢復和延遲檢測功能。

存儲使用阿里云的超高速CPFS（云并行文件存儲）構(gòu)建Qwen2-VL的預訓練和后訓練存儲系統(tǒng)。將文本數(shù)據(jù)和視覺數(shù)據(jù)存儲解耦。文本數(shù)據(jù)簡單地存儲在CPFS上，并使用mmap進行高效訪問。視覺數(shù)據(jù)使用阿里云的OSS（對象存儲服務(wù)）進行持久存儲。在訓練過程中，通過OSS的python-client并發(fā)訪問視覺數(shù)據(jù)，并調(diào)整并發(fā)和重試參數(shù)以避免達到QPS（每秒查詢次數(shù)）限制。視頻數(shù)據(jù)解碼是主要瓶頸，尤其是對于長視頻。在幾次嘗試開源（FFmpeg開發(fā)者）和內(nèi)部軟件失敗后，研究者們選擇了緩存解碼技術(shù)。檢查點保存每個GPU的優(yōu)化器和模型狀態(tài)在CPFS上。

并行性 使用3D并行性，結(jié)合數(shù)據(jù)并行性（DP）、張量并行性（TP）和 pipeline 并行性（PP）來擴展Qwen2-VL模型訓練。還利用DeepSpeed的zero-1冗余優(yōu)化器進行狀態(tài)分片以節(jié)省內(nèi)存。使用選擇性檢查點激活的序列并行性（SP）以減少內(nèi)存使用。當啟用TP訓練時，總是將視覺編碼器和大型語言模型一起分片，但不對視覺合并進行分片，因為其參數(shù)相對較少。我們發(fā)現(xiàn)TP訓練會導致不同的模型共享權(quán)重，這是由于卷積操作的非確定性行為。我們通過對共享權(quán)重進行離線減少解決了這個問題，從而避免了額外的全歸約通信步驟。這種方法對性能的影響非常小。

研究者們利用1F1B PP進行Qwen2-VL 72B的訓練。我們將視覺編碼器、視覺適配器和幾個LLM的解碼器層組合為一個階段，并均勻分割剩余的解碼器層。請注意，視覺和文本序列長度對于每個數(shù)據(jù)點都是動態(tài)的。在啟動1F1B過程之前廣播動態(tài)序列長度，并使用批索引訪問形狀信息。還實現(xiàn)了交錯的1F1B PP，但發(fā)現(xiàn)其速度比標準1F1B設(shè)置慢。

軟件使用PyTorch版本2.1.2與CUDA 11.8進行訓練。此外，在視覺編碼器和LLM的訓練中利用閃存注意力以提高效率。還利用了融合操作符，如LayerNorm、RMSNorm和Adam。此外，在訓練過程中利用矩陣乘法中的通信與計算重疊。

實驗

與現(xiàn)有技術(shù)的比較

通過各種視覺基準、視頻任務(wù)和基于代理的評估來評估我們模型的視覺能力。Qwen2-VL在相同規(guī)模下表現(xiàn)出高度競爭力，取得了新的最先進（SoTA）結(jié)果。72B模型在大多數(shù)評估指標上始終提供頂尖性能，常常超越閉源模型，如GPT-4o和Claude 3.5-Sonnet。在文檔理解任務(wù)中，它表現(xiàn)出顯著優(yōu)勢。然而，在MMM基準中，本文的模型在處理更復雜和具有挑戰(zhàn)性的問題集時仍然落后于GPT-4o，表明Qwen2-VL-72B還有改進的空間。

定量結(jié)果

對Qwen2-VL系列在多種數(shù)據(jù)集上的廣泛評估進行展示，提供對模型在各方面能力的全面理解。

一般視覺問答

為了嚴格評估本文模型在一般視覺問答任務(wù)中的能力，研究者們在多種最先進的基準上進行了廣泛評估：RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。

Qwen2-VL系列在這些基準上表現(xiàn)出色，72B模型始終達到或超過最先進的結(jié)果，而7B和2B變體也表現(xiàn)出強大的能力。在評估真實世界空間理解的RealWorldQA上，Qwen2-VL-72B的得分為77.8，超過了之前的最先進（72.2）和強有力的基線，如GPT-4o（75.4），展示了其對物理環(huán)境的優(yōu)越理解。

在評估真正多模態(tài)能力的MMStar基準中，Qwen2-VL-72B獲得68.3，超越了之前的最佳成績67.1，突顯了其在視覺和文本信息整合方面的能力。在MMVet上，Qwen2-VL-72B在16個復雜多模態(tài)任務(wù)中表現(xiàn)出色，取得了74.0，顯著超過強勁的競爭對手，包括GPT-4V（67.5），展示了其在應(yīng)對多樣化多模態(tài)挑戰(zhàn)中的多功能性。

在評估先進推理和指令跟隨的MMT-Bench中，Qwen2-VL-72B獲得71.7，明顯超過之前的最佳（63.4），展示了其在應(yīng)用專業(yè)知識和執(zhí)行視覺識別、定位、推理及規(guī)劃方面的能力。在評估細粒度能力的MMBench中，Qwen2-VL-72B在英語測試集上獲得86.5，匹配了最先進的水平，而在中文測試集上取得86.6，創(chuàng)下新基準。對于測量14個子任務(wù)中廣泛感知和認知能力的MME，Qwen2-VL-72B獲得累計得分2482.7，顯著超過之前的最佳（2414.7），突顯了其在視覺感知和高級認知任務(wù)中的先進能力。

這些綜合結(jié)果突顯了Qwen2-VL系列在一般視覺問答任務(wù)中的卓越能力。模型在真實世界空間理解、真正多模態(tài)整合、復雜推理、指令跟隨以及廣泛的感知和認知任務(wù)方面展現(xiàn)出先進能力。特別是72B模型在多種基準上持續(xù)表現(xiàn)優(yōu)越，使Qwen2-VL系列成為視覺問答領(lǐng)域的領(lǐng)先解決方案。我們的模型在處理視覺不可或缺的任務(wù)、整合核心視覺-語言能力以及在多樣化多模態(tài)場景中展現(xiàn)專業(yè)知識方面表現(xiàn)出色，涵蓋從基礎(chǔ)感知任務(wù)到復雜推理和規(guī)劃的廣泛能力。這一全面評估強調(diào)了Qwen2-VL系列在應(yīng)對最先進多模態(tài)基準所帶來的多面挑戰(zhàn)中的多功能性和有效性，從而為大型視覺-語言模型設(shè)立了新的標準。

文檔和圖表閱讀

在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D數(shù)據(jù)集上測試了模型的OCR以及文檔和圖表理解能力。DocVQA/InfoVQA/ChartQA數(shù)據(jù)集側(cè)重于模型理解文檔、高分辨率信息圖表和圖表中的文本能力，而TextVQA數(shù)據(jù)集考察了模型理解自然圖像中文本的能力。

OCRBench數(shù)據(jù)集是一個混合任務(wù)的數(shù)據(jù)集，除了基于文本的視覺問答外，還關(guān)注數(shù)學公式解析和信息提取。AI2D數(shù)據(jù)集側(cè)重于科學圖表中包含文本的多項選擇題。還在OCRBench上測試了模型的OCR和公式識別能力，以及在MTVQA數(shù)據(jù)集上測試了模型的多語言O(shè)CR能力。

實驗結(jié)果表明，本文的模型在多個指標上達到了最先進水平，包括DocVQA、InfoVQA、TextVQA和OCRBench，展示了模型對多個領(lǐng)域圖像中文本內(nèi)容的良好理解能力。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多語言文本識別與理解

在多語言O(shè)CR方面，本文的模型超越了所有現(xiàn)有的通用LVLM。本文的模型不僅在公開的MTVQA數(shù)據(jù)集上優(yōu)于現(xiàn)有的LVLM（包括諸如GPT-4o、Claude 3.5 Sonnet等專有模型），還在內(nèi)部基準測試中在除阿拉伯語外的所有外語上超越了GPT-4o（見下表3）。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

數(shù)學推理

在MathVista和MathVision數(shù)據(jù)集上進行了實驗，以評估數(shù)學推理能力。MathVista是一個綜合基準，包含6,141個多樣的數(shù)學和視覺任務(wù)示例。MathVision數(shù)據(jù)集包括3,040個embeddings在實際數(shù)學競賽中的視覺背景下的數(shù)學問題，涵蓋16個數(shù)學學科，并在五個級別上具有不同的難度。這些挑戰(zhàn)強調(diào)了LVLM展現(xiàn)強大視覺理解、深刻數(shù)學理解和良好邏輯推理能力的必要性。Qwen2-VL系列在MathVista上表現(xiàn)出色，取得70.5的成績，超越了其他LVLM。此外，它在MathVision上設(shè)定了新的開源基準，得分為25.9。

參照表達理解

在視覺定位任務(wù)方面，在RefCOCO、RefCOCO+和RefCOCOg數(shù)據(jù)集上評估了Qwen2-VL。結(jié)果如下表6所示，表明Qwen2-VL在通用模型中取得了頂級結(jié)果。得益于更合理的結(jié)構(gòu)設(shè)計，Qwen2-VL能夠感知高分辨率圖像中的細節(jié)，從而顯著提高了性能。與通用和專用模型相比，這些模型的優(yōu)越性突顯了它們在推進視覺定位領(lǐng)域和實際任務(wù)中實現(xiàn)精確視覺理解的潛力。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視頻理解

在各種視頻理解任務(wù)上也評估了本文的模型，相關(guān)基準覆蓋從幾秒到長達一小時的視頻。下表4展示了Qwen2-VL及基線模型的性能。總體而言，Qwen2-VL在2B、7B和72B尺寸上表現(xiàn)強勁，其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。這展示了Qwen2-VL在視頻理解任務(wù)中的優(yōu)越能力，并且擴大Qwen2-VL的規(guī)模帶來了顯著的提升。對于具有挑戰(zhàn)性的Video-MME基準，該基準包括最長可達一小時的視頻，值得注意的是，我們在評估過程中將每個視頻提取的最大幀數(shù)限制為768，這可能影響了在較長視頻上的表現(xiàn)。未來的工作將集中在擴展Qwen2-VL以支持更長的序列，從而適應(yīng)更長的視頻。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺智能體

首先評估Qwen2-VL在通過函數(shù)調(diào)用與環(huán)境互動的能力，然后評估其通過多輪交互完成復雜決策任務(wù)的能力。該實現(xiàn)基于Qwen-Agent框架。

函數(shù)調(diào)用 與LLM中的函數(shù)調(diào)用不同，LVLM中的函數(shù)調(diào)用通常涉及從視覺線索中提取信息。由于缺乏評估LVLM在函數(shù)調(diào)用能力方面的公共基準，我們構(gòu)建了內(nèi)部評估數(shù)據(jù)集。

為構(gòu)建評估數(shù)據(jù)集，進行了以下程序：場景分類、圖像收集、圖像內(nèi)容提取，以及問題/函數(shù)/參數(shù)生成。首先，我們根據(jù)不同的視覺應(yīng)用將場景分類。隨后，從互聯(lián)網(wǎng)上下載并精心選擇每個類別的高質(zhì)量代表性圖像。利用先進的LVLM，分析每張圖像以提取關(guān)鍵視覺元素和文本信息。最后，基于圖像的內(nèi)容信息，使用先進的LLM生成一系列需要特定函數(shù)回答的問題，并指定這些函數(shù)調(diào)用所需的輸入?yún)?shù)。

研究者們設(shè)計了兩種指標來評估函數(shù)選擇的準確性和參數(shù)輸入的正確性：類型匹配（Type Match，TM）和精確匹配（Exact Match，EM）。

下表5所示，Qwen2-VL在Type Match（93.1對90.2）和Exact Match（53.2對50.0）上的表現(xiàn)優(yōu)于GPT-4o，這證明了Qwen2-VL在函數(shù)調(diào)用能力上的有效性，凸顯了其通過外部工具集成擴展應(yīng)用的顯著潛力。評估結(jié)果表明，GPT-4o的表現(xiàn)不佳，主要由于兩個因素：在不確定性場景中，GPT-4o表現(xiàn)出保守的態(tài)度，避免使用外部工具。此外，Qwen2-VL在光學字符識別（OCR）能力方面也優(yōu)于GPT-4o，尤其是在中文字符的處理上。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

用戶界面操作/游戲/機器人/導航 為了評估Qwen2-VL處理復雜任務(wù)的能力，在多個視覺語言代理任務(wù)上進行了評估，包括移動操作、機器人控制、紙牌游戲和視覺語言導航等。由于這些任務(wù)需要多次行動才能完成，通過Qwen2-VL支持32K上下文長度來保留歷史（觀察、動作），然后在每次行動后附加新的觀察圖像，以實現(xiàn)對后續(xù)步驟的連續(xù)推理。

用戶界面操作使用AITZ任務(wù)評估Qwen2-VL，該任務(wù)構(gòu)建了一個基于AITW的核心干凈測試集。根據(jù)手機的常見操作模式，為Qwen2-VL定義了諸如點擊、輸入和滑動等操作，以便其與屏幕圖標進行交互以完成任務(wù)。例如，當Qwen2-VL被要求通過Google地圖尋找附近的披薩餐廳時，它應(yīng)在搜索框中輸入“pizza”，滑動選擇適當?shù)牟蛷d，并點擊對應(yīng)的鏈接。根據(jù)AITZ設(shè)置，報告了操作類型匹配（點擊、輸入或滑動的正確性）和精確匹配（點擊位置、輸入文本或滑動方向的正確性）。借助于用戶界面的基礎(chǔ)能力，Qwen2-VL超越了GPT-4和之前的最新技術(shù)水平。

機器人控制 在AI2THOR的ALFRED任務(wù)中評估Qwen2-VL。該任務(wù)要求智能體執(zhí)行復雜的家庭任務(wù)，例如烤面包和切蘋果以準備餐點。為了在虛擬環(huán)境中工作，定義了高層次的動作（GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice）作為動作集。此外，智能體需要定位可操作的物體（例如，只有在識別到蘋果時才能拾取它）。為提高操作準確性，整合了SAM。ALFRED任務(wù)報告任務(wù)成功率（SR）（例如，準備晚餐）和子目標完成率（GC）（例如，面包是否被烤熟或蘋果是否被切）。

紙牌游戲 利用來自RL4VLM的紙牌游戲環(huán)境來評估Qwen2-VL在一系列紙牌游戲中的表現(xiàn)：Number Line、BlackJack、EZPoint和Point24。每個游戲提出了不同的挑戰(zhàn)：

通過+1或-1操作達到目標數(shù)字；
抽取或保留牌與莊家競爭；
應(yīng)用基本算術(shù)運算達到總數(shù)12；
使用算術(shù)運算達到總數(shù)24。

報告任務(wù)的成功率，這不僅評估了智能體的能力，還需要強大的OCR技能來識別這些牌并理解游戲進程。Qwen2-VL在所有任務(wù)中表現(xiàn)優(yōu)越。

視覺語言導航 在視覺語言導航（VLN）任務(wù)中評估Qwen2-VL，使用R2R和REVERIE。在VLN中，模型必須根據(jù)指令和當前觀察自主確定下一個位置。我們報告該任務(wù)中到達預定目的地的成功率（SR）。Qwen2-VL的表現(xiàn)與GPT-4o相當，但兩者都顯著落后于當前專門的VLN模型。將這一差距歸因于模型從多個圖像生成的不完整和非結(jié)構(gòu)化的地圖信息。在三維環(huán)境中準確建模地圖和位置仍然是多模態(tài)模型面臨的重大挑戰(zhàn)。

消融研究

本節(jié)展示了關(guān)于圖像動態(tài)分辨率、M-RoPE和模型規(guī)模的消融研究。這些實驗旨在提供這些關(guān)鍵組件對模型性能影響的深入見解。

動態(tài)分辨率

如下表7所示，比較了動態(tài)分辨率與固定分辨率的性能。在固定分辨率下，調(diào)整圖像大小，以確保輸入到模型的圖像tokens數(shù)量保持恒定，而不是調(diào)整到特定的高度和寬度，因為這會扭曲原始寬高比。在動態(tài)分辨率中，我們僅設(shè)置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28，允許圖像tokens的數(shù)量主要依賴于圖像的原始分辨率。可以觀察到，調(diào)整圖像大小僅導致性能的小幅波動，表明模型對不同圖像大小的魯棒性。此外，動態(tài)分辨率的方法效率更高。我們發(fā)現(xiàn)沒有單一固定分辨率在所有基準測試中都能達到最佳性能。相比之下，動態(tài)分辨率方法在平均消耗更少tokens的情況下，始終實現(xiàn)頂級性能。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

單純增加圖像大小并不總是導致性能的提升。選擇適當?shù)姆直媛蕦Σ煌瑘D像更為重要。如下圖4所示，將小圖像放大到超過指定的min_pixels閾值。對放大圖像的評估顯示，在InfoVQA、HallusionBench和OCRBench等感知任務(wù)上性能增強。我們將這些增益歸因于增加的計算負載。然而，對于OCRBench，過高的min_pixels值導致嚴重的性能下降。這可能是因為OCRBench包含許多極小的圖像，過度放大會使這些圖像偏離訓練數(shù)據(jù)分布，變成超出分布的樣本。相反，增加min_pixels對MMMU基準的影響微乎其微。我們假設(shè)MMMU的性能瓶頸與模型的推理能力關(guān)系更大，而非圖像分辨率。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

M-RoPE

本節(jié)展示了M-RoPE的有效性。首先，驗證其在各種下游任務(wù)中的能力。采用Qwen2-1.5B和ViT-L作為基礎(chǔ)，并報告預訓練模型的結(jié)果。如下表8所示，與1D-RoPE相比，使用M-RoPE在下游任務(wù)中表現(xiàn)更佳，特別是在視頻基準測試中。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

此外，在Video-MME中等長度視頻上評估了M-RoPE的長度外推能力。下圖5展示了Qwen2-VL-72B在不同推理長度下的性能。利用M-RoPE，模型在各種推理長度下表現(xiàn)穩(wěn)健。值得注意的是，盡管在訓練期間每個視頻的最大tokens限制為16K，但模型在最大推理長度達到80K tokens時仍表現(xiàn)出色。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型規(guī)模

評估了不同規(guī)模模型在多個能力維度上的表現(xiàn)。具體而言，將這些維度分類為復雜的大學水平問題解決能力、數(shù)學能力、文檔和表格理解、一般場景問答以及視頻理解。通過對與每個維度相關(guān)的不同基準測試的得分進行平均，我們評估了模型的整體能力。

具體來說, 使用MMMU基準來表示大學水平的問題解決能力，同時，MathVista和MathVision的平均得分作為數(shù)學能力的指標。對于一般場景問答，計算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基準的平均得分。

文檔和表格理解能力通過DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基準的平均得分體現(xiàn)。最后，視頻理解能力通過MVBench、Perception-Test、EgoSchema和Video-MME的平均得分進行測量。

如下圖6(a)所示，隨著模型規(guī)模的增加，性能呈現(xiàn)出一致的提升，特別是在數(shù)學能力方面，這與模型參數(shù)的數(shù)量呈正相關(guān)。另一方面，對于光學字符識別（OCR）相關(guān)任務(wù)，即使是小規(guī)模模型的表現(xiàn)也相對強勁。

Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

如上圖6(b)所示，我們可視化了Qwen2-VL-7B在預訓練第二階段中模型性能與訓練tokens數(shù)量之間的關(guān)系。隨著訓練tokens數(shù)量的增加，模型性能有所提升；然而，在視覺問答（VQA）任務(wù)上，性能卻表現(xiàn)出一定波動。相比之下，對于AI2D和InfoVQA等任務(wù)，這些任務(wù)涉及理解圖像中的文本和圖形信息，隨著訓練數(shù)據(jù)的增加，模型性能穩(wěn)步提升。

結(jié)論

本文介紹了Qwen2-VL系列，這是多功能的大型視覺語言模型，包括三個開放權(quán)重模型，參數(shù)總量分別為20億、80億和720億。Qwen2-VL在多種多模態(tài)場景中的表現(xiàn)與頂尖模型如GPT-4o和Claude3.5-Sonnet相匹配，超越了所有其他開放權(quán)重的LVLM模型。Qwen2-VL系列引入了簡單的動態(tài)分辨率和Multimodal rotary position embedding （M-RoPE），有效融合跨模態(tài)信息，并能夠理解超過20分鐘長度的視頻。憑借先進的推理和決策能力，Qwen2-VL可以與移動設(shè)備、機器人等設(shè)備集成。此外，Qwen2-VL現(xiàn)已支持理解圖像中的多語言文本，包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等。

目前已將Qwen2-VL模型權(quán)重開放獲取，允許研究人員和開發(fā)者在各種應(yīng)用和研究項目中充分利用其潛力。我們致力于推進人工智能技術(shù)，增強其對社會的積極影響。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/YLwhukJ-WbtY8TN6Wtl1oA??

標簽

模型

贊

回復