Ovis2.5:多模態大模型的進化之路 原創

隨著人工智能技術的飛速發展,多模態大語言模型(MLLMs)已成為AI領域的重要研究方向。這類模型能夠同時處理文本、圖像、視頻等多種模態的信息,為實現通用人工智能奠定了重要基礎。近日,阿里巴巴集團的Ovis團隊發布了最新的Ovis2.5技術報告,展示了在多模態理解和推理方面的顯著進步。本文將深入解析Ovis2.5的技術創新、架構設計以及性能表現,探討其在多模態AI領域的重要意義。
1.Ovis發展之路
Ovis系列模型的發展體現了多模態AI技術的演進軌跡。在之前的工作中,Ovis團隊識別出傳統多模態架構中的一個關鍵問題:視覺嵌入(來自MLP投影器的連續結構)與文本嵌入(離散結構)之間存在結構性不匹配。為此,他們提出了Ovis架構,通過可學習的視覺嵌入表(Visual Embedding Table)來結構化地對齊文本和視覺嵌入,并通過實驗驗證了其相對于傳統設計的優越性。

從Ovis 1.5到Ovis2.0的迭代過程中,模型逐步增強了處理高分辨率圖像、多圖像和視頻輸入、OCR任務、多語言場景以及數學推理等復雜問題的能力。每個版本在發布時都在同等規模的開源模型中展現出領先性能。然而之前的模型在需要深度推理或詳細分析視覺密集內容(如復雜圖表)的任務上仍存在不足。
2.Ovis2.5的核心創新
傳統的多模態模型通常采用固定分辨率的視覺變換器(ViT),需要將圖像分割成固定大小的子圖像進行處理,這種方法會破壞全局結構和精細細節。Ovis2.5引入了原生分辨率視覺變換器(NaViT),能夠直接處理各種原生分辨率的圖像,避免了有損的圖像分塊,保留了對圖表、圖形等視覺密集內容至關重要的精細細節和全局布局信息。
NaViT的實現整合了旋轉位置嵌入(RoPE),在每個ViT塊中強化空間感知能力,這對高分辨率圖像(如復雜圖表)的處理特別有效。該技術從siglip2-so400m-patch16-512的權重初始化,確保了模型的穩定性和效果
Ovis2.5的另一項重要創新是引入了"思考模式"(thinking mode),這是通過在包含反思過程(如自我檢查和修訂)的深度推理數據上進行訓練實現的。與傳統的線性思維鏈(CoT)不同,這種訓練方法教會模型產生中間步驟來評估自己的推理過程,并在必要時完善結論,從而實現更深入、更穩健的推理。
這種深度推理能力在推理時作為可選功能提供,用戶可以根據需要選擇關閉該模式以提高效率,或在處理復雜問題時啟用它以犧牲延遲換取更高的準確性。
Ovis2.5將語言模型骨架從Qwen2.5升級到Qwen3,充分利用了Qwen3在深度推理方面的優越能力,顯著提升了模型在復雜任務上的性能和整體多模態能力。
Ovis2.5保留了Ovis架構的基礎設計,由三個核心模塊組成:視覺分詞器(VT)基于Transformer的組件,從圖像片段中提取特征。視覺頭將每個片段的特征投影到"視覺詞"的離散詞匯表上,產生該詞匯表上的概率分布。視覺嵌入表(VET)類似于LLM中的文本嵌入表,VET為每個視覺詞存儲專用嵌入,這種設計緩解了模態間的結構性不匹配。最終的視覺嵌入通過對表中嵌入進行VT產生的概率加權求和計算得出。
3.訓練策略與數據組成
Ovis2.5采用了全面的五階段訓練課程,逐步構建模型從基礎感知到高級推理的能力。

預訓練階段包含三個階段:
P1: VET預訓練:主要訓練視覺嵌入表,使用圖像-標題對數據集,采用非對話格式的純文本。
P2: 多模態預訓練:過渡到所有模塊的全參數訓練,建立核心視覺理解并與對話格式對齊。
P3: 多模態指令調優:繼續全參數訓練,重點增強模型遵循多樣化多模態指令的能力。
后訓練階段包含兩個階段:
P1: 多模態DPO使用直接偏好優化改善模型性能。
P2: 使用組相對策略優化(GRPO)進一步改善推理能力。
訓練數據包含多個關鍵組成部分:OCR數據結合公開數據集和內部收集的多樣化圖像,包括文檔、圖表、海報和截圖。定位數據來自RefCoCo等公開數據集和自動化管道生成的數據。推理數據包括傳統CoT數據和"思考風格"數據,后者使用<think>...</think>標簽進行標注。
4.性能評估與基準測試
在OpenCompass多模態排行榜上,Ovis2.5-9B取得了78.3的平均分,Ovis2.5-2B取得了73.9分,均在各自規模的開源模型中達到了最先進的水平。這些結果不僅代表了相對前代Ovis2-8B的顯著改進,也在40B參數以下的開源MLLM中建立了新的技術標桿。

在多模態推理基準測試中,Ovis2.5展現出卓越的性能,在MathVista和WeMath上取得領先成績,展示了在視覺組合和概念集成任務上的卓越能力。在MMMU上獲得71.2分,在更具挑戰性的MMMU-Pro上獲得54.4分。邏輯推理在LogicVista等基準上保持前列位置。
Ovis2.5在OCR和圖表分析方面表現突出。在大規模雙語OCRBench v2上不僅超越了所有領先的開源競爭對手,還優于專有的GPT-4o模型。在復雜圖表分析基準ChartQA Pro上取得領先成績,證明了其在處理從傳統圖表到復雜信息圖表等多樣化可視化內容方面的能力。


本文轉載自??魯班模錘??,作者:龐德公

















