多模態大模型Ovis2.5核心技術改進點、訓練方法 原創
前面介紹了《??多模態大模型Ovis核心技術點、訓練方法、數據細節???》,最近看到更新了Ovis2.5,來看下有哪些改進及策略。
改進點概述:
- Ovis2 采用固定分辨率ViT,需將圖像分割為固定大小的子圖(tiling)處理,這會破壞復雜視覺內容的全局布局連貫性和細粒度細節,Ovis2.5直接以圖像原始分辨率(無需分塊)輸入,支持 4482~17922 像素。(從代碼看,原生分辨率直接從qwen2.5-vl copy過來的)
- 升級LLM為qwen3,增加思考推理能力,支持可選 “思考模式”:推理時可靈活開啟 / 關閉該模式
- 訓練策略上使用數據打包和混合并行性進行優化,加速訓練(關于packing:???多模態大模型中圖像分辨率packing策略及原生分辨率NaViT的部分結論??)
架構

架構
架構保留了ovis之前的結構,由視覺編碼器+VET(視覺嵌入表)+LLM構成:
VET過程概述:

- 圖(a):基于連接器的MLLM:傳統多模態模型(如LLava)的典型架構,連接器通常是一個MLP,其作用是將視覺特征投影到與文本嵌入相同的維度空間中。
- 圖(b):Ovis的結構化嵌入對齊:視覺編碼器的輸出不再直接通過MLP投影,而是送入一個視覺嵌入表(Visual Embedding Table)。這個表是一個可學習的結構,類似于文本嵌入表。
- 視覺編碼器:圖像首先被視覺編碼器(如 ViT)處理,分為多個patches,每個patch生成一個連續的特征向量。
- 不同于傳統方法直接通過 MLP 投影,Ovis 在視覺編碼器后整合了一個可學習的視覺嵌入表。每個圖像patch的特征向量用于多次索引該表,生成最終的視覺嵌入。為了使視覺和文本嵌入具有兼容的形狀,視覺嵌入表的維度設置為與文本嵌入表相同。

- 嵌入對齊:視覺嵌入表的引入使得視覺嵌入的生成方式與文本嵌入類似。文本嵌入通常通過查找表為每個token分配一個嵌入向量,而 Ovis 通過視覺嵌入表為視覺patch生成結構化的嵌入,實現了兩者的對齊。
訓練方法

五階段訓練法
階段1:預訓練P1 - 視覺嵌入表(VET)初始化
凍結ViT主體(僅解凍最后一層)、LLM全凍,僅訓練視覺頭(Visual Head)和視覺嵌入表(VET)。
- 數據:純圖像-描述對(如COYO、Laion),無對話格式,聚焦基礎視覺理解。
- 分辨率:動態調整圖像像素至4482~8962(保留寬高比),禁用RoPE(因ViT預訓練無位置編碼),通過動態位置嵌入插值適應可變分辨率。
階段2:預訓練P2 - 多模態基礎對齊
激活全模塊(VT/VET/LLM),對齊多模態對話格式,擴展高分辨率感知。全參數微調,引入多模態數據打包(將短樣本拼接為長序列),減少Padding浪費,提升GPU利用率。
- 數據:新增OCR(文檔/圖表)、視覺定位(RefCOCO)、多輪對話數據,覆蓋“圖像→文本”交互。
- 分辨率:支持4482~17922像素,激活ViT所有塊的旋轉位置編碼(RoPE),強化高分辨率下的空間關系建模(如圖表中數據點與坐標軸的位置關聯)。
階段3:預訓練P3 - 多模態指令理解
擴展至8大領域(STEM/醫療/多語言等),新增多圖像/視頻輸入,并注入帶??<think>...</think>??標簽的“思考式樣本”。延續17922支持,適配復雜圖表的高密度信息(如圖表中的小文本、密集數據線)。LLM切換為Qwen3,其深度推理能力(如數學公式生成)與視覺模塊協同,實現“視覺信息→邏輯鏈→結論”的端到端訓練。
階段4:后訓練P1 - 偏好對齊(DPO)
通過人類偏好優化輸出質量,減少幻覺,強化推理可信度。全參數DPO(Direct Preference Optimization)+ 輔助NLL損失,對每個查詢生成5~10個候選答案,形成偏好對(A>B),優化模型選擇更符合人類偏好的輸出。
階段5:后訓練P2 - 強化學習(GRPO)
針對推理任務(如數學、邏輯)進行專項優化,凍結視覺模塊以保感知能力。僅更新LLM參數,采用GRPO,通過“獎勵模型→策略優化”循環,強化復雜推理的邏輯連貫性。
數據:聚焦可驗證任務(MathVista/LogicVista),將多選問題轉為填空(減少猜測依賴),離線過濾低質量樣本。
實驗效果




參考文獻:Ovis2.5 Technical Report,https://arxiv.org/pdf/2508.11737
repo:https://github.com/AIDC-AI/Ovis/tree/main
本文轉載自???大模型自然語言處理??? 作者:llmnlp

















