多模態大模型Ovis2.5核心技術改進點、訓練方法原創

大模型自然語言處理

發布于 2025-8-26 09:19

瀏覽

0收藏

前面介紹了《??多模態大模型Ovis核心技術點、訓練方法、數據細節???》，最近看到更新了Ovis2.5，來看下有哪些改進及策略。

改進點概述：

Ovis2 采用固定分辨率ViT，需將圖像分割為固定大小的子圖（tiling）處理，這會破壞復雜視覺內容的全局布局連貫性和細粒度細節，Ovis2.5直接以圖像原始分辨率（無需分塊）輸入，支持 4482~17922 像素。（從代碼看，原生分辨率直接從qwen2.5-vl copy過來的）
升級LLM為qwen3，增加思考推理能力，支持可選 “思考模式”：推理時可靈活開啟 / 關閉該模式
訓練策略上使用數據打包和混合并行性進行優化，加速訓練（關于packing：???多模態大模型中圖像分辨率packing策略及原生分辨率NaViT的部分結論??）

架構

多模態大模型Ovis2.5核心技術改進點、訓練方法-AI.x社區

架構

架構保留了ovis之前的結構，由視覺編碼器+VET（視覺嵌入表）+LLM構成：

VET過程概述：

多模態大模型Ovis2.5核心技術改進點、訓練方法-AI.x社區

圖(a)：基于連接器的MLLM：傳統多模態模型（如LLava）的典型架構，連接器通常是一個MLP，其作用是將視覺特征投影到與文本嵌入相同的維度空間中。
圖(b)：Ovis的結構化嵌入對齊：視覺編碼器的輸出不再直接通過MLP投影，而是送入一個視覺嵌入表（Visual Embedding Table）。這個表是一個可學習的結構，類似于文本嵌入表。

視覺編碼器：圖像首先被視覺編碼器（如 ViT）處理，分為多個patches，每個patch生成一個連續的特征向量。
不同于傳統方法直接通過 MLP 投影，Ovis 在視覺編碼器后整合了一個可學習的視覺嵌入表。每個圖像patch的特征向量用于多次索引該表，生成最終的視覺嵌入。為了使視覺和文本嵌入具有兼容的形狀，視覺嵌入表的維度設置為與文本嵌入表相同。
嵌入對齊：視覺嵌入表的引入使得視覺嵌入的生成方式與文本嵌入類似。文本嵌入通常通過查找表為每個token分配一個嵌入向量，而 Ovis 通過視覺嵌入表為視覺patch生成結構化的嵌入，實現了兩者的對齊。

訓練方法

多模態大模型Ovis2.5核心技術改進點、訓練方法-AI.x社區

五階段訓練法

階段1：預訓練P1 - 視覺嵌入表（VET）初始化

凍結ViT主體（僅解凍最后一層）、LLM全凍，僅訓練視覺頭（Visual Head）和視覺嵌入表（VET）。

數據：純圖像-描述對（如COYO、Laion），無對話格式，聚焦基礎視覺理解。
分辨率：動態調整圖像像素至4482~8962（保留寬高比），禁用RoPE（因ViT預訓練無位置編碼），通過動態位置嵌入插值適應可變分辨率。

階段2：預訓練P2 - 多模態基礎對齊

激活全模塊（VT/VET/LLM），對齊多模態對話格式，擴展高分辨率感知。全參數微調，引入多模態數據打包（將短樣本拼接為長序列），減少Padding浪費，提升GPU利用率。

數據：新增OCR（文檔/圖表）、視覺定位（RefCOCO）、多輪對話數據，覆蓋“圖像→文本”交互。
分辨率：支持4482~17922像素，激活ViT所有塊的旋轉位置編碼（RoPE），強化高分辨率下的空間關系建模（如圖表中數據點與坐標軸的位置關聯）。

階段3：預訓練P3 - 多模態指令理解

擴展至8大領域（STEM/醫療/多語言等），新增多圖像/視頻輸入，并注入帶??<think>...</think>??標簽的“思考式樣本”。延續17922支持，適配復雜圖表的高密度信息（如圖表中的小文本、密集數據線）。LLM切換為Qwen3，其深度推理能力（如數學公式生成）與視覺模塊協同，實現“視覺信息→邏輯鏈→結論”的端到端訓練。