打敗 Qwen2.5-VL,完全開源可復現 LLaVA-OneVision-1.5 的多模態模型
一個完全開源多模態模型,全面超越 Qwen2.5-VL。

LLaVA(Large Language and Vision Assistant,大型語言與視覺助手)的故事,是開源社區用兩年時間,真正復現出一個頂級的多模態模型的拼搏史。
2023年4月,一個名為 LLaVA 的開創性工作橫空出世。它直接用純語言模型 GPT-4 來生成圖文并茂的指令數據,然后用這些數據去微調一個連接了視覺編碼器和大型語言模型的端到端模型。這個叫“視覺指令微調”的方法,第一次讓開源社區低成本地擁有了“看圖-理解-對話”的能力,顯著縮小了與頂級閉源模型的差距,成了一個重要的里程碑。

幾個月后的10月,LLaVA-1.5 問世。它換上了更高分辨率的“眼睛”(CLIP-ViT-L-336px),用更干凈、更面向學術任務的數據進行訓練。整個訓練過程被壓縮到在單個8卡A100節點上只需一天左右就能完成。設計簡潔,效果強勁,LLaVA-1.5 在11個基準測試上刷新了當時的紀錄。
時間來到2024年,LLaVA 的進化開始加速。1月的 LLaVA-NeXT 將輸入圖像分辨率又提升了4倍,在推理、文字識別(OCR)和世界知識方面大幅改進,甚至在好幾個基準測試上超過了當時的 Gemini Pro。4月,專攻視頻的 LLaVA-NeXT-Video 出現,它巧妙地利用技術,讓只在圖片上訓練過的模型,展現出了驚人的零樣本視頻理解能力。6月,LLaVA-NeXT-Interleave 更進一步,提出了一個統一的框架,能同時處理單張圖片、多張圖片、視頻(多幀)乃至3D(多視圖)的輸入。
各路分支最終在2024年8月的 LLaVA-OneVision 這里匯合。它整合了之前所有的進展,成為了一個能同時處理單圖像、多圖像和視頻場景的單一模型,真正實現了統一接口。

這條進化路線清晰地展示了 LLaVA 系列如何從一個簡單的圖文對齊模型,一步步成長為一個功能全面、性能卓越的框架。
但一個更深層次的問題也浮現了出來。
開源不等于可以復現
盡管像 LLaVA 這樣的項目在不斷前進,多模態模型的接口和架構也逐漸趨同,但開源社區里,“只開放模型權重”和“真正可復現的路徑”之間,始終存在一條鴻溝。
像 Qwen2.5-VL、InternVL3.5 這樣的模型,在 OCR、文檔理解和數理推理上都設定了很高的標桿。但它們完整的訓練數據清單、數據清洗和混合的比例、具體的采樣策略和訓練日程,往往都只是部分披露。
Molmo 項目嘗試用更干凈的數據流水線和精細化的設計去逼近閉源模型。Open-Qwen2VL 則證明,在更高效的范式下,即便只用很少的多模態數據也能取得很強的性能。這些都說明,當前開源社區面臨的主要瓶頸,已經不是模型架構的選擇,而是“配方與工程細節的可復現性”。
正是為了填平這條鴻溝,靈感實驗室(EvolvingLMMs-Lab)團隊圍繞“高性能、低成本、強復現”這三大目標,在 LLaVA-OneVision 的體系上,推出了 LLaVA-OneVision-1.5。

LLaVA-OneVision-1.5 的核心,就是提供一個開放、高效且可復現的完整框架,讓任何人都能從零開始構建高質量的視覺語言模型。
訓練流程分為三個階段。
階段1,語言-圖像對齊。這個階段的目標是預訓練投影器,讓它學會如何把視覺特征精準地“翻譯”成語言模型的詞嵌入。使用的是 LLaVA-1.5 的558K數據集。
階段1.5,高質量知識學習。在對齊完成的基礎上,進入這個中間階段。模型的所有參數都會被“解凍”,開始在8500萬的 LLaVA-OneVision-1.5-Mid-Traning 數據集上進行全參數訓練。這個階段旨在向語言模型中注入海量的視覺和知識,是模型能力大幅提升的關鍵。研究發現,僅在這個中間階段擴展數據,就能產生最先進的模型,而不需要搞那些花里胡哨的復雜訓練范式。
階段2,視覺指令微調。最后,使用精心構建的 LLaVA-OneVision-1.5-Instruct 數據集進行全參數訓練,讓模型學會理解和遵循各種復雜的視覺指令,成為一個能處理多樣化任務的多面手。
在具體的訓練執行中,效率是重中之重。訓練大型模型時,一個主要的效率殺手是“填充”(padding)。因為一個批次里的樣本長度通常不一樣,為了對齊,就得用填充符號把短的樣本補齊。這些填充符號不包含任何信息,卻占用了大量的計算資源,導致 GPU利用率低下。
為了解決這個問題,研究團隊提出了一種離線并行數據打包方法。在數據預處理階段,就把多個較短的樣本合并成一個長的打包序列,盡可能讓每個序列的長度都接近最大值。這種方法在運行時就不需要動態打包了,整個數據集都被處理得整整齊齊。在8500萬的預訓練樣本上,這種方法實現了高達11倍的壓縮比,極大地提升了訓練效率。
在訓練框架上,團隊使用了基于 Megatron-LM 構建的 AIAK-Training-LLM。配合分布式優化器等技術,整個中期訓練過程在128個A800 GPU上只花了3.7天就完成了。
一份人人都能照做的頂級菜譜
研究團隊把整個“廚房”都開放出來:數據、訓練與打包的工具鏈、所有配置文件和腳本、詳細的日志,甚至連評測命令的構建和執行細節都一并公開。這確保了社區不僅能用,還能低成本地復現,并且在此基礎上進行驗證和擴展。

LLaVA-OneVision-1.5 的架構遵循經典的“ViT–MLP–LLM”范式,但在核心部件的選擇上極其考究。
它的“眼睛”,也就是視覺編碼器,沒有選擇老牌的 SigLIP 或 DFN,而是采用了 RICE-ViT。這是一個關鍵決策。RICE-ViT 的絕活是區域感知的視覺理解,尤其擅長處理文檔和圖片中的文字。它不像其他模型那樣只能看個大概,而是能精準地聚焦到圖片里的某個物體或某段文字。
RICE-ViT 還有一個巨大優勢:原生支持可變分辨率的輸入,不需要像其他模型那樣為不同尺寸的圖片做特殊微調或切塊處理,大大簡化了工程。相比那些依賴多個復雜損失函數的方法,RICE-ViT 只用一個統一的聚類判別損失,就同時提升了通用理解、OCR 和定位能力。設計優雅,計算高效。
它的“大腦”,也就是大型語言模型,選用了 Qwen3 作為主干,為復雜的推理和生成任務提供了強大的支持。
模型能力的上限,最終還是由數據決定的。
LLaVA-OneVision-1.5 的預訓練數據集 LLaVA-OneVision-1.5-Mid-Traning 包含8500萬個高質量圖文對,來源極其廣泛。為了避免模型學“偏科”,研究團隊引入了一種叫“概念均衡”的采樣策略。
這個方法不依賴圖片自帶的、質量參差不齊的標題。它用一個預訓練好的編碼器,把所有圖片和50萬個概念詞條都轉換成數學向量,然后通過計算相似度,為每張圖片匹配上最相關的概念。由于概念詞條本身是均衡的,這就相當于給圖片打上了均衡的語義標簽。在采樣時,那些代表罕見概念的圖片被抽中的概率會更高,從而保證模型能“博覽群書”,知識面更廣。

在指令微調階段,團隊構建了包含2200萬樣本的 LLaVA-OneVision-1.5-Instruct 數據集,并確保數據在標題生成、圖表理解、代碼數學、通用問答、定位計數、OCR 和科學等七個類別上覆蓋均衡,讓模型成為一個能應對各種任務的多面手。
數據表現
經過這一整套組合拳的打造,LLaVA-OneVision-1.5 的表現非常出色。
在全面的基準測試中,80億參數的 LLaVA-OneVision-1.5-8B 在27個基準中的18個上超越了 Qwen2.5-VL-7B。而更小的40億參數版本,則在全部27個基準上都超越了 Qwen2.5-VL-3B。

一系列的消融研究也證實了每個設計選擇的正確性。RICE-ViT 在 OCR 和文檔理解任務上的優越性得到了驗證。中期訓練數據的擴展被證明能持續提升模型性能。概念均衡策略也被證實能讓模型學得更好、更全面。
LLaVA-OneVision-1.5 不僅是一個強大的模型,更是一份詳盡的、可復現的藍圖,真正為多模態人工智能研究的廣泛普及做出了貢獻。



































