Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗 原創(chuàng)
基于視覺編碼器的MLLM的基本構成:MLLM通常由預訓練的模態(tài)編碼器、預訓練的LLM和一個連接它們的模態(tài)接口三個模塊組成。模態(tài)編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。預訓練的LLM則負責理解和推理處理過的信號。模態(tài)接口用于對齊不同的模態(tài),實現(xiàn)異構模態(tài)表征空間的語義對齊。下面這張圖概括的比較好。

上述工作都是基于視覺編碼器的多模態(tài)大模型,下面來看一個Encoder-free VLMs(無視覺編碼器的多模態(tài)大模型)的思路,供參考。
模型架構

視覺和文本編碼
極簡的patch嵌入層:構建了一個極簡的patch嵌入層,從零開始生成視覺嵌入,以消除預訓練視覺編碼器的強歸納偏差。給定一個圖像輸入

,首先通過一個卷積層(Conv1)和高斯誤差線性單元(GELU)激活函數(shù)進行處理,得到一個二維特征圖。然后,再通過另一個卷積層(Conv2)來進一步處理特征圖,以靈活控制計算復雜度。公式如下:

其中,Conv1和Conv2分別表示兩個卷積層,具有不同的步幅和輸出維度。
patch嵌入層支持任意比例的圖像,最多可處理約2.5M像素(即2.5K個patch標記)。使用Qwen2.5的文本標記器將文本T編碼為標記嵌入Xt ,其維度為3584。
多模態(tài)編碼:為了在視覺和文本之間建立有效的交互,提出了一個分而治之的設計,通過引入模態(tài)感知組件來顯式解耦關鍵模塊。包括獨立的注意力矩陣(查詢、鍵和值)、歸一化層和前饋模塊,每個都有不同的參數(shù),以適應不同模態(tài)的需求。
分而治設計
通過分而治之的架構設計,EVEv2.0能夠有效地減少模態(tài)間的干擾,提高模型的訓練效率和性能。
使用多頭自注意力(Multi-Head Self-Attention, ATTN)來跨所有模態(tài)進行建模,以在統(tǒng)一特征空間中模擬跨模態(tài)關系。公式如下:

其中

,模態(tài)特定的查詢、鍵和值是從各自的注意力權重矩陣 中派生的。
通過完全解耦架構,最小化表示空間中的干擾。每個Transformer塊的總體操作定義如下:

這種設計允許在保持預訓練知識的同時,獨立地進行單模態(tài)編碼和跨模態(tài)對應,從而實現(xiàn)靈活的建模模式,以理解和推理多模態(tài)信息。
視覺特征與語言輸入的融合方式
從代碼上看,融合時,會遍歷輸入序列中的每個樣本,根據(jù) IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語言輸入的嵌入和圖像特征按順序拼接在一起,形成新的輸入嵌入 new_input_embeds,同時更新標簽 new_labels 和視覺標記掩碼 visual_token_mask。

??https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py??
訓練方式

訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層,以在不同模態(tài)間建立初始對齊。之后,我們僅更新大型語言模型(LLM)內(nèi)的視覺層,逐步增強視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數(shù)據(jù)對整個模型進行訓練,以加強跨模態(tài)對應和復雜理解能力。
訓練過程分為四個連續(xù)階段。訓練數(shù)據(jù)包括公開可用的圖像數(shù)據(jù)集,以及表 1 中的各種問答(QA)數(shù)據(jù)集和多模態(tài)對話數(shù)據(jù)。


第2.2階段和第3階段的訓練數(shù)據(jù)集詳細信息,用于微調(diào)E VEv2.0,F(xiàn)L表示過濾后的訓練數(shù)據(jù)集
階段1:DenseFusion++
- DenseFusion++:通過大規(guī)模的合成數(shù)據(jù)來增強模型的視覺感知能力。使用LLaVA-1.6(7B)為基礎,結合多個視覺專家(如標簽、檢測、OCR等)來學習GPT-4V的融合策略。通過這種方式,可以在不依賴高質(zhì)量標注的情況下,擴展合成數(shù)據(jù)的規(guī)模,從而提高訓練效率。
階段2:LLM引導的對齊
凍結大型語言模型(LLM)的權重,僅訓練patch嵌入層。使用公開的網(wǎng)頁數(shù)據(jù)進行訓練,以防止模型崩潰并加速后續(xù)階段的收斂。通過這種方式,確保模型在初始階段能夠快速對齊視覺和語言信息。
階段3:視覺感知學習和視覺-文本完全對齊
- 視覺感知學習(Vision Perception Learning):加載LLM的權重并初始化LLM內(nèi)部的視覺層。僅訓練patch嵌入層和視覺層,而凍結Qwen2.5模型,以便在大規(guī)模合成數(shù)據(jù)上進行視覺表示的學習。通過逐步增加數(shù)據(jù)量和圖像分辨率,促進視覺感知能力的提升。
- 視覺-文本完全對齊(Vision-Text Fully-aligning):更新整個模型架構以進一步改善圖像-文本的關聯(lián)。使用多樣化的指令數(shù)據(jù)集進行訓練,以增強模型的視覺感知能力和視覺-語言對齊。通過這種方式,確保模型在處理復雜的多模態(tài)任務時能夠表現(xiàn)出色。
階段4:監(jiān)督微調(diào)
進一步優(yōu)化模型以理解復雜的指令和對話模式。使用高質(zhì)量的指令數(shù)據(jù)集進行訓練,以提高模型在實際應用中的表現(xiàn)。通過這種方式,確保模型能夠處理各種真實世界的應用場景。
實驗效果


參考文獻:EVEv2: Improved Baselines for Encoder-Free Vision-Language Models,https://arxiv.org/pdf/2502.06788
公眾號大模型自然語言處理 作者:余俊暉

















