Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗原創(chuàng)

發(fā)布于 2025-5-9 06:51

瀏覽

0收藏

基于視覺編碼器的MLLM的基本構成：MLLM通常由預訓練的模態(tài)編碼器、預訓練的LLM和一個連接它們的模態(tài)接口三個模塊組成。模態(tài)編碼器(如：CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息（如圖像或音頻）壓縮成更緊湊的表示。預訓練的LLM則負責理解和推理處理過的信號。模態(tài)接口用于對齊不同的模態(tài)，實現(xiàn)異構模態(tài)表征空間的語義對齊。下面這張圖概括的比較好。

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

上述工作都是基于視覺編碼器的多模態(tài)大模型，下面來看一個Encoder-free VLMs（無視覺編碼器的多模態(tài)大模型）的思路，供參考。

模型架構

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

視覺和文本編碼

極簡的patch嵌入層：構建了一個極簡的patch嵌入層，從零開始生成視覺嵌入，以消除預訓練視覺編碼器的強歸納偏差。給定一個圖像輸入

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

，首先通過一個卷積層（Conv1）和高斯誤差線性單元（GELU）激活函數(shù)進行處理，得到一個二維特征圖。然后，再通過另一個卷積層（Conv2）來進一步處理特征圖，以靈活控制計算復雜度。公式如下：

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

其中，Conv1和Conv2分別表示兩個卷積層，具有不同的步幅和輸出維度。

patch嵌入層支持任意比例的圖像，最多可處理約2.5M像素（即2.5K個patch標記）。使用Qwen2.5的文本標記器將文本T編碼為標記嵌入X_t ，其維度為3584。

多模態(tài)編碼：為了在視覺和文本之間建立有效的交互，提出了一個分而治之的設計，通過引入模態(tài)感知組件來顯式解耦關鍵模塊。包括獨立的注意力矩陣（查詢、鍵和值）、歸一化層和前饋模塊，每個都有不同的參數(shù)，以適應不同模態(tài)的需求。

分而治設計

通過分而治之的架構設計，EVEv2.0能夠有效地減少模態(tài)間的干擾，提高模型的訓練效率和性能。

使用多頭自注意力（Multi-Head Self-Attention, ATTN）來跨所有模態(tài)進行建模，以在統(tǒng)一特征空間中模擬跨模態(tài)關系。公式如下：

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

其中

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

，模態(tài)特定的查詢、鍵和值是從各自的注意力權重矩陣中派生的。

通過完全解耦架構，最小化表示空間中的干擾。每個Transformer塊的總體操作定義如下：

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

這種設計允許在保持預訓練知識的同時，獨立地進行單模態(tài)編碼和跨模態(tài)對應，從而實現(xiàn)靈活的建模模式，以理解和推理多模態(tài)信息。

視覺特征與語言輸入的融合方式

從代碼上看，融合時，會遍歷輸入序列中的每個樣本，根據(jù) IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語言輸入的嵌入和圖像特征按順序拼接在一起，形成新的輸入嵌入 new_input_embeds，同時更新標簽 new_labels 和視覺標記掩碼 visual_token_mask。

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

??https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py??

訓練方式

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層，以在不同模態(tài)間建立初始對齊。之后，我們僅更新大型語言模型（LLM）內(nèi)的視覺層，逐步增強視覺感知能力。值得注意的是，我們將圖像分辨率從 800×800 逐步提高到 1600×1600，并保持原始圖像的寬高比。最后，我們通過問答（QA）和指令數(shù)據(jù)對整個模型進行訓練，以加強跨模態(tài)對應和復雜理解能力。

訓練過程分為四個連續(xù)階段。訓練數(shù)據(jù)包括公開可用的圖像數(shù)據(jù)集，以及表 1 中的各種問答（QA）數(shù)據(jù)集和多模態(tài)對話數(shù)據(jù)。

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區(qū)

第2.2階段和第3階段的訓練數(shù)據(jù)集詳細信息，用于微調(diào)E VEv2.0，F(xiàn)L表示過濾后的訓練數(shù)據(jù)集

階段1：DenseFusion++

DenseFusion++：通過大規(guī)模的合成數(shù)據(jù)來增強模型的視覺感知能力。使用LLaVA-1.6（7B）為基礎，結合多個視覺專家（如標簽、檢測、OCR等）來學習GPT-4V的融合策略。通過這種方式，可以在不依賴高質(zhì)量標注的情況下，擴展合成數(shù)據(jù)的規(guī)模，從而提高訓練效率。

階段2：LLM引導的對齊

凍結大型語言模型（LLM）的權重，僅訓練patch嵌入層。使用公開的網(wǎng)頁數(shù)據(jù)進行訓練，以防止模型崩潰并加速后續(xù)階段的收斂。通過這種方式，確保模型在初始階段能夠快速對齊視覺和語言信息。

階段3：視覺感知學習和視覺-文本完全對齊

視覺感知學習（Vision Perception Learning）：加載LLM的權重并初始化LLM內(nèi)部的視覺層。僅訓練patch嵌入層和視覺層，而凍結Qwen2.5模型，以便在大規(guī)模合成數(shù)據(jù)上進行視覺表示的學習。通過逐步增加數(shù)據(jù)量和圖像分辨率，促進視覺感知能力的提升。
視覺-文本完全對齊（Vision-Text Fully-aligning）：更新整個模型架構以進一步改善圖像-文本的關聯(lián)。使用多樣化的指令數(shù)據(jù)集進行訓練，以增強模型的視覺感知能力和視覺-語言對齊。通過這種方式，確保模型在處理復雜的多模態(tài)任務時能夠表現(xiàn)出色。