開(kāi)源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團(tuán)隊(duì)出品
原生多模態(tài)大模型性能瓶頸,迎來(lái)新突破!
上海AI Lab代季峰老師團(tuán)隊(duì),提出了全新的原生多模態(tài)大模型Mono-InternVL。
與非原生模型相比,該模型首個(gè)單詞延遲最多降低67%,在多個(gè)評(píng)測(cè)數(shù)據(jù)集上均達(dá)到了SOTA水準(zhǔn)。

與常見(jiàn)的采用CLIP等結(jié)構(gòu)進(jìn)行視覺(jué)編碼的模塊化多模態(tài)大模型不同,Mono-InternVL將視覺(jué)感知和多模態(tài)理解均集成到大語(yǔ)言模型中。
相比于現(xiàn)有多模態(tài)大模型,Mono-InternVL有以下技術(shù)亮點(diǎn):
- 開(kāi)源原生多模態(tài)架構(gòu)最優(yōu)解:無(wú)需額外的視覺(jué)編碼器,通過(guò)內(nèi)嵌視覺(jué)專(zhuān)家打通了一條從大語(yǔ)言模型到原生多模態(tài)模型擴(kuò)展的新路徑,2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型,多個(gè)指標(biāo)超越InternVL1.5。
- 兼具視覺(jué)靈活性和部署高效性:支持高達(dá)2M像素輸入的動(dòng)態(tài)圖像分辨率,在原生多模態(tài)架構(gòu)中感知精度最高。相比于InternVL1.5,在部署框架上首個(gè)單詞延遲最多降低67%,整體吞吐量提高31%。

破解原生多模態(tài)大模型遺忘問(wèn)題
現(xiàn)有的多模態(tài)大模型(MLLM)通常采用視覺(jué)編碼器-對(duì)齊模塊-語(yǔ)言模型的結(jié)構(gòu),將視覺(jué)編碼和語(yǔ)言解碼分別進(jìn)行處理。
具體來(lái)說(shuō),這些模型通常通過(guò)將預(yù)訓(xùn)練的視覺(jué)編碼器(例如CLIP)與大語(yǔ)言模型(LLM)結(jié)合來(lái)實(shí)現(xiàn),即模塊化MLLM。
最近新興的Chameleon、EVE等原生MLLM,將視覺(jué)感知和多模態(tài)理解直接集成到一個(gè)LLM中,可以更方便地通過(guò)現(xiàn)有工具進(jìn)行部署、具備更高的推理效率。
然而,由于原生MLLM缺乏視覺(jué)能力,視覺(jué)相關(guān)的訓(xùn)練通常不可避免,但視覺(jué)預(yù)訓(xùn)練過(guò)程中語(yǔ)言基座能力常常出現(xiàn)災(zāi)難性遺忘問(wèn)題,導(dǎo)致現(xiàn)有原生MLLM的性能仍顯著低于模塊化MLLM。
為此,Mono-InternVL提出了采用增量預(yù)訓(xùn)練的方法,解決此前原生MLLM中的災(zāi)難性遺忘問(wèn)題。
因此,作者在預(yù)訓(xùn)練的LLM中嵌入了專(zhuān)門(mén)服務(wù)于視覺(jué)建模的視覺(jué)專(zhuān)家,通過(guò)MoE的方式實(shí)現(xiàn)稀疏化的建模。
基于此,作者通過(guò)僅優(yōu)化視覺(jué)參數(shù)空間來(lái)進(jìn)行視覺(jué)預(yù)訓(xùn)練,同時(shí)保留了語(yǔ)言基座的預(yù)訓(xùn)練知識(shí)。
原生多模態(tài)結(jié)構(gòu)
具體來(lái)說(shuō),Mono-InternVL 由視覺(jué)文本嵌入和多模態(tài)MoE結(jié)構(gòu)兩部分組成:
- 視覺(jué)和文本嵌入:與使用CLIP等視覺(jué)編碼器的模塊化 MLLM 相比,Mono-InternVL 通過(guò)patch embedding直接將圖像轉(zhuǎn)換為patch序列。文本嵌入模塊則直接使用LLM的分詞器。
- 多模態(tài)MoE結(jié)構(gòu):Mono-InternVL 的核心是將視覺(jué)專(zhuān)家FFN嵌入到預(yù)訓(xùn)練的 LLM 中。視覺(jué)FFN從預(yù)訓(xùn)練LLM中的文本FFN初始化。由此不僅可以利用預(yù)訓(xùn)練的 LLM 知識(shí)促進(jìn)視覺(jué)預(yù)訓(xùn)練,還能顯著緩解災(zāi)難性遺忘問(wèn)題。

內(nèi)生視覺(jué)預(yù)訓(xùn)練
作者提出內(nèi)生視覺(jué)預(yù)訓(xùn)練(EViP)方法,旨在通過(guò)在大規(guī)模噪聲數(shù)據(jù)和合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練來(lái)最大化Mono-InternVL的視覺(jué)能力。
EViP被設(shè)計(jì)為一個(gè)從基本視覺(jué)概念到復(fù)雜語(yǔ)義知識(shí)的逐步學(xué)習(xí)過(guò)程,包括三個(gè)階段:
- 概念學(xué)習(xí),用于掌握基本的視覺(jué)概念;
- 語(yǔ)義學(xué)習(xí),用于捕捉高層次語(yǔ)義知識(shí),例如世界知識(shí);
- 對(duì)齊學(xué)習(xí),用于將知識(shí)與下游任務(wù)對(duì)齊。
在視覺(jué)預(yù)訓(xùn)練完成后,Mono-InternVL通過(guò)指令微調(diào)處理復(fù)雜的多模態(tài)任務(wù)。
在前兩個(gè)階段中保持預(yù)訓(xùn)練LLM的參數(shù)固定,僅訓(xùn)練視覺(jué)部分的嵌入模塊和視覺(jué)FFN,而在第三階段和指令微調(diào)中逐步放開(kāi)LLM中的multi-head attention和文本FFN。
得益于這一架構(gòu)和預(yù)訓(xùn)練策略,Mono-InternVL的視覺(jué)可擴(kuò)展性得到了充分釋放,隨著預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的增加,其下游性能持續(xù)提高。

原生多模態(tài)大模型性能大幅提升
作者基于InternLM2-1.8B開(kāi)發(fā)了Mono-InternVL-2B模型,在16個(gè)多模態(tài)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。
下圖展示了中英文OCR、問(wèn)答、圖表解析等任務(wù)的可視化樣例,體現(xiàn)了Mono-InternVL的實(shí)際效果。
如圖,模型成功識(shí)別出了圖中的“諾貝爾物理學(xué)獎(jiǎng)2024”標(biāo)題,Hopfield、Hinton等人名,以及瑞典皇家科學(xué)院落款等文本。

對(duì)于動(dòng)漫風(fēng)格的圖片,模型識(shí)別出了形狀扭曲的NEC、PANASONIC等品牌名,并提供了細(xì)致生動(dòng)的圖像描述。

在Grounding任務(wù)上,Mono-InternVL可以精準(zhǔn)定位照片中的美短的坐標(biāo)。

對(duì)于中文的手寫(xiě)文本同樣具備不錯(cuò)的識(shí)別能力。

在代碼生成任務(wù)上也表現(xiàn)較為出色。

數(shù)據(jù)上看,實(shí)驗(yàn)結(jié)果也表明,1.8B激活參數(shù)的Mono-InternVL可以大幅超越此前的7B參數(shù)原生多模態(tài)模型EVE,平均提升15.5%。
與最先進(jìn)的模塊化MLLM InternVL-1.5相比,Mono-InternVL在6個(gè)多模態(tài)基準(zhǔn)上表現(xiàn)更優(yōu)。

通過(guò)LMDeploy的部署實(shí)驗(yàn)表明,Mono-InternVL與模塊化模型InternVL-1.5相比,首個(gè)token延遲減少了67%,整體吞吐量提高31%。

消融實(shí)驗(yàn)結(jié)果,也驗(yàn)證了視覺(jué)專(zhuān)家和增量預(yù)訓(xùn)練的有效性。

下游任務(wù)性能與預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的曲線圖表明,在三階段的EViP的幫助下,Mono-InternVL 的能力隨著數(shù)據(jù)規(guī)模增加而不斷提升。

作者可視化了不同層的注意力圖,展示了模型淺層部分所存在的視覺(jué)局部性、視覺(jué)文本交互較少等問(wèn)題,為未來(lái)原生MLLM 的設(shè)計(jì)提供啟發(fā)。

作者簡(jiǎn)介
本文的共同一作為羅根 (上海人工智能實(shí)驗(yàn)室博士后研究員),楊學(xué)(上海人工智能實(shí)驗(yàn)室青年研究員),竇文涵(清華大學(xué)本科生),王肇凱(上海交通大學(xué)&上海人工智能實(shí)驗(yàn)室聯(lián)培博士生)。
本文的通訊作者是朱錫洲,他的研究方向是視覺(jué)基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,代表作有 Deformable DETR、DCN v2等。

論文地址:https://arxiv.org/abs/2410.08202
項(xiàng)目主頁(yè):https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代碼&模型鏈接:https://huggingface.co/OpenGVLab/Mono-InternVL-2B




































