融合語言模型的多模態大模型研究
近年來,大語言模型(Large language model, LLM)取得了顯著進展。以ChatGPT為代表的LLM在自然語言任務上展現出驚人的智能涌現能力。盡管LLM在很多推理任務上表現出前所未有的接近人類的性能,但是單純的LLM只能處理文本類任務。與此同時,在大規模數據集上預訓練的視覺基礎模型也在快速發展。盡管在視覺領域還沒有出現“ChatGPT時刻”,但是預訓練視覺基礎模型已經可以在很多真實視覺場景、數據集上表現出優秀的零樣本、少樣本性能。如何將兩者在各自領域的優秀性能結合起來,實現在視覺-語言領域具有推理能力的通用大模型是當前一個熱門研究課題。
1.模型介紹
GPT-4在技術報告中展示了驚艷的多模態能力,如圖1、2、3所示。但是GPT-4還沒開放多模態能力的接口。很多研究者已經基于開源LLM進行了相關的研究,力圖達到GPT-4展示的強大多模態性能。
下面以發布時間為順序,介紹主流的融合LLM的多模態模型各自的一些特點,以此窺見此類技術的發展趨勢。

▲ 圖1 讓GPT-4描述圖中有趣的地方
GPT-4可以識別出VGA接口和lightning接口,而且判斷出VGA接口與手機是不匹配的。

▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服,也能夠識別出租車在行駛,最終識別出這兩個場景出現在一個畫面中是不正常的。

▲ 圖3 GPT-4推理能力
GPT-4在這個畫面的識別中展現出了較為強大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態模型構想的工作,整體結構如圖5。這個工作主要提出了Q-former這個跨視覺語言模態的連接結構。如圖4所示,Q-former結構設計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型,這些模型在語言生成方面的能力不是特別強。BLIP2的預訓練分為兩階段,第一階段Q-former與一個凍結參數的image encoder訓練,學習視覺語言表征;第二階段Q-former與凍結的LLM訓練,學習視覺到文本的生成能力。在進行一些下游任務,如image caption,visual question answering(VQA),BLIP2模型仍需要微調Q-former和image-encoder的模型權重。BLIP2模型的一個缺陷是,沒有in context learning能力,上下文關聯對話能力較差。作者認為原因是BLIP2的訓練數據是單對的圖文對,數據本身就缺少多輪對話相關性。

▲ 圖4 Q-former結構

▲ 圖5 Q-former兩階段預訓練
MiniGPT-4是作者場景復現GPT-4強大的多模態能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數凍結的整體。LLM也保持參數凍結。如圖所示,MiniGPT-4通過一個線性層來跨模態連接這兩個部分。Mini-GPT4使用語言生成能力較強的Vicuna模型(基于開源LLaMA模型構建)作為LLM,生成文本質量進一步提高。MiniGPT-4性能表現的提高也得益于訓練數據的質量。作者表示只使用來自公開數據集的圖文對數據是無法訓練出優秀的多模態語言模型的。MiniGPT-4使用了3500對高質量圖文數據對模型進行微調。MiniGPT-4模型的訓練分為兩階段,第一階段是在大量圖文對數據集上預訓練,獲得視覺語言對齊能力。第二階段是在高質量圖文數據上微調以獲得較強的對話能力。這種兩階段的訓練方法也成為了未來一些工作的主流訓練范式。MiniGPT-4使用的3500對高質量數據集是來源于作者使用第一階段預訓練完成的模型,通過提示工程的方法為每張圖片生成長度更長,描述信息更加豐富、細節的文本。這些文本通常具有很多噪聲和內容錯誤,作者利用ChatGPT對第一階段的生成文本進行再優化。MiniGPT4這個工作進一步說明了數據質量對于模型對話能力的重要性。

▲ 圖6 MiniGPT-4模型結構
微軟團隊在MiniGPT-4發布相近的時間點提出了LLaVA模型這篇工作。兩篇工作都提升了多模態語言模型在復雜對話方面的能力,具有一定相似性,實現技術方案各有特點。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令,共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結構,直接使用線性層連接視覺語言模態,第一次將跨模態連接結構簡化至這個程度。LLaVA模型的訓練也分為兩個階段。第一階段使用圖文對數據進行訓練,這一階段是為了對齊視覺和圖像特征,這個階段視覺編碼器和LLM的參數均凍結,僅訓練連接層。第二階段使用多輪對話圖文數據進行訓練,在這個階段訓練連接層和LLM的參數。LLaVA在多模態推理評測數據集Science QA上達到了最高水平。LLaVA強大的性能來自于作者構造的一套指令跟隨數據集(instruction-following)。與MiniGPT-4主要利用一階段訓練模型進行微調數據生成,還需要進行文本噪聲、錯誤后處理不同,LLaVA調用GPT-4接口,結合人類標注的圖文信息,進行高質量的多輪對話圖文數據生成。作者將這個高質量圖文對話數據集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構造的“對話、細節描述、復雜推理”三種類型的文本內容。

▲ 圖7 InstructBLIP使用的多種數據集及其任務類型
2.總結
從以上這些融合了LLM的多模態模型,我們可以得到一些發現。這些工作主要都是集中在23年,可能是受GPT4所展示的多模態能力的啟發。目前融合LLM和視覺模型的方式還相對簡單粗暴,但是已經展現出了優秀的效果,未來多模態通用模型可能成為人工智能的下一個發展目標。視覺研究者和語言大模型研究者的研究范式呈現出越來越相近的趨勢。
參考文獻
[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.
[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.
[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.
本文轉載自??AI遇見云???,作者:張燚鈞

















