VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成原創(chuàng)

發(fā)布于 2025-5-7 07:00

瀏覽

0收藏

摘要

我們提出了 VARGPT，這是一種新穎的多模態(tài)大語(yǔ)言模型（MLLM），能夠在單一自回歸框架內(nèi)統(tǒng)一視覺(jué)理解和生成。VARGPT 采用下一個(gè) token 預(yù)測(cè)范式進(jìn)行視覺(jué)理解，并采用下一個(gè)尺度預(yù)測(cè)范式進(jìn)行視覺(jué)自回歸生成。該模型創(chuàng)新性地?cái)U(kuò)展了 LLaVA 架構(gòu)，在多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)了高效的按比例自回歸視覺(jué)生成，同時(shí)在單一模型框架內(nèi)無(wú)縫處理混合模態(tài)輸入和輸出。VARGPT 在專(zhuān)門(mén)構(gòu)建的數(shù)據(jù)集上經(jīng)歷了三階段統(tǒng)一訓(xùn)練過(guò)程，包括預(yù)訓(xùn)練階段和兩個(gè)混合視覺(jué)指令微調(diào)階段。統(tǒng)一訓(xùn)練策略旨在實(shí)現(xiàn)視覺(jué)和文本特征的對(duì)齊，增強(qiáng)理解和生成的指令跟隨能力，并提高視覺(jué)生成質(zhì)量。盡管基于 LLaVA 架構(gòu)進(jìn)行多模態(tài)理解，VARGPT 在各種以視覺(jué)為中心的基準(zhǔn)測(cè)試中顯著優(yōu)于 LLaVA-1.5，例如視覺(jué)問(wèn)答和推理任務(wù)。值得注意的是，VARGPT 自然支持自回歸視覺(jué)生成和指令到圖像合成能力，展示了其在視覺(jué)理解和生成任務(wù)中的多功能性。Project Page: https://vargpt-1.github.io/

1. 引言

近年來(lái)，多模態(tài)人工智能在理解和生成這兩個(gè)核心領(lǐng)域取得了重大突破。多模態(tài)大語(yǔ)言模型（MLLMs）[2, 5, 9, 48, 94]借助大語(yǔ)言模型（LLMs）強(qiáng)大的通用性[2, 85, 86]，在理解多模態(tài)數(shù)據(jù)方面展現(xiàn)出卓越的能力。與此同時(shí)，去噪擴(kuò)散概率模型（DDPMs）[24, 62]為圖像生成領(lǐng)域帶來(lái)了顯著進(jìn)展，在文本到視覺(jué)模態(tài)的生成任務(wù)中表現(xiàn)優(yōu)異。此外，受自回歸大語(yǔ)言模型（如縮放定律[23, 29]）優(yōu)勢(shì)特性的啟發(fā)，許多研究通過(guò)預(yù)測(cè)下一個(gè)詞元（token）或下一個(gè)尺度來(lái)探索自回歸視覺(jué)生成，例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等，均取得了顯著成果。鑒于在視覺(jué)理解和生成方面取得的這些成就，近期的研究開(kāi)始探索能夠處理理解和生成任務(wù)的統(tǒng)一模型，為此設(shè)計(jì)了各種統(tǒng)一架構(gòu)來(lái)實(shí)現(xiàn)這一目標(biāo)（如圖3所示）。近期的一些研究[18, 90, 91]嘗試將來(lái)自這兩個(gè)不同領(lǐng)域（如大語(yǔ)言模型和去噪擴(kuò)散概率模型）的模型組合起來(lái)，形成一個(gè)能夠處理多模態(tài)理解和生成的統(tǒng)一系統(tǒng)（如圖3（3）所示）。例如，NExT-GPT[90]和SEEDX[18]可能依賴(lài)預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行圖像生成。此外，LWM[53]、Chameleon[81]和Janus[88]探索了純粹的下一個(gè)詞元預(yù)測(cè)統(tǒng)一模型（如圖3（4）所示），而Dual Diffusion[46]研究了使用兩個(gè)擴(kuò)散模型分別進(jìn)行理解和生成。TokenFlow[64]探索了統(tǒng)一的圖像分詞器，但生成模型和理解模型是分開(kāi)的。Show-o[91]提出在單個(gè)Transformer中結(jié)合自回歸和擴(kuò)散模型范式（如圖3（4）所示）。Liquid[89]在同一空間中學(xué)習(xí)圖像和文本嵌入，并使用預(yù)測(cè)下一個(gè)詞元的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 3：不同模型架構(gòu)的比較，其中 “AR” 代表自回歸，“VAR” 表示視覺(jué)自回歸。我們對(duì)僅用于理解任務(wù)、僅用于生成任務(wù)以及統(tǒng)一理解和生成的架構(gòu)，與我們提出的 VARGPT 模型進(jìn)行了對(duì)比分析。VARGPT 被設(shè)計(jì)為純自回歸多模態(tài)模型，通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解，通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成。

在這項(xiàng)工作中，我們致力于在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中統(tǒng)一視覺(jué)生成和理解，使其自然地支持混合模態(tài)的輸入和輸出。與現(xiàn)有的所有統(tǒng)一模型不同，我們提出在一個(gè)統(tǒng)一模型中將理解和生成建模為兩種不同的范式：分別通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行視覺(jué)理解，通過(guò)預(yù)測(cè)下一個(gè)尺度進(jìn)行視覺(jué)生成，并訓(xùn)練了一個(gè)名為VARGPT的新型統(tǒng)一模型。具體而言：

1. 模型架構(gòu)方面：VARGPT的核心結(jié)構(gòu)借鑒了LLaVA-1.5-7B，同時(shí)我們額外引入了一個(gè)視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的額外視覺(jué)特征投影儀。這些投影儀用于生成的視覺(jué)特征和文本特征之間的相互映射。VARGPT采用自回歸方法預(yù)測(cè)下一個(gè)文本詞元，以進(jìn)行視覺(jué)理解和問(wèn)答。當(dāng)預(yù)測(cè)到用于視覺(jué)生成的特殊詞元時(shí)，模型會(huì)自回歸地預(yù)測(cè)下一個(gè)尺度的詞元，并通過(guò)視覺(jué)解碼器獲得最終的輸出圖像。所提出的架構(gòu)使VARGPT能夠在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)統(tǒng)一的理解和生成。

2. 訓(xùn)練方法方面：我們采用統(tǒng)一的指令微調(diào)方法來(lái)學(xué)習(xí)視覺(jué)理解和視覺(jué)生成。具體來(lái)說(shuō)，我們通過(guò)將視覺(jué)詞元預(yù)測(cè)構(gòu)建為指令跟隨格式，將指令微調(diào)擴(kuò)展到視覺(jué)生成，并將構(gòu)建的視覺(jué)生成指令數(shù)據(jù)集與來(lái)自L(fǎng)LaVA-1.5[49]的多輪對(duì)話(huà)指令數(shù)據(jù)集相結(jié)合進(jìn)行混合訓(xùn)練。通過(guò)所提出的統(tǒng)一指令微調(diào)，我們同時(shí)賦予多模態(tài)大語(yǔ)言模型理解和生成的能力。我們將訓(xùn)練過(guò)程分為三個(gè)階段，包括一個(gè)預(yù)訓(xùn)練階段和兩個(gè)指令微調(diào)階段。在第一階段的預(yù)訓(xùn)練中，模型學(xué)習(xí)文本和視覺(jué)空間之間的特征映射。在第二和第三階段的指令微調(diào)中，VARGPT分別增強(qiáng)其在視覺(jué)問(wèn)答和指令到圖像生成方面的能力。

3. 訓(xùn)練數(shù)據(jù)集方面：為了高效地訓(xùn)練模型，我們構(gòu)建并收集了128萬(wàn)個(gè)用于第一階段預(yù)訓(xùn)練的數(shù)據(jù)，118萬(wàn)個(gè)用于第二階段混合視覺(jué)理解和生成指令微調(diào)的數(shù)據(jù)，以及140萬(wàn)個(gè)用于第三階段視覺(jué)生成指令微調(diào)的數(shù)據(jù)。通過(guò)統(tǒng)一的指令跟隨格式，我們?cè)诨旌弦曈X(jué)指令微調(diào)中統(tǒng)一了理解和生成的訓(xùn)練。大量實(shí)驗(yàn)表明，我們的VARGPT能夠?qū)崿F(xiàn)顯著的視覺(jué)理解能力（如圖1所示），并賦予多模態(tài)大語(yǔ)言模型視覺(jué)生成能力，自然地支持混合模態(tài)輸入和輸出（如圖2所示）。據(jù)我們所知，VARGPT是第一個(gè)支持在理解任務(wù)中預(yù)測(cè)下一個(gè)詞元、在生成任務(wù)中預(yù)測(cè)下一個(gè)尺度的統(tǒng)一模型，同時(shí)在理解能力方面超越了許多規(guī)模相當(dāng)?shù)亩嗄B(tài)大語(yǔ)言模型和統(tǒng)一模型。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 1：多個(gè)視覺(jué)理解與生成基準(zhǔn)測(cè)試中各類(lèi)多模態(tài)大語(yǔ)言模型的對(duì)比分析。CLIP 分?jǐn)?shù)用于衡量文本到圖像的視覺(jué)生成，其余指標(biāo)源自標(biāo)準(zhǔn)視覺(jué)問(wèn)答基準(zhǔn)和多模態(tài)理解基準(zhǔn)。值得注意的是，我們的 VARGPT 模型在所有理解基準(zhǔn)測(cè)試中均顯著優(yōu)于對(duì)比基線(xiàn)。此外，它還展現(xiàn)出卓越的指令到圖像生成能力，從而提升了其在各類(lèi)視覺(jué)語(yǔ)言任務(wù)中的通用性和適用性。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 2：VARGPT 在 ImageNet 上訓(xùn)練生成的部分 256×256 樣本。VARGPT 支持用戶(hù)的文本和圖像指令，并同時(shí)輸出文本和圖像混合模態(tài)數(shù)據(jù)。

2. 相關(guān)工作

2.1 視覺(jué)生成

擴(kuò)散模型 [25,74,75] 將圖像生成視為從噪聲到圖像的反向擴(kuò)散過(guò)程。擴(kuò)散模型的進(jìn)展主要集中在采樣方法 [4,55] 和架構(gòu)設(shè)計(jì) [26,63] 上，催生了如 [57,63] 等令人印象深刻的模型。在擴(kuò)散模型取得重大進(jìn)展的背景下，基于流的生成模型 [1] 作為簡(jiǎn)化框架出現(xiàn)，推動(dòng)了高級(jí)視覺(jué)生成模型的發(fā)展。自回歸模型 [14,97] 采用類(lèi)似 GPT [65] 的技術(shù)來(lái)預(yù)測(cè)序列中的下一個(gè) token。像 [12,15,67,76,77,87] 等工作利用類(lèi)似 VQGAN [36] 的視覺(jué) tokenizer 將圖像轉(zhuǎn)換為離散 token，實(shí)現(xiàn)了視覺(jué)數(shù)據(jù)的 token 化，并采用類(lèi)似 GPT 的預(yù)測(cè)方法。最近，另一類(lèi)基于預(yù)測(cè)下一個(gè)尺度的自回歸模型，如 VAR [84]、HART [79] 和 Infinity [22]，引起了關(guān)注，并已被驗(yàn)證可能具有與縮放定律 [23,29] 一致的特性。在這項(xiàng)工作中，我們的統(tǒng)一自回歸框架通過(guò)預(yù)測(cè)下一個(gè)尺度的范式來(lái)完成圖像生成任務(wù)。

2.2 多模態(tài)大語(yǔ)言模型

LLM [85,86] 的進(jìn)步推動(dòng)了 MLLM 的發(fā)展。MLLM 使用預(yù)訓(xùn)練的 LLM 作為文本解碼器，通過(guò)連接器 [35,43] 將文本和圖像與視覺(jué)編碼器連接起來(lái)進(jìn)行集成。LLaVA [49] 使用各種任務(wù)（如視覺(jué)問(wèn)答和圖像描述）的數(shù)據(jù)以指令格式對(duì)模型進(jìn)行微調(diào)，使模型能夠理解新指令并泛化到未見(jiàn)任務(wù)。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通過(guò)更多樣和更高質(zhì)量的數(shù)據(jù)集進(jìn)一步提升了視覺(jué)理解性能。隨著架構(gòu)優(yōu)化、創(chuàng)新訓(xùn)練范式和多樣化數(shù)據(jù)的引入，一系列先進(jìn)的 MLLM 應(yīng)運(yùn)而生，如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。

2.3 視覺(jué)理解與生成的統(tǒng)一模型

近年來(lái)，研究人員致力于在單個(gè)模型中統(tǒng)一理解和生成能力 [13,80,93]。大多數(shù)現(xiàn)有方法 [17,78,90] 嘗試將預(yù)訓(xùn)練的擴(kuò)散模型與現(xiàn)有系統(tǒng)集成。然而，這些系統(tǒng)本質(zhì)上是將擴(kuò)散模型視為外部工具，而非將其作為 MLLM 的內(nèi)在生成能力。Show-o [92] 通過(guò)結(jié)合自回歸和（離散）擴(kuò)散建模，能夠自適應(yīng)處理各種混合模態(tài)的輸入和輸出。Li 等人 [46] 采用跨模態(tài)最大似然估計(jì)框架，顯著改進(jìn)了現(xiàn)有的基于擴(kuò)散的多模態(tài)模型。[3,83] 探索了使用自回歸方法將圖像生成集成到大型語(yǔ)言模型（LLM）中，取得了顯著成果。例如，LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 對(duì)圖像進(jìn)行編碼，實(shí)現(xiàn)了對(duì)多模態(tài)理解和生成的同時(shí)支持。Janus [88] 通過(guò)將視覺(jué)編碼解耦為獨(dú)立路徑，進(jìn)一步提高了模型的靈活性和性能，而 Dual Diffusion [46] 則研究了使用兩個(gè)擴(kuò)散模型進(jìn)行理解和生成。Liquid [89] 在同一空間中學(xué)習(xí)圖像和文本嵌入，并使用預(yù)測(cè)下一個(gè) token 的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。與所有現(xiàn)有統(tǒng)一模型不同，我們提出在統(tǒng)一模型中將理解和生成建模為兩種不同的范式：視覺(jué)理解采用下一個(gè) token 預(yù)測(cè)，視覺(jué)生成采用下一個(gè)尺度預(yù)測(cè)。

3. 方法

3.1 模型架構(gòu)

我們的 VARGPT 統(tǒng)一了視覺(jué)理解和生成，其架構(gòu)如圖 4 所示。我們的架構(gòu)遵循下一個(gè) token 預(yù)測(cè)范式進(jìn)行理解和問(wèn)答，遵循下一個(gè)尺度預(yù)測(cè)范式進(jìn)行圖像生成。

圖 4：VARGPT 框架示意圖，它由（1）一個(gè)大語(yǔ)言模型、視覺(jué)編碼器和用于視覺(jué)理解的投影儀；（2）一個(gè)視覺(jué)解碼器和雙生成投影儀，用于視覺(jué)生成。VARGPT 在大語(yǔ)言模型主干中使用因果注意力機(jī)制，在視覺(jué)解碼器中使用塊因果注意力機(jī)制。

3.1.1 通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解

在視覺(jué)理解方面，我們的模型架構(gòu)參考了 LLaVA-1.5 [50] 的結(jié)構(gòu)，使用 Vicuna-7B-v1.5 [102] 作為 LLMθ，并采用 CLIP [66] 的視覺(jué)編碼器（ViT/14）作為視覺(jué)編碼器，同時(shí)使用兩層線(xiàn)性網(wǎng)絡(luò)作為投影儀。最初，用于視覺(jué)理解的圖像 X^img 經(jīng)過(guò)視覺(jué)編碼器處理生成嵌入 H^img，然后通過(guò)接口（如線(xiàn)性層）進(jìn)行調(diào)整，以與通過(guò)查詢(xún) X^query 獲得的文本嵌入 H^txt 對(duì)齊。組合后的數(shù)據(jù)作為輸入提供給 LLM，LLM 以自回歸方式生成文本輸出 Y^txt，如下所示：

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

其中，Ytxt_t 表示 Ytxt 的第 t 個(gè) token，Ytxt_

3.1.2 通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成

在視覺(jué)生成方面，我們遵循 VAR [84] 的大部分設(shè)置，采用多尺度圖像 tokenizer 進(jìn)行視覺(jué) token 編碼和解碼。我們構(gòu)建了兩個(gè)圖像生成投影儀，用于在 LLM 的輸入和輸出端轉(zhuǎn)換用于生成的視覺(jué)特征。此外，我們構(gòu)建了一個(gè)額外的 2B 視覺(jué)解碼器 ?，包含 30 層 Transformer，用于解碼視覺(jué)特征，這在一定程度上可以避免文本解碼器中的知識(shí)與圖像生成知識(shí)之間的沖突。通過(guò)視覺(jué)解碼器獲得的圖像特征將進(jìn)一步通過(guò)多尺度 VAE 解碼器解碼，生成可用的圖像。與文本解碼器（即 LLM）不同，視覺(jué)解碼器使用遵循 VAR [84] 中塊因果注意力的注意力機(jī)制，以支持預(yù)測(cè)下一個(gè)尺度的 token。此外，在將用于視覺(jué)生成的特征輸入視覺(jué)解碼器之前，我們添加絕對(duì)位置編碼，以進(jìn)一步區(qū)分視覺(jué) token 的位置信息。

形式上，我們將圖像的多尺度特征圖定義為通過(guò)多尺度 tokenizer 獲得的 (R1,R2,?,RK)。因此，下一個(gè)尺度的圖像 token 將以自回歸方式生成：

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

3.1.3 混合模態(tài)生成的提示模板

為了區(qū)分用于文本生成的 token 和用于圖像合成的 token，我們?cè)O(shè)計(jì)了一些特殊的 token 標(biāo)記。具體來(lái)說(shuō)，我們使用用于圖像生成 token 的位置填充，表示圖像生成 token 的開(kāi)始，表示生成結(jié)束。當(dāng) VARGPT 生成 < image_gen_start>token 時(shí)，與 < image_gen>token 相關(guān)的特征將通過(guò)投影儀處理，然后輸入視覺(jué)解碼器，以獲取圖像生成所需的特征。在視覺(jué)理解任務(wù)中，我們使用token 作為輸入圖像的表示。我們?cè)诟戒?7 中總結(jié)了 VARGPT 使用的提示模板。

3.1.4 無(wú)分類(lèi)器引導(dǎo)（CFG）

CFG 顯著增強(qiáng)了生成擴(kuò)散模型生成高保真樣本的能力。該方法將條件生成模型與同時(shí)訓(xùn)練的無(wú)條件模型的分布估計(jì)相結(jié)合，從而提高了整體生成質(zhì)量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的啟發(fā)，我們使用高斯噪聲作為輸入來(lái)模擬無(wú)條件生成。隨后，我們通過(guò)從條件生成的 logits 分布中減去無(wú)條件生成的概率，得到視覺(jué)輸出的最終分布。更多細(xì)節(jié)見(jiàn)附錄 7。

3.2 訓(xùn)練

對(duì)于 VARGPT 模型訓(xùn)練，我們提出了一階段預(yù)訓(xùn)練過(guò)程和兩階段指令微調(diào)過(guò)程，如圖 5 所示。

3.2.1 階段 1：預(yù)訓(xùn)練

我們使用 ImageNet [11] 中的圖像作為圖像源，構(gòu)建用于預(yù)訓(xùn)練兩個(gè)圖像生成投影儀的訓(xùn)練數(shù)據(jù)。我們將預(yù)訓(xùn)練數(shù)據(jù)組織成 128 萬(wàn)單輪對(duì)話(huà)數(shù)據(jù)（具體數(shù)據(jù)構(gòu)建見(jiàn)第 4 節(jié)）。該預(yù)訓(xùn)練階段的主要目的是訓(xùn)練投影儀，使圖像生成特征與文本特征初步對(duì)齊。在預(yù)訓(xùn)練期間，除了兩個(gè)用于圖像生成的投影儀外，我們凍結(jié)所有參數(shù)，如圖 5 所示。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 5：VARGPT 的三個(gè)訓(xùn)練階段，包括第一階段預(yù)訓(xùn)練、第二和第三階段指令微調(diào)。

3.2.2 階段 2：視覺(jué)理解的監(jiān)督微調(diào)（SFT）

在第二階段，我們解凍語(yǔ)言模型和視覺(jué)編碼器特征輸出的投影儀，并使用我們精心構(gòu)建的多輪對(duì)話(huà)和理解數(shù)據(jù)集進(jìn)行訓(xùn)練。該階段的主要目的是確保 VARGPT 保持出色的多輪對(duì)話(huà)、視覺(jué)理解和問(wèn)答能力。此外，在該階段，我們從構(gòu)建的 Imagenet-Instruct 數(shù)據(jù)集中引入 5K 樣本，使 VARGPT 能夠區(qū)分視覺(jué)理解和視覺(jué)生成任務(wù)。當(dāng)用戶(hù)輸入生成指令時(shí)，VARGPT 可以通過(guò)輸出特殊 token準(zhǔn)確響應(yīng)，開(kāi)始自回歸視覺(jué)生成。階段 2 訓(xùn)練數(shù)據(jù)集的組成見(jiàn)第 4 節(jié)。

3.2.3 階段 3：視覺(jué)生成的監(jiān)督微調(diào)（SFT）

與第二階段相比，第三階段主要通過(guò)監(jiān)督微調(diào)提高 VARGPT 的指令到圖像能力。在該階段，我們解凍視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的投影儀，同時(shí)凍結(jié)其他參數(shù)進(jìn)行 SFT，如圖 5 階段 3 所示。第三階段的訓(xùn)練數(shù)據(jù)包括從 ImageNet 構(gòu)建的 140 萬(wàn)指令對(duì)（詳細(xì)信息見(jiàn)第 4 節(jié)）。

4. 統(tǒng)一指令跟隨數(shù)據(jù)

在本節(jié)中，我們將詳細(xì)介紹三個(gè)不同訓(xùn)練階段所使用的訓(xùn)練數(shù)據(jù)集的來(lái)源，以及各類(lèi)數(shù)據(jù)在其中的占比情況。值得注意的是，我們引入了圖像生成指令跟隨數(shù)據(jù)集（如圖8a所示），并闡述了其來(lái)源，以及利用大語(yǔ)言模型生成該數(shù)據(jù)集所采用的方法。通過(guò)這種方式，我們將視覺(jué)理解和生成的訓(xùn)練方法統(tǒng)一為視覺(jué)指令微調(diào)。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖8：我們構(gòu)建和收集的數(shù)據(jù)分布，包括：（a）三個(gè)訓(xùn)練階段的數(shù)據(jù)比例分解；（b）第二階段指令微調(diào)期間使用的混合指令數(shù)據(jù)分布。我們用于第二階段訓(xùn)練的復(fù)合數(shù)據(jù)集源自L(fǎng)LaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

4.1 生成指令跟隨數(shù)據(jù)集

我們構(gòu)建了兩個(gè)圖像生成指令跟隨數(shù)據(jù)集：ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的構(gòu)建為例，圖6展示了該數(shù)據(jù)集的一個(gè)樣本。

圖6 ImageNet-Instruct-130K圖像生成指令跟隨數(shù)據(jù)集的一個(gè)樣本，其圖片說(shuō)明文字是一個(gè)人淹沒(méi)在水下。代表用于填充圖像生成token位置的特殊token。

- **ImageNet-1K-VL-Enriched**：我們采用ImageNet-1K-VL-Enriched數(shù)據(jù)集[34]作為基礎(chǔ)數(shù)據(jù)集。ImageNet-1K-VL-Enriched是ImageNet數(shù)據(jù)集的增強(qiáng)版本，其中的圖像描述是使用BLIP2[44]圖像字幕模型生成的。

- **通過(guò)Deepseek-LLM構(gòu)建ImageNet-Instruct-130K**：為構(gòu)建用于指令微調(diào)數(shù)據(jù)集的問(wèn)答格式，我們利用Deepseek-V3 Chat LLM[10]（以下簡(jiǎn)稱(chēng)LLM）生成提示和答案的種子格式（Prompt_limit_seeds和Answer_limit_seeds）。如圖7(a)所示，Prompt_limit_seeds有效地模擬了用戶(hù)請(qǐng)求，而Answer_limit_seeds則模擬了VLLM與用戶(hù)之間的對(duì)話(huà)。我們從種子池中隨機(jī)選擇prompt_limit_seed、image_cap_limit_seed和answer_limit_seed，作為L(zhǎng)LM調(diào)用模板中的元素。

- **LLM調(diào)用模板**：我們從基礎(chǔ)數(shù)據(jù)集中隨機(jī)選擇4個(gè)圖像描述樣本，作為4-shot示例，引導(dǎo)大模型生成相應(yīng)的對(duì)話(huà)樣本。如圖7(b)所示，我們對(duì)生成的提示和答案添加了相關(guān)約束，以確保輸出盡可能合規(guī)且多樣。我們隨機(jī)采樣了130K個(gè)圖像描述數(shù)據(jù)樣本，從而創(chuàng)建了用于ImageNet[11]圖像生成指令微調(diào)數(shù)據(jù)集的130K個(gè)樣本，并將其命名為ImageNet-Instruct-130K。附錄8中提供了關(guān)于數(shù)據(jù)集構(gòu)建的更多詳細(xì)信息。

圖7 所提出的圖像生成指令跟隨樣本生成的示意圖，包括(a)種子生成：我們利用大語(yǔ)言模型生成用于約束指令跟隨數(shù)據(jù)集創(chuàng)建的種子；(b)指令跟隨樣本生成：指令跟隨數(shù)據(jù)集的提示模板。

4.2 三個(gè)訓(xùn)練階段的數(shù)據(jù)構(gòu)成 -

**階段1**：用于階段1預(yù)訓(xùn)練的ImageNet-Instruct-class數(shù)據(jù)集包含128萬(wàn)個(gè)單輪對(duì)話(huà)樣本，源自ImageNet，專(zhuān)注于學(xué)習(xí)類(lèi)別與圖像之間的對(duì)應(yīng)關(guān)系。假設(shè)類(lèi)別是“魚(yú)”，格式如下：{‘prompt’: ‘請(qǐng)為我生成一張魚(yú)的圖像。’, ‘a(chǎn)nswer’: ‘生成的魚(yú)的圖像如下}。

- **階段2**：我們?cè)陔A段2使用的混合指令微調(diào)數(shù)據(jù)集來(lái)自L(fǎng)LaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分組成如圖8b所示。

- **LLaVA-1.5-665K**：LLaVA-1.5的指令跟隨數(shù)據(jù)集包含視覺(jué)問(wèn)答（VQA）[20, 27, 60, 70]、光學(xué)字符識(shí)別（OCR）[61, 72]、區(qū)域級(jí)視覺(jué)問(wèn)答[30, 31, 58]、視覺(jué)對(duì)話(huà)[49]和語(yǔ)言對(duì)話(huà)[71]數(shù)據(jù)。我們將所有665K個(gè)指令跟隨樣本都納入階段2的訓(xùn)練中。

- **LLaVA-OneVision**：LLaVA-OneVision的視覺(jué)指令微調(diào)數(shù)據(jù)整合了LLaVA-1.5及后續(xù)多個(gè)LLaVA-NeXT版本[39, 40, 42, 52, 101]的數(shù)據(jù)，并從互聯(lián)網(wǎng)上收集了開(kāi)源數(shù)據(jù)集，通過(guò)設(shè)置特定格式的提示來(lái)整合數(shù)據(jù)并避免沖突。最終形成了一個(gè)320萬(wàn)個(gè)樣本的高質(zhì)量單圖像數(shù)據(jù)集。在去除K12 Printing子集中的樣本后，我們從該數(shù)據(jù)集中隨機(jī)采樣508K個(gè)樣本，納入階段2的訓(xùn)練（值得注意的是，我們只采樣了5K個(gè)純文本問(wèn)答對(duì)）。

- **ImageNet-Instruct-130K**：我們從ImageNet-Instruct-130K數(shù)據(jù)集中隨機(jī)采樣5K個(gè)樣本，納入階段2的訓(xùn)練。

- **階段3**：在階段3，除了構(gòu)建的ImageNet-Instruct-130K數(shù)據(jù)集外，我們還創(chuàng)建了一個(gè)更大的圖像生成指令跟隨數(shù)據(jù)集ImageNet-Instruct-1270K。與ImageNet-Instruct-130K相比，它擁有更多樣化的提示和答案模板（多達(dá)400個(gè)）。提示和答案的構(gòu)建涉及模板與圖像描述的直接連接。

5. 實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)：對(duì)于用于圖像生成任務(wù)的圖像，我們將它們統(tǒng)一調(diào)整大小并裁剪為256x256像素，隨后應(yīng)用與VAR [84] 中一致的預(yù)處理技術(shù)。對(duì)于用于視覺(jué)理解任務(wù)的圖像，我們遵循LLaVA-1.5框架中建立的預(yù)處理協(xié)議。我們的語(yǔ)言模型、視覺(jué)編碼器和視覺(jué)特征映射器使用LLaVA-1.5-7B-hf架構(gòu)進(jìn)行初始化。視覺(jué)解碼器使用VAR-d30參數(shù)進(jìn)行初始化，包含大約20億模型參數(shù)。VARGPT中用于視覺(jué)生成的特征映射器進(jìn)行隨機(jī)初始化，并在第一階段的預(yù)訓(xùn)練中初步更新。我們采用類(lèi)似于VAR [84] 的多尺度VQVAE [14] 進(jìn)行圖像標(biāo)記化，以支持按比例預(yù)測(cè)范式。表2全面總結(jié)了我們模型在三個(gè)訓(xùn)練階段的訓(xùn)練細(xì)節(jié)。在圖像生成過(guò)程中，我們模型的VARGPT的top-k和top-p采樣參數(shù)分別設(shè)置為900和0.95。此外，CFG（分類(lèi)器自由引導(dǎo)）尺度參數(shù)配置為1.5。

評(píng)估基準(zhǔn)：按照常見(jiàn)設(shè)置 [51, 52, 103]，我們?cè)谝幌盗袑W(xué)術(shù)任務(wù)導(dǎo)向基準(zhǔn)測(cè)試和最近為指令跟隨型MLLMs專(zhuān)門(mén)提出的基準(zhǔn)測(cè)試中評(píng)估我們VARGPT在視覺(jué)理解方面的有效性，總共包括11個(gè)基準(zhǔn)測(cè)試：（1）五個(gè)多模態(tài)基準(zhǔn)測(cè)試，用于指令跟隨型MLLMs，包括MMbench-dev（en）[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基準(zhǔn)測(cè)試。對(duì)于POPE基準(zhǔn)測(cè)試，我們?cè)陔S機(jī)、流行和對(duì)抗性設(shè)置中進(jìn)行評(píng)估，以準(zhǔn)確率作為評(píng)估指標(biāo)；（2）六個(gè)視覺(jué)中心問(wèn)答基準(zhǔn)測(cè)試，包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。對(duì)于視覺(jué)理解基準(zhǔn)測(cè)試，我們使用lmmseval [99]中的設(shè)置以實(shí)現(xiàn)統(tǒng)一評(píng)估。對(duì)于視覺(jué)生成評(píng)估，我們構(gòu)建了一個(gè)包含50,000條文本指令的評(píng)估數(shù)據(jù)集，以評(píng)估模型的生成能力。我們采用CLIPscore來(lái)評(píng)估文本指令與生成圖像之間的CLIP分?jǐn)?shù)。此外，我們還使用Fréchet Inception Distance（FID）指標(biāo)來(lái)評(píng)估我們VARGPT模型在ImageNet-1K數(shù)據(jù)集上訓(xùn)練生成的圖像樣本的質(zhì)量。

基線(xiàn)對(duì)比：我們對(duì)我們的VARGPT模型進(jìn)行了對(duì)比分析，對(duì)比對(duì)象是其他用于視覺(jué)理解的多模態(tài)大型語(yǔ)言模型，這些模型與我們模型的規(guī)模相近。對(duì)比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型，以及InstructBLIP [9]和Qwen-VL [2]。此外，我們的對(duì)比研究還擴(kuò)展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在內(nèi)的統(tǒng)一模型。這一全面的對(duì)比使我們能夠評(píng)估VARGPT與該領(lǐng)域多種先進(jìn)模型的關(guān)系。

5.1 主要結(jié)果

5.1.1 多模態(tài)基準(zhǔn)評(píng)估

我們進(jìn)行了零樣本多模態(tài)評(píng)估，并將 VARGPT 與各種用于視覺(jué)理解的多模態(tài)模型進(jìn)行了比較，結(jié)果如表 1 所示。基于這些結(jié)果，我們有幾個(gè)詳細(xì)的觀察：（1）可以看出，我們的方法在視覺(jué)理解方面顯著優(yōu)于大多數(shù)現(xiàn)有的 MLLM 基線(xiàn)，包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我們的 VARGPT 在所有基準(zhǔn)和一些視覺(jué)幻覺(jué)評(píng)估基準(zhǔn)（如 POPE）上均取得了更高的性能，這表明了我們方法在視覺(jué)生成中的優(yōu)越性和泛化性。（2）盡管我們的視覺(jué)理解核心架構(gòu)與 LLaVA-1.5 相似，但我們的方法取得了顯著更好的性能，并且在單個(gè)大型模型中支持視覺(jué)生成。（3）與支持生成和理解的其他統(tǒng)一模型（例如SEEDLLaMA [17]和VILA-U [91]）相比，我們的模型自然支持混合模式輸出（在對(duì)話(huà)中連續(xù)輸出文本和圖像），并且在視覺(jué)理解方面取得了顯著更好的性能。此外，我們?cè)贚LaVA-Bench基準(zhǔn)測(cè)試上進(jìn)行了樣本分析，部分結(jié)果展示在表6中。觀察結(jié)果表明，與LLaVA-1.5相比，我們的方法在圖像理解能力方面表現(xiàn)出更高的水平，并且在識(shí)別和分析圖像中的幽默元素方面表現(xiàn)出更強(qiáng)的能力。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

表6：VARGPT展示了理解和解釋視覺(jué)內(nèi)容中幽默元素的能力。

5.1.2 視覺(jué)問(wèn)答任務(wù)評(píng)估

我們將各種視覺(jué)問(wèn)答任務(wù)與現(xiàn)有方法進(jìn)行了比較，結(jié)果如表 3 所示。如表 3 所示，我們有以下觀察：（1）VARGPT 在大多數(shù)理解基準(zhǔn)上始終取得最佳結(jié)果，超越了相同參數(shù)規(guī)模的用于視覺(jué)理解的 MLLM。這進(jìn)一步證明了 VARGPT 的有效性；（2）除了取得顯著的理解能力（如在 SciQA-img 基準(zhǔn)上比 LLaVA-1.5 高 12.2%）外，與這些基線(xiàn)相比，VARGPT 還支持視覺(jué)生成能力。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

5.1.3 指令到圖像任務(wù)評(píng)估

為了評(píng)估 VARGPT 的視覺(jué)生成能力，我們構(gòu)建了一個(gè)包含 5 萬(wàn)個(gè)樣本的基于指令的問(wèn)答生成評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集中的指令描述來(lái)自 ImageNet-1K 圖像描述，每個(gè)類(lèi)別限制 50 個(gè)樣本，以確保類(lèi)間平衡表示。為了定量評(píng)估 VARGPT 的指令跟隨能力，我們?cè)u(píng)估了兩個(gè)關(guān)鍵指標(biāo)：（1）5 萬(wàn)張生成圖像與 ImageNet-1k 數(shù)據(jù)集之間的 FID 分?jǐn)?shù)，（2）通過(guò) CLIP 模型計(jì)算的指令與生成圖像之間的 CLIP 分?jǐn)?shù)。評(píng)估結(jié)果如表 4 所示。此外，我們?cè)趫D 9 中提供了 VARGPT 生成的圖像和對(duì)話(huà)的可視化。觀察分析表明，VARGPT 能夠生成高度符合給定指令的高質(zhì)量圖像。值得注意的是，VARGPT 展示了在單個(gè)對(duì)話(huà)中無(wú)縫集成文本描述和圖像生成的能力，使用單個(gè)統(tǒng)一模型處理多模態(tài)輸入和輸出。這種能力進(jìn)一步凸顯了 VARGPT 在統(tǒng)一視覺(jué)生成和理解任務(wù)中的獨(dú)特優(yōu)勢(shì)。VARGPT 中使用的圖像生成數(shù)據(jù)集（128 萬(wàn) ImageNet）與其他統(tǒng)一模型（如 Show-1：3600 萬(wàn)，VILA-U：1500 萬(wàn)，Liquid：3000 萬(wàn)圖像）相比，規(guī)模顯著更小且質(zhì)量更低。因此，VARGPT 的圖像生成性能目前落后于這些方法。然而，通過(guò)數(shù)據(jù)縮放提高質(zhì)量的潛力為未來(lái)的研究和發(fā)展提供了有希望的途徑。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖9：我們的VARGPT在ImageNet-1K上訓(xùn)練生成的部分256×256樣本。VARGPT支持用戶(hù)文本命令輸入，并同時(shí)輸出文本和圖像模態(tài)數(shù)據(jù)。

5.2方法分析

我們從模型參數(shù)、訓(xùn)練設(shè)置和數(shù)據(jù)效率等方面對(duì)我們的VARGPT進(jìn)行了消融實(shí)驗(yàn)，以詳細(xì)評(píng)估各個(gè)組件的有效性。具體來(lái)說(shuō)，我們通過(guò)移除特定設(shè)置來(lái)評(píng)估組件的有效性，如表4和表5所示。

訓(xùn)練策略對(duì)生成的影響：如表4所示，省略我們訓(xùn)練協(xié)議中的任何一個(gè)階段或階段組合，都會(huì)導(dǎo)致我們模型的視覺(jué)生成性能顯著下降。值得注意的是，省略第三階段（涉及指令微調(diào)）會(huì)導(dǎo)致生成圖像的質(zhì)量和模型遵循給定指令的能力大幅下降。這些發(fā)現(xiàn)強(qiáng)調(diào)了三個(gè)訓(xùn)練階段在提高模型視覺(jué)生成質(zhì)量和文本到圖像能力方面的重要作用。此外，我們還進(jìn)行了額外的實(shí)驗(yàn)，在第三階段訓(xùn)練中選擇性地凍結(jié)映射器和視覺(jué)解碼器的參數(shù)。我們的觀察結(jié)果表明，如果在第三階段訓(xùn)練中不微調(diào)這些組件，也會(huì)導(dǎo)致性能下降。這些結(jié)果共同為我們的三階段訓(xùn)練策略的有效性提供了有力證據(jù)。在各種消融場(chǎng)景中觀察到的一致性能下降進(jìn)一步強(qiáng)化了每個(gè)提議組件和階段的重要性。

訓(xùn)練策略對(duì)理解的影響：為了評(píng)估我們的訓(xùn)練策略對(duì)視覺(jué)理解能力的有效性，我們通過(guò)在第二階段訓(xùn)練中選擇性地凍結(jié)組件進(jìn)行了消融研究。具體來(lái)說(shuō)，我們?cè)诘诙A段進(jìn)行指令微調(diào)時(shí)，分別進(jìn)行了凍結(jié)映射器或LLM骨干的實(shí)驗(yàn)。如表5所示，我們?cè)趦煞N情況下都觀察到了顯著的性能下降。這些結(jié)果進(jìn)一步驗(yàn)證了我們的訓(xùn)練策略在增強(qiáng)視覺(jué)理解能力方面的有效性。這一實(shí)證證據(jù)強(qiáng)調(diào)了允許映射器和LLM骨干在指令微調(diào)階段進(jìn)行適應(yīng)的重要性，突顯了我們提出的訓(xùn)練方法對(duì)模型整體視覺(jué)理解能力的協(xié)同效應(yīng)。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

數(shù)據(jù)效率對(duì)理解的影響：此外，我們還對(duì)我們?cè)诘诙A段訓(xùn)練中使用的混合數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果如表5所示。我們可以觀察到，移除任何一個(gè)理解數(shù)據(jù)集（502K或665K）都會(huì)對(duì)模型的理解性能產(chǎn)生負(fù)面影響。相反，當(dāng)我們進(jìn)一步納入我們構(gòu)建的用于生成的指令數(shù)據(jù)集時(shí)，它增強(qiáng)了模型區(qū)分理解指令和生成指令的能力，并準(zhǔn)確提高了VARGPT輸出用于視覺(jué)生成的特殊標(biāo)記（即、和）的能力，而不會(huì)顯著影響其理解性能。

訓(xùn)練損失曲線(xiàn)可視化：我們進(jìn)一步展示了我們模型在第二階段和第三階段訓(xùn)練過(guò)程中的損失曲線(xiàn)，如圖10所示。這些損失曲線(xiàn)的趨勢(shì)顯示出合理且一致的下降，為我們的學(xué)習(xí)策略的有效性提供了實(shí)證支持。對(duì)這些曲線(xiàn)的分析表明，訓(xùn)練損失隨時(shí)間呈現(xiàn)出有原則的下降趨勢(shì)，這在相當(dāng)程度上證實(shí)了我們提出的學(xué)習(xí)方法的有效性。此外，對(duì)第三階段損失曲線(xiàn)的仔細(xì)檢查表明，模型的視覺(jué)生成能力仍有很大的優(yōu)化潛力。這一觀察結(jié)果表明，延長(zhǎng)訓(xùn)練時(shí)間和擴(kuò)大訓(xùn)練數(shù)據(jù)集可能會(huì)在第三階段帶來(lái)進(jìn)一步的視覺(jué)生成性能提升。

VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

6. 結(jié)論、局限性與未來(lái)工作

6.1 結(jié)論

本文介紹了 VARGPT，這是一種新穎的 MLLM，成功地在統(tǒng)一自回歸框架內(nèi)集成了視覺(jué)理解和生成。通過(guò)采用創(chuàng)新的下一個(gè) token 和下一個(gè)尺度預(yù)測(cè)范式，VARGPT 將傳統(tǒng) MLLM 的能力擴(kuò)展到包括高效的視覺(jué)自回歸生成。該模型的三階段訓(xùn)練管道利用專(zhuān)門(mén)構(gòu)建的數(shù)據(jù)集，實(shí)現(xiàn)了視覺(jué)和文本特征的有效對(duì)齊，增強(qiáng)了理解和生成能力。與 LLaVA-1.5 等現(xiàn)有模型相比，VARGPT 在各種以視覺(jué)為中心的任務(wù)上表現(xiàn)出卓越性能。此外，它在自回歸視覺(jué)生成和文本到圖像合成方面表現(xiàn)出非凡的熟練度。這些成就凸顯了 VARGPT 的多功能性和推動(dòng)多模態(tài)人工智能領(lǐng)域發(fā)展的潛力，為統(tǒng)一多模態(tài)模型的未來(lái)研究提供了有意義的探索。

6.2 局限性

（1）由于我們的視覺(jué)生成數(shù)據(jù)集主要來(lái)源于 ImageNet，VARGPT 與某些擴(kuò)散模型（如 SDv2.1 [69] 和更先進(jìn)的模型如 FLUX [33]）之間存在明顯的質(zhì)量差距，這些模型在大規(guī)模高質(zhì)量圖像數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這種差異主要?dú)w因于訓(xùn)練數(shù)據(jù)的不同。此外，在整個(gè)訓(xùn)練過(guò)程中，生成圖像的分辨率始終設(shè)置為 256×256 像素。因此，當(dāng)前版本的 VARGPT 僅支持該分辨率的自回歸圖像生成。（2）盡管 VARGPT 在指令理解和指令到圖像生成方面表現(xiàn)出初步的熟練度，在大多數(shù)情況下能夠有效跟隨用戶(hù)輸入指令，但在某些情況下，指令中的細(xì)微細(xì)節(jié)可能無(wú)法在生成的圖像中得到充分體現(xiàn)。這種局限性在某些情況下會(huì)表現(xiàn)出來(lái)，表明模型在全面捕捉和渲染復(fù)雜指令細(xì)節(jié)的能力上仍有改進(jìn)空間。

6.3 未來(lái)工作

（1）為了實(shí)現(xiàn)更高質(zhì)量的圖像生成并支持更高分辨率的輸出，我們計(jì)劃改進(jìn)下一個(gè)尺度預(yù)測(cè)模型架構(gòu)，擴(kuò)展圖像數(shù)據(jù)集，提高圖像質(zhì)量，并實(shí)現(xiàn)動(dòng)態(tài)分辨率能力。（2）在后續(xù)版本的 VARGPT 中，我們打算探索支持統(tǒng)一自回歸視頻理解和生成。

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：Xianwei Zhang等

原文鏈接：??https://mp.weixin.qq.com/s/PnzscA1LwdY0lDyX4v6njQ???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

VARGPT

多模態(tài)

大模型

已于2025-5-7 07:00:42修改

贊

回復(fù)