精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成 原創(chuàng)

發(fā)布于 2025-5-7 07:00
瀏覽
0收藏

摘要

我們提出了 VARGPT,這是一種新穎的多模態(tài)大語(yǔ)言模型(MLLM),能夠在單一自回歸框架內(nèi)統(tǒng)一視覺(jué)理解和生成。VARGPT 采用下一個(gè) token 預(yù)測(cè)范式進(jìn)行視覺(jué)理解,并采用下一個(gè)尺度預(yù)測(cè)范式進(jìn)行視覺(jué)自回歸生成。該模型創(chuàng)新性地?cái)U(kuò)展了 LLaVA 架構(gòu),在多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)了高效的按比例自回歸視覺(jué)生成,同時(shí)在單一模型框架內(nèi)無(wú)縫處理混合模態(tài)輸入和輸出。VARGPT 在專(zhuān)門(mén)構(gòu)建的數(shù)據(jù)集上經(jīng)歷了三階段統(tǒng)一訓(xùn)練過(guò)程,包括預(yù)訓(xùn)練階段和兩個(gè)混合視覺(jué)指令微調(diào)階段。統(tǒng)一訓(xùn)練策略旨在實(shí)現(xiàn)視覺(jué)和文本特征的對(duì)齊,增強(qiáng)理解和生成的指令跟隨能力,并提高視覺(jué)生成質(zhì)量。盡管基于 LLaVA 架構(gòu)進(jìn)行多模態(tài)理解,VARGPT 在各種以視覺(jué)為中心的基準(zhǔn)測(cè)試中顯著優(yōu)于 LLaVA-1.5,例如視覺(jué)問(wèn)答和推理任務(wù)。值得注意的是,VARGPT 自然支持自回歸視覺(jué)生成和指令到圖像合成能力,展示了其在視覺(jué)理解和生成任務(wù)中的多功能性。Project Page: https://vargpt-1.github.io/

 1. 引言 

近年來(lái),多模態(tài)人工智能在理解和生成這兩個(gè)核心領(lǐng)域取得了重大突破。多模態(tài)大語(yǔ)言模型(MLLMs)[2, 5, 9, 48, 94]借助大語(yǔ)言模型(LLMs)強(qiáng)大的通用性[2, 85, 86],在理解多模態(tài)數(shù)據(jù)方面展現(xiàn)出卓越的能力。與此同時(shí),去噪擴(kuò)散概率模型(DDPMs)[24, 62]為圖像生成領(lǐng)域帶來(lái)了顯著進(jìn)展,在文本到視覺(jué)模態(tài)的生成任務(wù)中表現(xiàn)優(yōu)異。此外,受自回歸大語(yǔ)言模型(如縮放定律[23, 29])優(yōu)勢(shì)特性的啟發(fā),許多研究通過(guò)預(yù)測(cè)下一個(gè)詞元(token)或下一個(gè)尺度來(lái)探索自回歸視覺(jué)生成,例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等,均取得了顯著成果。鑒于在視覺(jué)理解和生成方面取得的這些成就,近期的研究開(kāi)始探索能夠處理理解和生成任務(wù)的統(tǒng)一模型,為此設(shè)計(jì)了各種統(tǒng)一架構(gòu)來(lái)實(shí)現(xiàn)這一目標(biāo)(如圖3所示)。近期的一些研究[18, 90, 91]嘗試將來(lái)自這兩個(gè)不同領(lǐng)域(如大語(yǔ)言模型和去噪擴(kuò)散概率模型)的模型組合起來(lái),形成一個(gè)能夠處理多模態(tài)理解和生成的統(tǒng)一系統(tǒng)(如圖3(3)所示)。例如,NExT-GPT[90]和SEEDX[18]可能依賴(lài)預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行圖像生成。此外,LWM[53]、Chameleon[81]和Janus[88]探索了純粹的下一個(gè)詞元預(yù)測(cè)統(tǒng)一模型(如圖3(4)所示),而Dual Diffusion[46]研究了使用兩個(gè)擴(kuò)散模型分別進(jìn)行理解和生成。TokenFlow[64]探索了統(tǒng)一的圖像分詞器,但生成模型和理解模型是分開(kāi)的。Show-o[91]提出在單個(gè)Transformer中結(jié)合自回歸和擴(kuò)散模型范式(如圖3(4)所示)。Liquid[89]在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測(cè)下一個(gè)詞元的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。 


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 3:不同模型架構(gòu)的比較,其中 “AR” 代表自回歸,“VAR” 表示視覺(jué)自回歸。我們對(duì)僅用于理解任務(wù)、僅用于生成任務(wù)以及統(tǒng)一理解和生成的架構(gòu),與我們提出的 VARGPT 模型進(jìn)行了對(duì)比分析。VARGPT 被設(shè)計(jì)為純自回歸多模態(tài)模型,通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解,通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成。

在這項(xiàng)工作中,我們致力于在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中統(tǒng)一視覺(jué)生成和理解,使其自然地支持混合模態(tài)的輸入和輸出。與現(xiàn)有的所有統(tǒng)一模型不同,我們提出在一個(gè)統(tǒng)一模型中將理解和生成建模為兩種不同的范式:分別通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行視覺(jué)理解,通過(guò)預(yù)測(cè)下一個(gè)尺度進(jìn)行視覺(jué)生成,并訓(xùn)練了一個(gè)名為VARGPT的新型統(tǒng)一模型。具體而言: 

1. 模型架構(gòu)方面:VARGPT的核心結(jié)構(gòu)借鑒了LLaVA-1.5-7B,同時(shí)我們額外引入了一個(gè)視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的額外視覺(jué)特征投影儀。這些投影儀用于生成的視覺(jué)特征和文本特征之間的相互映射。VARGPT采用自回歸方法預(yù)測(cè)下一個(gè)文本詞元,以進(jìn)行視覺(jué)理解和問(wèn)答。當(dāng)預(yù)測(cè)到用于視覺(jué)生成的特殊詞元時(shí),模型會(huì)自回歸地預(yù)測(cè)下一個(gè)尺度的詞元,并通過(guò)視覺(jué)解碼器獲得最終的輸出圖像。所提出的架構(gòu)使VARGPT能夠在視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中實(shí)現(xiàn)統(tǒng)一的理解和生成。 

2. 訓(xùn)練方法方面:我們采用統(tǒng)一的指令微調(diào)方法來(lái)學(xué)習(xí)視覺(jué)理解和視覺(jué)生成。具體來(lái)說(shuō),我們通過(guò)將視覺(jué)詞元預(yù)測(cè)構(gòu)建為指令跟隨格式,將指令微調(diào)擴(kuò)展到視覺(jué)生成,并將構(gòu)建的視覺(jué)生成指令數(shù)據(jù)集與來(lái)自L(fǎng)LaVA-1.5[49]的多輪對(duì)話(huà)指令數(shù)據(jù)集相結(jié)合進(jìn)行混合訓(xùn)練。通過(guò)所提出的統(tǒng)一指令微調(diào),我們同時(shí)賦予多模態(tài)大語(yǔ)言模型理解和生成的能力。我們將訓(xùn)練過(guò)程分為三個(gè)階段,包括一個(gè)預(yù)訓(xùn)練階段和兩個(gè)指令微調(diào)階段。在第一階段的預(yù)訓(xùn)練中,模型學(xué)習(xí)文本和視覺(jué)空間之間的特征映射。在第二和第三階段的指令微調(diào)中,VARGPT分別增強(qiáng)其在視覺(jué)問(wèn)答和指令到圖像生成方面的能力。 

3. 訓(xùn)練數(shù)據(jù)集方面:為了高效地訓(xùn)練模型,我們構(gòu)建并收集了128萬(wàn)個(gè)用于第一階段預(yù)訓(xùn)練的數(shù)據(jù),118萬(wàn)個(gè)用于第二階段混合視覺(jué)理解和生成指令微調(diào)的數(shù)據(jù),以及140萬(wàn)個(gè)用于第三階段視覺(jué)生成指令微調(diào)的數(shù)據(jù)。通過(guò)統(tǒng)一的指令跟隨格式,我們?cè)诨旌弦曈X(jué)指令微調(diào)中統(tǒng)一了理解和生成的訓(xùn)練。 大量實(shí)驗(yàn)表明,我們的VARGPT能夠?qū)崿F(xiàn)顯著的視覺(jué)理解能力(如圖1所示),并賦予多模態(tài)大語(yǔ)言模型視覺(jué)生成能力,自然地支持混合模態(tài)輸入和輸出(如圖2所示)。據(jù)我們所知,VARGPT是第一個(gè)支持在理解任務(wù)中預(yù)測(cè)下一個(gè)詞元、在生成任務(wù)中預(yù)測(cè)下一個(gè)尺度的統(tǒng)一模型,同時(shí)在理解能力方面超越了許多規(guī)模相當(dāng)?shù)亩嗄B(tài)大語(yǔ)言模型和統(tǒng)一模型。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 1:多個(gè)視覺(jué)理解與生成基準(zhǔn)測(cè)試中各類(lèi)多模態(tài)大語(yǔ)言模型的對(duì)比分析。CLIP 分?jǐn)?shù)用于衡量文本到圖像的視覺(jué)生成,其余指標(biāo)源自標(biāo)準(zhǔn)視覺(jué)問(wèn)答基準(zhǔn)和多模態(tài)理解基準(zhǔn)。值得注意的是,我們的 VARGPT 模型在所有理解基準(zhǔn)測(cè)試中均顯著優(yōu)于對(duì)比基線(xiàn)。此外,它還展現(xiàn)出卓越的指令到圖像生成能力,從而提升了其在各類(lèi)視覺(jué)語(yǔ)言任務(wù)中的通用性和適用性。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 2:VARGPT 在 ImageNet 上訓(xùn)練生成的部分 256×256 樣本。VARGPT 支持用戶(hù)的文本和圖像指令,并同時(shí)輸出文本和圖像混合模態(tài)數(shù)據(jù)。

2. 相關(guān)工作

2.1 視覺(jué)生成

擴(kuò)散模型 [25,74,75] 將圖像生成視為從噪聲到圖像的反向擴(kuò)散過(guò)程。擴(kuò)散模型的進(jìn)展主要集中在采樣方法 [4,55] 和架構(gòu)設(shè)計(jì) [26,63] 上,催生了如 [57,63] 等令人印象深刻的模型。在擴(kuò)散模型取得重大進(jìn)展的背景下,基于流的生成模型 [1] 作為簡(jiǎn)化框架出現(xiàn),推動(dòng)了高級(jí)視覺(jué)生成模型的發(fā)展。自回歸模型 [14,97] 采用類(lèi)似 GPT [65] 的技術(shù)來(lái)預(yù)測(cè)序列中的下一個(gè) token。像 [12,15,67,76,77,87] 等工作利用類(lèi)似 VQGAN [36] 的視覺(jué) tokenizer 將圖像轉(zhuǎn)換為離散 token,實(shí)現(xiàn)了視覺(jué)數(shù)據(jù)的 token 化,并采用類(lèi)似 GPT 的預(yù)測(cè)方法。最近,另一類(lèi)基于預(yù)測(cè)下一個(gè)尺度的自回歸模型,如 VAR [84]、HART [79] 和 Infinity [22],引起了關(guān)注,并已被驗(yàn)證可能具有與縮放定律 [23,29] 一致的特性。在這項(xiàng)工作中,我們的統(tǒng)一自回歸框架通過(guò)預(yù)測(cè)下一個(gè)尺度的范式來(lái)完成圖像生成任務(wù)。

2.2 多模態(tài)大語(yǔ)言模型

LLM [85,86] 的進(jìn)步推動(dòng)了 MLLM 的發(fā)展。MLLM 使用預(yù)訓(xùn)練的 LLM 作為文本解碼器,通過(guò)連接器 [35,43] 將文本和圖像與視覺(jué)編碼器連接起來(lái)進(jìn)行集成。LLaVA [49] 使用各種任務(wù)(如視覺(jué)問(wèn)答和圖像描述)的數(shù)據(jù)以指令格式對(duì)模型進(jìn)行微調(diào),使模型能夠理解新指令并泛化到未見(jiàn)任務(wù)。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通過(guò)更多樣和更高質(zhì)量的數(shù)據(jù)集進(jìn)一步提升了視覺(jué)理解性能。隨著架構(gòu)優(yōu)化、創(chuàng)新訓(xùn)練范式和多樣化數(shù)據(jù)的引入,一系列先進(jìn)的 MLLM 應(yīng)運(yùn)而生,如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。

2.3 視覺(jué)理解與生成的統(tǒng)一模型

近年來(lái),研究人員致力于在單個(gè)模型中統(tǒng)一理解和生成能力 [13,80,93]。大多數(shù)現(xiàn)有方法 [17,78,90] 嘗試將預(yù)訓(xùn)練的擴(kuò)散模型與現(xiàn)有系統(tǒng)集成。然而,這些系統(tǒng)本質(zhì)上是將擴(kuò)散模型視為外部工具,而非將其作為 MLLM 的內(nèi)在生成能力。Show-o [92] 通過(guò)結(jié)合自回歸和(離散)擴(kuò)散建模,能夠自適應(yīng)處理各種混合模態(tài)的輸入和輸出。Li 等人 [46] 采用跨模態(tài)最大似然估計(jì)框架,顯著改進(jìn)了現(xiàn)有的基于擴(kuò)散的多模態(tài)模型。[3,83] 探索了使用自回歸方法將圖像生成集成到大型語(yǔ)言模型(LLM)中,取得了顯著成果。例如,LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 對(duì)圖像進(jìn)行編碼,實(shí)現(xiàn)了對(duì)多模態(tài)理解和生成的同時(shí)支持。Janus [88] 通過(guò)將視覺(jué)編碼解耦為獨(dú)立路徑,進(jìn)一步提高了模型的靈活性和性能,而 Dual Diffusion [46] 則研究了使用兩個(gè)擴(kuò)散模型進(jìn)行理解和生成。Liquid [89] 在同一空間中學(xué)習(xí)圖像和文本嵌入,并使用預(yù)測(cè)下一個(gè) token 的范式實(shí)現(xiàn)自回歸視覺(jué)理解和生成。與所有現(xiàn)有統(tǒng)一模型不同,我們提出在統(tǒng)一模型中將理解和生成建模為兩種不同的范式:視覺(jué)理解采用下一個(gè) token 預(yù)測(cè),視覺(jué)生成采用下一個(gè)尺度預(yù)測(cè)。

3. 方法

3.1 模型架構(gòu)

我們的 VARGPT 統(tǒng)一了視覺(jué)理解和生成,其架構(gòu)如圖 4 所示。我們的架構(gòu)遵循下一個(gè) token 預(yù)測(cè)范式進(jìn)行理解和問(wèn)答,遵循下一個(gè)尺度預(yù)測(cè)范式進(jìn)行圖像生成。

VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 4:VARGPT 框架示意圖,它由(1)一個(gè)大語(yǔ)言模型、視覺(jué)編碼器和用于視覺(jué)理解的投影儀;(2)一個(gè)視覺(jué)解碼器和雙生成投影儀,用于視覺(jué)生成。VARGPT 在大語(yǔ)言模型主干中使用因果注意力機(jī)制,在視覺(jué)解碼器中使用塊因果注意力機(jī)制。

3.1.1 通過(guò)下一個(gè) token 預(yù)測(cè)實(shí)現(xiàn)視覺(jué)理解

在視覺(jué)理解方面,我們的模型架構(gòu)參考了 LLaVA-1.5 [50] 的結(jié)構(gòu),使用 Vicuna-7B-v1.5 [102] 作為 LLMθ,并采用 CLIP [66] 的視覺(jué)編碼器(ViT/14)作為視覺(jué)編碼器,同時(shí)使用兩層線(xiàn)性網(wǎng)絡(luò)作為投影儀。最初,用于視覺(jué)理解的圖像 Ximg 經(jīng)過(guò)視覺(jué)編碼器處理生成嵌入 Himg,然后通過(guò)接口(如線(xiàn)性層)進(jìn)行調(diào)整,以與通過(guò)查詢(xún) Xquery 獲得的文本嵌入 Htxt 對(duì)齊。組合后的數(shù)據(jù)作為輸入提供給 LLM,LLM 以自回歸方式生成文本輸出 Ytxt,如下所示:


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

其中,Ytxt_t 表示 Ytxt 的第 t 個(gè) token,Ytxt_

3.1.2 通過(guò)下一個(gè)尺度預(yù)測(cè)實(shí)現(xiàn)視覺(jué)生成

在視覺(jué)生成方面,我們遵循 VAR [84] 的大部分設(shè)置,采用多尺度圖像 tokenizer 進(jìn)行視覺(jué) token 編碼和解碼。我們構(gòu)建了兩個(gè)圖像生成投影儀,用于在 LLM 的輸入和輸出端轉(zhuǎn)換用于生成的視覺(jué)特征。此外,我們構(gòu)建了一個(gè)額外的 2B 視覺(jué)解碼器 ?,包含 30 層 Transformer,用于解碼視覺(jué)特征,這在一定程度上可以避免文本解碼器中的知識(shí)與圖像生成知識(shí)之間的沖突。通過(guò)視覺(jué)解碼器獲得的圖像特征將進(jìn)一步通過(guò)多尺度 VAE 解碼器解碼,生成可用的圖像。與文本解碼器(即 LLM)不同,視覺(jué)解碼器使用遵循 VAR [84] 中塊因果注意力的注意力機(jī)制,以支持預(yù)測(cè)下一個(gè)尺度的 token。此外,在將用于視覺(jué)生成的特征輸入視覺(jué)解碼器之前,我們添加絕對(duì)位置編碼,以進(jìn)一步區(qū)分視覺(jué) token 的位置信息。

形式上,我們將圖像的多尺度特征圖定義為通過(guò)多尺度 tokenizer 獲得的 (R1,R2,?,RK)。因此,下一個(gè)尺度的圖像 token 將以自回歸方式生成:


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

3.1.3 混合模態(tài)生成的提示模板

為了區(qū)分用于文本生成的 token 和用于圖像合成的 token,我們?cè)O(shè)計(jì)了一些特殊的 token 標(biāo)記。具體來(lái)說(shuō),我們使用用于圖像生成 token 的位置填充,表示圖像生成 token 的開(kāi)始,表示生成結(jié)束。當(dāng) VARGPT 生成 < image_gen_start>token 時(shí),與 < image_gen>token 相關(guān)的特征將通過(guò)投影儀處理,然后輸入視覺(jué)解碼器,以獲取圖像生成所需的特征。在視覺(jué)理解任務(wù)中,我們使用token 作為輸入圖像的表示。我們?cè)诟戒?7 中總結(jié)了 VARGPT 使用的提示模板。

3.1.4 無(wú)分類(lèi)器引導(dǎo)(CFG)

CFG 顯著增強(qiáng)了生成擴(kuò)散模型生成高保真樣本的能力。該方法將條件生成模型與同時(shí)訓(xùn)練的無(wú)條件模型的分布估計(jì)相結(jié)合,從而提高了整體生成質(zhì)量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的啟發(fā),我們使用高斯噪聲作為輸入來(lái)模擬無(wú)條件生成。隨后,我們通過(guò)從條件生成的 logits 分布中減去無(wú)條件生成的概率,得到視覺(jué)輸出的最終分布。更多細(xì)節(jié)見(jiàn)附錄 7。

3.2 訓(xùn)練

對(duì)于 VARGPT 模型訓(xùn)練,我們提出了一階段預(yù)訓(xùn)練過(guò)程和兩階段指令微調(diào)過(guò)程,如圖 5 所示。

3.2.1 階段 1:預(yù)訓(xùn)練

我們使用 ImageNet [11] 中的圖像作為圖像源,構(gòu)建用于預(yù)訓(xùn)練兩個(gè)圖像生成投影儀的訓(xùn)練數(shù)據(jù)。我們將預(yù)訓(xùn)練數(shù)據(jù)組織成 128 萬(wàn)單輪對(duì)話(huà)數(shù)據(jù)(具體數(shù)據(jù)構(gòu)建見(jiàn)第 4 節(jié))。該預(yù)訓(xùn)練階段的主要目的是訓(xùn)練投影儀,使圖像生成特征與文本特征初步對(duì)齊。在預(yù)訓(xùn)練期間,除了兩個(gè)用于圖像生成的投影儀外,我們凍結(jié)所有參數(shù),如圖 5 所示。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 5:VARGPT 的三個(gè)訓(xùn)練階段,包括第一階段預(yù)訓(xùn)練、第二和第三階段指令微調(diào)。

3.2.2 階段 2:視覺(jué)理解的監(jiān)督微調(diào)(SFT)

在第二階段,我們解凍語(yǔ)言模型和視覺(jué)編碼器特征輸出的投影儀,并使用我們精心構(gòu)建的多輪對(duì)話(huà)和理解數(shù)據(jù)集進(jìn)行訓(xùn)練。該階段的主要目的是確保 VARGPT 保持出色的多輪對(duì)話(huà)、視覺(jué)理解和問(wèn)答能力。此外,在該階段,我們從構(gòu)建的 Imagenet-Instruct 數(shù)據(jù)集中引入 5K 樣本,使 VARGPT 能夠區(qū)分視覺(jué)理解和視覺(jué)生成任務(wù)。當(dāng)用戶(hù)輸入生成指令時(shí),VARGPT 可以通過(guò)輸出特殊 token準(zhǔn)確響應(yīng),開(kāi)始自回歸視覺(jué)生成。階段 2 訓(xùn)練數(shù)據(jù)集的組成見(jiàn)第 4 節(jié)。

3.2.3 階段 3:視覺(jué)生成的監(jiān)督微調(diào)(SFT)

與第二階段相比,第三階段主要通過(guò)監(jiān)督微調(diào)提高 VARGPT 的指令到圖像能力。在該階段,我們解凍視覺(jué)解碼器和兩個(gè)用于視覺(jué)生成的投影儀,同時(shí)凍結(jié)其他參數(shù)進(jìn)行 SFT,如圖 5 階段 3 所示。第三階段的訓(xùn)練數(shù)據(jù)包括從 ImageNet 構(gòu)建的 140 萬(wàn)指令對(duì)(詳細(xì)信息見(jiàn)第 4 節(jié))。

4. 統(tǒng)一指令跟隨數(shù)據(jù)

在本節(jié)中,我們將詳細(xì)介紹三個(gè)不同訓(xùn)練階段所使用的訓(xùn)練數(shù)據(jù)集的來(lái)源,以及各類(lèi)數(shù)據(jù)在其中的占比情況。值得注意的是,我們引入了圖像生成指令跟隨數(shù)據(jù)集(如圖8a所示),并闡述了其來(lái)源,以及利用大語(yǔ)言模型生成該數(shù)據(jù)集所采用的方法。通過(guò)這種方式,我們將視覺(jué)理解和生成的訓(xùn)練方法統(tǒng)一為視覺(jué)指令微調(diào)。 


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖8:我們構(gòu)建和收集的數(shù)據(jù)分布,包括:(a)三個(gè)訓(xùn)練階段的數(shù)據(jù)比例分解;(b)第二階段指令微調(diào)期間使用的混合指令數(shù)據(jù)分布。我們用于第二階段訓(xùn)練的復(fù)合數(shù)據(jù)集源自L(fǎng)LaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

4.1 生成指令跟隨數(shù)據(jù)集 

我們構(gòu)建了兩個(gè)圖像生成指令跟隨數(shù)據(jù)集:ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的構(gòu)建為例,圖6展示了該數(shù)據(jù)集的一個(gè)樣本。

VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖6 ImageNet-Instruct-130K圖像生成指令跟隨數(shù)據(jù)集的一個(gè)樣本,其圖片說(shuō)明文字是一個(gè)人淹沒(méi)在水下。代表用于填充圖像生成token位置的特殊token。

 - **ImageNet-1K-VL-Enriched**:我們采用ImageNet-1K-VL-Enriched數(shù)據(jù)集[34]作為基礎(chǔ)數(shù)據(jù)集。ImageNet-1K-VL-Enriched是ImageNet數(shù)據(jù)集的增強(qiáng)版本,其中的圖像描述是使用BLIP2[44]圖像字幕模型生成的。 

- **通過(guò)Deepseek-LLM構(gòu)建ImageNet-Instruct-130K**:為構(gòu)建用于指令微調(diào)數(shù)據(jù)集的問(wèn)答格式,我們利用Deepseek-V3 Chat LLM[10](以下簡(jiǎn)稱(chēng)LLM)生成提示和答案的種子格式(Prompt_limit_seeds和Answer_limit_seeds)。如圖7(a)所示,Prompt_limit_seeds有效地模擬了用戶(hù)請(qǐng)求,而Answer_limit_seeds則模擬了VLLM與用戶(hù)之間的對(duì)話(huà)。我們從種子池中隨機(jī)選擇prompt_limit_seed、image_cap_limit_seed和answer_limit_seed,作為L(zhǎng)LM調(diào)用模板中的元素。

 - **LLM調(diào)用模板**:我們從基礎(chǔ)數(shù)據(jù)集中隨機(jī)選擇4個(gè)圖像描述樣本,作為4-shot示例,引導(dǎo)大模型生成相應(yīng)的對(duì)話(huà)樣本。如圖7(b)所示,我們對(duì)生成的提示和答案添加了相關(guān)約束,以確保輸出盡可能合規(guī)且多樣。我們隨機(jī)采樣了130K個(gè)圖像描述數(shù)據(jù)樣本,從而創(chuàng)建了用于ImageNet[11]圖像生成指令微調(diào)數(shù)據(jù)集的130K個(gè)樣本,并將其命名為ImageNet-Instruct-130K。附錄8中提供了關(guān)于數(shù)據(jù)集構(gòu)建的更多詳細(xì)信息。

VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖7 所提出的圖像生成指令跟隨樣本生成的示意圖,包括(a)種子生成:我們利用大語(yǔ)言模型生成用于約束指令跟隨數(shù)據(jù)集創(chuàng)建的種子;(b)指令跟隨樣本生成:指令跟隨數(shù)據(jù)集的提示模板。

4.2 三個(gè)訓(xùn)練階段的數(shù)據(jù)構(gòu)成 - 

**階段1**:用于階段1預(yù)訓(xùn)練的ImageNet-Instruct-class數(shù)據(jù)集包含128萬(wàn)個(gè)單輪對(duì)話(huà)樣本,源自ImageNet,專(zhuān)注于學(xué)習(xí)類(lèi)別與圖像之間的對(duì)應(yīng)關(guān)系。假設(shè)類(lèi)別是“魚(yú)”,格式如下:{‘prompt’: ‘請(qǐng)為我生成一張魚(yú)的圖像。’, ‘a(chǎn)nswer’: ‘生成的魚(yú)的圖像如下}。

 - **階段2**:我們?cè)陔A段2使用的混合指令微調(diào)數(shù)據(jù)集來(lái)自L(fǎng)LaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分組成如圖8b所示。

 - **LLaVA-1.5-665K**:LLaVA-1.5的指令跟隨數(shù)據(jù)集包含視覺(jué)問(wèn)答(VQA)[20, 27, 60, 70]、光學(xué)字符識(shí)別(OCR)[61, 72]、區(qū)域級(jí)視覺(jué)問(wèn)答[30, 31, 58]、視覺(jué)對(duì)話(huà)[49]和語(yǔ)言對(duì)話(huà)[71]數(shù)據(jù)。我們將所有665K個(gè)指令跟隨樣本都納入階段2的訓(xùn)練中。

 - **LLaVA-OneVision**:LLaVA-OneVision的視覺(jué)指令微調(diào)數(shù)據(jù)整合了LLaVA-1.5及后續(xù)多個(gè)LLaVA-NeXT版本[39, 40, 42, 52, 101]的數(shù)據(jù),并從互聯(lián)網(wǎng)上收集了開(kāi)源數(shù)據(jù)集,通過(guò)設(shè)置特定格式的提示來(lái)整合數(shù)據(jù)并避免沖突。最終形成了一個(gè)320萬(wàn)個(gè)樣本的高質(zhì)量單圖像數(shù)據(jù)集。在去除K12 Printing子集中的樣本后,我們從該數(shù)據(jù)集中隨機(jī)采樣508K個(gè)樣本,納入階段2的訓(xùn)練(值得注意的是,我們只采樣了5K個(gè)純文本問(wèn)答對(duì))。

 - **ImageNet-Instruct-130K**:我們從ImageNet-Instruct-130K數(shù)據(jù)集中隨機(jī)采樣5K個(gè)樣本,納入階段2的訓(xùn)練。

 - **階段3**:在階段3,除了構(gòu)建的ImageNet-Instruct-130K數(shù)據(jù)集外,我們還創(chuàng)建了一個(gè)更大的圖像生成指令跟隨數(shù)據(jù)集ImageNet-Instruct-1270K。與ImageNet-Instruct-130K相比,它擁有更多樣化的提示和答案模板(多達(dá)400個(gè))。提示和答案的構(gòu)建涉及模板與圖像描述的直接連接。 

5. 實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié):對(duì)于用于圖像生成任務(wù)的圖像,我們將它們統(tǒng)一調(diào)整大小并裁剪為256x256像素,隨后應(yīng)用與VAR [84] 中一致的預(yù)處理技術(shù)。對(duì)于用于視覺(jué)理解任務(wù)的圖像,我們遵循LLaVA-1.5框架中建立的預(yù)處理協(xié)議。我們的語(yǔ)言模型、視覺(jué)編碼器和視覺(jué)特征映射器使用LLaVA-1.5-7B-hf架構(gòu)進(jìn)行初始化。視覺(jué)解碼器使用VAR-d30參數(shù)進(jìn)行初始化,包含大約20億模型參數(shù)。VARGPT中用于視覺(jué)生成的特征映射器進(jìn)行隨機(jī)初始化,并在第一階段的預(yù)訓(xùn)練中初步更新。我們采用類(lèi)似于VAR [84] 的多尺度VQVAE [14] 進(jìn)行圖像標(biāo)記化,以支持按比例預(yù)測(cè)范式。表2全面總結(jié)了我們模型在三個(gè)訓(xùn)練階段的訓(xùn)練細(xì)節(jié)。在圖像生成過(guò)程中,我們模型的VARGPT的top-k和top-p采樣參數(shù)分別設(shè)置為900和0.95。此外,CFG(分類(lèi)器自由引導(dǎo))尺度參數(shù)配置為1.5。

評(píng)估基準(zhǔn):按照常見(jiàn)設(shè)置 [51, 52, 103],我們?cè)谝幌盗袑W(xué)術(shù)任務(wù)導(dǎo)向基準(zhǔn)測(cè)試和最近為指令跟隨型MLLMs專(zhuān)門(mén)提出的基準(zhǔn)測(cè)試中評(píng)估我們VARGPT在視覺(jué)理解方面的有效性,總共包括11個(gè)基準(zhǔn)測(cè)試:(1)五個(gè)多模態(tài)基準(zhǔn)測(cè)試,用于指令跟隨型MLLMs,包括MMbench-dev(en)[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基準(zhǔn)測(cè)試。對(duì)于POPE基準(zhǔn)測(cè)試,我們?cè)陔S機(jī)、流行和對(duì)抗性設(shè)置中進(jìn)行評(píng)估,以準(zhǔn)確率作為評(píng)估指標(biāo);(2)六個(gè)視覺(jué)中心問(wèn)答基準(zhǔn)測(cè)試,包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。對(duì)于視覺(jué)理解基準(zhǔn)測(cè)試,我們使用lmmseval [99]中的設(shè)置以實(shí)現(xiàn)統(tǒng)一評(píng)估。對(duì)于視覺(jué)生成評(píng)估,我們構(gòu)建了一個(gè)包含50,000條文本指令的評(píng)估數(shù)據(jù)集,以評(píng)估模型的生成能力。我們采用CLIPscore來(lái)評(píng)估文本指令與生成圖像之間的CLIP分?jǐn)?shù)。此外,我們還使用Fréchet Inception Distance(FID)指標(biāo)來(lái)評(píng)估我們VARGPT模型在ImageNet-1K數(shù)據(jù)集上訓(xùn)練生成的圖像樣本的質(zhì)量。

基線(xiàn)對(duì)比:我們對(duì)我們的VARGPT模型進(jìn)行了對(duì)比分析,對(duì)比對(duì)象是其他用于視覺(jué)理解的多模態(tài)大型語(yǔ)言模型,這些模型與我們模型的規(guī)模相近。對(duì)比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型,以及InstructBLIP [9]和Qwen-VL [2]。此外,我們的對(duì)比研究還擴(kuò)展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在內(nèi)的統(tǒng)一模型。這一全面的對(duì)比使我們能夠評(píng)估VARGPT與該領(lǐng)域多種先進(jìn)模型的關(guān)系。

5.1 主要結(jié)果

5.1.1 多模態(tài)基準(zhǔn)評(píng)估

我們進(jìn)行了零樣本多模態(tài)評(píng)估,并將 VARGPT 與各種用于視覺(jué)理解的多模態(tài)模型進(jìn)行了比較,結(jié)果如表 1 所示。基于這些結(jié)果,我們有幾個(gè)詳細(xì)的觀察:(1)可以看出,我們的方法在視覺(jué)理解方面顯著優(yōu)于大多數(shù)現(xiàn)有的 MLLM 基線(xiàn),包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我們的 VARGPT 在所有基準(zhǔn)和一些視覺(jué)幻覺(jué)評(píng)估基準(zhǔn)(如 POPE)上均取得了更高的性能,這表明了我們方法在視覺(jué)生成中的優(yōu)越性和泛化性。(2)盡管我們的視覺(jué)理解核心架構(gòu)與 LLaVA-1.5 相似,但我們的方法取得了顯著更好的性能,并且在單個(gè)大型模型中支持視覺(jué)生成。(3)與支持生成和理解的其他統(tǒng)一模型(例如SEEDLLaMA [17]和VILA-U [91])相比,我們的模型自然支持混合模式輸出(在對(duì)話(huà)中連續(xù)輸出文本和圖像),并且在視覺(jué)理解方面取得了顯著更好的性能。此外,我們?cè)贚LaVA-Bench基準(zhǔn)測(cè)試上進(jìn)行了樣本分析,部分結(jié)果展示在表6中。觀察結(jié)果表明,與LLaVA-1.5相比,我們的方法在圖像理解能力方面表現(xiàn)出更高的水平,并且在識(shí)別和分析圖像中的幽默元素方面表現(xiàn)出更強(qiáng)的能力。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

表6:VARGPT展示了理解和解釋視覺(jué)內(nèi)容中幽默元素的能力。

5.1.2 視覺(jué)問(wèn)答任務(wù)評(píng)估

我們將各種視覺(jué)問(wèn)答任務(wù)與現(xiàn)有方法進(jìn)行了比較,結(jié)果如表 3 所示。如表 3 所示,我們有以下觀察:(1)VARGPT 在大多數(shù)理解基準(zhǔn)上始終取得最佳結(jié)果,超越了相同參數(shù)規(guī)模的用于視覺(jué)理解的 MLLM。這進(jìn)一步證明了 VARGPT 的有效性;(2)除了取得顯著的理解能力(如在 SciQA-img 基準(zhǔn)上比 LLaVA-1.5 高 12.2%)外,與這些基線(xiàn)相比,VARGPT 還支持視覺(jué)生成能力。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

5.1.3 指令到圖像任務(wù)評(píng)估

為了評(píng)估 VARGPT 的視覺(jué)生成能力,我們構(gòu)建了一個(gè)包含 5 萬(wàn)個(gè)樣本的基于指令的問(wèn)答生成評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集中的指令描述來(lái)自 ImageNet-1K 圖像描述,每個(gè)類(lèi)別限制 50 個(gè)樣本,以確保類(lèi)間平衡表示。為了定量評(píng)估 VARGPT 的指令跟隨能力,我們?cè)u(píng)估了兩個(gè)關(guān)鍵指標(biāo):(1)5 萬(wàn)張生成圖像與 ImageNet-1k 數(shù)據(jù)集之間的 FID 分?jǐn)?shù),(2)通過(guò) CLIP 模型計(jì)算的指令與生成圖像之間的 CLIP 分?jǐn)?shù)。評(píng)估結(jié)果如表 4 所示。此外,我們?cè)趫D 9 中提供了 VARGPT 生成的圖像和對(duì)話(huà)的可視化。觀察分析表明,VARGPT 能夠生成高度符合給定指令的高質(zhì)量圖像。值得注意的是,VARGPT 展示了在單個(gè)對(duì)話(huà)中無(wú)縫集成文本描述和圖像生成的能力,使用單個(gè)統(tǒng)一模型處理多模態(tài)輸入和輸出。這種能力進(jìn)一步凸顯了 VARGPT 在統(tǒng)一視覺(jué)生成和理解任務(wù)中的獨(dú)特優(yōu)勢(shì)。VARGPT 中使用的圖像生成數(shù)據(jù)集(128 萬(wàn) ImageNet)與其他統(tǒng)一模型(如 Show-1:3600 萬(wàn),VILA-U:1500 萬(wàn),Liquid:3000 萬(wàn)圖像)相比,規(guī)模顯著更小且質(zhì)量更低。因此,VARGPT 的圖像生成性能目前落后于這些方法。然而,通過(guò)數(shù)據(jù)縮放提高質(zhì)量的潛力為未來(lái)的研究和發(fā)展提供了有希望的途徑。

VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖9:我們的VARGPT在ImageNet-1K上訓(xùn)練生成的部分256×256樣本。VARGPT支持用戶(hù)文本命令輸入,并同時(shí)輸出文本和圖像模態(tài)數(shù)據(jù)。

5.2方法分析

我們從模型參數(shù)、訓(xùn)練設(shè)置和數(shù)據(jù)效率等方面對(duì)我們的VARGPT進(jìn)行了消融實(shí)驗(yàn),以詳細(xì)評(píng)估各個(gè)組件的有效性。具體來(lái)說(shuō),我們通過(guò)移除特定設(shè)置來(lái)評(píng)估組件的有效性,如表4和表5所示。

訓(xùn)練策略對(duì)生成的影響:如表4所示,省略我們訓(xùn)練協(xié)議中的任何一個(gè)階段或階段組合,都會(huì)導(dǎo)致我們模型的視覺(jué)生成性能顯著下降。值得注意的是,省略第三階段(涉及指令微調(diào))會(huì)導(dǎo)致生成圖像的質(zhì)量和模型遵循給定指令的能力大幅下降。這些發(fā)現(xiàn)強(qiáng)調(diào)了三個(gè)訓(xùn)練階段在提高模型視覺(jué)生成質(zhì)量和文本到圖像能力方面的重要作用。此外,我們還進(jìn)行了額外的實(shí)驗(yàn),在第三階段訓(xùn)練中選擇性地凍結(jié)映射器和視覺(jué)解碼器的參數(shù)。我們的觀察結(jié)果表明,如果在第三階段訓(xùn)練中不微調(diào)這些組件,也會(huì)導(dǎo)致性能下降。這些結(jié)果共同為我們的三階段訓(xùn)練策略的有效性提供了有力證據(jù)。在各種消融場(chǎng)景中觀察到的一致性能下降進(jìn)一步強(qiáng)化了每個(gè)提議組件和階段的重要性。

訓(xùn)練策略對(duì)理解的影響:為了評(píng)估我們的訓(xùn)練策略對(duì)視覺(jué)理解能力的有效性,我們通過(guò)在第二階段訓(xùn)練中選擇性地凍結(jié)組件進(jìn)行了消融研究。具體來(lái)說(shuō),我們?cè)诘诙A段進(jìn)行指令微調(diào)時(shí),分別進(jìn)行了凍結(jié)映射器或LLM骨干的實(shí)驗(yàn)。如表5所示,我們?cè)趦煞N情況下都觀察到了顯著的性能下降。這些結(jié)果進(jìn)一步驗(yàn)證了我們的訓(xùn)練策略在增強(qiáng)視覺(jué)理解能力方面的有效性。這一實(shí)證證據(jù)強(qiáng)調(diào)了允許映射器和LLM骨干在指令微調(diào)階段進(jìn)行適應(yīng)的重要性,突顯了我們提出的訓(xùn)練方法對(duì)模型整體視覺(jué)理解能力的協(xié)同效應(yīng)。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

數(shù)據(jù)效率對(duì)理解的影響:此外,我們還對(duì)我們?cè)诘诙A段訓(xùn)練中使用的混合數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果如表5所示。我們可以觀察到,移除任何一個(gè)理解數(shù)據(jù)集(502K或665K)都會(huì)對(duì)模型的理解性能產(chǎn)生負(fù)面影響。相反,當(dāng)我們進(jìn)一步納入我們構(gòu)建的用于生成的指令數(shù)據(jù)集時(shí),它增強(qiáng)了模型區(qū)分理解指令和生成指令的能力,并準(zhǔn)確提高了VARGPT輸出用于視覺(jué)生成的特殊標(biāo)記(即、和)的能力,而不會(huì)顯著影響其理解性能。

訓(xùn)練損失曲線(xiàn)可視化:我們進(jìn)一步展示了我們模型在第二階段和第三階段訓(xùn)練過(guò)程中的損失曲線(xiàn),如圖10所示。這些損失曲線(xiàn)的趨勢(shì)顯示出合理且一致的下降,為我們的學(xué)習(xí)策略的有效性提供了實(shí)證支持。對(duì)這些曲線(xiàn)的分析表明,訓(xùn)練損失隨時(shí)間呈現(xiàn)出有原則的下降趨勢(shì),這在相當(dāng)程度上證實(shí)了我們提出的學(xué)習(xí)方法的有效性。此外,對(duì)第三階段損失曲線(xiàn)的仔細(xì)檢查表明,模型的視覺(jué)生成能力仍有很大的優(yōu)化潛力。這一觀察結(jié)果表明,延長(zhǎng)訓(xùn)練時(shí)間和擴(kuò)大訓(xùn)練數(shù)據(jù)集可能會(huì)在第三階段帶來(lái)進(jìn)一步的視覺(jué)生成性能提升。


VARGPT:視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


6. 結(jié)論、局限性與未來(lái)工作

6.1 結(jié)論

本文介紹了 VARGPT,這是一種新穎的 MLLM,成功地在統(tǒng)一自回歸框架內(nèi)集成了視覺(jué)理解和生成。通過(guò)采用創(chuàng)新的下一個(gè) token 和下一個(gè)尺度預(yù)測(cè)范式,VARGPT 將傳統(tǒng) MLLM 的能力擴(kuò)展到包括高效的視覺(jué)自回歸生成。該模型的三階段訓(xùn)練管道利用專(zhuān)門(mén)構(gòu)建的數(shù)據(jù)集,實(shí)現(xiàn)了視覺(jué)和文本特征的有效對(duì)齊,增強(qiáng)了理解和生成能力。與 LLaVA-1.5 等現(xiàn)有模型相比,VARGPT 在各種以視覺(jué)為中心的任務(wù)上表現(xiàn)出卓越性能。此外,它在自回歸視覺(jué)生成和文本到圖像合成方面表現(xiàn)出非凡的熟練度。這些成就凸顯了 VARGPT 的多功能性和推動(dòng)多模態(tài)人工智能領(lǐng)域發(fā)展的潛力,為統(tǒng)一多模態(tài)模型的未來(lái)研究提供了有意義的探索。

6.2 局限性

(1)由于我們的視覺(jué)生成數(shù)據(jù)集主要來(lái)源于 ImageNet,VARGPT 與某些擴(kuò)散模型(如 SDv2.1 [69] 和更先進(jìn)的模型如 FLUX [33])之間存在明顯的質(zhì)量差距,這些模型在大規(guī)模高質(zhì)量圖像數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這種差異主要?dú)w因于訓(xùn)練數(shù)據(jù)的不同。此外,在整個(gè)訓(xùn)練過(guò)程中,生成圖像的分辨率始終設(shè)置為 256×256 像素。因此,當(dāng)前版本的 VARGPT 僅支持該分辨率的自回歸圖像生成。(2)盡管 VARGPT 在指令理解和指令到圖像生成方面表現(xiàn)出初步的熟練度,在大多數(shù)情況下能夠有效跟隨用戶(hù)輸入指令,但在某些情況下,指令中的細(xì)微細(xì)節(jié)可能無(wú)法在生成的圖像中得到充分體現(xiàn)。這種局限性在某些情況下會(huì)表現(xiàn)出來(lái),表明模型在全面捕捉和渲染復(fù)雜指令細(xì)節(jié)的能力上仍有改進(jìn)空間。

6.3 未來(lái)工作

(1)為了實(shí)現(xiàn)更高質(zhì)量的圖像生成并支持更高分辨率的輸出,我們計(jì)劃改進(jìn)下一個(gè)尺度預(yù)測(cè)模型架構(gòu),擴(kuò)展圖像數(shù)據(jù)集,提高圖像質(zhì)量,并實(shí)現(xiàn)動(dòng)態(tài)分辨率能力。(2)在后續(xù)版本的 VARGPT 中,我們打算探索支持統(tǒng)一自回歸視頻理解和生成。


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:Xianwei Zhang等

原文鏈接:??https://mp.weixin.qq.com/s/PnzscA1LwdY0lDyX4v6njQ???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-5-7 07:00:42修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
免费在线一级视频| 久久综合加勒比| 免费成人高清在线视频| 亚洲私人黄色宅男| 国产高清在线一区| 日本中文字幕第一页| 日本久久黄色| 欧美一级黄色片| 播放灌醉水嫩大学生国内精品| 经典三级在线| 国产成人免费视| 国产91色在线| 欧美黄色一级网站| 精品99在线| 精品少妇一区二区三区日产乱码| av片中文字幕| 欧洲成人综合网| 国产欧美精品国产国产专区 | 91视频久久久| 欧美黄色一区二区| 亚洲色图国产精品| 95视频在线观看| 黄色成人在线观看网站| 欧美日韩国产精品一区二区三区四区| 一级特黄录像免费播放全99| 午夜视频福利在线| 蜜臀av性久久久久蜜臀av麻豆| 欧美丰满少妇xxxxx| 欧美色图17p| 要久久电视剧全集免费| 日韩限制级电影在线观看| 波多野结衣天堂| 99thz桃花论族在线播放| 中文字幕在线不卡视频| 蜜桃导航-精品导航| 亚洲免费不卡视频| 激情图片小说一区| 国产精品普通话| 天堂中文在线网| 国产精品av一区二区| 日韩中文字幕不卡视频| 久久久久亚洲av成人无码电影| 国产精品久久久网站| 91精品国产综合久久久久久久久久| 久草在在线视频| 午夜欧美激情| 五月天一区二区三区| 大西瓜av在线| 麻豆蜜桃在线| 一区二区欧美精品| 在线观看17c| 在线观看男女av免费网址| 一区在线播放视频| 在线看视频不卡| 日本在线www| 国产精品成人网| 91av久久| 青青国产精品| 在线观看日韩av先锋影音电影院| 大陆极品少妇内射aaaaa| xxx.xxx欧美| 亚洲一二三四区| 免费看日本黄色| 色婷婷av在线| 亚洲一区av在线| 岛国大片在线播放 | 欧美成人精品xxx| 久久精品视频免费在线观看| 欧美在线免费| 欧美福利视频在线观看| 久久精品免费av| 亚洲精品乱码| 日本成人免费在线| 毛片在线免费播放| 蜜桃视频一区二区| 91丝袜美腿美女视频网站| 国产美女免费看| 高清视频一区二区| 精品毛片久久久久久| 美国一级片在线免费观看视频 | 爱啪视频在线观看视频免费| 婷婷开心久久网| 日韩欧美xxxx| 亚洲人体在线| 亚洲福利视频久久| 亚洲一级中文字幕| 97精品一区| 欧美激情综合色| www.国产com| 麻豆精品在线观看| 亚洲一区二区久久久久久久| 姝姝窝人体www聚色窝| 国产欧美日产一区| 男女裸体影院高潮| 中文在线8资源库| 欧美亚洲动漫制服丝袜| 国内av免费观看| 欧美黑人做爰爽爽爽| 亚洲欧美日韩一区二区在线| 亚洲一二三四五六区| 国产一区二区三区四区三区四 | 国产在线观看成人| 视频一区二区不卡| 92国产精品视频| 亚洲欧美日韩精品永久在线| 国产精品久久一卡二卡| 久久精品xxx| 123成人网| 亚洲第一av网| 色哟哟一一国产精品| 精品91在线| 国产精品午夜国产小视频| 成人午夜福利视频| 中文字幕视频一区二区三区久| 日韩xxxx视频| 国产又粗又猛又色又| 国产综合久久久久久鬼色 | 欧美高清视频看片在线观看| 日韩亚洲精品电影| 亚洲婷婷综合网| 国产成人精品1024| 亚洲激情图片| 日本不卡一二三| 精品国产免费人成电影在线观看四季| 成人免费无遮挡无码黄漫视频| 欧美成人一品| 国产精品三级在线| 青青免费在线视频| 亚洲成人av电影在线| 天堂av手机在线| 韩日一区二区三区| 午夜精品视频在线| 99视频国产精品免费观看a| 欧美国产日本视频| 午夜肉伦伦影院| 精品综合久久88少妇激情| 久久影院资源网| 制服丝袜在线一区| 国产色一区二区| 黄色影院一级片| 久久影视三级福利片| 欧美寡妇偷汉性猛交| 国产ts变态重口人妖hd| 1区2区3区精品视频| 天天爱天天操天天干| 国产精品亚洲二区| 人九九综合九九宗合| 天天躁日日躁狠狠躁喷水| 亚洲综合一区二区三区| 在线免费黄色小视频| 亚洲影视一区| 91久久国产综合久久蜜月精品| 免费人成在线观看播放视频| 欧美三片在线视频观看| 黄大色黄女片18免费| 人人狠狠综合久久亚洲| 欧美日韩系列| 欧美性理论片在线观看片免费| 亚洲欧洲美洲在线综合| 国产一级片av| 国产精品久久久一区麻豆最新章节| 久久精品午夜福利| 国产精选一区| 91精品国产综合久久香蕉最新版 | 国产精品三级视频| 色噜噜狠狠一区二区| 午夜久久免费观看| 亚洲一区国产精品| xxx性欧美| 亚洲人精品午夜在线观看| 亚洲国产精品无码久久久| 久久精品亚洲精品国产欧美| 亚洲欧美另类动漫| 91精品久久久久久久久久不卡| 成人a在线观看| 一色桃子av在线| 亚洲电影免费观看高清完整版在线观看| 日本三级黄色大片| 久久久国际精品| 日本黄大片一区二区三区| 亚州av乱码久久精品蜜桃| 99久久综合狠狠综合久久止| 川上优av中文字幕一区二区| 亚洲无线码在线一区观看| 一级黄色大片网站| 亚洲伊人伊色伊影伊综合网| 日本xxx在线播放| 蜜臀av性久久久久av蜜臀妖精| 亚洲国产精品影视| 国产欧美在线视频| 第一av在线| 中文字幕免费精品一区高清| av男人天堂网| 色综合色综合色综合色综合色综合 | 五月婷婷伊人网| 在线观看亚洲a| 69av.com| 91啪亚洲精品| 中文字幕一区二区在线观看视频 | 欧美激情精品久久久久久久变态 | 国产亚洲成年网址在线观看| 国产999免费视频| 久久人人超碰| 男人添女人下部视频免费| 欧美女王vk| 不卡一区二区三区视频| 成人h在线观看| 91av免费观看91av精品在线| 麻豆传媒在线免费| 亚洲免费电影在线观看| 国产三级按摩推拿按摩| 日韩欧美在线一区| 久草成人在线视频| 国产精品成人网| 久久久久久久久久久久久久久| 国产一区二区免费视频| 已婚少妇美妙人妻系列| 伊人久久亚洲影院| 熟女熟妇伦久久影院毛片一区二区| 亚洲香蕉视频| 国产精品亚洲综合| 亚洲伊人精品酒店| 青草成人免费视频| 曰本三级在线| 国产一区二区日韩| 性感美女福利视频| 91精品国产aⅴ一区二区| 丰满人妻老熟妇伦人精品| 国产精品伦理一区二区| 国产人妻人伦精品1国产丝袜| 激情五月婷婷综合| 无码无遮挡又大又爽又黄的视频| 尤物精品在线| 91传媒免费视频| 久久久久久久久久久久久久| 亚洲精品国产一区| 国产精品免费99久久久| 黑人中文字幕一区二区三区| 久久青青视频| 91av视频在线免费观看| 欧美bbbxxxxx| 久久国产精品网站| av免费在线免费观看| 日韩日本欧美亚洲| 成人午夜电影在线观看| 亚洲人成五月天| 天天干天天色天天| 亚洲第一视频网站| 亚洲精品国偷拍自产在线观看蜜桃| 91精品国产综合久久久久久漫画 | 91亚洲一区精品| 国产亚洲欧美日韩精品一区二区三区| 国内精品久久影院| 91福利区在线观看| 国内精品视频一区| 国模私拍视频在线播放| 97在线看福利| 狠狠操一区二区三区| 97在线免费观看| 波多野结衣中文字幕久久| 欧美黄色三级网站| 麻豆福利在线观看| 美女性感视频久久久| 日本片在线观看| 久久久久国色av免费观看性色| 18videosex性欧美麻豆| 欧美激情国产精品| 黄视频在线免费看| 国产69精品久久久久9999| 欧美a级在线观看| 4p变态网欧美系列| 成人福利视频| 欧美亚洲国产另类| 日本精品在线中文字幕| 国产精品美女久久久免费| 成人国产精品一区二区免费麻豆| 91久久在线播放| 午夜日韩影院| 国产伦精品一区二区三区高清版 | 91免费公开视频| 一区二区不卡在线播放| 国产一卡二卡在线| 欧亚一区二区三区| 国产理论片在线观看| 日韩精品专区在线影院观看| 人操人视频在线观看| 中文字幕亚洲一区二区三区五十路| 日本中文字幕视频在线| 久久久国产精品免费| 免费电影网站在线视频观看福利| 国内伊人久久久久久网站视频| 波多野结衣在线播放| 国产精品日韩在线| 欧美久久一区二区三区| 国产在线精品一区二区三区》 | 国产精欧美一区二区三区蓝颜男同| 国产91在线视频| 精品视频国内| 久久久com| 天天做天天爱天天综合网| 国产91xxx| 免费的国产精品| 性猛交╳xxx乱大交| 国产欧美在线观看一区| 欧美手机在线观看| 精品福利免费观看| 国产三级精品在线观看| 亚洲老板91色精品久久| 免费日本一区二区三区视频| 欧洲成人在线观看| 免费一区二区三区在线视频| 免费试看一区| 激情成人综合| 亚洲 欧美 日韩系列| 国产成人精品亚洲午夜麻豆| 国产破处视频在线观看| 午夜私人影院久久久久| 91在线视频国产| 亚洲欧美日韩天堂一区二区| 四虎影院观看视频在线观看| 国产成人亚洲综合91精品| 日韩精品视频中文字幕| 日韩一区二区三区高清| 1024成人| 亚洲av熟女高潮一区二区| 中文久久乱码一区二区| 可以在线观看av的网站| 日韩欧美国产电影| a√资源在线| 2018日韩中文字幕| 丁香婷婷成人| 99热一区二区三区| 轻轻草成人在线| 能直接看的av| 欧美视频二区36p| 欧美自拍第一页| 欧美激情精品久久久久| 国产精品视频首页| 色综合666| 青青草97国产精品免费观看无弹窗版 | 久操精品在线| 国产 日韩 欧美在线| 久久99精品久久久| 日韩一区二区三区四区视频| 欧美日韩视频免费播放| 五月婷婷六月丁香| 欧美成人小视频| 日本成人在线网站| 亚洲国产欧美不卡在线观看| 久久都是精品| 色欲AV无码精品一区二区久久| 精品久久久久久久久久国产 | 色豆豆成人网| 欧美中文娱乐网| 日韩二区三区四区| 乐播av一区二区三区| 亚洲国产色一区| 深夜福利视频网站| 韩剧1988在线观看免费完整版| 国产成人免费视频网站视频社区 | 久久精品视频网| 五月天综合激情网| 亚洲成人教育av| 国产在线一区二区视频| 91久久久亚洲精品| 欧美日韩日本国产亚洲在线| 成年人小视频在线观看| 亚洲福利一二三区| 黄色一级a毛片| 日本人成精品视频在线| 国产成人精品免费视| 亚洲 欧美 日韩 国产综合 在线| 99久久精品国产一区二区三区| 日韩高清免费av| 在线视频欧美日韩| 欧美高清影院| 久久精品在线免费视频| www.成人在线| 日本精品入口免费视频| 夜夜嗨av一区二区三区免费区 | 日韩欧美一级二级三级| 深夜国产在线播放| 国内一区二区三区在线视频| 久久国产精品亚洲77777| 88久久精品无码一区二区毛片| 在线观看日韩电影| 久热国产在线| 国产66精品久久久久999小说| 久久久久99| 四虎永久免费在线| 91精品国产综合久久香蕉的特点| www在线观看黄色| 欧美一区二区三区成人久久片| 国内国产精品久久| 日韩乱码人妻无码中文字幕| 亚洲香蕉av在线一区二区三区| 精品精品视频| 精品一区二区中文字幕| 中文字幕一区免费在线观看| 丰满肉嫩西川结衣av|