VLM與擴(kuò)散模型深度整合,圖像理解生成編輯三合一模型登場,權(quán)重數(shù)據(jù)訓(xùn)練流程全開源
VLM和擴(kuò)散模型被整合到一起了。
ModelScope(魔搭)團(tuán)隊發(fā)布Nexus-Gen V2,一個同時支持圖像理解、生成和編輯的統(tǒng)一模型,而且模型權(quán)重、訓(xùn)練流程和數(shù)據(jù)集全部開源。
這事兒有多重要?今年以來,GPT-4o-Image、Gemini、Blip3O這些大廠的統(tǒng)一模型都在證明一件事:把圖像理解和生成能力塞進(jìn)一個模型,不僅僅是為了省事,更是因為兩種任務(wù)的有機(jī)結(jié)合能帶來意想不到的效果。
魔搭團(tuán)隊其實早在五月就發(fā)布了V1版本,但他們很快發(fā)現(xiàn)了問題:圖像理解能力相比原始VLM掉點嚴(yán)重,圖像生成對提示詞太敏感,編輯細(xì)節(jié)也保持不好。
于是他們憋了幾個月大招,從三個方向全面優(yōu)化,終于拿出了這個V2版本。

在圖像理解上,優(yōu)化了模型的訓(xùn)練策略,極大程度地保留了VLM的理解能力;
在圖像生成上,對所有圖像生成樣本進(jìn)行了重標(biāo)注,采用長短描述同時標(biāo)注并采樣選取的策略,提升了圖像生成的魯棒性,同時加入了中文標(biāo)注樣本,支持了基于中文的圖像生成。
在圖像編輯上,團(tuán)隊系統(tǒng)性地研究了圖像重建效果與圖像編碼token數(shù)量之間的關(guān)系,并設(shè)計了全新的編輯方案。經(jīng)過以上優(yōu)化,Nexus-Gen V2達(dá)到了第一梯隊統(tǒng)一模型的水平,模型的模型權(quán)重和全鏈路訓(xùn)練流程全部開源。
此外,Nexus-Gen V2使用2600萬樣本進(jìn)行訓(xùn)練,包括580萬圖像理解、1330萬圖像生成和630萬圖像編輯樣本,這個大規(guī)模數(shù)據(jù)集已經(jīng)在ModelScope主站上開源。
Nexus-GenV2模型的圖像編輯和生成可視化效果下:

△圖1 Nexus-Gen 圖像生成效果

△圖2 Nexus-Gen 圖像編輯效果
模型架構(gòu)設(shè)計
Nexus-Gen V2沿用了V1的模型架構(gòu)設(shè)計,如圖3 a所示,其核心是將擴(kuò)散模型作為自回歸語言模型(Autoregressive Model)的視覺解碼器(Vision Decoder),并使用一個統(tǒng)一的圖像編碼空間(Image Embedding Space)來連接兩者,并統(tǒng)一建模圖像理解、生成和編輯任務(wù)。
輸入圖像由視覺編碼器(Vision Encoder)編碼到統(tǒng)一編碼空間中,由自回歸模型處理。自回歸模型使用預(yù)填充自回歸策略預(yù)測輸出圖像在編碼空間的特征向量,然后由視覺解碼器解碼為輸出圖像。

△圖3 Nexus-Gen的模型架構(gòu)和訓(xùn)練策略
Autoregressive Model 自回歸模型
如圖3 b所示,Nexus-Gen采用Qwen2.5-VL-7B-Instruct的語言模型部分作為自回歸,并采用其ViT作為視覺編碼器,將視覺編碼器的輸出空間作為統(tǒng)一圖像編碼空間。
在訓(xùn)練時,模型輸出的圖像特征的token數(shù)量固定為N_e(N_e的取值涉及到模型間和效果上的權(quán)衡,將在后續(xù)進(jìn)行講解),圖像特征采用MSE和余弦相似度作為損失函數(shù);對于模型輸出的文本token,Nexus-Gen采用標(biāo)準(zhǔn)的交叉熵來作為損失函數(shù)。
Nexus-Gen的自回歸模型在圖像理解、生成和編輯三個任務(wù)上進(jìn)行了預(yù)訓(xùn)練和視覺質(zhì)量微調(diào)。預(yù)訓(xùn)練用上了全部26M數(shù)據(jù);視覺質(zhì)量微調(diào)只采用了4.3M數(shù)據(jù),其中圖像生成部分僅采用高質(zhì)量樣本。
Generation Decoder 圖像生成解碼器
如圖3 c所示,Nexus-Gen采用Flux.1-Dev作為視覺解碼器。圖像生成任務(wù)的解碼器 (Generation Decoder)采用圖像重建的方式訓(xùn)練:輸入圖像被視覺編碼器編碼為N_e個特征向量,這些特征被作為圖像生成解碼器的輸入條件,用于重建輸入圖像。訓(xùn)練采用的損失函數(shù)為標(biāo)準(zhǔn)Flow Matching的MSE損失函數(shù)。這一訓(xùn)練過程僅使用2M高質(zhì)量的圖像生成數(shù)據(jù)。
圖像Embedding數(shù)量的權(quán)衡
Nexus-Gen采用的視覺編碼器擁有動態(tài)分辯率的編碼能力,圖像分辨率越大,編碼得到的token 數(shù)量越多,編碼包含的細(xì)節(jié)信息越多,信息損失也越少;反之,分辨率越小,編碼更偏向高層語義信息,信息損失越多。使用不同數(shù)量的圖像特征來訓(xùn)練圖像生成解碼器時,圖像重建對比效果如圖4所示。
考慮128x128, 256x256, 512x512三種分辨率和他們對應(yīng)的25,81和324三種token數(shù)量,實驗現(xiàn)象為,token數(shù)量越少,重建效果越差,25個token重建的圖像已經(jīng)出現(xiàn)了語義缺失和圖像畸變的情況。81和324token都能較好地重建出圖像,324token細(xì)節(jié)重建更好。

△圖4 不同token數(shù)量的重建效果
進(jìn)一步地,考慮使用81和324兩個token數(shù)量訓(xùn)練了自回歸模型,再接上對應(yīng)的解碼器,對比生成效果,如圖5所示。可以發(fā)現(xiàn),324 token訓(xùn)練的模型出現(xiàn)了嚴(yán)重的語義重復(fù)現(xiàn)象,生成的圖像質(zhì)量也遠(yuǎn)不如81 token。
主要原因是324個token嚴(yán)重增加了圖像特征預(yù)測任務(wù)的復(fù)雜度,7B的自回歸模型沒法勝任這個任務(wù)。經(jīng)過權(quán)衡,Nexus-Gen最終采用81作為自回歸模型的輸出和圖像生成解碼器的輸入token數(shù)量。

△圖5 81和324 圖像token數(shù)量下的Nexus-Gen生成效果對比
Editing Decoder 圖像編輯解碼器
理論上,只要重建效果足夠好,圖像生成解碼器就能直接完成圖像編輯任務(wù),因為自回歸模型預(yù)測的就是編輯后圖像特征。然而,自回歸和圖像生成解碼器采用的token數(shù)量是81,在這個數(shù)量下,圖像重建能保證整體布局和語義正確,但細(xì)節(jié)重建效果不足,這就導(dǎo)致Nexus-Gen V1版本的圖像編輯功能的細(xì)節(jié)保持效果不足。
因此,Nexus-Gen V2版本重新設(shè)計了圖像編輯解碼器(editing decoder),架構(gòu)如圖3 d所示。編輯解碼器的輸入條件有兩個,第一個是自回歸模型輸出的81個目標(biāo)圖像token,第二個則是圖像編碼器直接編碼的324個原圖Token,用作細(xì)節(jié)信息的補(bǔ)充條件。團(tuán)隊對兩種條件采用不同的位置編碼,并在ImagePulse這個高質(zhì)量圖像編輯數(shù)據(jù)集上訓(xùn)練編輯解碼器,訓(xùn)練的損失函數(shù)仍然是標(biāo)準(zhǔn)Flow Matching的MSE損失函數(shù)。 圖像生成和編輯解碼器在圖像編輯任務(wù)上的效果對比如圖6所示。可以看到編輯解碼器的細(xì)節(jié)保持能力顯著提高。

△圖6 generation 和editing decoder的編輯效果對比
Prefilled Autoregression 策略
自回歸模型在訓(xùn)練時采用teacher-forcing的策略,在推理時則采用token-by-token的預(yù)測方法。將這種自回歸范式直接運用在連續(xù)特征空間的圖像特征預(yù)測上,會帶來比較嚴(yán)重的誤差累積問題。誤差累積的本質(zhì)是訓(xùn)練和推理行為不一致。為了解決這個問題,提出了預(yù)填充自回歸的策略,這一策略與可學(xué)習(xí)Qeury的思路類似,如圖7所示。
在訓(xùn)練時,使用一組可學(xué)習(xí)特殊token填充對應(yīng)位置的圖像特征向量,這樣就可以讓模型學(xué)習(xí)直接預(yù)測任意位置的圖像特征的能力。在推理階段,只要預(yù)測到圖像的起始token BOI,就直接預(yù)填充N_e個特殊token到輸入序列中。通過這種方式,能夠保證訓(xùn)練和推理階段行為的一致性,從而消除誤差累積。

△圖7 預(yù)填充自回歸的策略
訓(xùn)練策略
Nexus-Gen V2的訓(xùn)練分成自回歸模型的訓(xùn)練和視覺解碼器的訓(xùn)練。V1版本發(fā)現(xiàn)模型在理解能力上退化嚴(yán)重,經(jīng)過消融實驗,主要是由于學(xué)習(xí)率過大導(dǎo)致知識遺忘導(dǎo)致的,Nexus-GenV2版本采用的自回歸模型的學(xué)習(xí)率為1e-5。所有訓(xùn)練階段的詳細(xì)訓(xùn)練參數(shù)如表1所示。

△表1 Nexus-Gen訓(xùn)練超參數(shù)
訓(xùn)練數(shù)據(jù)集構(gòu)建
為了對Nexus-Gen的自回歸模型進(jìn)行多任務(wù)協(xié)同優(yōu)化,團(tuán)隊構(gòu)建了一個涵蓋圖像理解、生成和編輯任務(wù)的大規(guī)模數(shù)據(jù)集,數(shù)據(jù)集已經(jīng)在ModelScope開源。除了按照Nexus-Gen V2的訓(xùn)練過程劃分的圖像標(biāo)注外,還針對蓋圖像理解、生成和編輯任務(wù)三個任務(wù)劃分了數(shù)據(jù)集,方便后續(xù)在各個任務(wù)上的使用,詳細(xì)請參考ModelScope數(shù)據(jù)集頁面,鏈接在文末獲取。

△圖8 Nexus-Gen訓(xùn)練數(shù)據(jù)分布
Nexus-Gen的數(shù)據(jù)分布如圖8所示。
圖像理解的數(shù)據(jù)源主要是Cambrian-7M,為了提升數(shù)據(jù)質(zhì)量,使用Qwen2.5-VL-72B對視覺問答問題的所有答案進(jìn)行了重標(biāo)注。
圖像生成數(shù)據(jù)既包含真實圖像數(shù)據(jù)源(Laion-HR,AnyWord),也包含合成圖像數(shù)據(jù)源(EliGen、FLUX-ARS、FLUX-T2I、JourneyDB)。為了提升模型對圖像生成prompt的魯棒性,使用Qwen2.5-VL-72B對所有圖像進(jìn)行重標(biāo)注;在標(biāo)注時,模型同時生成簡短和詳細(xì)兩種圖像描述,訓(xùn)練時以20%的概率采用簡短圖像描述,80%的概率采用詳細(xì)圖像描述。
圖像編輯的數(shù)據(jù)源來自于HQ-Edit,UltraEdit,OmniEdit,StyleBooth等。然而,現(xiàn)有開源圖像編輯的圖像質(zhì)量較差,直接用于Diffusion模型的訓(xùn)練會破壞圖像分布,嚴(yán)重降低圖像質(zhì)量。為此,團(tuán)隊創(chuàng)建了ImagePulse這一高質(zhì)量圖像編輯數(shù)據(jù)集,包含物體的添加、修改和刪除,風(fēng)格遷移和任務(wù)一致性保持幾個子集。
為了支持使用中文進(jìn)行圖像生成和編輯,Nexus-Gen V2使用中文標(biāo)注了部分?jǐn)?shù)據(jù),對應(yīng)分布圖中的FLUX-ZH和ImagePulse-ZH子集。經(jīng)過實驗驗證,僅僅2.5M中文標(biāo)注數(shù)據(jù)就完全模型的中文生成和編輯能力。
模型評測效果
圖像理解
團(tuán)隊在多個Benchmark上對Nexus-Gen進(jìn)行了評測,如表2所示,在這些benchmark上,Nexus-Gen V2比之前經(jīng)過聯(lián)合優(yōu)化的統(tǒng)一模型表現(xiàn)更好。此外,與VLM Baseline模型(Qwen2.5-VL-Instruct-7B)的對比結(jié)果表明,Nexus-Gen以較小的理解能力損失,為自回歸模型增加了圖像生成和編輯能力,這是符合預(yù)期的。

△表2 Nexus-Gen 圖像理解能力評測
圖像生成
在圖像生成benchmark GenEval的評測結(jié)果如表3所示。實驗結(jié)果表明,經(jīng)過多任務(wù)聯(lián)合優(yōu)化的Nexus-Gen模型可以取得0.77的總分。如果進(jìn)一步在blip3o-60k數(shù)據(jù)集上做對圖像生成做一次指令微調(diào),可以將總分提升到0.81。

△表3 Nexus-Gen 圖像生成能力評測
圖像編輯
在圖像編輯benchmark ImagePulse TestSet的評測結(jié)果如表4所示。CLIP-T表明模型與目標(biāo)圖像的語義信息對齊良好。而L1、CLIP-O和DINO-O分?jǐn)?shù)則表明模型與目標(biāo)圖像的細(xì)節(jié)特征對其良好,也證明了此前設(shè)計的圖像編輯解碼器起到了作用。

△表4 Nexus-Gen 圖像編輯能力評測
展望
Nexus-Gen采用了VLM+Diffusion的統(tǒng)一模型路線,同期的MetaQuery、Blip-3o、Uniworld和OmniGen2等都是采用這一路線,每個工作都很出色,都有各自的獨特之處。Nexus-Gen的獨特之處在于并沒有將自回歸模型凍住,而是在圖像理解、生成和編輯任務(wù)上完成了語言模型的統(tǒng)一訓(xùn)練,團(tuán)隊始終認(rèn)為多任務(wù)統(tǒng)一訓(xùn)練和協(xié)同優(yōu)化是統(tǒng)一模型不能逃避的問題,它是統(tǒng)一模型走向更遠(yuǎn)應(yīng)用的關(guān)鍵一步。統(tǒng)一模型的潛力在于理解生成模型相互促進(jìn)的愿景、在于將多模態(tài)推理向前推再推進(jìn)一步的可能,更在于它也許就是下一個世界模型的雛型,這些都是需要統(tǒng)一訓(xùn)練來激發(fā)的。
當(dāng)然,Nexus-Gen模型仍然不是一個成熟完美的模型,模型仍然具有一定的局限性。比如圖像生成的融洽性比不上純Diffusion模型,圖像編輯效果對不同圖像不太穩(wěn)定,圖像生成和編輯的引入也一定程度降低了模型的指令遵行能力。此外,由于類CLIP圖像特征不可避免的信息損失,當(dāng)前架構(gòu)并不能保證完美的圖像重建。但團(tuán)隊也把模型、數(shù)據(jù)、訓(xùn)練過程和經(jīng)驗全部分享和開源,希望促進(jìn)統(tǒng)一模型的快速發(fā)展,歡迎社區(qū)對Nexus-Gen和統(tǒng)一理解與生成模型的技術(shù)未來進(jìn)行廣泛交流。
論文鏈接:https://arxiv.org/pdf/2504.21356
代碼鏈接:https://github.com/modelscope/Nexus-Gen
Nexus-Gen V2模型鏈接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-GenV2
2600萬統(tǒng)一模型數(shù)據(jù)集鏈接:https://www.modelscope.cn/datasets/DiffSynth-Studio/Nexus-Gen-Training-Dataset
在線體驗Demo:https://www.modelscope.cn/studios/DiffSynth-Studio/Nexus-Gen






























