比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！精華

發(fā)布于 2025-8-20 09:50

瀏覽

0收藏

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2508.09987 項(xiàng)目鏈接：https://yejy53.github.io/Echo-4o
Git鏈接：https://github.com/yejy53/Echo-4o 數(shù)據(jù)集：https://huggingface.co/datasets/Yejy53/Echo-4o-Image/

亮點(diǎn)直擊

分析并總結(jié)了合成數(shù)據(jù)相對(duì)于真實(shí)世界圖像的優(yōu)勢(shì)，強(qiáng)調(diào)其能夠生成罕見(jiàn)場(chǎng)景，并為指令跟隨任務(wù)提供純凈、長(zhǎng)尾分布的監(jiān)督信號(hào)。
Echo-4o-Image，一個(gè)包含18萬(wàn)樣本的合成數(shù)據(jù)集，使用GPT-4o生成，涵蓋超現(xiàn)實(shí)場(chǎng)景、多參考生成和指令跟隨任務(wù)。
數(shù)據(jù)集上微調(diào)Bagel模型，得到統(tǒng)一生成模型Echo-4o，該模型在多個(gè)基準(zhǔn)測(cè)試中達(dá)到SOTA。數(shù)據(jù)集還能持續(xù)提升其他骨干（如OmniGen2和BLIP3-o），展現(xiàn)強(qiáng)大可遷移性。
兩個(gè)新評(píng)測(cè)基準(zhǔn)：GenEval++通過(guò)增加指令復(fù)雜度緩解文本到圖像評(píng)測(cè)中的分?jǐn)?shù)飽和問(wèn)題；Imagine-Bench專(zhuān)注于幻想任務(wù)，旨在評(píng)估對(duì)想象內(nèi)容的理解與生成能力。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

現(xiàn)實(shí)世界圖像數(shù)據(jù)集的局限性：

缺乏罕見(jiàn)場(chǎng)景（如超現(xiàn)實(shí)幻想、多參考圖像生成），無(wú)法滿(mǎn)足用戶(hù)多樣化需求。
存在背景噪聲和文本-圖像不對(duì)齊問(wèn)題，影響模型學(xué)習(xí)的準(zhǔn)確性。
長(zhǎng)尾分布不足（如特定屬性組合“8個(gè)紅蘋(píng)果”），導(dǎo)致模型難以處理復(fù)雜指令。

開(kāi)源模型與GPT-4o的生成能力差距：

在指令對(duì)齊、想象力生成和多參考合成等任務(wù)上表現(xiàn)較弱。

提出的方案

構(gòu)建合成數(shù)據(jù)集Echo-4o-Image：

超現(xiàn)實(shí)幻想（38K樣本，如“撲克牌組成的火車(chē)”）。
多參考生成（73K樣本，支持多圖像融合）。
復(fù)雜指令對(duì)齊（68K樣本，純凈背景+精準(zhǔn)屬性控制）。
利用GPT-4o生成18萬(wàn)條高質(zhì)量合成數(shù)據(jù)，覆蓋三類(lèi)關(guān)鍵場(chǎng)景：
通過(guò)合成數(shù)據(jù)彌補(bǔ)現(xiàn)實(shí)數(shù)據(jù)的盲區(qū)，提供干凈、可控的監(jiān)督信號(hào)。

訓(xùn)練新模型Echo-4o：

基于開(kāi)源基線模型Bagel，用Echo-4o-Image微調(diào)，提升生成能力。

新評(píng)測(cè)基準(zhǔn)：

GenEval++：增加指令復(fù)雜度，解決現(xiàn)有評(píng)測(cè)分?jǐn)?shù)飽和問(wèn)題。
Imagine-Bench：專(zhuān)注評(píng)估想象力生成（幻想實(shí)現(xiàn)、身份保持、美學(xué)質(zhì)量）。

應(yīng)用的技術(shù)

數(shù)據(jù)蒸餾技術(shù)：

從GPT-4o生成數(shù)據(jù)中提取高質(zhì)量合成樣本，遷移至開(kāi)源模型。

多模態(tài)生成模型微調(diào)：

統(tǒng)一框架（如Bagel）適配文本到圖像、多參考生成等任務(wù)。

自動(dòng)化評(píng)估體系：

基于GPT-4.1的自動(dòng)評(píng)分，結(jié)合人工驗(yàn)證，確保評(píng)測(cè)嚴(yán)謹(jǐn)性。

達(dá)到的效果

模型性能提升：

Echo-4o在標(biāo)準(zhǔn)評(píng)測(cè)（GenEval、DPG、OmniContext）和新基準(zhǔn)（GenEval++、Imagine-Bench）中表現(xiàn)優(yōu)異，尤其在復(fù)雜指令遵循和想象力生成上顯著領(lǐng)先。
支持多參考生成，實(shí)現(xiàn)多圖像融合與視覺(jué)一致性。

數(shù)據(jù)集泛化性：

Echo-4o-Image遷移至其他模型（如OmniGen2、BLIP3-o）后，多項(xiàng)指標(biāo)一致提升，證明其通用性。

解決現(xiàn)實(shí)數(shù)據(jù)缺陷：

合成數(shù)據(jù)有效補(bǔ)充長(zhǎng)尾分布、純凈對(duì)齊和幻想場(chǎng)景，縮小與閉源模型的差距。

Echo-4o-Image

Echo-4o-Image——一個(gè)從GPT-4o蒸餾得到的大規(guī)模合成數(shù)據(jù)集。如圖3所示，該數(shù)據(jù)集包含約17.9萬(wàn)個(gè)樣本，涵蓋三種任務(wù)類(lèi)型：

3.8萬(wàn)項(xiàng)超現(xiàn)實(shí)幻想生成任務(wù)
7.3萬(wàn)項(xiàng)多參考圖像生成任務(wù)
6.8萬(wàn)項(xiàng)復(fù)雜指令執(zhí)行任務(wù)

其中，超現(xiàn)實(shí)幻想和多參考生成子集包含現(xiàn)有資源中罕見(jiàn)或代表性不足的數(shù)據(jù)。下文將詳細(xì)說(shuō)明數(shù)據(jù)集構(gòu)建流程與策略。

超現(xiàn)實(shí)幻想圖像生成

本文構(gòu)建了專(zhuān)注于超現(xiàn)實(shí)幻想內(nèi)容的文本到圖像數(shù)據(jù)子集。這類(lèi)提示詞涉及對(duì)物體常規(guī)屬性、時(shí)間或空間的不規(guī)則修改。雖然該數(shù)據(jù)類(lèi)型在用戶(hù)請(qǐng)求中占比很大，但在真實(shí)訓(xùn)練數(shù)據(jù)中卻十分罕見(jiàn)。

如下圖3(a)所示，設(shè)計(jì)了結(jié)構(gòu)化流程來(lái)構(gòu)建Echo-4o-Image的幻想生成子集：

從COCO和Open Images數(shù)據(jù)集中收集常見(jiàn)物體概念作為生成主體
GPT-4o先進(jìn)行身份屬性構(gòu)建（描述顏色/形狀/尺寸等規(guī)范屬性）
隨后執(zhí)行概念變形，通過(guò)創(chuàng)造性修改和重組引入新穎特征

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

變形主要分為三類(lèi)：

屬性替換：改變常規(guī)特征（如白色香蕉、立方體足球、手掌大小的長(zhǎng)頸鹿）
混合重組：重定義物體材質(zhì)（如水晶番茄）或組合不同物體（如香蕉構(gòu)成的房屋）
時(shí)空異常：將物體置于不可能的場(chǎng)景（如云層中的火車(chē)）或融合不同時(shí)代特征（如帶有未來(lái)科技的古代文物）

本文還將單物體提示擴(kuò)展到多物體幻想組合，使GPT-4o生成涉及多個(gè)實(shí)體互動(dòng)的超現(xiàn)實(shí)指令，最終產(chǎn)出視覺(jué)連貫且富有創(chuàng)意的樣本。

多參考圖像生成

多參考圖像生成以若干參考圖像和文本提示為輸入，要求提取各圖像元素并組合成連貫輸出。該任務(wù)既需要強(qiáng)大的提示理解能力，又要求保留各參考圖像的顯著特征并實(shí)現(xiàn)無(wú)縫融合。與超現(xiàn)實(shí)幻想生成類(lèi)似，現(xiàn)成訓(xùn)練數(shù)據(jù)極其有限。

如上圖3(b)所示，我們?cè)O(shè)計(jì)了包含人物/物體/場(chǎng)景的多參考組合（每樣本2-4張輸入圖像），參考圖像涵蓋肖像、街拍、動(dòng)物、物品、服飾、自然景觀、地標(biāo)和室內(nèi)場(chǎng)景等多元類(lèi)別。

使用GPT-4o生成基于參考圖像的指令時(shí)：

每條指令針對(duì)特定交互類(lèi)型（如人-物、物-景）
明確標(biāo)注圖像索引（如Image_1/Image_2）以降低歧義
生成目標(biāo)圖像后，通過(guò)改寫(xiě)策略提升語(yǔ)言多樣性和語(yǔ)義清晰度

改寫(xiě)過(guò)程中，可能將"Image_1"等索引替換為對(duì)應(yīng)物體的具體描述，從而增強(qiáng)訓(xùn)練數(shù)據(jù)質(zhì)量和模型在多圖像生成任務(wù)中的泛化能力。

指令跟隨數(shù)據(jù)生成

針對(duì)文本到圖像的指令跟隨任務(wù)，通過(guò)引入更復(fù)雜的多物體多屬性指令來(lái)合成數(shù)據(jù)。如圖3(c)所示：

精選基礎(chǔ)物體概念集
采用模板驅(qū)動(dòng)策略系統(tǒng)構(gòu)建包含顏色/位置/數(shù)量/尺寸等屬性的提示詞
使用GPT-4o生成圖像

相比真實(shí)數(shù)據(jù)，合成數(shù)據(jù)具有兩大優(yōu)勢(shì)：純凈指令對(duì)齊：GPT-4o生成的圖像通常具有簡(jiǎn)潔背景且無(wú)無(wú)關(guān)物體。例如生成"小提琴與兩雙筷子"時(shí)，這些物體會(huì)直接呈現(xiàn)在整潔背景上。這種視覺(jué)純凈性降低了指令跟隨任務(wù)的學(xué)習(xí)難度。

可控長(zhǎng)尾組合：相比僅包含有限語(yǔ)義概念的Geneval，我們的數(shù)據(jù)集顯著提升指令復(fù)雜度。例如：

GenEval最復(fù)雜提示可能僅含4個(gè)語(yǔ)義單元（如"橙色電視和綠色蝴蝶結(jié)"）
本文的數(shù)據(jù)集包含"橙色電視、綠色蝴蝶結(jié)和黃色螺絲刀"或"皮帶、盤(pán)子和三個(gè)乒乓球拍"等組合

通過(guò)增加物體數(shù)量及其屬性，我們解決了真實(shí)圖像分布中長(zhǎng)尾數(shù)據(jù)稀缺的問(wèn)題。

盡管使用最先進(jìn)的GPT-4o生成圖像，仍可能出現(xiàn)對(duì)齊錯(cuò)誤（生成圖像與提示不完全匹配）。為此我們引入文本改寫(xiě)策略確保數(shù)據(jù)可用性，核心原則是："沒(méi)有無(wú)效圖像，只有無(wú)效文本"。當(dāng)檢測(cè)到不對(duì)齊時(shí)，根據(jù)生成圖像修正原始文本，使每個(gè)圖像-指令對(duì)構(gòu)成語(yǔ)義有效且一致的訓(xùn)練樣本。例如圖4中，若生成圖像包含3塊手表而文本指定4塊，則將描述修正為3塊。通過(guò)改寫(xiě)而非丟棄樣本，我們充分釋放了GPT-4o合成數(shù)據(jù)的價(jià)值。

Echo-4o

為了驗(yàn)證本文精心構(gòu)建的Echo-4o-Image數(shù)據(jù)集的有效性，對(duì)強(qiáng)基線模型Bagel進(jìn)行微調(diào)，得到了Echo-4o——一個(gè)在文本到圖像和多參考生成任務(wù)中均表現(xiàn)卓越的統(tǒng)一多模態(tài)生成模型。

Bagel是一個(gè)統(tǒng)一的多模態(tài)生成模型，能夠同時(shí)實(shí)現(xiàn)圖像理解和生成。該模型支持文本到圖像生成和單圖像到圖像生成任務(wù)，包括圖像編輯和自由形式操控。在架構(gòu)上，Bagel采用ViT進(jìn)行圖像理解，VAE進(jìn)行圖像生成，并使用了混合專(zhuān)家（mixture of transformers）方法，其中一個(gè)專(zhuān)家處理VAE token，另一個(gè)專(zhuān)家處理所有其他token。對(duì)于多參考任務(wù)，圖像的ViT和VAE特征均輸入模型。然而，盡管多圖像輸入在架構(gòu)上是可行的，Bagel在多參考生成任務(wù)上的表現(xiàn)較差。

本文使用Echo-4o-Image中的所有文本到圖像和多參考數(shù)據(jù)對(duì)Bagel進(jìn)行微調(diào)。訓(xùn)練目標(biāo)采用僅針對(duì)輸出圖像計(jì)算的流匹配損失（flow matching loss）。除VAE外，對(duì)所有模型組件進(jìn)行了24,000步訓(xùn)練，學(xué)習(xí)率為2e^-5。通過(guò)這一微調(diào)過(guò)程，Echo-4o在多參考生成任務(wù)上取得了卓越的性能，同時(shí)進(jìn)一步提升了文本到圖像生成能力（詳見(jiàn)第5節(jié)）。我們特意選擇Bagel作為基線模型，因?yàn)樗跀?shù)萬(wàn)億token的交錯(cuò)多模態(tài)數(shù)據(jù)進(jìn)行了訓(xùn)練。Echo-4o-Image在這一經(jīng)過(guò)廣泛訓(xùn)練的模型上仍能帶來(lái)顯著提升，這證明了精心設(shè)計(jì)的合成數(shù)據(jù)的互補(bǔ)價(jià)值。

GenEval++ & Imagine-Bench

指令跟隨評(píng)估——GenEval++

以往的指令跟隨基準(zhǔn)測(cè)試（如GenEval）被廣泛用于評(píng)估圖像生成模型遵循文本指令的能力。然而，這些基準(zhǔn)測(cè)試通常依賴(lài)目標(biāo)檢測(cè)器或基于CLIP的模型進(jìn)行自動(dòng)評(píng)分，而這兩種方法在準(zhǔn)確性上存在顯著局限性。如圖4所示，在GenEval中，當(dāng)評(píng)估“綠色熱狗”等提示詞時(shí)，檢測(cè)器經(jīng)常因“熱狗”（一種食物）與綠色之間的弱關(guān)聯(lián)而做出錯(cuò)誤判斷——盡管生成的圖像在視覺(jué)上是正確的。類(lèi)似地，物體之間的遮擋可能導(dǎo)致計(jì)數(shù)不準(zhǔn)確，從而產(chǎn)生假陰性結(jié)果。此外，現(xiàn)有基準(zhǔn)測(cè)試中的文本指令相對(duì)簡(jiǎn)單，語(yǔ)義多樣性有限。因此，當(dāng)前模型的得分通常在0.8–0.9之間，表明指標(biāo)飽和，從而限制了這些基準(zhǔn)測(cè)試的區(qū)分能力。

為了解決這些局限性，本文推出了GenEval++，這是一個(gè)更準(zhǔn)確、更具挑戰(zhàn)性的基準(zhǔn)測(cè)試，用于評(píng)估圖像生成中的指令遵循能力。如下圖4所示，GenEval++采用GPT-4.1多模態(tài)模型作為評(píng)估器，利用其強(qiáng)大的復(fù)雜語(yǔ)義組合理解能力來(lái)評(píng)估生成圖像與文本指令的一致性。根據(jù)預(yù)定義的檢查清單（涵蓋對(duì)象、數(shù)量、顏色、位置和大小等多重標(biāo)準(zhǔn)），評(píng)估器僅在所有條件均滿(mǎn)足時(shí)才判定結(jié)果為正確。此外，該基準(zhǔn)測(cè)試覆蓋了七種任務(wù)類(lèi)型，涉及不同屬性組合，每種類(lèi)型包含40個(gè)高復(fù)雜度提示詞，總計(jì)280條文本指令。GenEval++具有更豐富的語(yǔ)義和更多樣的組合，任務(wù)難度顯著高于原始GenEval。另外，為了與“一張……的照片”的提示風(fēng)格保持一致，動(dòng)漫風(fēng)格或包含多個(gè)不相關(guān)元素的輸出被視為無(wú)效。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

超現(xiàn)實(shí)與幻想評(píng)估——Imagine-Bench

此外，現(xiàn)有的評(píng)估協(xié)議主要關(guān)注現(xiàn)實(shí)世界生成任務(wù)。然而，生成模型的真正價(jià)值不僅在于再現(xiàn)現(xiàn)實(shí)，還在于創(chuàng)造未知，這與用戶(hù)驅(qū)動(dòng)的創(chuàng)意指令的重要組成部分相契合。為此，我們推出了一個(gè)新的基準(zhǔn)測(cè)試Imagine-Bench，旨在評(píng)估模型在超現(xiàn)實(shí)和幻想圖像生成中的能力。Imagine-Bench的主要任務(wù)是為常見(jiàn)物體添加奇幻元素，同時(shí)保留其核心身份特征。例如，指令“一個(gè)方形的足球”要求模型將形狀改為立方體，同時(shí)保留標(biāo)準(zhǔn)的黑白足球紋理。此類(lèi)任務(wù)對(duì)當(dāng)前理解-生成統(tǒng)一模型提出了嚴(yán)格挑戰(zhàn)，因?yàn)樗鼈冃枰蚱聘拍钆c外觀之間的固有關(guān)聯(lián)，以實(shí)現(xiàn)真正的創(chuàng)造性合成。

Imagine-Bench包含270條多樣化的創(chuàng)意指令，涵蓋廣泛的超現(xiàn)實(shí)屬性。在評(píng)估過(guò)程中，每條指令首先由GPT-4o處理，生成相應(yīng)的檢查清單，包含詳細(xì)解釋和預(yù)期結(jié)果（包括所需的奇幻修改和物體不變身份特征的描述）。給定提示詞和生成的圖像，GPT-4.1從三個(gè)維度進(jìn)行評(píng)分：

幻想實(shí)現(xiàn)度（Fantasy Fulfillment）——生成的圖像是否忠實(shí)實(shí)現(xiàn)了提示詞的超現(xiàn)實(shí)方面；
身份保留度（Identity Preservation）——變換后的物體是否保留了其原始身份的基本視覺(jué)特征；
美學(xué)質(zhì)量（Aesthetic Quality）——生成圖像的視覺(jué)吸引力、創(chuàng)造力和多樣性。

受VIEScore和OmniGen2評(píng)估協(xié)議的啟發(fā)，GPT-4.1為每個(gè)維度給出0–10的評(píng)分，并為每個(gè)評(píng)分提供明確的推理，確保評(píng)估的嚴(yán)謹(jǐn)性和可解釋性。進(jìn)一步采用更嚴(yán)格的評(píng)分方案，最終得分為：

實(shí)驗(yàn)

本節(jié)對(duì)Echo-4o進(jìn)行全面評(píng)估，重點(diǎn)關(guān)注其在多樣化生成任務(wù)中的表現(xiàn)，包括指令跟隨圖像生成、超現(xiàn)實(shí)/幻想圖像合成以及多參考圖像生成。結(jié)果表明，Echo-4o在這些任務(wù)中均表現(xiàn)優(yōu)異，凸顯了Echo-4o-Image合成數(shù)據(jù)集在提升生成模型能力方面的有效性。

指令跟隨圖像生成

在兩個(gè)廣泛使用的基準(zhǔn)測(cè)試——GenEval和DPG-Bench，以及新提出的GenEval++上評(píng)估模型的指令跟隨能力。如下表1所示，Echo-4o在GenEval上取得了0.89的分?jǐn)?shù)，優(yōu)于Bagel和OmniGen2等先前的統(tǒng)一模型。在DPG-Bench（下表2）上，Echo-4o以86.07的總分超越了SD3和UniWorld等強(qiáng)勁競(jìng)爭(zhēng)對(duì)手。這些結(jié)果表明，Echo-4o在不同類(lèi)型的基準(zhǔn)測(cè)試中均表現(xiàn)優(yōu)異，展現(xiàn)了其在短文本和復(fù)雜長(zhǎng)文本指令上的強(qiáng)大指令跟隨生成能力。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

在現(xiàn)有的文本到圖像指令跟隨任務(wù)中，Echo-4o始終表現(xiàn)卓越。與基線模型Bagel相比，Echo-4o在GenEval上實(shí)現(xiàn)了8.5%的提升，驗(yàn)證了Echo-4o-Image數(shù)據(jù)集中純合成數(shù)據(jù)對(duì)增強(qiáng)指令跟隨能力的有效性。這些干凈背景的樣本提升了模型學(xué)習(xí)圖像與文本指令之間精確對(duì)齊的能力。盡管訓(xùn)練數(shù)據(jù)主要由短文本指令組成，但模型在復(fù)雜長(zhǎng)文本生成任務(wù)上也表現(xiàn)出強(qiáng)大的泛化能力，DPG-Bench上的表現(xiàn)即為明證。

此外，在新提出的更具挑戰(zhàn)性的GenEval++基準(zhǔn)測(cè)試上，大多數(shù)模型表現(xiàn)不佳，得分低于0.4。盡管GenEval++的任務(wù)與GenEval的主要區(qū)別僅在于增加了一兩個(gè)額外對(duì)象及其屬性，但這一看似微小的變化顯著提高了任務(wù)難度。例如，生成五個(gè)熱狗比生成四個(gè)更具挑戰(zhàn)性。早期的基于擴(kuò)散的模型（如SDXL）在此類(lèi)場(chǎng)景中幾乎完全無(wú)法遵循指令。即使是Bagel和OmniGen2等先進(jìn)統(tǒng)一模型（在GenEval上與GPT-4o差距較小），在這些更難的任務(wù)上也遠(yuǎn)遠(yuǎn)落后。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

Echo-4o在所有模型中（除GPT-4o外）表現(xiàn)最佳，超越OmniGen2和Bagel達(dá)40%以上。這凸顯了Echo-4o強(qiáng)大的指令跟隨能力，這與Echo-4o-Image中包含更復(fù)雜、長(zhǎng)尾的屬性數(shù)據(jù)密切相關(guān)。下圖5進(jìn)一步提供了不同模型的定性比較。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

超現(xiàn)實(shí)幻想圖像生成

本文在Imagine-Bench基準(zhǔn)測(cè)試上評(píng)估了多個(gè)模型的理解和創(chuàng)意能力，結(jié)果如下表4所示。傳統(tǒng)圖像生成模型在此任務(wù)上表現(xiàn)不佳，主要因其訓(xùn)練范式通常在文本概念與視覺(jué)表征之間建立直接綁定。受限于有限的理解能力，這些模型難以區(qū)分現(xiàn)有物體的固有概念與幻想導(dǎo)向指令中指定的額外要求。BLIP3o和OmniGen2等統(tǒng)一模型得益于更強(qiáng)的理解能力，取得了稍好的結(jié)果。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

在開(kāi)源模型中，Echo-4o表現(xiàn)最佳，直接受益于Echo-4o-Image中包含的幻想導(dǎo)向圖像數(shù)據(jù)。這些數(shù)據(jù)突破了現(xiàn)實(shí)世界圖像的領(lǐng)域限制，從而以相對(duì)直接的方式提升了性能。未來(lái)工作可探索更系統(tǒng)的方法，進(jìn)一步提升統(tǒng)一模型在理解和創(chuàng)意生成上的能力。

多參考圖像生成

使用OminiContext基準(zhǔn)測(cè)試評(píng)估多參考圖像生成能力。現(xiàn)有圖像生成模型和統(tǒng)一架構(gòu)對(duì)這一能力的探索仍顯不足。開(kāi)源模型中僅OmniGen2進(jìn)行了初步嘗試，F(xiàn)LUX和Bagel等多數(shù)模型要么缺乏原生支持，要么完全無(wú)法適配多參考場(chǎng)景。通過(guò)利用專(zhuān)為多參考場(chǎng)景設(shè)計(jì)的合成數(shù)據(jù)，Echo-4o獲得了基礎(chǔ)Bagel架構(gòu)所不具備的該能力。

如下表5所示，Echo-4o在MULTIPLE和SCENE兩種設(shè)置下均優(yōu)于所有開(kāi)源模型，較Bagel基線實(shí)現(xiàn)顯著提升，并超越此前最佳開(kāi)源模型OmniGen2。下圖7的定性對(duì)比進(jìn)一步表明，在二圖或三圖參考生成任務(wù)中，Echo-4o在指令遵循和參考圖像內(nèi)容保真度上持續(xù)優(yōu)于OmniGen2。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

基礎(chǔ)模型的普適有效性

為驗(yàn)證Echo-4o-Image數(shù)據(jù)集的廣泛有效性，本文使用該合成數(shù)據(jù)對(duì)多個(gè)現(xiàn)有統(tǒng)一模型進(jìn)行微調(diào)實(shí)驗(yàn)。如下圖1(b)所示，BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基準(zhǔn)測(cè)試上均獲得一致提升。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

這些結(jié)果表明，Echo-4o-Image能為不同基礎(chǔ)模型提供通用性增強(qiáng)，顯著改善其指令理解、幻想圖像合成和多參考圖像生成能力。跨任務(wù)與跨架構(gòu)的穩(wěn)定增益證實(shí)了該數(shù)據(jù)集的廣泛適用性，及其對(duì)統(tǒng)一多模態(tài)生成模型高質(zhì)量微調(diào)的重要價(jià)值。

與ShareGPT-4o-Image的對(duì)比

本文進(jìn)一步將本數(shù)據(jù)集與GPT-4o衍生的另一合成數(shù)據(jù)集ShareGPT-4o-Image進(jìn)行對(duì)比。在相同訓(xùn)練設(shè)置下，兩者均用于微調(diào)Bagel基線模型直至收斂。下圖8顯示：Echo-4o-Image使指令跟隨能力大幅提升（GenEval分?jǐn)?shù)從0.820增至0.895），而ShareGPT-4o-Image僅帶來(lái)邊際改善（增至0.838）。GenEval++上也呈現(xiàn)相似趨勢(shì)。

比真圖更香？統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型，多項(xiàng)SOTA，效果炸裂！-AI.x社區(qū)

該差異可能源于ShareGPT-4o-Image大量數(shù)據(jù)源自ALLaVA的文本輸入（已包含高質(zhì)量真實(shí)圖像對(duì)），導(dǎo)致其本質(zhì)上復(fù)現(xiàn)了真實(shí)數(shù)據(jù)集的圖像，對(duì)指令跟隨的增益有限。不過(guò)ShareGPT-4o-Image仍能提升美學(xué)對(duì)齊能力。值得注意的是，ShareGPT-4o-Image缺少多參考圖像生成數(shù)據(jù)——這一Echo-4o-Image成功實(shí)現(xiàn)的關(guān)鍵能力——進(jìn)一步突顯后者的廣泛實(shí)用性。

結(jié)論

本研究提出由GPT-4o生成的大規(guī)模合成數(shù)據(jù)集Echo-4o-Image，并通過(guò)開(kāi)發(fā)Echo-4o驗(yàn)證其在增強(qiáng)統(tǒng)一多模態(tài)生成模型方面的有效性。同時(shí)，推出Geneval++和Imagine-Bench兩個(gè)新基準(zhǔn)測(cè)試，為圖像生成能力提供更全面、更具挑戰(zhàn)性的評(píng)估框架。

實(shí)驗(yàn)結(jié)果表明，高質(zhì)量合成數(shù)據(jù)集Echo-4o-Image能有效彌補(bǔ)真實(shí)數(shù)據(jù)集的局限，并跨不同基礎(chǔ)模型實(shí)現(xiàn)知識(shí)遷移。期望該數(shù)據(jù)集的開(kāi)源能通過(guò)合成數(shù)據(jù)填補(bǔ)真實(shí)圖像缺口，推動(dòng)統(tǒng)一多模態(tài)生成模型在指令跟隨、創(chuàng)意生成和多參考圖像合成等能力的進(jìn)步。未來(lái)工作將擴(kuò)展數(shù)據(jù)集至圖像編輯任務(wù)（另一高質(zhì)量真實(shí)數(shù)據(jù)稀缺的場(chǎng)景），并對(duì)FLUX等更多模型進(jìn)行微調(diào)，進(jìn)一步驗(yàn)證其通用性和影響力。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/J1dCttWfEM1QqFdjnfIu0A??

標(biāo)簽

模型

圖像生成

贊

回復(fù)