精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂! 精華

發(fā)布于 2025-8-20 09:50
瀏覽
0收藏

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2508.09987 項(xiàng)目鏈接:https://yejy53.github.io/Echo-4o 
Git鏈接:https://github.com/yejy53/Echo-4o 數(shù)據(jù)集:https://huggingface.co/datasets/Yejy53/Echo-4o-Image/ 

亮點(diǎn)直擊

  • 分析并總結(jié)了合成數(shù)據(jù)相對(duì)于真實(shí)世界圖像的優(yōu)勢(shì),強(qiáng)調(diào)其能夠生成罕見(jiàn)場(chǎng)景,并為指令跟隨任務(wù)提供純凈、長(zhǎng)尾分布的監(jiān)督信號(hào)
  • Echo-4o-Image,一個(gè)包含18萬(wàn)樣本的合成數(shù)據(jù)集,使用GPT-4o生成,涵蓋超現(xiàn)實(shí)場(chǎng)景多參考生成指令跟隨任務(wù)
  • 數(shù)據(jù)集上微調(diào)Bagel模型,得到統(tǒng)一生成模型Echo-4o,該模型在多個(gè)基準(zhǔn)測(cè)試中達(dá)到SOTA。數(shù)據(jù)集還能持續(xù)提升其他骨干(如OmniGen2和BLIP3-o),展現(xiàn)強(qiáng)大可遷移性。
  • 兩個(gè)新評(píng)測(cè)基準(zhǔn):GenEval++通過(guò)增加指令復(fù)雜度緩解文本到圖像評(píng)測(cè)中的分?jǐn)?shù)飽和問(wèn)題;Imagine-Bench專(zhuān)注于幻想任務(wù),旨在評(píng)估對(duì)想象內(nèi)容的理解與生成能力

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  1. 現(xiàn)實(shí)世界圖像數(shù)據(jù)集的局限性
  • 缺乏罕見(jiàn)場(chǎng)景(如超現(xiàn)實(shí)幻想、多參考圖像生成),無(wú)法滿(mǎn)足用戶(hù)多樣化需求。
  • 存在背景噪聲文本-圖像不對(duì)齊問(wèn)題,影響模型學(xué)習(xí)的準(zhǔn)確性。
  • 長(zhǎng)尾分布不足(如特定屬性組合“8個(gè)紅蘋(píng)果”),導(dǎo)致模型難以處理復(fù)雜指令。
  1. 開(kāi)源模型與GPT-4o的生成能力差距
  • 指令對(duì)齊想象力生成多參考合成等任務(wù)上表現(xiàn)較弱。

提出的方案

  1. 構(gòu)建合成數(shù)據(jù)集Echo-4o-Image
  • 超現(xiàn)實(shí)幻想(38K樣本,如“撲克牌組成的火車(chē)”)。
  • 多參考生成(73K樣本,支持多圖像融合)。
  • 復(fù)雜指令對(duì)齊(68K樣本,純凈背景+精準(zhǔn)屬性控制)。
  • 利用GPT-4o生成18萬(wàn)條高質(zhì)量合成數(shù)據(jù),覆蓋三類(lèi)關(guān)鍵場(chǎng)景:
  • 通過(guò)合成數(shù)據(jù)彌補(bǔ)現(xiàn)實(shí)數(shù)據(jù)的盲區(qū),提供干凈、可控的監(jiān)督信號(hào)
  1. 訓(xùn)練新模型Echo-4o
  • 基于開(kāi)源基線模型Bagel,用Echo-4o-Image微調(diào),提升生成能力。
  1. 新評(píng)測(cè)基準(zhǔn)
  • GenEval++:增加指令復(fù)雜度,解決現(xiàn)有評(píng)測(cè)分?jǐn)?shù)飽和問(wèn)題。
  • Imagine-Bench:專(zhuān)注評(píng)估想象力生成(幻想實(shí)現(xiàn)、身份保持、美學(xué)質(zhì)量)。

應(yīng)用的技術(shù)

  1. 數(shù)據(jù)蒸餾技術(shù)
  • 從GPT-4o生成數(shù)據(jù)中提取高質(zhì)量合成樣本,遷移至開(kāi)源模型。
  1. 多模態(tài)生成模型微調(diào)
  • 統(tǒng)一框架(如Bagel)適配文本到圖像、多參考生成等任務(wù)。
  1. 自動(dòng)化評(píng)估體系
  • 基于GPT-4.1的自動(dòng)評(píng)分,結(jié)合人工驗(yàn)證,確保評(píng)測(cè)嚴(yán)謹(jǐn)性。

達(dá)到的效果

  1. 模型性能提升
  • Echo-4o在標(biāo)準(zhǔn)評(píng)測(cè)(GenEval、DPG、OmniContext)和新基準(zhǔn)(GenEval++、Imagine-Bench)中表現(xiàn)優(yōu)異,尤其在復(fù)雜指令遵循想象力生成上顯著領(lǐng)先。
  • 支持多參考生成,實(shí)現(xiàn)多圖像融合與視覺(jué)一致性。
  1. 數(shù)據(jù)集泛化性
  • Echo-4o-Image遷移至其他模型(如OmniGen2、BLIP3-o)后,多項(xiàng)指標(biāo)一致提升,證明其通用性。
  1. 解決現(xiàn)實(shí)數(shù)據(jù)缺陷
  • 合成數(shù)據(jù)有效補(bǔ)充長(zhǎng)尾分布純凈對(duì)齊幻想場(chǎng)景,縮小與閉源模型的差距。

Echo-4o-Image

Echo-4o-Image——一個(gè)從GPT-4o蒸餾得到的大規(guī)模合成數(shù)據(jù)集。如圖3所示,該數(shù)據(jù)集包含約17.9萬(wàn)個(gè)樣本,涵蓋三種任務(wù)類(lèi)型:

  • 3.8萬(wàn)項(xiàng)超現(xiàn)實(shí)幻想生成任務(wù)
  • 7.3萬(wàn)項(xiàng)多參考圖像生成任務(wù)
  • 6.8萬(wàn)項(xiàng)復(fù)雜指令執(zhí)行任務(wù)

其中,超現(xiàn)實(shí)幻想和多參考生成子集包含現(xiàn)有資源中罕見(jiàn)或代表性不足的數(shù)據(jù)。下文將詳細(xì)說(shuō)明數(shù)據(jù)集構(gòu)建流程與策略。

超現(xiàn)實(shí)幻想圖像生成

本文構(gòu)建了專(zhuān)注于超現(xiàn)實(shí)幻想內(nèi)容的文本到圖像數(shù)據(jù)子集。這類(lèi)提示詞涉及對(duì)物體常規(guī)屬性、時(shí)間或空間的不規(guī)則修改。雖然該數(shù)據(jù)類(lèi)型在用戶(hù)請(qǐng)求中占比很大,但在真實(shí)訓(xùn)練數(shù)據(jù)中卻十分罕見(jiàn)。

如下圖3(a)所示,設(shè)計(jì)了結(jié)構(gòu)化流程來(lái)構(gòu)建Echo-4o-Image的幻想生成子集:

  1. 從COCO和Open Images數(shù)據(jù)集中收集常見(jiàn)物體概念作為生成主體
  2. GPT-4o先進(jìn)行身份屬性構(gòu)建(描述顏色/形狀/尺寸等規(guī)范屬性)
  3. 隨后執(zhí)行概念變形,通過(guò)創(chuàng)造性修改和重組引入新穎特征

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

變形主要分為三類(lèi):

  • 屬性替換:改變常規(guī)特征(如白色香蕉、立方體足球、手掌大小的長(zhǎng)頸鹿)
  • 混合重組:重定義物體材質(zhì)(如水晶番茄)或組合不同物體(如香蕉構(gòu)成的房屋)
  • 時(shí)空異常:將物體置于不可能的場(chǎng)景(如云層中的火車(chē))或融合不同時(shí)代特征(如帶有未來(lái)科技的古代文物)


本文還將單物體提示擴(kuò)展到多物體幻想組合,使GPT-4o生成涉及多個(gè)實(shí)體互動(dòng)的超現(xiàn)實(shí)指令,最終產(chǎn)出視覺(jué)連貫且富有創(chuàng)意的樣本。

多參考圖像生成

多參考圖像生成以若干參考圖像和文本提示為輸入,要求提取各圖像元素并組合成連貫輸出。該任務(wù)既需要強(qiáng)大的提示理解能力,又要求保留各參考圖像的顯著特征并實(shí)現(xiàn)無(wú)縫融合。與超現(xiàn)實(shí)幻想生成類(lèi)似,現(xiàn)成訓(xùn)練數(shù)據(jù)極其有限。


如上圖3(b)所示,我們?cè)O(shè)計(jì)了包含人物/物體/場(chǎng)景的多參考組合(每樣本2-4張輸入圖像),參考圖像涵蓋肖像、街拍、動(dòng)物、物品、服飾、自然景觀、地標(biāo)和室內(nèi)場(chǎng)景等多元類(lèi)別。


使用GPT-4o生成基于參考圖像的指令時(shí):

  • 每條指令針對(duì)特定交互類(lèi)型(如人-物、物-景)
  • 明確標(biāo)注圖像索引(如Image_1/Image_2)以降低歧義
  • 生成目標(biāo)圖像后,通過(guò)改寫(xiě)策略提升語(yǔ)言多樣性和語(yǔ)義清晰度


改寫(xiě)過(guò)程中,可能將"Image_1"等索引替換為對(duì)應(yīng)物體的具體描述,從而增強(qiáng)訓(xùn)練數(shù)據(jù)質(zhì)量和模型在多圖像生成任務(wù)中的泛化能力。

指令跟隨數(shù)據(jù)生成

針對(duì)文本到圖像的指令跟隨任務(wù),通過(guò)引入更復(fù)雜的多物體多屬性指令來(lái)合成數(shù)據(jù)。如圖3(c)所示:

  1. 精選基礎(chǔ)物體概念集
  2. 采用模板驅(qū)動(dòng)策略系統(tǒng)構(gòu)建包含顏色/位置/數(shù)量/尺寸等屬性的提示詞
  3. 使用GPT-4o生成圖像


相比真實(shí)數(shù)據(jù),合成數(shù)據(jù)具有兩大優(yōu)勢(shì):純凈指令對(duì)齊:GPT-4o生成的圖像通常具有簡(jiǎn)潔背景且無(wú)無(wú)關(guān)物體。例如生成"小提琴與兩雙筷子"時(shí),這些物體會(huì)直接呈現(xiàn)在整潔背景上。這種視覺(jué)純凈性降低了指令跟隨任務(wù)的學(xué)習(xí)難度。


可控長(zhǎng)尾組合:相比僅包含有限語(yǔ)義概念的Geneval,我們的數(shù)據(jù)集顯著提升指令復(fù)雜度。例如:

  • GenEval最復(fù)雜提示可能僅含4個(gè)語(yǔ)義單元(如"橙色電視和綠色蝴蝶結(jié)")
  • 本文的數(shù)據(jù)集包含"橙色電視、綠色蝴蝶結(jié)和黃色螺絲刀"或"皮帶、盤(pán)子和三個(gè)乒乓球拍"等組合


通過(guò)增加物體數(shù)量及其屬性,我們解決了真實(shí)圖像分布中長(zhǎng)尾數(shù)據(jù)稀缺的問(wèn)題。


盡管使用最先進(jìn)的GPT-4o生成圖像,仍可能出現(xiàn)對(duì)齊錯(cuò)誤(生成圖像與提示不完全匹配)。為此我們引入文本改寫(xiě)策略確保數(shù)據(jù)可用性,核心原則是:"沒(méi)有無(wú)效圖像,只有無(wú)效文本"。當(dāng)檢測(cè)到不對(duì)齊時(shí),根據(jù)生成圖像修正原始文本,使每個(gè)圖像-指令對(duì)構(gòu)成語(yǔ)義有效且一致的訓(xùn)練樣本。例如圖4中,若生成圖像包含3塊手表而文本指定4塊,則將描述修正為3塊。通過(guò)改寫(xiě)而非丟棄樣本,我們充分釋放了GPT-4o合成數(shù)據(jù)的價(jià)值。

Echo-4o

為了驗(yàn)證本文精心構(gòu)建的Echo-4o-Image數(shù)據(jù)集的有效性,對(duì)強(qiáng)基線模型Bagel進(jìn)行微調(diào),得到了Echo-4o——一個(gè)在文本到圖像和多參考生成任務(wù)中均表現(xiàn)卓越的統(tǒng)一多模態(tài)生成模型。


Bagel是一個(gè)統(tǒng)一的多模態(tài)生成模型,能夠同時(shí)實(shí)現(xiàn)圖像理解和生成。該模型支持文本到圖像生成和單圖像到圖像生成任務(wù),包括圖像編輯和自由形式操控。在架構(gòu)上,Bagel采用ViT進(jìn)行圖像理解,VAE進(jìn)行圖像生成,并使用了混合專(zhuān)家(mixture of transformers)方法,其中一個(gè)專(zhuān)家處理VAE token,另一個(gè)專(zhuān)家處理所有其他token。對(duì)于多參考任務(wù),圖像的ViT和VAE特征均輸入模型。然而,盡管多圖像輸入在架構(gòu)上是可行的,Bagel在多參考生成任務(wù)上的表現(xiàn)較差。


本文使用Echo-4o-Image中的所有文本到圖像和多參考數(shù)據(jù)對(duì)Bagel進(jìn)行微調(diào)。訓(xùn)練目標(biāo)采用僅針對(duì)輸出圖像計(jì)算的流匹配損失(flow matching loss)。除VAE外,對(duì)所有模型組件進(jìn)行了24,000步訓(xùn)練,學(xué)習(xí)率為2e-5。通過(guò)這一微調(diào)過(guò)程,Echo-4o在多參考生成任務(wù)上取得了卓越的性能,同時(shí)進(jìn)一步提升了文本到圖像生成能力(詳見(jiàn)第5節(jié))。我們特意選擇Bagel作為基線模型,因?yàn)樗跀?shù)萬(wàn)億token的交錯(cuò)多模態(tài)數(shù)據(jù)進(jìn)行了訓(xùn)練。Echo-4o-Image在這一經(jīng)過(guò)廣泛訓(xùn)練的模型上仍能帶來(lái)顯著提升,這證明了精心設(shè)計(jì)的合成數(shù)據(jù)的互補(bǔ)價(jià)值。

GenEval++ & Imagine-Bench

指令跟隨評(píng)估——GenEval++

以往的指令跟隨基準(zhǔn)測(cè)試(如GenEval)被廣泛用于評(píng)估圖像生成模型遵循文本指令的能力。然而,這些基準(zhǔn)測(cè)試通常依賴(lài)目標(biāo)檢測(cè)器或基于CLIP的模型進(jìn)行自動(dòng)評(píng)分,而這兩種方法在準(zhǔn)確性上存在顯著局限性。如圖4所示,在GenEval中,當(dāng)評(píng)估“綠色熱狗”等提示詞時(shí),檢測(cè)器經(jīng)常因“熱狗”(一種食物)與綠色之間的弱關(guān)聯(lián)而做出錯(cuò)誤判斷——盡管生成的圖像在視覺(jué)上是正確的。類(lèi)似地,物體之間的遮擋可能導(dǎo)致計(jì)數(shù)不準(zhǔn)確,從而產(chǎn)生假陰性結(jié)果。此外,現(xiàn)有基準(zhǔn)測(cè)試中的文本指令相對(duì)簡(jiǎn)單,語(yǔ)義多樣性有限。因此,當(dāng)前模型的得分通常在0.8–0.9之間,表明指標(biāo)飽和,從而限制了這些基準(zhǔn)測(cè)試的區(qū)分能力。

 

為了解決這些局限性,本文推出了GenEval++,這是一個(gè)更準(zhǔn)確、更具挑戰(zhàn)性的基準(zhǔn)測(cè)試,用于評(píng)估圖像生成中的指令遵循能力。如下圖4所示,GenEval++采用GPT-4.1多模態(tài)模型作為評(píng)估器,利用其強(qiáng)大的復(fù)雜語(yǔ)義組合理解能力來(lái)評(píng)估生成圖像與文本指令的一致性。根據(jù)預(yù)定義的檢查清單(涵蓋對(duì)象、數(shù)量、顏色、位置和大小等多重標(biāo)準(zhǔn)),評(píng)估器僅在所有條件均滿(mǎn)足時(shí)才判定結(jié)果為正確。此外,該基準(zhǔn)測(cè)試覆蓋了七種任務(wù)類(lèi)型,涉及不同屬性組合,每種類(lèi)型包含40個(gè)高復(fù)雜度提示詞,總計(jì)280條文本指令。GenEval++具有更豐富的語(yǔ)義和更多樣的組合,任務(wù)難度顯著高于原始GenEval。另外,為了與“一張……的照片”的提示風(fēng)格保持一致,動(dòng)漫風(fēng)格或包含多個(gè)不相關(guān)元素的輸出被視為無(wú)效。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

超現(xiàn)實(shí)與幻想評(píng)估——Imagine-Bench

此外,現(xiàn)有的評(píng)估協(xié)議主要關(guān)注現(xiàn)實(shí)世界生成任務(wù)。然而,生成模型的真正價(jià)值不僅在于再現(xiàn)現(xiàn)實(shí),還在于創(chuàng)造未知,這與用戶(hù)驅(qū)動(dòng)的創(chuàng)意指令的重要組成部分相契合。為此,我們推出了一個(gè)新的基準(zhǔn)測(cè)試Imagine-Bench,旨在評(píng)估模型在超現(xiàn)實(shí)和幻想圖像生成中的能力。Imagine-Bench的主要任務(wù)是為常見(jiàn)物體添加奇幻元素,同時(shí)保留其核心身份特征。例如,指令“一個(gè)方形的足球”要求模型將形狀改為立方體,同時(shí)保留標(biāo)準(zhǔn)的黑白足球紋理。此類(lèi)任務(wù)對(duì)當(dāng)前理解-生成統(tǒng)一模型提出了嚴(yán)格挑戰(zhàn),因?yàn)樗鼈冃枰蚱聘拍钆c外觀之間的固有關(guān)聯(lián),以實(shí)現(xiàn)真正的創(chuàng)造性合成。


Imagine-Bench包含270條多樣化的創(chuàng)意指令,涵蓋廣泛的超現(xiàn)實(shí)屬性。在評(píng)估過(guò)程中,每條指令首先由GPT-4o處理,生成相應(yīng)的檢查清單,包含詳細(xì)解釋和預(yù)期結(jié)果(包括所需的奇幻修改和物體不變身份特征的描述)。給定提示詞和生成的圖像,GPT-4.1從三個(gè)維度進(jìn)行評(píng)分:

  1. 幻想實(shí)現(xiàn)度(Fantasy Fulfillment)——生成的圖像是否忠實(shí)實(shí)現(xiàn)了提示詞的超現(xiàn)實(shí)方面;
  2. 身份保留度(Identity Preservation)——變換后的物體是否保留了其原始身份的基本視覺(jué)特征;
  3. 美學(xué)質(zhì)量(Aesthetic Quality)——生成圖像的視覺(jué)吸引力、創(chuàng)造力和多樣性。

受VIEScore和OmniGen2評(píng)估協(xié)議的啟發(fā),GPT-4.1為每個(gè)維度給出0–10的評(píng)分,并為每個(gè)評(píng)分提供明確的推理,確保評(píng)估的嚴(yán)謹(jǐn)性和可解釋性。進(jìn)一步采用更嚴(yán)格的評(píng)分方案,最終得分為: 

實(shí)驗(yàn)

本節(jié)對(duì)Echo-4o進(jìn)行全面評(píng)估,重點(diǎn)關(guān)注其在多樣化生成任務(wù)中的表現(xiàn),包括指令跟隨圖像生成、超現(xiàn)實(shí)/幻想圖像合成以及多參考圖像生成。結(jié)果表明,Echo-4o在這些任務(wù)中均表現(xiàn)優(yōu)異,凸顯了Echo-4o-Image合成數(shù)據(jù)集在提升生成模型能力方面的有效性。

指令跟隨圖像生成

在兩個(gè)廣泛使用的基準(zhǔn)測(cè)試——GenEval和DPG-Bench,以及新提出的GenEval++上評(píng)估模型的指令跟隨能力。如下表1所示,Echo-4o在GenEval上取得了0.89的分?jǐn)?shù),優(yōu)于Bagel和OmniGen2等先前的統(tǒng)一模型。在DPG-Bench(下表2)上,Echo-4o以86.07的總分超越了SD3和UniWorld等強(qiáng)勁競(jìng)爭(zhēng)對(duì)手。這些結(jié)果表明,Echo-4o在不同類(lèi)型的基準(zhǔn)測(cè)試中均表現(xiàn)優(yōu)異,展現(xiàn)了其在短文本和復(fù)雜長(zhǎng)文本指令上的強(qiáng)大指令跟隨生成能力。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

在現(xiàn)有的文本到圖像指令跟隨任務(wù)中,Echo-4o始終表現(xiàn)卓越。與基線模型Bagel相比,Echo-4o在GenEval上實(shí)現(xiàn)了8.5%的提升,驗(yàn)證了Echo-4o-Image數(shù)據(jù)集中純合成數(shù)據(jù)對(duì)增強(qiáng)指令跟隨能力的有效性。這些干凈背景的樣本提升了模型學(xué)習(xí)圖像與文本指令之間精確對(duì)齊的能力。盡管訓(xùn)練數(shù)據(jù)主要由短文本指令組成,但模型在復(fù)雜長(zhǎng)文本生成任務(wù)上也表現(xiàn)出強(qiáng)大的泛化能力,DPG-Bench上的表現(xiàn)即為明證。


此外,在新提出的更具挑戰(zhàn)性的GenEval++基準(zhǔn)測(cè)試上,大多數(shù)模型表現(xiàn)不佳,得分低于0.4。盡管GenEval++的任務(wù)與GenEval的主要區(qū)別僅在于增加了一兩個(gè)額外對(duì)象及其屬性,但這一看似微小的變化顯著提高了任務(wù)難度。例如,生成五個(gè)熱狗比生成四個(gè)更具挑戰(zhàn)性。早期的基于擴(kuò)散的模型(如SDXL)在此類(lèi)場(chǎng)景中幾乎完全無(wú)法遵循指令。即使是Bagel和OmniGen2等先進(jìn)統(tǒng)一模型(在GenEval上與GPT-4o差距較小),在這些更難的任務(wù)上也遠(yuǎn)遠(yuǎn)落后。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

Echo-4o在所有模型中(除GPT-4o外)表現(xiàn)最佳,超越OmniGen2和Bagel達(dá)40%以上。這凸顯了Echo-4o強(qiáng)大的指令跟隨能力,這與Echo-4o-Image中包含更復(fù)雜、長(zhǎng)尾的屬性數(shù)據(jù)密切相關(guān)。下圖5進(jìn)一步提供了不同模型的定性比較。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

超現(xiàn)實(shí)幻想圖像生成

本文在Imagine-Bench基準(zhǔn)測(cè)試上評(píng)估了多個(gè)模型的理解和創(chuàng)意能力,結(jié)果如下表4所示。傳統(tǒng)圖像生成模型在此任務(wù)上表現(xiàn)不佳,主要因其訓(xùn)練范式通常在文本概念與視覺(jué)表征之間建立直接綁定。受限于有限的理解能力,這些模型難以區(qū)分現(xiàn)有物體的固有概念與幻想導(dǎo)向指令中指定的額外要求。BLIP3o和OmniGen2等統(tǒng)一模型得益于更強(qiáng)的理解能力,取得了稍好的結(jié)果。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

在開(kāi)源模型中,Echo-4o表現(xiàn)最佳,直接受益于Echo-4o-Image中包含的幻想導(dǎo)向圖像數(shù)據(jù)。這些數(shù)據(jù)突破了現(xiàn)實(shí)世界圖像的領(lǐng)域限制,從而以相對(duì)直接的方式提升了性能。未來(lái)工作可探索更系統(tǒng)的方法,進(jìn)一步提升統(tǒng)一模型在理解和創(chuàng)意生成上的能力。

多參考圖像生成

使用OminiContext基準(zhǔn)測(cè)試評(píng)估多參考圖像生成能力。現(xiàn)有圖像生成模型和統(tǒng)一架構(gòu)對(duì)這一能力的探索仍顯不足。開(kāi)源模型中僅OmniGen2進(jìn)行了初步嘗試,F(xiàn)LUX和Bagel等多數(shù)模型要么缺乏原生支持,要么完全無(wú)法適配多參考場(chǎng)景。通過(guò)利用專(zhuān)為多參考場(chǎng)景設(shè)計(jì)的合成數(shù)據(jù),Echo-4o獲得了基礎(chǔ)Bagel架構(gòu)所不具備的該能力。

如下表5所示,Echo-4o在MULTIPLE和SCENE兩種設(shè)置下均優(yōu)于所有開(kāi)源模型,較Bagel基線實(shí)現(xiàn)顯著提升,并超越此前最佳開(kāi)源模型OmniGen2。下圖7的定性對(duì)比進(jìn)一步表明,在二圖或三圖參考生成任務(wù)中,Echo-4o在指令遵循和參考圖像內(nèi)容保真度上持續(xù)優(yōu)于OmniGen2。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

基礎(chǔ)模型的普適有效性

為驗(yàn)證Echo-4o-Image數(shù)據(jù)集的廣泛有效性,本文使用該合成數(shù)據(jù)對(duì)多個(gè)現(xiàn)有統(tǒng)一模型進(jìn)行微調(diào)實(shí)驗(yàn)。如下圖1(b)所示,BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基準(zhǔn)測(cè)試上均獲得一致提升。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

這些結(jié)果表明,Echo-4o-Image能為不同基礎(chǔ)模型提供通用性增強(qiáng),顯著改善其指令理解、幻想圖像合成和多參考圖像生成能力。跨任務(wù)與跨架構(gòu)的穩(wěn)定增益證實(shí)了該數(shù)據(jù)集的廣泛適用性,及其對(duì)統(tǒng)一多模態(tài)生成模型高質(zhì)量微調(diào)的重要價(jià)值。

與ShareGPT-4o-Image的對(duì)比

本文進(jìn)一步將本數(shù)據(jù)集與GPT-4o衍生的另一合成數(shù)據(jù)集ShareGPT-4o-Image進(jìn)行對(duì)比。在相同訓(xùn)練設(shè)置下,兩者均用于微調(diào)Bagel基線模型直至收斂。下圖8顯示:Echo-4o-Image使指令跟隨能力大幅提升(GenEval分?jǐn)?shù)從0.820增至0.895),而ShareGPT-4o-Image僅帶來(lái)邊際改善(增至0.838)。GenEval++上也呈現(xiàn)相似趨勢(shì)。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

該差異可能源于ShareGPT-4o-Image大量數(shù)據(jù)源自ALLaVA的文本輸入(已包含高質(zhì)量真實(shí)圖像對(duì)),導(dǎo)致其本質(zhì)上復(fù)現(xiàn)了真實(shí)數(shù)據(jù)集的圖像,對(duì)指令跟隨的增益有限。不過(guò)ShareGPT-4o-Image仍能提升美學(xué)對(duì)齊能力。值得注意的是,ShareGPT-4o-Image缺少多參考圖像生成數(shù)據(jù)——這一Echo-4o-Image成功實(shí)現(xiàn)的關(guān)鍵能力——進(jìn)一步突顯后者的廣泛實(shí)用性。

結(jié)論

本研究提出由GPT-4o生成的大規(guī)模合成數(shù)據(jù)集Echo-4o-Image,并通過(guò)開(kāi)發(fā)Echo-4o驗(yàn)證其在增強(qiáng)統(tǒng)一多模態(tài)生成模型方面的有效性。同時(shí),推出Geneval++和Imagine-Bench兩個(gè)新基準(zhǔn)測(cè)試,為圖像生成能力提供更全面、更具挑戰(zhàn)性的評(píng)估框架。


實(shí)驗(yàn)結(jié)果表明,高質(zhì)量合成數(shù)據(jù)集Echo-4o-Image能有效彌補(bǔ)真實(shí)數(shù)據(jù)集的局限,并跨不同基礎(chǔ)模型實(shí)現(xiàn)知識(shí)遷移。期望該數(shù)據(jù)集的開(kāi)源能通過(guò)合成數(shù)據(jù)填補(bǔ)真實(shí)圖像缺口,推動(dòng)統(tǒng)一多模態(tài)生成模型在指令跟隨、創(chuàng)意生成和多參考圖像合成等能力的進(jìn)步。未來(lái)工作將擴(kuò)展數(shù)據(jù)集至圖像編輯任務(wù)(另一高質(zhì)量真實(shí)數(shù)據(jù)稀缺的場(chǎng)景),并對(duì)FLUX等更多模型進(jìn)行微調(diào),進(jìn)一步驗(yàn)證其通用性和影響力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/J1dCttWfEM1QqFdjnfIu0A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
a级在线观看| 国产精品爽爽久久久久久| 日韩av黄色在线| 色噜噜狠狠成人网p站| 亚洲电影一二三区| 亚洲国产福利视频| 久久亚洲精选| 欧美激情一二三| 亚洲码无人客一区二区三区| 99热这里有精品| 欧美日韩性视频| 在线观看成人av| 偷拍25位美女撒尿视频在线观看| 免费久久精品视频| 午夜精品久久久久久久99黑人 | 一卡二卡三卡在线观看| xx欧美xxx| 午夜视频在线免费播放| 欧美在线三区| 伊是香蕉大人久久| 国产极品一区二区| 自拍偷拍欧美日韩| 91激情在线视频| 日韩黄色短视频| 久久精品视频免费看| 久久综合九色综合欧美98| 亚洲一区二区三区四区在线播放| 蜜臀99久久精品久久久久小说| 欧美三级免费| 久久久999国产| 久久久精品成人| 色婷婷久久久| 亚洲国产高清高潮精品美女| 亚洲一二三av| 日本电影久久久| 色婷婷精品久久二区二区蜜臀av| 五月丁香综合缴情六月小说| 成人ww免费完整版在线观看| 国产精品系列在线| 欧美一区免费视频| 亚洲色图 校园春色| 国产成人精品三级麻豆| 成人黄色午夜影院| 在线视频 中文字幕| 久久不射网站| 欧美在线视频在线播放完整版免费观看| 欧美成人黄色网| 婷婷另类小说| 米奇精品一区二区三区在线观看| 亚洲天堂最新地址| 成人aaaa| 最近2019年好看中文字幕视频| 久久午夜福利电影| 激情五月综合网| 国产一区二区成人| 国产精品天天干| 成人无号精品一区二区三区| 国产亚洲人成a一在线v站| 色婷婷av777| 精品大片一区二区| 综合欧美国产视频二区| 国产小视频你懂的| 亚洲成人三区| 久久久久久久97| 日韩av在线播| 久久亚洲色图| 国产精选久久久久久| 伊人影院中文字幕| 国产伦理精品不卡| 国产福利久久精品| 天堂中文网在线| 国产日韩欧美精品在线| 一区二区日本伦理| caopon在线免费视频| 亚洲国产综合在线| 久久久精品在线视频| 日韩中文视频| 欧美福利电影网| 韩国三级视频在线观看| 日韩一级电影| 一区二区三欧美| 中文字幕另类日韩欧美亚洲嫩草| 国产一区日韩一区| 91精品国产乱码久久久久久蜜臀 | 欧美色视频一区二区三区在线观看| 成人在线免费观看网站| 九九精品视频在线| www.国产高清| 久久99在线观看| 国产精品一级久久久| 久青青在线观看视频国产| 中文字幕一区二区三| 国产手机免费视频| 日本.亚洲电影| 日韩一级黄色片| av黄色免费网站| 91成人免费| 1769国产精品| 国产免费高清av| 91原创在线视频| 天天成人综合网| 在线观看v片| 欧美一级日韩一级| 人妻视频一区二区| 99国产一区| 成人久久久久爱| 你懂的在线观看视频网站| 亚洲日穴在线视频| 日韩在线xxx| 一区二区三区在线免费看| 国产一区二区三区免费视频| 久久久精品国产sm调教| 久热成人在线视频| 久久99精品久久久久子伦| 免费av毛片在线看| 一本大道av一区二区在线播放| 亚洲精品免费一区亚洲精品免费精品一区 | 亚洲国产cao| 国产三级三级看三级| 另类ts人妖一区二区三区| 久久精品亚洲一区| 天堂免费在线视频| 97久久超碰精品国产| 中国老女人av| 91精品一久久香蕉国产线看观看| 亚洲美女性视频| 日本熟妇色xxxxx日本免费看| 精品一区二区在线播放| 日韩精彩视频| 欧美日韩国产观看视频| 精品国产一区久久| 欧美精品久久久久性色| 久久av老司机精品网站导航| 日韩精品久久久| 欲香欲色天天天综合和网| 亚洲精品一区二区在线观看| 欧美精品久久久久性色| 极品美女销魂一区二区三区免费| 日本高清视频一区二区三区| 无遮挡在线观看| 亚洲国产天堂网精品网站| 久久久久久久久99| 国产成人在线免费| 无码人妻aⅴ一区二区三区日本| 亚洲精品大片| 操人视频在线观看欧美| 国产精品一区二区三区在线免费观看 | 免费a在线看| 91精品国产综合久久福利软件| 夫妇露脸对白88av| 蜜桃av一区二区在线观看| 日韩久久久久久久| 欧美一区久久久| 亚洲性线免费观看视频成熟| 国产亚洲欧美日韩高清| 久久这里只有精品6| 18岁视频在线观看| 精品一区二区三区在线| 国产精品久久久久影院日本 | 欧美调教视频| 欧美中文在线免费| 福利成人在线观看| 欧美精品 国产精品| 91精品国产高清一区二区三蜜臀| 国产乱码精品一区二区三区av| 成人小视频在线观看免费| 99re6热只有精品免费观看| 国内偷自视频区视频综合| 国产成人自拍一区| 欧美日韩一区二区在线播放| 鲁丝一区二区三区| 国产中文字幕精品| 男女猛烈激情xx00免费视频| 猛男gaygay欧美视频| 国产精品偷伦一区二区 | 欧美亚洲国产日韩2020| 国产美女视频一区二区三区| 欧美日韩aaaaaa| 久青草免费视频| 99精品国产99久久久久久白柏| 一区二区传媒有限公司| 日韩av大片| 亚洲一区中文字幕在线观看| 高潮在线视频| 亚洲天堂影视av| 国产福利资源在线| 欧美视频裸体精品| 亚洲xxxx3d动漫| 99re亚洲国产精品| 制服丝袜中文字幕第一页| 99国产精品久久久久久久成人热| 亚洲国产欧美不卡在线观看| 亚洲三区欧美一区国产二区| 国产成人精品亚洲精品| 在线视频观看国产| 亚洲午夜久久久久久久| 亚洲国产一二三区| 欧美性色欧美a在线播放| 久久综合激情网| 国产精品福利一区二区三区| 一级特级黄色片| 韩日欧美一区二区三区| 国产精品亚洲αv天堂无码| 欧美一区久久| 日韩精品欧美在线| 国产精品巨作av| 国产免费一区二区三区在线能观看 | 国产香蕉精品| 成人免费在线视频网站| www.成人影院| 久久全球大尺度高清视频| 在线视频91p| 日韩精品中文字幕在线播放| 亚洲国产福利视频| 欧美日韩精品欧美日韩精品一| 国产情侣在线视频| 亚洲免费观看高清在线观看| 波多野结衣av在线观看| 成人毛片在线观看| 在线免费黄色网| 久久一区激情| 男人日女人bb视频| 国一区二区在线观看| 99re99热| 97色伦图片97综合影院| 日韩黄色影视| 国产精品一线天粉嫩av| 久久精品日韩精品| 久久久久观看| 高清视频一区二区三区| 日韩精品中文字幕吗一区二区| 国产欧美日韩视频| 成人精品国产| 国产精品一久久香蕉国产线看观看| 亚洲欧洲高清| 51ⅴ精品国产91久久久久久| 草草在线视频| 欧美一级电影久久| 日韩欧美精品一区二区三区| 久久人人爽人人爽人人片av高清| 日本动漫理论片在线观看网站| 久久久97精品| 青草在线视频在线观看| 欧美高清激情视频| 黑人极品ⅴideos精品欧美棵| 欧美日韩第一页| 国产高清在线a视频大全| 欧美多人爱爱视频网站| 日本资源在线| 久久久久久久香蕉网| av2020不卡| 55夜色66夜色国产精品视频| 日韩电影毛片| 日本亚洲精品在线观看| 日韩中文在线播放| 成人春色激情网| 久久久久久亚洲精品美女| 999国产在线| 国产成人精品福利| 精品中文字幕人| 精品成人影院| 欧美xxxx吸乳| 国产综合网站| 奇米精品一区二区三区| 日韩二区三区四区| 日本超碰在线观看| 国产精品99久久久久久似苏梦涵| 在线播放第一页| 久久这里只有精品首页| 美女av免费看| 亚洲一区二区三区国产| 中文字幕在线观看视频网站| 欧美性高清videossexo| 国产青青草视频| 日韩精品电影网| 国产高清美女一级毛片久久| 另类天堂视频在线观看| mm视频在线视频| 国产精品日韩欧美大师| 天堂精品久久久久| 久热国产精品视频一区二区三区| 日韩欧美中文| 精品少妇人欧美激情在线观看| 免费在线欧美黄色| 欧美日韩久久婷婷| 99热精品国产| 91免费公开视频| 欧美日韩精品在线视频| 一级视频在线播放| 亚洲精品720p| 欧美激情黑人| 欧美有码在线视频| 久久69av| 色吧亚洲视频| 一区二区三区精品视频在线观看| xxxx一级片| 91在线精品一区二区| 日韩影院一区二区| 91国在线观看| 免费国产羞羞网站视频| 色噜噜亚洲精品中文字幕| 久久影院午夜精品| 91天堂在线观看| 欧美日韩国产一区二区三区不卡| 男人天堂手机在线视频| 久久99精品国产| 三上悠亚ssⅰn939无码播放| 亚洲一区二区精品久久av| 中文字幕一二三四| 日韩精品在线观看网站| 四季久久免费一区二区三区四区| 国产精品视频免费观看www| 亚洲自拍电影| 国产手机免费视频| 国产一区二区在线看| 日韩影视一区二区三区| 精品美女国产在线| 亚洲精品一区二区三区新线路| 最近中文字幕日韩精品| 欧美1级2级| 鲁鲁视频www一区二区| 极品少妇一区二区三区| 91av视频免费观看| 国产精品人人做人人爽人人添| 久久久久亚洲av成人毛片韩| 亚洲第一免费网站| 色呦呦在线观看视频| 国产日韩欧美综合| 欧美综合久久| 黄色一级免费大片| 久久久99精品久久| 久久亚洲精品石原莉奈| 亚洲精品国产品国语在线| 久久香蕉一区| 国产精品一区二区免费看| 欧美日本不卡高清| 手机在线观看日韩av| 亚洲日本韩国一区| 国产精品无码天天爽视频| 爱福利视频一区| 亚洲18在线| 亚洲AV无码成人精品一区| 国产麻豆精品一区二区| 青青草激情视频| 欧美草草影院在线视频| heyzo高清国产精品| 国产精品区一区二区三含羞草| 亚洲视频观看| 中文字幕在线永久| 五月开心婷婷久久| 四虎在线观看| 国产成人精品在线| 精品久久中文| 91女神在线观看| 亚洲三级免费观看| 亚洲精品97久久中文字幕无码| 久久理论片午夜琪琪电影网| 欧美午夜寂寞| 男人搞女人网站| 中文字幕日韩av资源站| 国产婷婷在线视频| 久久久久中文字幕| 神马久久影院| 另类小说第一页| 亚洲色图欧洲色图| 欧美 日韩 综合| 人人爽久久涩噜噜噜网站| 精品国产一级毛片| 超碰在线免费av| 图片区小说区国产精品视频| 欧美精品少妇| 国产日韩欧美视频| 国产一区二区中文| 五级黄高潮片90分钟视频| 在线观看一区日韩| av香蕉成人| 欧美日韩天天操| 国产精品一级片在线观看| 日本一级一片免费视频| 亚洲欧美日韩直播| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 亚洲国产日韩欧美| 国产美女精品在线| 羞羞影院体验区| 日韩中文字幕网址| 国产精品一线| 一区二区xxx| 亚洲国产人成综合网站| 国产经典自拍视频在线观看| 99久热re在线精品996热视频| 丝袜亚洲精品中文字幕一区| 日本中文字幕免费在线观看| 亚洲欧美日韩综合| 日韩视频一二区| 激情综合网俺也去| 亚洲一区二区三区免费视频| 亚洲精品传媒| 国产综合 伊人色| 韩国视频一区二区| 亚洲乱码国产乱码精品|