精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架 精華

發(fā)布于 2024-12-23 09:52
瀏覽
0收藏

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2411.15738
項目鏈接:https://dcd-anyedit.github.io/

亮點直擊

  • 從全新的視角系統(tǒng)地對各種編輯指令進行分類,并創(chuàng)新性地引入了一個統(tǒng)一的編輯框架,該框架利用自適應(yīng)編輯 pipeline自動收集不同場景下的多樣化高質(zhì)量編輯數(shù)據(jù),從而以可擴展的方式進行處理。
  • 構(gòu)建了一個多類型、多場景的數(shù)據(jù)集AnyEdit,并為其設(shè)計了相應(yīng)的基準測試集AnyEdit-Test,涵蓋了25種復(fù)雜的編輯類型,以滿足現(xiàn)實世界中更廣泛的編輯需求。
  • 使用提出的AnySD方法,充分挖掘AnyEdit的潛力,在多個編輯類型中實現(xiàn)了指令遵循和圖像保真度的SOTA。

驚艷效果,一睹為快

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

總結(jié)速覽

解決的問題:

  1. 現(xiàn)有模型難以準確執(zhí)行復(fù)雜的用戶指令:由于訓(xùn)練數(shù)據(jù)質(zhì)量較低且編輯類型有限,現(xiàn)有的指令驅(qū)動的圖像編輯模型在處理復(fù)雜用戶指令時存在困難。
  2. 缺乏高質(zhì)量的指令編輯數(shù)據(jù)集:現(xiàn)有的編輯數(shù)據(jù)集數(shù)據(jù)質(zhì)量不足,且難以支持基于多模態(tài)感知和復(fù)雜指令的圖像編輯任務(wù),如空間構(gòu)圖、視角變化和常識理解等。
  3. 當前數(shù)據(jù)集在多種輸入格式和編輯需求上的適應(yīng)性差:現(xiàn)有數(shù)據(jù)集缺乏對不同編輯任務(wù)的適配,導(dǎo)致編輯結(jié)果質(zhì)量差,且生成的圖像常存在低分辨率、高噪聲或與文本不對齊的問題。

提出的方案:

  1. AnyEdit數(shù)據(jù)集:提出了一個全面的多模態(tài)指令編輯數(shù)據(jù)集,包含250萬高質(zhì)量的編輯對,涵蓋20多種編輯類型和五個領(lǐng)域。通過引入對抗合成場景來平衡數(shù)據(jù)集中的概念分布,確保編輯數(shù)據(jù)的多樣性和質(zhì)量。
  2. 自適應(yīng)編輯流程:為了適應(yīng)不同的編輯需求,AnyEdit引入了自適應(yīng)編輯流程,可以根據(jù)任務(wù)類型選擇合適的數(shù)據(jù)處理流程,提高編輯效果。
  3. 指令驗證和圖像評估:通過開發(fā)指令驗證預(yù)篩選和圖像評估后篩選策略,過濾出不合格的編輯結(jié)果,從而確保數(shù)據(jù)集質(zhì)量。
  4. AnyEdit Stable Diffusion(AnySD):提出了一種新的穩(wěn)定擴散模型,采用任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入來支持不同類型的編輯任務(wù),從而構(gòu)建一個強大的指令驅(qū)動的圖像編輯模型。

應(yīng)用的技術(shù):

  1. 多模態(tài)數(shù)據(jù)集:通過收集并組織2.5百萬高質(zhì)量的圖像-文本編輯對,AnyEdit涵蓋了包括局部編輯、全局編輯、相機運動編輯、隱式編輯和視覺編輯在內(nèi)的多種編輯類型。
  2. 自適應(yīng)編輯流程:通過自動化選擇適合每個任務(wù)的數(shù)據(jù)處理流程,提升數(shù)據(jù)集的適應(yīng)性。
  3. 任務(wù)感知路由:AnySD模型通過任務(wù)感知路由調(diào)整編輯的粒度(如局部物體編輯或全局風(fēng)格編輯),增強了模型在處理多種編輯任務(wù)時的適應(yīng)能力。
  4. 學(xué)習(xí)型任務(wù)嵌入:通過引入可學(xué)習(xí)的任務(wù)嵌入,AnySD模型能夠有效協(xié)調(diào)不同任務(wù)的復(fù)雜性,提升編輯效果。
  5. 圖像質(zhì)量評估:通過引入圖像質(zhì)量的預(yù)篩選和后篩選機制,確保數(shù)據(jù)集的編輯對具備高質(zhì)量。

達到的效果:

  1. 提升編輯模型的性能:通過AnyEdit數(shù)據(jù)集和AnySD模型,實驗表明AnyEdit能顯著提高擴散基礎(chǔ)編輯模型的性能,在MagicBrush和Emu-Edit基準測試中創(chuàng)下新紀錄。
  2. 更高的視覺和語義相似性:AnyEdit比現(xiàn)有的SOTA數(shù)據(jù)集提高了28.9%的視覺相似性和18.8%的語義相似性。
  3. 解決復(fù)雜任務(wù)的局限性:在AnyEdit-Test基準測試中,AnyEdit數(shù)據(jù)集幫助解決了現(xiàn)有模型在復(fù)雜任務(wù)(如動作變化)中的表現(xiàn)差異,顯著提升了模型對多場景編輯任務(wù)的處理能力。
  4. 挑戰(zhàn)現(xiàn)有基準測試的能力:AnyEdit-Test展示了現(xiàn)有基準測試在復(fù)雜任務(wù)中的局限性,強調(diào)了AnyEdit-Test在評估編輯模型能力中的重要性。

通過這些技術(shù)和方案,AnyEdit為指令驅(qū)動的圖像編輯模型的開發(fā)提供了巨大的潛力,推動了人類創(chuàng)造力的發(fā)揮。

AnyEdit

編輯類型定義

為了使基于指令的編輯模型具備全面的能力,以遵循任何創(chuàng)意構(gòu)思,制作了一個多模態(tài)圖像編輯數(shù)據(jù)集 AnyEdit,用于基于指令的圖像編輯,該數(shù)據(jù)集包含250萬對高質(zhì)量的編輯樣本,涵蓋五個主要領(lǐng)域,如圖1所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

該數(shù)據(jù)集包括被劃分為五大類的編輯任務(wù),每個類別下包含不同的編輯類型:

  • 局部編輯:添加、刪除、替換、顏色變化、外觀變化、材質(zhì)變化、動作變化、文本變化、計數(shù)。
  • 全局編輯:背景變化、色調(diào)轉(zhuǎn)移、風(fēng)格變化。
  • 相機運動編輯:旋轉(zhuǎn)變化、外延繪制、移動、調(diào)整大小。
  • 隱式編輯:隱性變化、關(guān)系變化。
  • 視覺編輯:視覺參考、材質(zhì)轉(zhuǎn)移、視覺條件(如深度、分割、涂鴉、草圖、mask)。

具體來說,局部編輯針對圖像的特定區(qū)域進行修改,而不改變與之無關(guān)的語義內(nèi)容;全局編輯則影響整個圖像。相機運動編輯通過操控特定物體或場景內(nèi)整體內(nèi)容的視角來擴展這一概念。隱式編輯涉及狀態(tài)或交互模式的隱藏變化,通常需要更深的理解。視覺編輯則加入額外的視覺輸入作為參考,配合編輯指令一起使用。圖1(a)展示了每種編輯類型的示例。

自動數(shù)據(jù)集收集

通用數(shù)據(jù)準備

以往研究表明,高質(zhì)量的初始圖像有助于編輯圖像創(chuàng)作的多樣性。為了應(yīng)對現(xiàn)實世界中復(fù)雜場景下的圖像編輯需求,從已標注的數(shù)據(jù)集(如 MSCOCO 、LLaVA-CC3M-Pretrain)和多視角圖像數(shù)據(jù)集(如 MVImgNet)中收集了約 68 萬對真實世界的圖像-文本配對。隨后,使用多語言大模型(例如 VILA)來豐富這些簡短的描述,以增強描述的完整性。然而,這些圖像-文本配對存在固有的數(shù)據(jù)偏差,導(dǎo)致模型在一些沒有被廣泛覆蓋的領(lǐng)域中表現(xiàn)不佳。因此,引入了 反事實合成場景對數(shù)據(jù)集,以平衡初始圖像-文本配對的數(shù)據(jù)分布。具體來說,從互聯(lián)網(wǎng)數(shù)據(jù)中收集較少出現(xiàn)的尾部概念,并結(jié)合多個概念和上下文,通過 LLaMA-3B 生成描述。隨后,使用現(xiàn)成的 T2I 模型生成初始圖像。通過這種方式,通過引入罕見的概念組合,豐富了原始數(shù)據(jù)集,從而為 AnyEdit 數(shù)據(jù)集收集提供了約 70 萬對高質(zhì)量和多樣的圖像-文本配對,如表2所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

多樣化指令生成

目標是基于初始圖像的描述,生成多樣的編輯指令和相應(yīng)的編輯后描述輸出。如圖2所示,我們利用公開的 Llama3-8b 模型將原始描述轉(zhuǎn)換為多樣的編輯指令。為了克服在生成編輯指令時指令多樣性和一致性方面的局限性,將直觀的類型約束與大語言模型(LLM)生成相結(jié)合,并使用上下文示例來開發(fā)一個針對每種編輯類型的特定任務(wù)代理。此外,將生成的編輯指令與原始描述結(jié)合,形成指令對,作為上下文示例供其進行迭代自我增強,從而逐漸提高指令的多樣性和復(fù)雜性。

自適應(yīng)編輯pipeline

傳統(tǒng)的指令編輯數(shù)據(jù)集依賴于固定的pipeline或耗時的手動篩選,這使得在復(fù)雜的編輯類型和各種輸入格式下,難以高效地生成高質(zhì)量的編輯圖像。在此,我們提出了一種自適應(yīng)的編輯pipeline視角,能夠根據(jù)特定的編輯類型定制編輯后的圖像。具體來說,設(shè)計了9條核心pipeline,用于生成局部、全局、相機運動、隱式和視覺編輯數(shù)據(jù),涵蓋了20多種編輯類型。在圖像編輯生成過程中,我們將編輯指令對與原始圖像及其變體輸入到自適應(yīng)編輯pipeline中。該pipeline根據(jù)編輯類型動態(tài)選擇量身定制的解決方案,生成與預(yù)期編輯一致的圖像。此外,在擴散過程中將額外的約束(如膨脹mask、布局和幾何引導(dǎo))融入到UNet層中,以實現(xiàn)更精確的語義對齊和減少偽影。

數(shù)據(jù)質(zhì)量增強

由于編輯數(shù)據(jù)的質(zhì)量對于在AnyEdit中訓(xùn)練強大的編輯模型至關(guān)重要,進一步引入了一個全面的數(shù)據(jù)質(zhì)量增強篩選策略。該策略包括兩個步驟:指令驗證預(yù)篩選和圖像質(zhì)量后篩選。

  • 指令驗證預(yù)篩選 注意到,來自大語言模型(LLMs)的部分編輯指令有時會引入歧義,進而不利于編輯圖像(例如,“顏色變化”編輯中的外觀變化,或“動作變化”編輯中的靜態(tài)桌面動作變化)。同時,低質(zhì)量的初始圖像(如低分辨率、不良的長寬比、缺乏美學(xué))即使經(jīng)過多輪篩選,也會導(dǎo)致編輯結(jié)果不滿意。因此,采用特定任務(wù)的啟發(fā)式規(guī)則來驗證各種指令,確保指令的一致性,并進行美學(xué)評估,以確保使用的圖像在審美上平衡,適合編輯過程。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

特性與統(tǒng)計

得益于我們有效的自動化數(shù)據(jù)集收集方法,AnyEdit包含250萬對高質(zhì)量的編輯樣本,涵蓋25種不同的編輯類型。AnyEdit涵蓋了更廣泛的領(lǐng)域,包括視角編輯、隱式編輯和視覺編輯等復(fù)雜編輯任務(wù),并融合了更豐富的場景種類,包括概念豐富的合成場景(參見表1)。此外,圖1(b)中的AnyEdit數(shù)據(jù)分布反映了多種編輯類型的廣泛覆蓋。定量評估表明,基于語義相似度和視覺相似度指標(參見表3),AnyEdit在像素級一致性和準確反映編輯指令方面表現(xiàn)出顯著的提升(相較于UltraEdit,DINOv2提升+25.2%,CLIPin提升+16.0%)。

AnyEdit數(shù)據(jù)集集中每種編輯類型的詳細流程圖:

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

現(xiàn)有圖像編輯數(shù)據(jù)集的比較

“真實圖像”表示原始圖像來自現(xiàn)實世界,“合成圖像”表示它們來自T2I模型,“合成場景”表示圖像和描述都是為了解決固有的數(shù)據(jù)偏差而生成的:

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)


釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

方法

架構(gòu)

由于AnyEdit包含了跨多個領(lǐng)域的多種編輯指令,因此具有開發(fā)強大編輯模型的潛力,能夠處理高質(zhì)量的編輯任務(wù)。然而,訓(xùn)練這樣一個模型面臨三個額外的挑戰(zhàn):(a)對各種多模態(tài)輸入的語義對齊;(b)識別每個領(lǐng)域中的語義編輯,以控制編輯的粒度和范圍;(c)協(xié)調(diào)各種編輯任務(wù)的復(fù)雜性,以防止災(zāi)難性遺忘。為此,提出了一種新穎的AnyEdit穩(wěn)定擴散方法(AnySD),以應(yīng)對現(xiàn)實世界中的各種編輯任務(wù)。如圖3所示,AnySD包括三個設(shè)計:視覺提示投影器、任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入。接下來,將介紹每個AnySD設(shè)計。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

可學(xué)習(xí)的任務(wù)嵌入

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

訓(xùn)練與推理

為了增強 AnySD 處理多樣化編輯條件的能力,引入了 CFG ,擴展自 InstructPix2Pix,用于三種條件化。此外,將 AnySD 的訓(xùn)練結(jié)構(gòu)分為兩個階段,以確保擴散模型能夠充分理解通用的編輯知識并開發(fā)細粒度的任務(wù)特定技能。

階段 I:指令理解

在此階段,為了增強模型的指令跟隨能力,凍結(jié)任務(wù)感知路由,將額外的條件設(shè)置為零張量,并僅預(yù)訓(xùn)練擴散過程中的 UNet 主干,以使其與編輯指令對齊。此外,在訓(xùn)練過程中隨機省略原始圖像和編輯指令,以增強推理時的 CFG。

階段 II:任務(wù)調(diào)整

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

推理

在推理階段,我們使用 LLMs(例如 LLaMA-3)預(yù)測編輯類型,并根據(jù)輸入的指令應(yīng)用我們的 AnySD 進行編輯。

實驗

首先在流行的標準編輯基準上評估 AnyEdit 和 AnySD,展示 AnyEdit 數(shù)據(jù)集的高質(zhì)量以及 AnySD 架構(gòu)的優(yōu)越性。此外,將評估擴展到更具挑戰(zhàn)性的 AnyEdit-Test 基準,以展示方法的擴展性,更好地與現(xiàn)實場景中的創(chuàng)意編輯需求對接。還進一步展示定性結(jié)果并進行深入分析,以說明 AnyEdit 的可擴展性和更廣泛的適用性。

實驗設(shè)置

設(shè)置

為了公平比較,采用 Stable-Diffusion 1.5 作為主干,并遵循 InstructPix2Pix的設(shè)置來訓(xùn)練我們的 AnySD。值得注意的是,僅使用 AnyEdit 數(shù)據(jù)進行訓(xùn)練,而未結(jié)合任何額外的數(shù)據(jù)集。

基準與評估指標

在兩個流行的基準上評估我們的方法:Emu Edit Test和 MagicBrush。這些標準基準通過比較編輯結(jié)果與真實值來評估編輯模型。此外,從 AnyEdit 中手動選擇了每種編輯類型的 50 個高質(zhì)量編輯數(shù)據(jù),創(chuàng)建了更具挑戰(zhàn)性和綜合性的 AnyEdit-Test 進行評估。值得注意的是,AnyEdit-Test 在訓(xùn)練期間不可見。遵循先前的工作 [17, 64, 82],采用語義相似度(例如 CLIPim 和 CLIPout)和視覺相似度(例如 DINO 和 L1 距離)指標來評估基于 AnyEdit 訓(xùn)練的 AnySD 在指令驅(qū)動圖像編輯中的效果。

基準方法

使用以下基準方法:

  • 專門的圖像編輯方法:PnP, Null-Text;
  • 基于指令的方法:它直接用自然語言編輯圖像,包括 InstructPix2Pix, MagicBrush, HIVE, EMU-Edit, UltraEdit;
  • 視覺條件方法:它針對視覺編輯,包括 Uni-ControlNet。

標準圖像編輯的主要結(jié)果

在 EMU-Edit Test 和 MagicBrush 基準上報告 AnyEdit 和其他基準方法的標準圖像編輯結(jié)果,見表 4。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

根據(jù)實驗結(jié)果,總結(jié)了以下結(jié)論:

  • 使用 AnyEdit 的 SD-1.5,僅更改訓(xùn)練數(shù)據(jù)為 AnyEdit,在編輯對齊和內(nèi)容保留方面始終表現(xiàn)出優(yōu)越的語義性能,甚至沒有額外的掩碼監(jiān)督(在 EMU-Edit Test 上,CLIPim 為 0.872,CLIPout 為 0.285)。這突出了 AnyEdit 在掌握高質(zhì)量圖像編輯方面的有效性,驗證了其高質(zhì)量編輯數(shù)據(jù)在語義對齊和清晰的編輯結(jié)構(gòu)方面的顯著作用。
  • 使用 AnySD 模型,在 AnyEdit 數(shù)據(jù)上訓(xùn)練并采用 AnySD 架構(gòu),進一步在語義和視覺相似度上超越了 SOTA 方法(在 EMU-Edit Test 上 CLIPim 為 0.872,在 MagicBrush Test 上 DINO 為 0.881),在 MagicBrush 和 Emu-Edit 基準上創(chuàng)下新紀錄。這表明 AnySD 在遵循編輯指令的同時,能夠保持未修改圖像元素的完整性,得益于其任務(wù)感知架構(gòu),從 AnyEdit 中學(xué)習(xí)任務(wù)特定知識,提升了模型在跨任務(wù)編輯中的能力。

AnyEdit-Test 基準對比

表 5 展示了 AnyEdit-Test 基準的結(jié)果,其中每個指令旨在嚴格評估 AnyEdit 在更廣泛的挑戰(zhàn)性編輯場景中的適應(yīng)性。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

從中可以觀察到:(i)大多數(shù)基準方法在處理標準基準中很少出現(xiàn)的復(fù)雜編輯任務(wù)時效果不佳(平均 L1 為 0.190 對比 0.121),尤其是在隱式編輯任務(wù)上,這些任務(wù)需要推理能力。這表明 AnyEdit-Test 對于評估編輯模型在復(fù)雜任務(wù)中的表現(xiàn)至關(guān)重要。(ii)即使是常見的編輯任務(wù),最先進的模型在 AnyEdit-Test 上的表現(xiàn)也出現(xiàn)了顯著下降(UltraEdit 在 CLIPim 上下降了 3.5%,在 DINO 上下降了 19.2%)。這突出了現(xiàn)有基準在評估多場景編輯中的局限性。(iii)相比之下,AnyEdit 在所有編輯類別中顯著優(yōu)于最先進的方法,展示了其在處理復(fù)雜任務(wù)中的可擴展性和魯棒性。(iv)傳統(tǒng)方法在處理視覺編輯時常常難以有效應(yīng)對額外的視覺輸入。在這種情況下,即使與經(jīng)過多種視覺條件預(yù)訓(xùn)練的 Uni-ControlNet 相比,AnyEdit 在視覺編輯任務(wù)中也始終表現(xiàn)得更好。這顯示了 AnyEdit 在處理視覺條件編輯指令時的有效性。

定性評估

由于定量指標在評估編輯任務(wù)中的局限性,進行了定性評估,以進一步評估我們方法的有效性,如圖 5 所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

主要觀察結(jié)果如下:

  1. 大多數(shù)基準模型,包括人工調(diào)優(yōu)的 HIVE-c和擁有大量訓(xùn)練數(shù)據(jù)的最先進方法 UltraEdit,在處理復(fù)雜的精細化指令(例如圖 5(ii) 中的“面部畸形”和“缺失眼鏡”)時,仍然會遭遇過度編輯或錯位的情況。
  2. 由于當前數(shù)據(jù)集的多樣性和質(zhì)量有限,先前的方法(如 ip2p、MagicBrush 和 UltraEdit)在不同場景下難以推廣到新型編輯類型(例如,在旋轉(zhuǎn)變換和計數(shù)任務(wù)中未能遵循指令,或在外觀修改任務(wù)中粗略改變對象的外觀)。
  3. 相比之下,我們的方法可以有效確保目標區(qū)域的編輯精度,并在不相關(guān)區(qū)域保持一致性,即使沒有任何掩膜指導(dǎo)(如圖 5(i)、(vii))。此外,方法能夠自動區(qū)分前景和背景,并修改背景(如圖 5(v))。我們的方案還成功執(zhí)行了更復(fù)雜的編輯指令(例如圖 5(vi) 中的風(fēng)格變換和圖 5(x) 中的修復(fù))。

此外,在圖 6 中可視化了 AnyEdit 在視覺編輯中的結(jié)果。在這個具有挑戰(zhàn)性的設(shè)置下,Uni-ControlNet 僅能反映視覺條件中的像素信息,或者保留原始圖像的語義而不執(zhí)行任何編輯。相比之下,對于各種視覺指令,AnyEdit 始終能夠理解視覺條件中的像素信息并實現(xiàn)可靠的編輯。這些有前景的可視化結(jié)果確認了 AnyEdit 在處理視覺條件編輯指令時的有效性和高質(zhì)量。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

深入分析

AnySD 架構(gòu)

調(diào)查了每個組件的有效性,并在 EMU-Edit Test 基準上進行了以下實驗:

  • 我們移除了 AnySD 中的文本感知路由策略(參見表 6 的第 1 行),發(fā)現(xiàn)其導(dǎo)致了顯著的性能下降(CLIPim 從 0.838 降至 0.872,L1 從 0.154 降至 0.070),表明該策略對于適應(yīng)多樣的圖像編輯任務(wù)至關(guān)重要。
  • 移除了 AnySD 中的任務(wù)嵌入,觀察到這對語義對齊的影響較小,但對視覺一致性有顯著影響(參見表 6 的第 2 行),這表明任務(wù)嵌入在跨注意力過程中控制了像素信息的感知粒度。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

AnyEdit 中數(shù)據(jù)擴展的分析

在圖 4 中,分析了 AnyEdit 數(shù)據(jù)擴展對圖像編輯能力的影響。觀察到:

  • 對于一致性指標(例如 CLIPim 和 DINO),隨著數(shù)據(jù)規(guī)模的增加,性能逐步提升;
  • 對于編輯準確性指標(例如 CLIPout),即使數(shù)據(jù)量較少,也能實現(xiàn)令人滿意的性能,表明 AnyEdit 在語義對齊方面表現(xiàn)優(yōu)異;
  • 此外,移除了在反事實合成場景中的 AnyEdit-Composition 編輯數(shù)據(jù),如表 6 第 3 行所示,缺乏概念平衡會限制 AnySD 的泛化能力,導(dǎo)致語義性能下降(CLIPout 降低了 4.9%)。這證實了反事實合成場景在編輯任務(wù)泛化中的有效性。

結(jié)論

這項工作提出了一種新的編輯任務(wù)分類視角,并引入了一個統(tǒng)一框架,利用自適應(yīng)pipeline構(gòu)建低資源環(huán)境下適用于多樣編輯任務(wù)的高質(zhì)量數(shù)據(jù)。在此基礎(chǔ)上,提出了 AnyEdit,這是一個多類型、多場景的基于指令的編輯數(shù)據(jù)集,包含 250 萬個編輯樣本,覆蓋 25 種不同類型,并配套 AnyEdit-Test 基準,開啟了統(tǒng)一圖像編輯的更全面的范式。此外,開發(fā)了強大的 AnySD,充分釋放了 AnyEdit 的潛力。通過在標準基準和具有挑戰(zhàn)性的 AnyEdit-Test 上的廣泛實驗,證明了我們的方法在多樣任務(wù)和場景下的高質(zhì)量圖像編輯能力,能夠準確執(zhí)行復(fù)雜指令,同時保持未修改元素的圖像一致性。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/3LAh7-HTdwSFZMEGR_EdZA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
亚洲三区在线观看| 国产ts人妖一区二区三区| 丰满人妻一区二区三区大胸 | 欧美一区二区大片| 国产精品 日韩| 伊人中文字幕在线观看| 羞羞色午夜精品一区二区三区| 色老汉av一区二区三区| 中文字幕中文字幕99| 国 产 黄 色 大 片| 蜜臀精品久久久久久蜜臀| 欧美激情伊人电影| 一区二区三区在线观看免费视频| 日韩成人影音| 一区二区在线观看免费视频播放| 91久久精品视频| 久久一区二区三区视频| 久久精品国内一区二区三区水蜜桃 | 在线高清av| 亚洲日本电影在线| 51精品国产人成在线观看| 国产又黄又粗又爽| 欧美体内she精视频在线观看| 欧美r级电影在线观看| 久久婷婷国产精品| av在线私库| 亚洲精品亚洲人成人网在线播放| av蓝导航精品导航| 亚洲一区二区视频在线播放| 色无极亚洲影院| 精品视频—区二区三区免费| 妞干网在线免费视频| 你懂的在线播放| 国产成人精品免费网站| 国产日韩精品在线| 懂色av蜜臀av粉嫩av喷吹| 91综合在线| 精品久久久久久久久久久院品网 | 超碰在线免费公开| 中文字幕av资源一区| 欧美韩国日本精品一区二区三区| 久草视频在线免费| 在线综合亚洲| 亚洲最新av网址| 国产精品一区二区入口九绯色| 成人av色网站| 在线观看区一区二| 91av在线免费播放| 色8久久影院午夜场| 成人免费在线视频| 中文字幕久久综合| 里番在线观看网站| 国产精品毛片高清在线完整版| 久久影院在线观看| 911国产在线| 午夜片欧美伦| 欧美精品情趣视频| 中文字幕日韩一区二区三区| 丰满人妻一区二区| 奇米一区二区三区av| 国产精品成人在线| 一区二区视频网| 久久精品av麻豆的观看方式| 国产在线观看91精品一区| 亚洲无码精品国产| 欧美综合二区| 国产精品激情av电影在线观看 | 一区二区三区在线高清| 日本不卡高清视频一区| 国产高清视频免费最新在线| 欧美激情综合五月色丁香小说| 国产高清一区视频| 天堂网在线资源| 久久这里只有精品6| 日韩av不卡播放| 麻豆传媒视频在线观看免费| 久久亚洲综合色一区二区三区| 国产999视频| 亚洲字幕av一区二区三区四区| 亚洲一区二区三区高清| 国产ts一区二区| 国产精品国产三级国产专区52| 亚洲天堂一区二区三区四区| 欧美另类极品videosbest最新版本| www久久久久久久| 五月婷婷亚洲| 国模gogo一区二区大胆私拍| 国产免费av一区| 久久精品国产第一区二区三区| 青青久久av北条麻妃黑人| 中文字幕 日韩有码| 国产精品一二三区| 欧美精品一区二区三区在线看午夜| 亚洲黄色精品视频| 久久久五月婷婷| 秋霞在线观看一区二区三区| 亚洲色大成网站www| 国产亚洲视频系列| 欧美一二三不卡| 亚洲成人看片| 亚洲第一视频在线观看| 亚洲а∨天堂久久精品2021| 精品在线91| 欧美精品制服第一页| 亚洲欧美一区二区三区在线观看| 久久深夜福利| 5566av亚洲| 1pondo在线播放免费| 欧美国产1区2区| 东北少妇不带套对白| 国产在视频一区二区三区吞精| 欧美日韩精品一区二区三区四区 | 国产午夜福利片| 免费看欧美美女黄的网站| 国产视频不卡| 国产美女福利在线| 欧美亚洲一区二区三区四区| av漫画在线观看| 日韩欧美伦理| 国产成人极品视频| 天堂在线资源网| 亚洲免费观看高清完整版在线观看 | 国产欧美一区二区三区在线| 91麻豆成人精品国产| 99久久99久久精品免费看蜜桃| 免费成人看片网址| 日本天码aⅴ片在线电影网站| 亚洲不卡av一区二区三区| 亚洲美女性囗交| 视频在线观看免费影院欧美meiju| 日韩欧美国产午夜精品| 亚洲精品国产成人av在线| 午夜精品毛片| 91精品久久久久久久久久| 阿v免费在线观看| 日韩欧美国产网站| 中国黄色a级片| 一区二区日韩免费看| 国产富婆一区二区三区| 欧美另类tv| 欧美一级生活片| 色在线观看视频| 国产在线播放一区二区三区| 亚洲一区二区三区免费观看| 污污的网站在线看| 欧美一级片在线看| 18岁成人毛片| 国产一区二区三区视频在线播放| 好看的日韩精品| 1769视频在线播放免费观看| 在线看不卡av| 一级黄色录像毛片| 久久精品国产亚洲aⅴ| 亚洲精品白虎| 永久免费观看精品视频| 久久手机免费视频| aaa一区二区三区| 一区二区三区四区乱视频| 久久久久99人妻一区二区三区| av一区二区高清| 国产精品美女在线观看| 手机在线不卡av| 欧美日韩免费在线观看| 精品人妻无码一区二区三区| 久久亚洲二区| 亚洲精品视频一二三| 成人51免费| 色中色综合影院手机版在线观看| 日韩精选在线观看| 国产精品成人网| 无码人妻丰满熟妇区毛片蜜桃精品| 免费成人av| 国产69精品久久久久99| 免费在线黄色网址| 欧美视频在线观看一区二区| 国产尤物在线播放| gogo大胆日本视频一区| 国模杨依粉嫩蝴蝶150p| 天堂美国久久| 国产亚洲第一区| 成人黄色图片网站| 色中色综合影院手机版在线观看 | 厕沟全景美女厕沟精品| 中文字幕精品国产| 日韩在线视频不卡| 国产精品福利电影一区二区三区四区| 18岁视频在线观看| 天天综合网91| 九色91在线视频| 亚洲精品一区av| 韩国日本不卡在线| av在线电影播放| 精品日韩欧美一区二区| av手机天堂网| 亚洲影视在线观看| 亚洲黄色小说视频| 国产不卡在线视频| 老司机午夜av| 日韩成人精品一区二区| 国产99在线免费| 电影一区二区| 国内揄拍国内精品少妇国语| h视频在线播放| 亚洲国产欧美自拍| 11024精品一区二区三区日韩| 中文字幕乱码久久午夜不卡 | 成人做爰视频www| 欧美精品激情在线观看| 日本高清视频免费看| 亚洲图片自拍偷拍| 国产小视频你懂的| 国产精品中文字幕一区二区三区| 一区二区av| 亚洲区小说区| 国产精品三区四区| 中文在线最新版地址| 久久福利网址导航| 91啦中文在线| 亚洲精品一区二区三区不| www.com欧美| 欧美人妇做爰xxxⅹ性高电影| 亚洲一级生活片| 成人午夜在线播放| 欧美污视频网站| 亚洲精选久久| 成人短视频在线观看免费| 欧美黑人巨大videos精品| 欧美在线视频观看免费网站| 青春草在线免费视频| 日韩中文字幕国产精品| 成人在线视频成人| 欧美一区二区三区免费观看视频 | 一本一道久久a久久精品综合蜜臀| 日韩乱码人妻无码中文字幕久久 | 麻豆av免费看| 极品少妇xxxx偷拍精品少妇| 日韩视频在线视频| 欧美日韩99| 五月天激情图片| 中文字幕乱码亚洲无线精品一区| 精品国产乱码久久久久久郑州公司| 我爱我色成人网| 日本欧美中文字幕| 二区三区在线观看| 亚洲男女自偷自拍图片另类| 天天操天天干天天爽| 亚洲成人网在线观看| 免费观看黄色av| 欧美精品一区二区三区很污很色的| 亚洲毛片一区二区三区| 色综合久久久久综合99| 日本网站免费观看| 福利视频第一区| 久久久久久亚洲av无码专区| 日本韩国一区二区| 国产在线视频卡一卡二| 亚洲国产欧美日韩另类综合| 最近中文字幕在线mv视频在线| 美女精品自拍一二三四| jizzzz日本| 国产精品一区二区在线播放| 美女又黄又免费的视频| 成人午夜电影久久影院| www.久久久久久久久久久| 国产精品自拍av| 亚洲精品乱码久久| 久久久综合精品| 成年人看的免费视频| 亚洲卡通动漫在线| 日韩和一区二区| 在线视频国内自拍亚洲视频| 中文字幕在线日亚洲9| 日韩欧美在线免费观看| 国产三级理论片| 91精品国产麻豆| 亚洲天堂avav| 欧美成人一区二区三区片免费| 亚洲在线精品视频| 精品日韩一区二区三区| 欧美色综合一区二区三区| 中文字幕欧美日韩在线| 国产小视频在线观看| 亚洲精品国产拍免费91在线| 精品无人乱码| 欧美乱大交xxxxx| 一区二区电影免费观看| 国产欧美在线播放| 国产一区在线电影| 无遮挡亚洲一区| 激情久久婷婷| 人人干人人干人人| 成人av网址在线| 中文字幕在线播放一区| 欧美国产欧美亚州国产日韩mv天天看完整| 97人妻精品一区二区三区免 | 四虎电影院在线观看| 在线精品国产欧美| 丁香高清在线观看完整电影视频| 欧美精品在线视频观看| 日日av拍夜夜添久久免费| 超碰在线97av| 久久看人人摘| 北条麻妃在线视频观看| 国产一区二区三区蝌蚪| 久久久久久国产免费a片| 亚洲一区二区三区影院| 中文字幕+乱码+中文| 亚洲国产日韩一区| 羞羞的网站在线观看| 久久免费高清视频| 国产成人免费av一区二区午夜| 99re6热在线精品视频播放速度| 一区二区三区自拍视频| 亚洲国产日韩欧美| 久久精品导航| 97香蕉碰碰人妻国产欧美| 91丨porny丨在线| 久草免费在线观看视频| 欧美日本高清视频在线观看| 美国一级片在线免费观看视频| 色偷偷噜噜噜亚洲男人的天堂| 久草中文在线| 国产精品极品尤物在线观看| 亚州av日韩av| 成年人午夜视频在线观看| 国产乱妇无码大片在线观看| 99国产精品免费视频| 亚洲欧洲日产国产综合网| 国产精品久久久久久久久夜色| 88在线观看91蜜桃国自产| 国产午夜在线观看| 日本久久久久久久久| 女同久久另类99精品国产| 97碰在线视频| 成人性生交大合| 国产精品999久久久| 精品剧情v国产在线观看在线| 久久精品蜜桃| 美乳少妇欧美精品| 午夜av不卡| 精品视频一区二区| 国产亚洲激情| 日韩网站在线播放| **网站欧美大片在线观看| 亚洲视频久久久| 日韩成人av网| 伊人网在线播放| 欧美日韩中文国产一区发布| 久久一二三区| 亚洲成人黄色av| 亚洲电影一区二区三区| 国产91免费看| 91精品国产高清久久久久久| 欧美日韩一区二区三区四区不卡 | 天涯成人国产亚洲精品一区av| 国产精品.www| 亚洲国产天堂久久综合网| 日日夜夜精品一区| 成人欧美一区二区三区黑人孕妇 | 日韩另类视频| 亚洲一区二区不卡视频| 精品综合免费视频观看| 国产伦精品一区二区三区妓女| 亚洲欧美一区二区三区国产精品| 中文字幕超碰在线| 国产亚洲精品久久久久动| 1234区中文字幕在线观看| 91亚洲精品一区二区| 国产精品hd| 国产熟妇搡bbbb搡bbbb| 亚洲大型综合色站| 九色在线免费| 91香蕉电影院| 国产精品夜夜夜| 成人午夜免费影院| 欧美mv和日韩mv的网站| 亚洲天堂av影院| 国产奶头好大揉着好爽视频| 懂色av一区二区夜夜嗨| 日韩精品一区二区亚洲av| 亚洲国产天堂久久综合网| 外国电影一区二区| 999一区二区三区| 国产成人免费视频网站高清观看视频| 久久久精品成人| 欧美三区在线视频| 可以在线观看的av网站| 成人免费网站在线看| 亚洲一区黄色| 99成人在线观看| 精品一区二区三区三区| 四虎精品在线观看| 女人天堂av手机在线| 99精品在线观看视频| 中文字幕永久在线观看| 日韩亚洲一区二区| 日韩av黄色在线| 特黄特黄一级片| 亚洲一区二区欧美激情| 黄色美女网站在线观看|