精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集

發布于 2024-4-12 11:55
瀏覽
0收藏

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

文章:https://arxiv.org/pdf/2404.02790.pdf
數據集:???https://MuLAn-dataset.github.io/??


文本到圖像生成已經取得了令人驚訝的成果,但精確的空間可控性和prompt的保真度仍然是極具挑戰性的。通常通過繁瑣的prompt工程、場景布局條件或圖像編輯技術來解決這一限制,這些技術通常需要手繪mask。然而,現有的工作往往難以利用場景的自然實例級組合性,因為柵格化的 RGB 輸出圖像通常是平面的。


為了解決這一挑戰,本文介紹了MuLAn:一個新穎的數據集,包含超過 44K 個RGB圖像的MUlti-Layer ANnotations,作為多層、實例級別的RGBA分解,并包含超過100K個實例圖像。為了構建MuLAn,本文開發了一個無需訓練的pipeline,將單目RGB圖像分解為包含背景和孤立實例的RGBA層堆棧。通過使用預訓練的通用模型,并開發了三個模塊:圖像分解用于實例發現和提取,實例補全用于重建被遮擋區域,以及圖像重組。使用pipeline創建了MuLAn-COCO和MuLAn-LAION數據集,這些數據集包含各種風格、構圖和復雜度的圖像分解。通過MuLAn,提供了第一個提供實例分解和遮擋信息的逼真資源,為高質量圖像開辟了新的文本到圖像生成AI研究途徑。通過這一舉措,旨在鼓勵開發新型的生成和編輯技術,特別是層級解決方案。

圖像分解可視化展示

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

介紹

大規模生成diffusion model 現在能夠根據文本prompt詞描述生成高質量的圖像。這些模型通常在包含多種風格和內容的標注RGB圖像的大型數據集上進行訓練。雖然這些技術已經極大地推動了文本引導圖像生成領域的發展,但圖像外觀和構成(例如局部圖像屬性、可計數性)的精確可控性仍然是一個挑戰。Prompt指令經常缺乏精確性或被誤解(例如計數錯誤、空間位置錯誤、概念混淆、未能添加或刪除實例),因此需要復雜的prompt工程來獲得期望的結果。甚至稍微改變prompt都可以通過微調生成的圖像而導致顯著不同的樣本,需要進一步的努力,才能獲取高質量的所需圖像。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

為了解決這些限制,一些努力考慮了額外的條件,例如姿態、分割圖、邊緣圖以及基于模型的圖像編輯策略。前者改善了空間可控性,但仍需要繁瑣的prompt工程來調整圖像內容;而后者通常無法理解空間指令,因此難以準確修改所需的圖像區域,而不影響其他區域或引入不必要的形態學變化。


本文推測一個關鍵障礙是典型的柵格化RGB圖像通常具有平坦的特性,無法充分利用場景內容的組成性質。相反,將實例和背景隔離在單獨的RGBA層上具有潛力,可以精確控制圖像的組合,因為在單獨的層上處理實例可以保證內容的保留。這可以簡化圖像操作任務,例如調整大小、移動或添加/刪除元素,而這些任務對于當前的編輯方法仍然是一個挑戰。


Collage Diffusion 和 Text2Layer 已經顯示出多層可組合圖像生成的好處的初步證據。Collage Diffusion 通過組合任意輸入層來控制圖像布局,例如通過采樣可組合的前景和背景層,而 Text2Layer 探索將圖像分解為兩個單獨的層(分組前景實例和背景)。盡管對無需訓練的分層和復合生成越來越感興趣,但在這個有希望的方向上進行研究開發的主要障礙是缺乏公開可用的逼真的多層數據,以訓練和評估生成和編輯方法。


在這項工作中,本文旨在填補這一空白,引入了一個名為MuLAN的新型數據集,其中包含自然圖像的多層RGBA分解標注(請參見下圖中的RGBA分解示意圖)。為了實現這一目標,本文設計了一個圖像處理pipeline,它將單個RGB圖像作為輸入,并輸出其背景和單個對象實例的多層RGBA分解。本文提出利用大規模預訓練的基礎模型來構建一個強大的通用pipeline,而不產生額外的模型訓練成本。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

本文將分解過程分為三個子模塊,重點放在:

  • 實例發現、排序和提取;
  • 遮擋外觀的實例補全;
  • 將圖像重新組裝為RGBA堆棧。

每個子模塊都經過精心設計,以確保通用適用性、高實例和背景重建質量,并確保輸入圖像與組合的RGBA堆棧之間的最大一致性。本文使用本文的新型pipeline處理了來自COCO 和 LAION Aesthetics 6.5 數據集的圖像,為超過44,000張圖像和超過100,000個實例生成了多層實例標注。生成的分解示例如下圖所示:每個分解的圖像包括一個背景層,提取的實例是具有透明度 alpha 層的獨立RGBA圖像。可以從RGBA堆棧中刪除實例,產生幾種中間表示形式;其中通過修補完成結果遮擋的區域。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

本文發布MuLAn的目標是通過提供全面的場景分解信息和場景實例一致性,促進生成圖像作為RGBA堆棧的技術的開發和訓練。本文旨在促進尋求以下研究的進展:(i) 提高生成圖像結構的可控性,以及 (ii) 通過精確的逐層實例編輯來改善局部圖像修改質量。本文通過兩個應用案例展示了本數據集的潛在效用和逐層表示的優勢:1) RGBA圖像生成和 2) 實例添加圖像編輯。總體上,本文的主要貢獻是:

  • MuLAn的發布是一個新穎的多層標注數據集,包括來自COCO和LAION Aesthetics 6.5的逾44,000張圖像的RGBA分解。據本文所知,MuLAn是其類別中的第一個數據集,為各種場景、風格(包括逼真的真實圖像)、分辨率和目標類型提供了實例分解和遮擋信息。
  • 本文提出了一種新穎的模塊化pipeline,將單個RGB圖像分解為實例化的RGBA堆棧,無需額外的訓練成本。本文的想法以創新的方式利用了大型預訓練模型,并包括排序和迭代修補策略,以實現本文的圖像分解目標。這進一步使本文能夠深入了解大模型在實際應用中的行為。
  • 本文通過兩個應用展示了MuLAn的潛力,這兩個應用以不同的方式利用了本文豐富的標注信息。

相關工作

Amodal completion 旨在自動估計部分遮擋對象的真實結構和外觀。這項具有挑戰性的任務已經得到了深入研究,通常建立在在合成或富有標注的數據集上訓練的模型基礎之上。這些數據集通常包括包含遮擋區域的實例分割mask。此外,與MuLAn最接近的數據集包括遮擋區域的外觀信息和實例排序信息。本文在下表中提供了這些數據集與本文的詳細比較。生成真實的遮擋標注的時間和成本要求限制了先前研究僅限于合成、小型或高度專業化的數據集,如室內場景、人類、車輛和目標以及人類等。相比之下,MuLAn包括了各種場景、風格(包括逼真的真實圖像)、分辨率和目標類型的圖像,并且建立在流行數據集之上,以支持生成式 AI 研究。本文強調本文使用真實圖像相對于現有數據集對遮擋率的影響,其中合成場景被設計得有很高的遮擋率。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

RGBA圖像分解 需要在單獨的透明層上識別和隔離圖像實例,并估計遮擋區域的形狀和外觀。這項具有挑戰性的任務通常需要使用額外的輸入(超出單個RGB圖像),例如不完全遮擋的分割、立體圖像和時間視頻幀。后者極大地促進了分解任務,因為視頻幀可以提供缺失的遮擋信息。最近,基于層的生成建模受益于初步探索。


Text2Layer 將自然圖像分解為兩個層的RGBA分解。圖像被分解為背景和顯著的前景層,其中背景使用無prompt的最先進的diffusion model進行修補。與本文的方法相比,這種方法的主要限制在于兩層分解:所有實例都提取在同一個前景層中,這嚴重缺乏本文所需的實例分解的靈活性。本文的目標是單獨分解每個實例,這帶來了額外的挑戰,如實例排序、實例修補和不完全遮擋補全。與本文的分解目標相鄰,PCNet 學習預測實例排序、不完全遮擋mask和對象補全。然而,該方法的適用性受限于前述的不完全遮擋完成數據集的限制。據本文所知,本文的分解流程是唯一能夠分解單目RGB圖像的通用技術。


與本文的工作相輔相成的是一種用于diffusion model 的圖像拼貼策略——Collage Diffusion,它具有類似的實例級模塊化目標。雖然本文的目標是從圖像中提取實例,但他們的方法旨在將單個實例組裝成一個同質的復合圖像。這個先前工作的一個限制涉及到在拼貼實例的外觀保持和復合圖像的同質性之間取得平衡的挑戰,這可以被認為是非平凡的,并且隨著實例數量的增加而變得更加困難。

圖像分解pipeline

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區


本文的流程概述如下圖所示,可以在補充材料中找到進一步的詳細示意圖,它顯示了所有組件的實例化。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

圖像分解模塊

本文的分解模塊旨在提取并隔離圖像中的所有實例。本文首先使用目標檢測和分割模型識別和分割實例。與此同時,本文依靠深度估計和遮擋排序模型構建相對遮擋圖,并建立實例的提取、修補和重新組裝順序。


目標檢測。準確地檢測圖像中的所有相關實例是本文的pipeline的第一步。為了實現良好的質量分解,本文必須能夠檢測和分離場景中的所有實例。為此,本文利用了視覺語言目標檢測技術,它輸入要檢測的類別列表以及輸入圖像。這樣的模型具有吸引力,因為它們可以輕松實現開放集檢測,意味著本文不限于特定數據的預先存在的類別集。本文使用了detCLIPv2,這是一個具有以下特點的最先進的模型:它能夠利用類別定義(而不僅僅是類別名稱)來提高檢測準確性。


本文精心構建了文本輸入(類別列表),以確保從圖像中檢測和提取所有所需的類別。本文使用了來自THINGS 數據庫的概念列表,并手動更新和簡化它,以獲得更通用的類別名稱(例如,合并船型、飲料、堅果等),并刪除同音詞和本文不想提取的概念(例如,不可移動的目標、服裝、螺栓和鉸鏈)。本文強調,這個列表構成了pipeline的一個輸入,可以輕松地定制要檢測的實例。除此之外,本文還使用了WordNet 數據庫的定義,以識別圖像中的所有相關實例。pipeline的這一步輸出了一系列帶有相應類別名稱的邊界框。


分割。本文的下一步是精確分割檢測到的實例。為了處理大量的類別、領域和圖像質量,本文尋求利用一個強大的通用分割模型。其中一個這樣的模型是SAM ,它已經經過了所需的多樣性和規模的訓練,在大量領域中取得了良好的穩健性和可轉移性。利用邊界框作為分割預測的基礎的能力,使得這類模型成為與本文的 detCLIPv2 檢測器結合的優秀選擇。


深度估計。理解圖像中實例的相對位置對于實現本文的RGBA分解目標至關重要。深度估計提供了關鍵信息,指示了拍攝時相機到目標的距離。本文使用 MiDaS 模型,選擇它是因為它的穩健性:它在12個不同的數據集上進行了訓練,使其在不同類型的場景和圖像質量下都能可靠地工作。一旦計算完成,本文將深度圖分成多個寬度為250的相對深度單元的box,以便進行跨實例的比較。


實例提取。本文將實例提取定義為將二進制mask應用到完整圖像上,以將檢測到的實例與圖像的其余部分隔離開來。本文采用一系列策略來增強這一關鍵步驟的穩健性。首先,本文通過基于它們的邊界框重疊來對實例進行聚類,估計一個原始順序,并使用邊界框大小和平均深度值(在分割mask內)來對它們進行排序。其次,本文使用本文的原始順序來強制執行不相交的實例分割mask,通過將后續實例的提取區域排除在分割mask之外。最后,如果實例的最大連通分量小于20像素或占整個圖像的0.1%,則不提取該實例。


圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區


實例排序。為了最大化實例補全的質量,使用原始圖像的上下文信息對遮擋區域進行修補是必要的。因此,建立精確的實例補全計劃對于逐步豐富圖像上下文而不遮擋相關區域至關重要。本文通過以下三個步驟生成實例排序,依賴于本文在分解步驟中獲取的深度排序和遮擋信息。首先,根據它們的深度信息對實例進行排序,從最遠到最近(根據實例的平均深度值)。這可以通過使用實例深度圖輕松實現:通過計算節點出度,即離開節點的有向邊的數量,即在本文的節點后面的實例的數量。其次,本文依靠本文的遮擋圖來優化本文的排序:如果實例A遮擋實例B,則實例B將系統地在實例A之前排序。最后,相互遮擋的實例根據它們的最大深度值重新排序。實例排序算法的詳細信息在原文補充材料中提供。

實例補全模塊

在實例補全之前,本文已成功地從背景圖像中檢測、隔離和排序了所有實例。但還存在一個重要挑戰:對每個圖像層 li(包括背景)單獨重建遮擋區域,以便移除或隱藏任何圖層都能顯現出遮擋區域。由于本文正在分解自然圖像,這些信息并不對本文可見。本文依靠最先進的生成模型,利用圖像補全技術從現有上下文中想象這些遮擋區域。


基于 Diffusion model 的圖像修補技術相比傳統的圖像修補技術已經樹立了新的標準,因為它們不僅利用了圖像內容,還利用了學習到的圖像先驗和文本條件。即便如此,本文的設置也存在著獨特的困難:

  • 與精心設計手工prompt的常見策略相反,本文只能依靠自動生成的描述
  • 實例圖像包括具有均勻顏色背景的實例,這種圖像模式通常不會被這些模型所見
  • 本文尋求簡單、準確且高質量的補全,而不是獲得美麗或創意的圖像。接下來,將詳細介紹本文的圖像修補過程以及如何解決這些困難。

圖像修補過程。本文的圖像修補過程概述如下圖所示。給定預定義的實例順序,本文迭代地修補一個實例的遮擋區域,從背景圖像開始,直到最近的實例。對于給定的實例,本文的圖像修補過程如下進行:首先,本文利用遮擋順序信息和遮擋實例的分割mask來估計一個修補mask。其次,本文通過將不完整的實例重新整合到中間背景圖像中來構建一個上下文修補圖像。這個背景圖像包含了在先前迭代中處理的已修補實例。第三,利用最先進的修補生成模型和自動生成的描述作為prompt,對實例進行修補。第四,本文使用本文的分割模型和遮擋分割mask來重新提取已完成的實例,有效地獲取完整的實例圖像,這將成為本文多層表示的一部分。最后,本文通過將新修補的實例整合到背景修補圖像中來更新下一次迭代的背景修補圖像。


重要的是,本文的目標是在最大程度地保留場景上下文和防止引入無關的圖像內容之間取得平衡。這對于相互遮擋的實例尤為重要:例如,考慮一個人手持手機,手是上下文,當修補手機的遮擋區域時,手指將被重建。為了防止這種情況發生,本文通過用一個常數值替換具有比下一個實例的最大深度更高的像素的信息來“隱藏”潛在的誤導性上下文。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

修補mask。估計一個準確的修補mask,即描述哪些圖像區域將被覆蓋,對于實現準確的實例補全至關重要。如果未能包含關鍵的遮擋區域,則有可能產生不完整的結果,而mask過大則可能改變原始圖像的外觀。理想情況下,通過模態完成技術來估計一個準確的完整實例形狀。然而,現有方法往往針對特定的數據集或對象類別,具有有限的泛化能力。本文提出利用大型生成模型的內在偏差,提供一個大的修補mask,包括遮擋對象可能存在的區域。這通過構建一個包含所有遮擋實例的分割mask的修補mask來實現。


修補prompt保持簡單,因為本文尋求一種完全自動化的分解策略。對于實例修補,本文利用自動生成的實例描述。對于背景圖像的修補,本文使用一個簡單的通用prompt(“一個空場景”),確保生成的修補背景盡可能簡單。重要的是,在所有負面prompt中包含所有其他實例的類名,以避免重新引入已提取的實例。這增加了對不完美分割的魯棒性。

圖像重組模塊

最后一個也是最簡單的模塊將所有單獨的RGB圖像重新組裝成一個有序的RGBA堆棧,一旦展開,就會產生一個盡可能接近原始輸入圖像的圖像。實例RGB圖像根據本文的修補順序進行排序,因此最后修補的實例位于堆棧的頂部,而背景位于底部。按照這個順序,本文通過細化實例分割mask來迭代地為每個堆棧元素生成Alpha層。


本文使用圖像摳圖模型VitMatte 對修補后的SAM分割進行后處理,以改善Alpha混合質量,處理透明對象,并解決SAM的欠分割傾向。雖然在前兩個模塊中欠分割是首選的,以避免在修補時引入鄰近內容和錯誤的先驗,但是在這個最后階段,本文需要準確的分割。VitMatte優化了SAM的輸出,提供了更平滑的非二進制分割,并允許本文以更自然的方式混合修補后的實例。在存在相互遮擋的情況下(即較低級別的實例創建遮擋),本文通過將遮擋區域設置為透明來進一步調整Alpha層。這最后一個模塊最終輸出本文的RGBA堆棧圖像分解。

描述策略

本文為所有圖層(背景、實例)、中間展開的RGBA堆棧以及完整圖像生成描述。本文使用LLaVa 為標準圖像生成詳細的描述。由于實例圖像的獨特性(實例在統一的白色背景上),像LLaVa這樣冗長的描述模型往往會產生圖像特征的幻覺。為了解決這個問題,本文利用BLIP-2模型為實例生成描述,并進行了參數搜索以選擇一組限制冗長和幻覺的參數集。此外,本文使用受限束搜索來生成多個描述,并使用CLIP 選擇最佳描述。使用LLaVa標注的組件也會使用BLIP進行標注,以確保完整性。

MuLAn數據集

基礎數據集

本文在兩個數據集上運行本文的完整方法,這些數據集提供了足夠的場景組合性來充分利用本文的流程:COCO 數據集和 LAION 數據集的 Aesthetic V2 6.5 子集。Aesthetic 子集對完整的 LAION 數據集進行了篩選,僅選擇了美學分數至少為 6.5 的圖像,包括 625K 張圖像。為了限制場景復雜性并且便于檢查,本文只考慮包含一到五個實例的圖像,這是通過本文的目標檢測器的輸出來確定的。本文處理所有的 COCO 圖像(58K 張圖像),以及一個隨機子集的 100K 張 LAION 圖像,以限制計算成本。

數據篩選

本文的目標是構建一個包含高質量分解的數據集,并排除潛在的失敗模式。為此,本文手動檢查和標記本文處理過的數據,確定了分解失敗的六個主要原因:

  • 目標檢測:在圖像中缺少關鍵實例,或者同一對象多次檢測。
  • 分割:原始圖像上的不正確的實例分割,或修補后的分割。
  • 背景修補:背景圖像的錯誤修補。這可能是由于不完美的分割造成的,以及本文的pipeline沒有考慮到場景中的因果視覺實例效果(例如陰影)。
  • 實例修補:實例的不正確或不完整的修補。這通常是由于mask形狀或姿態偏差(例如人手持吉他)造成的。
  • 截斷實例:圖像摳圖過度侵蝕了非常小實例的 Alpha mask。
  • 無關分解:不適合實例逐個分解的場景(例如錯誤檢測到部分景觀的場景)。

此外,為了分析目的,本文標注了一些例子,其中實例排序不正確,背景元素遮擋實例,并且實例完成受到本文邊界框約束重新分割的限制。本文在補充材料中提供了失敗模式的視覺示例。使用 Voxel FiftyOne ,本文從本文處理過的 LAION Aesthetic 6.5 圖像中隨機選擇了 5000 張圖像進行標注,為成功的分解添加了 “good” 標簽。為了減少偏見,標注由 3 位標注者獨立完成。本文強調,可以為單個圖像分配多個標簽,并且當缺陷較小且不影響分解的整體有效性時,特別將 “good” 標簽與其他標簽關聯。下圖中顯示了手動標注集中各種失敗模式的分布,突出顯示總體成功率為 36%(帶有輕微缺陷的為 52%)。


本文可以看到,分割問題是最大的失敗模式,其次是修補和目標檢測。本文的新排序失敗,以及邊界框限制和背景遮擋的失敗是最罕見的問題。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

本文利用本文的手動標注來訓練兩個分類器,以自動標注本文處理過的其余數據:一個圖像級別的分類器標記背景和無關的分解問題,一個實例級別的多標簽分類器標識剩余的失敗模式。有關本文分類器架構和訓練過程的詳細信息,請參閱原文補充材料。下圖顯示了 LAION 和 COCO 數據集的結果標簽分布。本文采取保守的方法,只選擇具有確信的 “good” 標簽的圖像作為成功的分解,并且僅在圖6中報告此部分的 “good” 標簽。這樣,在 COCO 數據集中獲得了 16K 個分解,而在 LAION 中獲得了 28.9K 個分解,總共為本文的 MuLAn 數據集提供了 44.8K 個標注。


本文的 LAION 自動失敗模式分布與本文手動標注的部分非常相似,其中分割和修補始終是突出的問題。COCO 的分布類似,但目標檢測錯誤更多。這是預期的,因為眾所周知,COCO 是一個具有挑戰性的目標檢測基準(具有 COCO 和 LVIS 標注),場景復雜。相比之下,LAION 包含了較簡單的場景,實例較少。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

數據集分析

通過本文精心策劃的高質量標注,本文進一步分析了本文 44.8K 個已標注圖像的場景分布和多樣性。下圖顯示了 MuLAn 中場景的分布情況,以每個圖像中的實例數量為單位。本文可以看到,LAION 數據集中大多數圖像都是單個實例圖像,這可能與高度美學化的圖像往往是簡單場景有關(例如肖像 - 這也在原文補充圖 S2 中有所突出)。盡管如此,MuLAn-LAION 包含足夠復雜的場景,其中 21%(約 6K)的圖像每個圖像都有三個以上的實例。MuLAn-COCO 實現了良好的場景多樣性,其中 10% 的數據集包含五個實例,幾乎一半的數據集(44% ? 7K)包含三個以上的實例,而僅有 28%(? 4.5K)的單實例圖像。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

接下來,本文將從實例類型的角度調查場景的多樣性。在 942 個檢測類別中,本文分別在 MuLAn-COCO 和 MuLAn-LAION 中獲得了 662 和 705 個類別,總共在 MuLAn 中有 759 個類別。下圖展示了每個數據集中前十個最常見的類別。雖然人類別在兩者中都是占主導地位的類別,但在 LAION 中占絕大多數。除了人類別外,MuLAn-LAION 主要包括無生命和裝飾目標,而 COCO 包括更活躍的場景,尤其是動物和體育運動。在前十個類別中,只有三個類別同時出現在兩個數據集中(人、汽車和鳥類)。這些結果突顯了兩個數據集子集的互補性,MuLAn-LAION 專注于更簡單、高質量和視覺上令人愉悅的場景,而 MuLAn-COCO 展示了更多樣化的場景類型。每個子數據集的完整、排序的類別列表詳見補充材料。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

最后,圖12 展示了來自 MuLAn 的 RGBA 分解的其他視覺示例,展示了各種場景組成、風格和類別類型。額外的示例可在補充材料中找到。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

數據集應用

為了展示本文的 MuLAn 數據集的潛在用途,本文提供了兩個實驗,展示了不同的示例場景,可以在這些場景下利用本文的數據集。


RGBA 圖像生成。本文的第一個應用利用 MuLAn 實例,通過微調 Stable Diffusion (SD) v1.5 模型的 VAE 和 Unet,使其能夠生成具有透明通道的圖像。在下圖中,本文提供了使用附加了“在黑色背景上”的prompt,并在本文的數據集上進行微調的 SD v1.5 生成的圖像的視覺比較,與一個在多個摳圖數據集中微調了 15,791 個實例的模型進行比較。本文可以看到,本文的數據集能夠生成質量更好的 RGBA 實例,因為它對透明通道的理解更好。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

實例添加。本文的第二個應用考慮了一項圖像編輯任務,其目標是向圖像中添加實例。本文微調了InstructPix2Pix 模型,利用本文能夠無縫地向本文的 RGBA 堆棧中添加或移除實例的能力。本文為InstructPix2Pix 的訓練數據包括三元組,,,其中是第 i + 1 層的實例描述,是通過將不完整的 RGBA 堆棧展平到第  層得到的 RGB 圖像。為了評估性能,本文使用 EditVal 的實例添加評估策略。本文引入的基準測試上報告結果(該測試在沒有屬性的情況下添加對象),并構建了一個額外的屬性驅動的評估基準。有關評估指標和本文基準測試的詳細信息,請參閱原文補充材料。下圖1強調了本文的模型在整個光譜中具有更好且更一致的性能,特別是在場景保護方面。這在下圖2中進一步得到了證明,可以清楚地看到本文的模型具有更低的屬性滲漏和更好的背景保留。這可以歸因于本文的訓練設置保證了背景的保留,而 InstructPix2Pix 使用 Prompt-to-prompt 編輯結果。

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集-AI.x社區

結論

本文介紹了 MuLAn,這是一個包含超過 44,000 個 RGB 圖像的多層標注的新型數據集,旨在用于生成式人工智能開發。本文通過使用一種新穎的pipeline處理 LAION Aesthetic 6.5 和 COCO 數據集中的圖像來構建 MuLAn,這種pipeline能夠將 RGB 圖像分解為多層 RGBA 堆棧。MuLAn 提供了各種場景類型、圖像風格、分辨率和對象類別。通過發布 MuLAn,旨在為構圖性文本到圖像生成研究開辟新的可能性。構建 MuLAn 的關鍵在于本文的圖像分解pipeline。詳細分析了pipeline的失敗模式,尤其是分割、檢測和修補。未來的工作將探索改進性能并增加 MuLAn 大小的解決方案。本文可以利用pipeline的模塊化特性來引入性能更好的模型,例如分割器或修補器。此外,該pipeline可以作為一個獨立的解決方案來分解圖像,并利用常見軟件來進行編輯。為了支持這一點,本文還研究了人機循環擴展。


本文轉自AI生成未來 ,作者:Yongxin Yang等


原文鏈接:??https://mp.weixin.qq.com/s/DF2z5dYpDJcZpIBNEJXoKw??

已于2024-4-12 12:02:08修改
收藏
回復
舉報
回復
相關推薦
日本不卡电影| 日韩大尺度黄色| 国产成人午夜片在线观看高清观看| 九色精品免费永久在线| 人妻丰满熟妇aⅴ无码| 日韩精品三区| 亚洲在线成人精品| 日本一区二区精品视频| 国产美女明星三级做爰| 免费日韩av| 久久av在线播放| 久久丫精品国产亚洲av不卡| 高清不卡一区| 色综合久久久久综合体| 欧美少妇一区二区三区| 蜜桃视频在线免费| 高清视频一区二区| 国产精品视频区| 男女视频免费看| 欧美/亚洲一区| 国产一区二区三区高清在线观看| 日本女人性视频| 日本一区免费网站| 亚洲成av人片| 8x8x华人在线| 日本美女在线中文版| 91视频一区二区三区| 亚洲自拍小视频| 亚洲免费视频二区| 免费欧美在线| 午夜伦理精品一区| 国产97免费视频| 欧美国产小视频| 亚洲色图色老头| 精品国产一区在线| 51亚洲精品| 日韩精品一区二区三区蜜臀| 国产又黄又猛的视频| se69色成人网wwwsex| 日韩欧美在线网址 | 日韩精品dvd| 日韩电影第一页| japanese在线观看| 哺乳挤奶一区二区三区免费看 | 蜜桃91麻豆精品一二三区| 免费观看在线综合| 国产精品国产福利国产秒拍| 欧美精品韩国精品| 亚洲一区二区三区四区五区午夜| 久久久影视精品| 久久久久久久久久久网 | 人妻内射一区二区在线视频| 超碰在线公开| 精品久久久久久久久久| 91视频 -- 69xx| 色偷偷色偷偷色偷偷在线视频| 午夜婷婷国产麻豆精品| 国产v片免费观看| 国产在线精彩视频| 欧美性生交大片免费| 日韩视频第二页| 一区二区视频免费完整版观看| 91国产视频在线观看| www.色就是色| 亚洲免费一区| 日韩片之四级片| 女性生殖扒开酷刑vk| 久久动漫网址| 亚洲欧美激情精品一区二区| 无码人妻精品一区二区中文| av一区二区在线播放| www.久久久久久.com| 中文字幕五月天| 激情成人亚洲| 欧美一级黄色网| 91欧美日韩麻豆精品| 国产伦精品一区二区三区免费| 国产成人精品日本亚洲11| 外国精品视频在线观看| 久久久久99精品一区| 午夜精品一区二区在线观看的| 思思99re6国产在线播放| 一区二区三区四区在线播放| 青青青青草视频| av高清一区| 精品日韩99亚洲| 丰满少妇高潮一区二区| 五月开心六月丁香综合色啪 | 亚洲成人看片| 91麻豆精品国产综合久久久久久| 无码av免费精品一区二区三区| 国产精品一区二区av交换| 精品国偷自产在线视频| 久久久久久久黄色片| 久久99蜜桃精品| 精品国产一区二区三区麻豆小说| 成黄免费在线| 亚洲高清在线视频| 欧美日韩中文不卡| 麻豆一区二区麻豆免费观看| 日韩在线视频免费观看| 男人天堂中文字幕| 老司机午夜精品| 久久精品aaaaaa毛片| 成人欧美在线| 91国产成人在线| 日韩av无码一区二区三区不卡| 日韩在线不卡| 57pao成人永久免费视频| 国产成人a人亚洲精品无码| xnxx国产精品| www.欧美黄色| 日韩黄色碟片| 亚洲视频一区二区| 日韩av男人天堂| 国产精品小仙女| 水蜜桃亚洲精品| 成人av三级| 欧美精品一区二区三区很污很色的 | 中文字幕永久在线| 99久久精品国产网站| 男人天堂网站在线| 成人永久在线| 中文字幕久精品免费视频| 免费看日韩毛片| 成人午夜又粗又硬又大| 26uuu成人| 欧美成人一二区| 亚洲一区二区国产| 欧美精品韩国精品| 久久精品亚洲一区二区三区浴池| 日本一区午夜艳熟免费| 久久99成人| 久久中文精品视频| 97在线播放免费观看| 国产精品嫩草99a| www.色偷偷.com| 色综合综合网| 日韩美女免费线视频| 五月婷婷六月丁香综合| 亚洲成av人片在线| 日批在线观看视频| 亚洲欧美bt| 欧美极品日韩| 欧美极度另类| 国产亚洲精品综合一区91| 无码视频一区二区三区| 国产日韩av一区| 亚洲综合在线网站| 狠狠操综合网| 国产免费一区二区三区在线能观看| 青青草免费观看免费视频在线| 狠狠色香婷婷久久亚洲精品| 国产精品三级在线观看无码| 性久久久久久| 日韩区国产区| 99综合久久| 欧美日本国产在线| 日韩在线观看视频一区| 丰满岳妇乱一区二区三区| 美女久久久久久久久久| 日韩综合在线视频| 一区二区三区四区五区视频| 3d动漫一区二区三区在线观看| 久久偷看各类女兵18女厕嘘嘘| 亚洲产国偷v产偷v自拍涩爱| 亚洲成av人片在www色猫咪| 最新中文字幕视频| 免费成人小视频| 无码毛片aaa在线| 国内自拍欧美| 国产精品91久久久| 国产精品扒开做爽爽爽的视频| 欧美一级片免费看| 天天操天天干视频| 国产精品乱码久久久久久| 亚洲热在线视频| 国产亚洲在线| 亚洲一区二区在| 高清日韩中文字幕| 国产成人a亚洲精品| 蜜桃视频在线观看www社区| 欧美成人精品1314www| 1级黄色大片儿| 国产精品美日韩| 美女黄色一级视频| 美女国产一区二区三区| 成人一级生活片| 精品日韩一区| 成人毛片网站| www.一区| 久久久久久久电影一区| av电影在线观看网址| 亚洲电影天堂av| 一卡二卡在线观看| 欧美日韩中国免费专区在线看| 亚洲欧洲综合网| 99精品视频免费在线观看| 在线观看的毛片| 亚洲国产导航| 艳色歌舞团一区二区三区| 色婷婷av一区二区三区丝袜美腿| 国产免费一区视频观看免费 | www日韩tube| 亚洲的天堂在线中文字幕| 亚洲午夜精品久久久| 亚洲成人激情av| 三级黄色录像视频| 久久久久综合网| 欧美日韩人妻精品一区在线| 久久爱www久久做| 手机看片福利盒子久久| 亚洲伊人观看| 日本中文字幕在线视频观看| 国产精品久久久久久影院8一贰佰| 久久伦理网站| 国产欧美一区二区三区米奇| 成人免费淫片视频软件| 日韩一区二区三区在线免费观看| 欧美高清电影在线看| 日本最新在线视频| 亚洲性日韩精品一区二区| 亚洲色图欧美视频| 亚洲第一综合天堂另类专 | 日韩成人在线网站| 国产精品久久无码一三区| 色菇凉天天综合网| 日韩精品一区二区亚洲av| 午夜精品一区二区三区三上悠亚| 男女做暖暖视频| 国产精品美女久久久久高潮| 中文字幕免费高清| 久久久久国产精品人| 性久久久久久久久久| 91亚洲精品久久久蜜桃网站| 久久福利小视频| 成人精品一区二区三区四区| 337p日本欧洲亚洲大胆张筱雨| 国产精品一区二区在线看| www.桃色.com| 国产一区免费电影| 999热精品视频| 国产成人免费视频| 中文字幕在线观看91| 粉嫩aⅴ一区二区三区四区| 乳色吐息在线观看| 高清不卡一二三区| www.黄色网| 91在线云播放| 国产av自拍一区| 国产精品另类一区| 永久免费看片直接| 亚洲欧美日韩电影| 久久精品一级片| 性久久久久久久| 六月丁香激情综合| 欧美综合欧美视频| 国产精品一级视频| 亚洲成人黄色网址| 免费在线黄色网址| 精品国产视频在线| 日本中文字幕中出在线| 亚州精品天堂中文字幕| 另类专区亚洲| 国产美女久久精品香蕉69| 日韩亚洲精品在线观看| 国产欧美亚洲日本| 国产一区二区三区四区五区传媒| 色播五月综合| 欧美激情麻豆| 中文字幕无码精品亚洲35| 日韩高清中文字幕一区| 午夜福利123| 99国产精品99久久久久久| 在线小视频你懂的| 亚洲激情综合网| av黄色在线看| 欧美美女一区二区| 四虎在线视频免费观看| 亚洲午夜精品久久久久久久久久久久| 日本www在线观看| 欧美激情久久久久| 全球最大av网站久久| 4444kk亚洲人成电影在线| 九一成人免费视频| 法国空姐在线观看免费| 香蕉亚洲视频| 欧美日韩精品区别| 91网址在线看| 日本妇女毛茸茸| 色综合色综合色综合色综合色综合 | 久久99久久精品| 国产69视频在线观看| 日本一区免费视频| 日本少妇毛茸茸高潮| 欧美色爱综合网| 日韩中文字幕影院| 日韩视频免费在线观看| sis001欧美| 成人动漫视频在线观看免费| 国内精品久久久久久久影视简单| 日韩欧美猛交xxxxx无码| 麻豆国产精品官网| 精品人妻一区二区三区香蕉| 有坂深雪av一区二区精品| 91丨九色丨海角社区| 亚洲成av人片在线观看香蕉| 日本天堂在线观看| 国产精品99久久久久久白浆小说| 白嫩白嫩国产精品| 麻豆视频传媒入口| 久久激情综合网| 法国空姐电影在线观看| 亚洲va中文字幕| 亚洲精品18p| www.亚洲免费视频| 日本精品网站| 久久综合久久久| 亚洲激情不卡| 美女露出粉嫩尿囗让男人桶| 最新热久久免费视频| 色老头一区二区| 精品一区二区三区电影| 国产白丝在线观看| 97人摸人人澡人人人超一碰| 99久久夜色精品国产亚洲96| 国产三级三级看三级| 国产亚洲短视频| 欧美精品韩国精品| 亚洲女人天堂成人av在线| 高清精品在线| 国产一区二区无遮挡| 亚洲激情网址| 国产xxxx视频| 性做久久久久久久免费看| 手机av在线免费观看| 久久久女人电视剧免费播放下载| 天堂精品久久久久| 久久久久久久香蕉| 国产精品99久久久久久久vr| 欧美一区二区三区爽爽爽| 欧美一区二区三区在| 呦呦在线视频| 国产a一区二区| 99日韩精品| 熟女少妇一区二区三区| 欧美午夜性色大片在线观看| 黑人与亚洲人色ⅹvideos| 国产成人精品免高潮在线观看| 国产精品入口久久| 亚洲福利精品视频| 国产精品久久久久久福利一牛影视 | 日韩欧美一二三| 欧美xxxx做受欧美88bbw| 福利视频一区二区三区| 在线欧美一区| 中文幕无线码中文字蜜桃| 欧美三级日韩三级| 黄色免费在线看| 成人欧美一区二区三区黑人免费| 最新国产拍偷乱拍精品 | 亚洲av永久无码国产精品久久 | 国产精品18久久久久久久久 | 日本精品久久久久中文| 欧美人与禽zozo性伦| 成人在线观看免费网站| 国产成人女人毛片视频在线| 午夜一级久久| 天堂网中文在线观看| 精品国产免费人成在线观看| 亚洲美女炮图| 影音欧美亚洲| 成人福利视频网站| 无码人妻精品一区二区三区不卡 | 日本一区视频在线观看| 久久99国产乱子伦精品免费| 欧美日韩成人免费观看| 日韩精品在线视频观看| 国产亚洲欧美日韩精品一区二区三区| 国产高清免费在线| 99久久免费视频.com| 中文字幕av网站| 久久久女女女女999久久| 凹凸成人精品亚洲精品密奴| 国产在线a视频| 欧日韩精品视频| 动漫一区二区| 一区二区三区欧美在线| aaa国产一区| 97人人爽人人爽人人爽| 2018日韩中文字幕| 天天综合精品| 国产精品一二三区在线观看| 日韩午夜激情av| 在线国产成人影院| 性欧美大战久久久久久久| 国产精品第13页| 欧美日韩伦理片| 99re国产在线播放| 免费成人在线网站|