復旦&字節提出layout-to-image新范式,支持基于布局的MM-DiT架構下可控圖像生成!
本篇分享論文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation,是由復旦大學&字節跳動提出的layout-to-image新范式,支持基于布局的MM-DiT架構下的可控圖像生成!

效果示例
相關鏈接
- 論文地址: https://arxiv.org/abs/2412.03859
- 項目主頁: https://creatilayout.github.io
- 項目代碼: https://github.com/HuiZhang0812/CreatiLayout
- 項目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
- 數據集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM
論文介紹

任務背景
布局到圖像生成 (Layout-to-Image, L2I) 是一種基于布局信息進行可控圖像生成的技術,其中布局信息包括實體在圖像中的空間位置和描述。例如,用戶指定了這些實體的描述與空間位置:鋼鐵俠手里拿著畫板,站在巖石上,畫板上用手繪字體寫著“CreatiLayout”,背景是海邊與日落。Layout-to-Image則能根據這些信息,生成符合用戶需求的圖像。

Layout-to-Image能進一步釋放Text-to-Image模型的能力,為用戶進一步提供精確控制和創意表達的渠道,在游戲開發、動畫制作、室內設計、創意設計等場景有著廣泛的應用前景。
先前的Layout-to-Image模型,主要存在以下問題:
- 布局數據問題:現有的布局數據集存在封閉集合的小規模數據和粗粒度的實體標注等方面的不足,這限制了模型在生成開放集實體的泛化能力以及在生成具有復雜屬性實體的精準性。
- 模型架構問題:先前模型主要集中在 U-Net 架構上,例如 SD1.5 和 SDXL。然而,隨著MM-DiT的發展,SD3、FLUX等文生圖模型開辟了視覺質量與文本遵循度的新高度。直接將 U-Net 的布局控制范式應用到 MM-DiT 上會削弱布局控制的準確度。因此需要為 MM-DiT 設計一個新框架,以高效融合布局信息,充分發揮其潛力。
- 用戶體驗問題:許多現有方法只支持邊界框作為用戶指定實體位置的方式,缺乏對更靈活輸入方式(例如中心點、掩碼、草圖或只是語言描述)的處理能力,限制了用戶的使用體驗。此外,這些方法不支持對用戶的布局進行添加、刪除或修改等優化。
方法簡介
為了解決先前方法在數據、模型、體驗等方面存在的問題,CreatiLayout 提出了針對性的解決方案,實現了更高質量、更可控的布局到圖像生成。
大規模&細粒度的布局數據集
LayoutSAMCreatiLayout 構建了自動標注布局的鏈路,提出了大規模布局數據集LayoutSAM,包含了 270萬圖像-文本對和 1070萬個實體標注。LayoutSAM 從 SAM 數據集中篩選而來,有著開放集的實體、細粒度的標注和高圖像質量等特質。每個實體都包含邊界框和詳細描述,涵蓋顏色、形狀、紋理等復雜屬性。這為模型能夠更好地理解和學習布局信息提供了數據驅動?;诖?,CreatiLayout構建了布局到圖像生成評估基準LayoutSAM-Eval,全面評估模型在布局控制、圖像質量和文本遵循等方面的表現。

將布局信息視為一種模態的模型架構
SiamLayoutCreatiLayout 提出了 SiamLayout 框架,將布局信息引入MM-DiT的同時,有效緩解了模態競爭問題,增強了布局的指導作用,相比于其他網絡方案取得了更精準的布局控制。核心設計點為:
- 將布局信息視為一種獨立的模態,與文本和圖像模態同等重要,提升布局信息對圖像內容指導程度
- 布局模態與圖像模態的交互通過MM-DiT原生的MM-Attention實現,保留了其在模態交互的優勢
- 將圖像、文本、布局這三個模態的交互解耦為兩個孿生的分支:圖像-文本交互分支與圖像-布局交互分支,使得文本與布局對圖像內容的指導各司其職、互不干擾。

支持布局生成與優化的布局設計器
LayoutDesignerCreatiLayout 提出了 LayoutDesigner,利用大語言模型進行布局規劃,能夠根據用戶輸入(中心點、掩碼、草圖、文本描述)生成和優化布局,支持更靈活的用戶輸入方式,并提供布局優化功能,例如添加、刪除、修改實體等。這使得用戶能夠更方便地表達自己的設計意圖,并生成更和諧美觀的布局。

實驗結果
與SOTA方法在布局到圖像生成的對比實驗


在細粒度開放集布局到圖像生成任務上,CreatiLayout在空間定位、顏色、紋理、形狀等區域級別的屬性渲染上都優于之前的 SOTA 方法;在整圖質量上,CreatiLayout也展現出更好的視覺質量與文本遵循度。下面的可視化結果進一步證實了CreatiLayout 的優勢。例如對于"HELLO FRIENDS"這一文本的更精準的生成和對不同顏色的鉛筆與長椅的生成等??梢栽陧椖縟emo上進一步感受CreatiLayout在Layout-to-Image的能力。

與SOTA方法在布局生成與優化的對比


實驗在布局規劃任務上的定量和定性實驗,展示了不同布局優化器在不同用戶輸入粒度下的布局生成和優化能力。LayoutDesigner 在基于全局標題、中心點和邊界框的布局規劃任務上都表現出色,格式準確性達到 100%,這表明 它能生成符合格式要求的布局。此外,基于LayoutDesigner 規劃的布局去生成圖像,能得到更高質量、更具美感的圖像。例如,Llama3.1 生成的布局經常缺少關鍵元素,而 GPT4 生成的布局經常違反基本物理定律,導致基于這些次優的布局去生成圖像會得到較差的圖像質量與較低文本遵循度。



































