GroundingBooth:一個用于文本到圖像的定制框架,支持多主題和文本聯合接地定制!
GroundingBooth是一個用于文本到圖像的接地定制框架。首先提取文本描述和圖像的特征,然后通過一種特殊的注意力機制來控制這些特征的結合。這個機制就像是一個精密的篩子,確保每個對象和背景之間的信息不會混淆。
比如,如果你想要在一個特定的地方放一個玩具和一棵樹,系統會確保玩具和樹都被放在你指定的位置,而不會因為背景的干擾而位置錯亂。這樣,用戶就可以得到既符合要求又美觀的定制圖像。

GroundingBooth 支持:(a) 接地的單主題定制,以及 (b) 多主題和文本實體聯合接地定制,實現主題驅動的前景和文本驅動的背景生成的聯合接地,并具有身份保留和文本-圖像對齊功能。
相關鏈接
論文鏈接:http://arxiv.org/abs/2409.08520v1
項目主頁:https://groundingbooth.github.io
代碼鏈接:https://github.com/YOUR%20REPO%20HERE
論文閱讀

GroundingBooth:將文本轉換為圖像的定制
摘要
文本到圖像定制的最新研究表明,在給定主題的幾張圖像的情況下生成個性化對象變體非常成功。雖然現有方法更注重保留主題的身份,但它們往往無法控制對象之間的空間關系。在這項工作中,我們引入了 GroundingBooth,這是一個在文本到圖像定制任務中實現前景主題和背景對象的零樣本實例級空間基礎的框架。我們提出的文本圖像基礎模塊和掩蔽交叉注意層使我們能夠生成具有準確布局對齊和身份保留的個性化圖像,同時保持文本圖像的連貫性。通過這種布局控制,我們的模型本質上可以同時定制多個主題。我們的模型在布局引導的圖像合成和基于參考的定制任務上進行了評估,與現有方法相比,顯示出強大的效果。我們的工作是首次實現主題驅動的前景生成和文本驅動的背景生成的聯合基礎的工作。
方法

GroundingBooth 框架概述。它分為兩個步驟:
- 特征提取。分別使用 CLIP 編碼器和 DINOv2 編碼器提取文本和圖像嵌入,并使用提出的基礎模塊提取基礎標記。
- U-Net 每個變壓器塊中的前景-背景交叉注意力控制。
在訓練期間,我們使用具有單個參考對象的數據集。在推理階段,管道允許通過復制的掩碼交叉注意力層注入多個參考對象的特征。我們的工作是首次嘗試在定制圖像合成任務中引入精確的基礎,它共同控制圖像驅動的前景對象和文本驅動的背景的大小和位置,自適應地協調參考對象的姿勢并忠實地保留它們的身份。

GroundingBooth框架的基礎模塊。基礎模塊將提示布局對和參考對象布局對作為輸入。對于前景參考對象,CLIP 文本標記和 DINOv2 圖像類標記均被使用。

提出的掩蔽交叉注意力管道。Q、K 和 V 分別是圖像查詢、鍵和值,A 是親和力矩陣。
實驗


結果表明,GroundingBooth實現了前景背景聯合控制、文本對齊和前景對象身份保持。即使前景對象的邊界框與背景文本實體有很大重疊,該模型仍可以區分主體驅動的前景生成和文本驅動的背景生成,從而有效避免上下文混合和剩余場景幻覺。


在 COCO 驗證集上進行參考引導的布局到圖像合成結果。結果表明,即使在存在各種背景對象的復雜場景中,只要提供它們的邊界框,模型也能生成具有精確布局的結果,這不僅顯示出參考對象明顯的身份保留,而且布局對齊和文本對齊也準確,實現了靈活布局定制的文本到圖像生成。與以前的布局到圖像生成方法相比,GroundingBooth模型在接地方面具有競爭力的準確性,并且在身份保留評估方面有顯著的改進。

與基于DreamBench對象的現有方法的可視化比較。
結論
本文介紹了 GroundingBooth,這是一個用于接地文本到圖像定制任務的通用框架。該模型實現了參考圖像和提示的聯合接地,具有精確的對象位置和大小控制,同時保留了身份和文本-圖像對齊。結果表明,所提出的文本-圖像特征接地模塊和掩蔽交叉注意模塊可有效減少前景和背景之間的上下文混合。希望該研究能夠激發對更具身份保留和可控的基礎生成模型的探索,從而實現更高級的視覺編輯。
本文轉載自??????AIGC Studio??????,作者:AIGC Studio

















