面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！

angel

發(fā)布于 2025-1-22 11:50

瀏覽

0收藏

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2501.09503
項(xiàng)目鏈接：https://aigcdesigngroup.github.io/AnyStory/

亮點(diǎn)直擊

提出了一種統(tǒng)一的單主體和多主體個(gè)性化框架，稱為AnyStory。該框架在個(gè)性化單主體和多主體時(shí)實(shí)現(xiàn)了一致性，同時(shí)遵循文本提示；
引入了一種增強(qiáng)的主體表示編碼器，由簡(jiǎn)化的輕量級(jí) ReferenceNet 和 CLIP 視覺(jué)編碼器組成，能夠?qū)σ话阒黧w進(jìn)行高保真細(xì)節(jié)編碼；
提出了一種解耦的實(shí)例感知router模塊，能夠準(zhǔn)確感知和預(yù)測(cè)主體的隱空間條件區(qū)域，從而實(shí)現(xiàn)對(duì)單個(gè)或多個(gè)主體的靈活和可控的個(gè)性化生成；
實(shí)驗(yàn)結(jié)果表明，本方法在保持主體細(xì)節(jié)的真實(shí)性、對(duì)齊文本描述以及個(gè)性化多個(gè)主體方面表現(xiàn)出色。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題：

生成具有特定主體的高保真?zhèn)€性化圖像面臨挑戰(zhàn)，尤其是在涉及多個(gè)主體的情況下。
在不犧牲主體保真度的情況下，處理多個(gè)主體的個(gè)性化生成。

提出的方案：

提出 AnyStory，一種統(tǒng)一的單主體和多主體個(gè)性化框架。
采用“編碼-route”的方式來(lái)建模主體個(gè)性化問(wèn)題。
在編碼步驟中，利用 ReferenceNet 和 CLIP 視覺(jué)編碼器實(shí)現(xiàn)高保真編碼。
在route步驟中，使用解耦的實(shí)例感知主體router，準(zhǔn)確感知和預(yù)測(cè)隱空間中主體的位置。

應(yīng)用的技術(shù)：

ReferenceNet：一種簡(jiǎn)化的輕量級(jí)圖像編碼器，用于高保真細(xì)節(jié)編碼。
CLIP 視覺(jué)編碼器：用于增強(qiáng)主體表示的編碼。
解耦的實(shí)例感知route模塊：用于準(zhǔn)確感知和預(yù)測(cè)主體的隱條件區(qū)域，實(shí)現(xiàn)靈活和可控的個(gè)性化生成。

達(dá)到的效果：

在保留主體細(xì)節(jié)、對(duì)齊文本描述和個(gè)性化多個(gè)主體方面表現(xiàn)優(yōu)異。
實(shí)現(xiàn)了單主體和多主體個(gè)性化的一致性，同時(shí)遵循文本提示。

方法

AnyStory，這是一種在文本到圖像生成中實(shí)現(xiàn)單主體和多主體個(gè)性化的開(kāi)創(chuàng)性方法。首先回顧擴(kuò)散模型的背景，然后詳細(xì)介紹兩個(gè)提出的關(guān)鍵組件，即增強(qiáng)的主體編碼器和解耦的實(shí)例感知主體router。最后，介紹本文的訓(xùn)練方案。方法的框架如下圖 2 所示。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

預(yù)備知識(shí)

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

增強(qiáng)的主體表示編碼

在開(kāi)放領(lǐng)域中個(gè)性化主體圖像，同時(shí)確保對(duì)主體細(xì)節(jié)和文本描述的忠實(shí)度，仍然是一個(gè)未解決的問(wèn)題。一個(gè)關(guān)鍵的挑戰(zhàn)在于主體信息的編碼，這需要在最大限度地保留主體特征的同時(shí)，保持一定的編輯能力。當(dāng)前主流方法[16, 39, 44, 46, 56, 66, 69, 70]主要依賴CLIP視覺(jué)編碼器來(lái)編碼主體。然而，由于對(duì)比圖像-文本訓(xùn)練范式的原因，CLIP的特征主要是語(yǔ)義性的，并且分辨率較低（通常為224 × 224），因此在提供主體詳細(xì)信息方面存在局限性。替代方法[19, 41, 48, 64]結(jié)合了特定領(lǐng)域的專(zhuān)家模型，如面部編碼器[12, 29]，以增強(qiáng)主體身份表示。盡管這些方法取得了一定的成功，但它們?cè)谄漕I(lǐng)域內(nèi)是有限的，不能擴(kuò)展到一般主體。

為了解決這些問(wèn)題，引入了ReferenceNet，一種強(qiáng)大而多功能的圖像編碼器，與CLIP視覺(jué)編碼器一起編碼主體。ReferenceNet利用變分自編碼器（VAE）來(lái)編碼參考圖像，然后通過(guò)與U-Net相同架構(gòu)的網(wǎng)絡(luò)提取其特征。它具有三個(gè)顯著優(yōu)勢(shì)：（1）支持更高分辨率的輸入，從而能夠保留更多的主體細(xì)節(jié)；（2）其特征空間與去噪U(xiǎn)-Net對(duì)齊，便于U-Net在不同深度和尺度上直接提取主體特征；（3）使用預(yù)訓(xùn)練的U-Net權(quán)重進(jìn)行初始化，這些權(quán)重具有豐富的視覺(jué)先驗(yàn)，并在學(xué)習(xí)一般主體概念方面表現(xiàn)出良好的泛化能力。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

ReferenceNet 編碼。 在原始實(shí)現(xiàn)中ReferenceNet 采用與 U-Net 相同的架構(gòu)，包括帶有文本條件注入的交叉注意力塊。然而，由于在我們的任務(wù)中 ReferenceNet 僅用作視覺(jué)特征提取器，并不需要文本條件注入，我們跳過(guò)了所有交叉注意力塊，從而減少了參數(shù)數(shù)量和計(jì)算復(fù)雜度（見(jiàn)下表 1）。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

解耦的實(shí)例感知主體route

注入主體條件時(shí)需要仔細(xì)考慮注入位置，以避免影響不相關(guān)的目標(biāo)。以前的方法 [37, 39, 56, 66, 69, 70] 通常通過(guò)簡(jiǎn)單的注意力模塊將條件特征注入隱空間。然而，由于軟加權(quán)機(jī)制，這些方法容易出現(xiàn)語(yǔ)義泄漏 [10, 67]，導(dǎo)致主體特征的混合，特別是在生成外觀相似的實(shí)例時(shí)。一些方法 [18, 34, 38, 44, 46, 65, 71] 引入了預(yù)定義的布局mask來(lái)解決這個(gè)問(wèn)題，但這限制了它們的實(shí)際應(yīng)用。UniPortrait [23] 提出了一種router，可以自適應(yīng)地感知并限制主體條件的影響區(qū)域；然而，其route特征完全與主體特征耦合，這限制了route模塊的能力；此外，它沒(méi)有考慮主體條件對(duì)背景的影響。在本研究中，我們提出了一種解耦的實(shí)例感知主體route模塊，可以準(zhǔn)確有效地將主體特征route到相應(yīng)區(qū)域，同時(shí)減少對(duì)不相關(guān)區(qū)域的影響。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

實(shí)例感知route正則化損失。 為了促進(jìn)router學(xué)習(xí)并區(qū)分不同實(shí)例的主體，我們引入了一種實(shí)例感知route正則化損失。損失函數(shù)定義為：

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

route引導(dǎo)的主體信息注入。 對(duì)于CLIP編碼的主體表示，我們使用解耦的交叉注意力 [69] 將其整合到U-Net中，但增加了route引導(dǎo)的定位約束：

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

關(guān)于ReferenceNet編碼的主體特征的注入，采用原始參考注意力，但增加了由route圖引導(dǎo)的額外注意力mask。稍微濫用一下符號(hào)，這個(gè)過(guò)程可以表示為：

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

訓(xùn)練

根據(jù) UniPortrait，AnyStory 的訓(xùn)練過(guò)程分為兩個(gè)階段：主體編碼器訓(xùn)練階段和router訓(xùn)練階段。

主體編碼器訓(xùn)練：訓(xùn)練主體 QFormer、ReferenceNet 及注意力塊中的對(duì)應(yīng)鍵和值矩陣。ReferenceNet 使用預(yù)訓(xùn)練的 UNet 權(quán)重進(jìn)行初始化。為了避免主體特征的細(xì)粒度編碼導(dǎo)致的復(fù)制粘貼效應(yīng)，收集了大量配對(duì)數(shù)據(jù)，這些數(shù)據(jù)在保持主體身份一致的同時(shí)展示了背景、姿勢(shì)和視角的變化。這些數(shù)據(jù)來(lái)自于圖像、視頻和 3D 渲染數(shù)據(jù)庫(kù)，并由 Qwen2-VL 進(jìn)行標(biāo)注。具體來(lái)說(shuō)，圖像（約 41 萬(wàn)）和視頻（約 52 萬(wàn)）數(shù)據(jù)主要來(lái)自以人為中心的數(shù)據(jù)集，如 DeepFashion2 和人類(lèi)舞蹈視頻，而 3D 數(shù)據(jù)（約 560 萬(wàn)）則來(lái)自 Objaverse ，其中從七個(gè)不同角度渲染的物體圖像作為配對(duì)數(shù)據(jù)。在訓(xùn)練過(guò)程中，這些配對(duì)中的一張圖像用作參考輸入，而另一張圖像則在不同的背景下展示相同的主體身份，作為預(yù)測(cè)目標(biāo)。此外，還對(duì)參考圖像應(yīng)用了包括隨機(jī)旋轉(zhuǎn)、裁剪和零填充在內(nèi)的數(shù)據(jù)增強(qiáng)技術(shù)，以進(jìn)一步防止主體過(guò)擬合。該階段的訓(xùn)練損失與原始擴(kuò)散損失相同，如公式（1）所示。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

實(shí)驗(yàn)

設(shè)置

使用 stable diffusion XL 作為基礎(chǔ)模型。所使用的 CLIP 圖像編碼器是 OpenAI 的 clip-vit-huge-patch14。主體 QFormer 和route QFormer 都由 4 層組成。ReferenceNet 的輸入圖像分辨率為 512×512。所有訓(xùn)練在 8 個(gè) A100 GPU 上進(jìn)行，批大小為 64，使用 AdamW優(yōu)化器，學(xué)習(xí)率為 1e-4。為了促進(jìn)無(wú)分類(lèi)器引導(dǎo)的采樣 [25]，在訓(xùn)練時(shí)對(duì) 10% 的圖像去掉 CLIP 主體條件。在推理過(guò)程中，使用 25 步 EDM采樣和 7.5 的無(wú)分類(lèi)器引導(dǎo)比例，并使用來(lái)自 huggingface 的 RealVisXL V4.0 模型以實(shí)現(xiàn)更逼真的圖像生成。

ReferenceNet 編碼器的效果

下圖 3 展示了 ReferenceNet 編碼器的有效性，相較于僅使用 CLIP 視覺(jué)編碼器，它增強(qiáng)了主體細(xì)節(jié)的保留。然而，顯然僅使用 ReferenceNet 并不能產(chǎn)生令人滿意的結(jié)果。事實(shí)上，在大量測(cè)試中發(fā)現(xiàn)，ReferenceNet 編碼器只能實(shí)現(xiàn)主體細(xì)節(jié)的對(duì)齊，而不能引導(dǎo)主體生成。仍然需要依賴與文本embedding良好對(duì)齊的 CLIP 編碼特征來(lái)觸發(fā)主體生成。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

解耦實(shí)例感知router的效果

下圖 4 展示了所提出router的有效性，它可以有效避免多主體生成中主體之間的特征混合。此外，觀察到在單主體設(shè)置中使用router也提高了生成圖像的質(zhì)量，特別是在圖像背景中。這是因?yàn)閞outer限制了主體條件的影響區(qū)域，從而減少了主體特征固有的隱偏差（例如，從大量 3D 渲染數(shù)據(jù)中學(xué)習(xí)到的簡(jiǎn)單白色背景偏好）對(duì)生成圖像質(zhì)量的影響。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

上圖 5 可視化了擴(kuò)散模型在去噪過(guò)程中不同時(shí)間步的route圖。這些結(jié)果表明，所提出的router可以在去噪過(guò)程中準(zhǔn)確感知并定位每個(gè)主體條件的影響區(qū)域。顯示的route圖類(lèi)似于圖像分割mask，表明通過(guò)去噪 U-Net 和訓(xùn)練好的router可以實(shí)現(xiàn)基于參考圖像的引導(dǎo)圖像分割的潛力。此外，如前文所述，盡管router主要在以人為中心的數(shù)據(jù)集上訓(xùn)練，但它對(duì)一般主體（如上圖 5 中的卡通恐龍）具有良好的泛化能力。我們將此歸因于 CLIP 模型強(qiáng)大的泛化能力和高度壓縮的單token route特征。

下圖 6 展示了將router建模為微型圖像分割解碼器的有效性。與通過(guò)簡(jiǎn)單點(diǎn)積獲得的粗略route圖相比，通過(guò)輕量級(jí)mask交叉注意模塊細(xì)化后的route圖可以更準(zhǔn)確地預(yù)測(cè)每個(gè)主體的隱位置。

面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

示例生成

在上圖 1、上圖 7 和上圖 8 中，展示了本方法的更多結(jié)果，顯示了其在保持主體細(xì)節(jié)、對(duì)齊文本提示以及實(shí)現(xiàn)多主體個(gè)性化方面的卓越性能。

結(jié)論

AnyStory是一種針對(duì)單主體和多主體個(gè)性化生成的統(tǒng)一方法。AnyStory 利用通用且強(qiáng)大的 ReferenceNet 以及 CLIP 視覺(jué)編碼器來(lái)實(shí)現(xiàn)高保真度的主體編碼，并采用解耦的、實(shí)例感知的route模塊，以靈活和準(zhǔn)確地注入單/多主體條件。實(shí)驗(yàn)結(jié)果表明，本方法在保留主體細(xì)節(jié)、與文本描述對(duì)齊以及多主體個(gè)性化方面表現(xiàn)出色。

局限性和未來(lái)工作。 目前，AnyStory 無(wú)法為圖像生成個(gè)性化背景。然而，在序列圖像生成中保持圖像背景的一致性同樣重要。未來(lái)，將擴(kuò)展 AnyStory 的控制能力，從主體域擴(kuò)展到背景域。此外，AnyStory 生成的主體中仍然存在復(fù)制粘貼效應(yīng)，我們計(jì)劃通過(guò)數(shù)據(jù)增強(qiáng)和使用更強(qiáng)大的文本到圖像生成模型來(lái)進(jìn)一步緩解這一問(wèn)題。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/PtPwtABgfHCBQwP8144oGA??

標(biāo)簽

圖像生成

模型

贊

回復(fù)