AI合影毫無違和感!復旦&階躍星辰重磅開源WithAnyone:可控、高保真多身份生成SOTA!

論文鏈接:https://arxiv.org/pdf/2510.14975
項目鏈接:https://doby-xu.github.io/WithAnyone/
亮點直擊
- MultiID-2M:一個包含50萬張包含多個可識別名人的團體照片的大規模數據集,每個名人有數百張參考圖片,展現各種多樣性以及額外的150萬張未配對的團體照片。這一資源支持多身份生成模型的預訓練和評估。
- MultiID-Bench:一個綜合性基準測試,提供標準化評估協議用于身份定制,能夠系統地和內在地評估多身份圖像生成方法。
- WithAnyone:一種基于FLUX構建的創新身份定制模型,達到了SOTA性能,能夠生成高保真的多身份圖像,同時減少復制粘貼偽影并提升視覺質量。


總結速覽
解決的問題
身份一致性生成在圖像生成研究中非常重要,但由于大規模配對數據集的稀缺性,現有的方法通常采用基于重建的訓練方式。這種方式易導致“復制粘貼”故障,即模型直接復制參考面孔,不能在姿勢、表情或光照的自然變化中保持身份的一致性,從而削弱了生成的可控性和表現力。
提出的方案
- 構建一個大規模配對數據集MultiID-2M,為每個身份提供多樣化的參考圖片,特別適用于多人的場景。
- 引入MultiID-Bench,綜合基準測試量化“復制粘貼”偽影以及身份保真度與變化之間的權衡。
- 提出一種新的訓練范式,利用對比身份損失結合配對數據以平衡保真度和多樣性。
應用的技術
- WithAnyone模型:一個基于FLUX構建的創新身份定制模型,采用擴散模型來實現高效生成。
- 對比身份損失:利用大規模配對數據集優化模型的訓練過程,以增強生成的控制能力和表現力。
達到的效果
- 有效減輕了“復制粘貼”偽影問題,生成過程能夠適應姿勢和表情的變化,提高了可控性。
- 在多身份圖像生成中達到了高保真度,提高了視覺質量。
- 用戶研究驗證了該方法在保持高身份保真度的同時,支持表現力豐富的可控生成。
MultiID-2M: 多人配對數據集構建
MultiID-2M 是通過一個四階段流水線構建的大規模多人數據集:(1)從網絡收集單一ID的圖片,并通過聚類 ArcFace嵌入構建一個干凈的參考庫,得到大約 100 萬張參考圖片,涉及約 3000 個身份(平均每個身份 400 張);(2)通過多姓名和場景感知查詢檢索候選團體照片,并檢測面部;(3)通過將 ArcFace 嵌入與單一ID聚類中心進行余弦相似度匹配(閾值為 0.4)來分配身份;(4)進行自動過濾和標注,包括識別任何東西,審美評分,基于 OCR 的水印/標志移除,以及基于LLM的字幕生成 [1]。最終的數據集包含約 50萬張已識別的多ID圖片,這些圖片與參考庫中的參考圖片匹配,還包括約 150 萬張用于重建訓練的未識別多ID圖片,涵蓋約 25000 個獨特身份,具有多樣的國籍和種族。
MultiID-Bench: 綜合身份定制評估
MultiID-Bench 是一個用于團體照片(多ID)生成的統一基準。它對稀有、長尾身份進行采樣,與訓練數據無重疊,共有435個測試案例。每個案例由一個包含1-4人的真實(GT)圖像、相應的1-4張參考圖像作為輸入以及描述GT的提示組成。

本文定義角距離為 (單位球上的測地距離)。復制粘貼度量由以下公式給出:

其中 是一個用于數值穩定的小常數。因此,該度量捕捉了 相對于參考 和真實值 的相對偏向,并通過 和 的角距離進行標準化。得分為 1 意味著 完全與參考一致(完美的復制粘貼),而得分為 則表示完全與真實值一致。
本文還報告了身份混合、提示保真度(CLIP I/T)和美學。
WithAnyone:可控且身份一致的生成
基于 MultiID-2M 的規模及配對參考監督,本文設計訓練策略和定制目標,以超越重建,達到穩健的、條件于身份的合成。這種豐富的、標記身份的監督不僅大幅提升了身份保真度,還抑制了簡單的復制粘貼偽影,并提供了對多身份組合的更精細控制。受到這些優勢的啟發,本文引入了 WithAnyone ——一個面向可控、高保真多身份生成的統一架構和訓練方案。架構圖和實現細節見下圖4。

訓練目標


帶有擴展負樣本的身份對比損失。 為了進一步加強身份保真性,引入了一種身份對比損失,該損失通過在面部嵌入空間中將生成的圖像明確地拉近其參考圖像,同時將其推遠其他身份。該損失遵循 InfoNCE公式:


訓練 pipeline
復制粘貼偽影主要源于僅依賴重建的訓練,這會鼓勵模型復制參考圖像,而不是學習穩健的身份條件生成。利用本文的配對數據集,采用一個四階段的訓練流程,逐步將目標從重建過渡到可控的身份保真合成。
階段 1:使用固定提示的重建預訓練。 從重建預訓練開始初始化骨干網絡,因為該任務比完整身份條件生成簡單,可以利用大規模未標記的數據。在前幾千步中,標題固定為一個常量占位符提示(例如,“兩個人”),以確保模型優先學習身份條件路徑,而非偏向文本條件樣式。此階段使用完整的 MultiID-2M,通常持續約 20k 步,此時模型在身份相似性方面達到令人滿意的水平。為了進一步增強數據多樣性,還引入了 CelebA-HQ、FFHQ和 FaceID-6M的一部分。
階段 2:使用完整標題的重建預訓練。 此階段將身份學習與文本條件生成對齊,持續額外的 40k 步,此期間模型達到身份相似性的頂峰。
階段 3:配對調優。 為抑制簡單的復制粘貼行為,將訓練樣本中的 50% 替換為從 MultiID-2M 50 萬標記圖像中抽取的配對樣本。對于每個配對樣本,不再使用相同的圖像作為輸入和目標,而是隨機選擇一個身份參考集中的參考圖像,另選一張同一身份的不同圖像作為目標。此擾動打破了直接復制的捷徑,促使模型依賴高層次的身份嵌入,而非低層次的復制。
階段 4:質量調優。 最后,在一個精選的高質量子集上進行微調,該子集增添了生成的風格化變體,以(i)增強感知保真度和(ii)提高風格的穩健性和可轉移性。此階段細化了紋理、光照和風格適應性,同時保持早期階段建立的強身份一致性。
實驗
對基線和本文的 WithAnyone 模型在提議的 MultiID-Bench 上進行了全面評估。
基線。 評估了兩類基線方法:通用定制模型和面部定制方法。通用定制模型包括 OmniGen、OmniGen2、Qwen-Image-Edit、FLUX.1 Kontext、UNO、USO、UMO 和本機 GPT-4o-Image。面部定制方法包括 UniPortrait、ID-Patch、PuLID (在本文中指其 FLUX 實現)和 InstantID。所有模型均在基準的單人子集上進行評估,而僅支持多 ID 生成的模型還在多人子集上進行測試。
定量評估
定量結果見下表 1 和 2。本文觀察到面部相似性與復制粘貼偽影之間的明顯權衡。如下圖 5 所示,大多數方法與一個回歸曲線密切對齊,其中較高的面部相似性通常與更強的復制粘貼一致。這表明許多現有模型通過直接復制參考面部特征來提高測量的相似性,而不是合成身份。相比之下,WithAnyone 顯著偏離這一曲線,在相對于 GT 的面部相似性方面達到最高,并保持明顯較低的復制粘貼得分。



WithAnyone 也在 OmniContext 基準測試上獲得了 ID 特定參考模型中的最高分。然而,VLMs 展現了有限的區分個體身份的能力,而更強調非身份屬性,如姿勢、表情或背景。盡管通用定制和編輯模型在 OmniContext 上通常表現優于面部定制模型,WithAnyone 在面部定制模型中仍表現最佳。
定性比較
為補充定量結果,下圖 6 展示了本文的方法、最先進的通用定制/編輯模型以及面部定制生成模型之間的定性比較。

結果表明,身份一致性仍是通用定制或編輯模型的一大弱點,這與本文的定量發現一致。許多基于 VAE 的方法,如 FLUX.1 Kontext 和 DreamO,將參考圖像通過 VAE 編碼,往往生成的面部要么表現出復制粘貼偽影,要么顯著偏離目標身份。一種可能的原因是 VAE 嵌入強調低級特征,而將高級語義理解留給擴散骨干,該骨干可能沒有為這一任務進行預訓練。ID 特定參考模型也在處理復制粘貼偽影時遇到困難。例如,當參考圖像為中性時,它們無法讓主體微笑,且通常無法調整頭部姿勢甚至眼睛視線。相比之下,WithAnyone 生成靈活、可控的面孔,同時忠實地保留身份。
消融及用戶研究
為了更好地理解 WithAnyone 各組件的貢獻,對訓練策略、GT 對齊的 ID 損失、基于 InfoNCE 的 ID 損失和本文的數據集進行了消融研究。由于篇幅限制,本文在此僅報告關鍵結果。
如下表 3 所示,配對數據微調階段在減少復制粘貼偽影的同時,不會降低與真實值的相似性,而在 FFHQ 上訓練的效果顯著差于在本文精心策劃的數據集上進行訓練的效果。下圖 7 進一步表明,GT 對齊的 ID 損失在低噪聲水平下降低了去噪誤差,并在高噪聲下產生更高方差、信息更豐富的梯度,從而增強身份學習能力。通過消融擴展的反例,只留下批次中的 63 個負樣本(最初擴展到 4096 個),ID 對比損失的效果顯著降低。

本文進行了一項用戶研究來評估感知質量和身份保留。招募了 10 名參與者,并要求他們根據四個標準對 230 組生成的圖像進行排名:身份相似性、復制粘貼偽影的存在、提示的遵循和美學。結果如下圖 8 所示,表明本文的方法在所有維度上始終獲得最高的平均排名,展示出了更強的身份保留和卓越的視覺質量。此外,復制粘貼指標與人類判斷呈現適度的正相關性,表明其捕獲了具有感知意義的偽影。

結論
復制粘貼偽影是身份定制方法的常見限制,而臉部相似性指標通常通過隱性獎勵直接復制來加劇這一問題。本工作通過 MultiID-Bench 確定并正式量化了這種失效模式,并提出了針對性的解決方案。策劃了 MultiID-2M,并開發了明確拒絕簡單復制的訓練策略和損失函數。實證評估表明,WithAnyone在顯著減少復制粘貼偽影的同時,保持并在許多情況下提高了身份相似性,從而打破了忠實度與復制之間的長期權衡。這些結果突顯了一條實現更忠實、可控和穩健的身份定制的實際路徑。
本文轉自AI生成未來 ,作者:AI生成未來

















