ICCV 2025 | 圖像變形新魔法,速度碾壓傳統(tǒng)10-50倍!FreeMorph:任意兩張圖絲滑變身!

論文鏈接:https://arxiv.org/pdf/2507.01953
項目鏈接:https://yukangcao.github.io/FreeMorph/
亮點直擊
- 本FreeMorph—— 一種無需調(diào)參、即可實現(xiàn)圖像間方向性和真實過渡的新方法。引入了兩個關(guān)鍵創(chuàng)新組件:1)感知引導(dǎo)的球面插值;2)基于步長的變化趨勢。該方法融合兩個分別來源于輸入圖像的自注意力模塊,使過渡過程可控且一致,尊重兩個輸入的特征。
- 設(shè)計了一種改進的反向去噪與正向擴散流程,將上述創(chuàng)新組件無縫整合進原始的 DDIM 框架中。
- 構(gòu)建了一個新的評估數(shù)據(jù)集,包含四組不同類型的圖像對,按語義和布局相似度分類。FreeMorph 在保持高保真度、生成平滑連貫圖像序列方面顯著優(yōu)于現(xiàn)有方法,可在30秒內(nèi)完成圖像變形過程,比 IMPUS 快 50 倍,比DiffMorpher快 10 倍。


效果展示



總結(jié)速覽
解決的問題
- 不同語義或布局的圖像難以變形:傳統(tǒng)圖像變形方法在處理語義差異大或布局不同的圖像時效果不佳,難以生成自然、平滑的過渡圖像。
- 現(xiàn)有基于擴散模型的方法依賴微調(diào),成本高:如 IMPUS 和 DiffMorpher 等方法需要對每對圖像進行微調(diào)訓(xùn)練,耗時長(約 30 分鐘),效率低,限制了其實用性。
- 無需調(diào)參方法存在質(zhì)量挑戰(zhàn):
- 非方向性過渡:傳統(tǒng)球面插值方法在多步去噪過程中容易產(chǎn)生過渡不一致的問題。
- 身份信息丟失:預(yù)訓(xùn)練擴散模型中的偏差會導(dǎo)致生成圖像無法保持輸入圖像的身份特征。
- 缺乏變化趨勢建模:擴散模型本身缺乏表示圖像變化方向的機制,難以實現(xiàn)一致性過渡。
提出的方案
為解決上述問題,提出了 FreeMorph —— 首個無需調(diào)參即可實現(xiàn)高質(zhì)量圖像變形的方法,包含兩個關(guān)鍵創(chuàng)新模塊:
- 感知引導(dǎo)的球面插值(Guidance-aware Spherical Interpolation):
- 修改擴散模型中的自注意力模塊,引入輸入圖像的顯式引導(dǎo)信息;
- 聚合來自兩個輸入圖像的 Key 和 Value 特征,確保過渡方向明確;
- 引入先驗驅(qū)動的自注意力機制,保留輸入圖像的身份特征,緩解身份丟失問題。
- 基于步長的變化趨勢建模(Step-oriented Variation Trend):
- 在每一步生成過程中,融合兩個輸入圖像的自注意力模塊;
- 建模逐步變化趨勢,實現(xiàn)可控且一致的圖像過渡,尊重兩個輸入的語義和布局特征。
- 改進的去噪與擴散流程:
- 將上述兩個模塊無縫集成進 DDIM 框架中,提升生成質(zhì)量與效率。
應(yīng)用的技術(shù)
- 擴散模型(Diffusion Models):以 DDIM 為基礎(chǔ)的生成框架;
- 自注意力機制(Self-attention):用于引導(dǎo)圖像特征的融合與身份保持;
- 球面插值(Spherical Interpolation):在潛在空間中實現(xiàn)圖像特征的平滑過渡;
- 先驗驅(qū)動注意力(Prior-guided Attention):增強模型對輸入圖像身份的建模能力;
- 無需微調(diào)(Tuning-free):避免對每對圖像進行單獨訓(xùn)練,提升效率與泛化能力。
達到的效果
- 高保真圖像變形:生成圖像在視覺質(zhì)量、身份保持、語義一致性等方面顯著優(yōu)于現(xiàn)有方法。
- 顯著提升效率:
- 比 IMPUS 快50倍;
- 比 DiffMorpher 快10倍;
- 每次圖像變形僅需30秒,無需訓(xùn)練或調(diào)參。
- 適應(yīng)性強:能夠處理語義或布局相似與差異較大的圖像對,適用于多種實際場景。
- 建立新SOTA:在多個評估數(shù)據(jù)集上實現(xiàn)了當前圖像變形領(lǐng)域的最先進性能(state-of-the-art)。
方法論


在接下來的內(nèi)容中,首先介紹支撐本文方法的預(yù)備知識。隨后,詳細描述 FreeMorph 框架。該框架包含三個主要組成部分:
- 感知引導(dǎo)的球面插值,包括本文提出的球面特征聚合和先驗驅(qū)動的自注意力機制;
- 基于步長的變化趨勢,用于實現(xiàn)可控且一致的圖像變形;
- 改進的正向擴散與反向去噪過程。
預(yù)備知識


相反,通過對上述公式進行反轉(zhuǎn),本文可以推導(dǎo)出正向擴散過程,該過程逐步向圖像中添加噪聲以預(yù)測其噪聲狀態(tài):

隱空間擴散模型(LDM)。在 DDIM 的基礎(chǔ)上,隱空間擴散模型(LDM)是一種改進的擴散模型變體,能夠在圖像質(zhì)量與去噪效率之間實現(xiàn)有效平衡。具體而言,LDM 利用預(yù)訓(xùn)練的變分自編碼器(VAE)將圖像映射到隱空間中,并在該空間內(nèi)訓(xùn)練擴散模型。此外,LDM 通過引入自注意力模塊、交叉注意力層和殘差塊來增強 UNet 架構(gòu),以在圖像生成過程中整合文本提示作為條件輸入。LDM 中 UNet 的注意力機制可表示為:


本文的方法基于由 StabilityAI 開發(fā)的預(yù)訓(xùn)練 LDM —— Stable Diffusion 模型,并使用視覺-語言模型(VLM)LLaVA 為輸入圖像生成描述。
感知引導(dǎo)的球面插值



先驗驅(qū)動的自注意力機制。雖然本文的特征融合技術(shù)在圖像變形中顯著提升了身份保持,但本文發(fā)現(xiàn),在正向擴散和反向去噪階段統(tǒng)一使用該方法,可能會導(dǎo)致圖像序列變化極小,無法準確表現(xiàn)輸入圖像(見下圖 6)。這一結(jié)果是預(yù)期中的,因為潛在噪聲在反向去噪過程中會產(chǎn)生較大影響,如下圖 3 所示。因此,應(yīng)用本文在公式 5 中描述的特征融合方法時,會引入模糊性,因為來自輸入圖像的一致且強約束導(dǎo)致每個潛在噪聲 顯得相似,從而限制了過渡效果的表現(xiàn)力。


為了解決這一問題,本文進一步提出了一種先驗驅(qū)動的自注意力機制,該機制優(yōu)先利用球面插值得到的潛在特征,以確保潛在噪聲中的平滑過渡,同時強調(diào)輸入圖像以在后續(xù)階段保持身份信息。具體而言,在反向去噪階段,本文使用公式 5 中描述的方法,而在正向擴散步驟中,本文通過修改自注意力模塊,采用如下不同的注意力機制:

詳見下文關(guān)于該設(shè)計的消融實驗。
面向步驟的變化趨勢

正向擴散與反向去噪過程

實驗
本文在多種場景下評估了 FreeMorph 的性能,將其與最先進的圖像變形技術(shù)進行比較,并通過消融實驗突出本文提出組件的有效性。

評估數(shù)據(jù)集。 DiffMorpher 引入了 MorphBench,其中包含 24 對動畫和 66 對圖像,主要是具有相似語義或布局的圖像。為補充該數(shù)據(jù)集并減輕潛在偏差,本文引入了 Morph4Data,這是一組新策劃的評估數(shù)據(jù)集,包含四個類別:
- Class-A:包含 25 對圖像,具有相似布局但語義不同,來源于 Wang 和 Golland;
- Class-B:包含具有相似布局和語義的圖像對,包括來自 CelebA-HQ 的 11 對人臉和 10 對不同類型的汽車;
- Class-C:包含 15 對從 ImageNet-1K 隨機采樣的圖像對,無語義或布局相似性;
- Class-D:包含 15 對從網(wǎng)絡(luò)上隨機采樣的狗和貓圖像。
定量評估
按照 IMPUS 和 DiffMorpher 的方法,本文使用以下指標進行了定量比較:
- Frechet Inception Distance (FID),用于評估輸入圖像與生成圖像分布之間的相似性;
- Perceptual Path Length (PPL),計算相鄰圖像之間的 PPL 損失之和;
- Learned Perceptual Image Patch Similarity (LPIPS),本文也對相鄰圖像之間的值求和,以評估生成過渡的平滑性和連貫性。
結(jié)果詳見下表 1,顯示本文的方法在兩個數(shù)據(jù)集上均表現(xiàn)出更高的保真度、平滑性和直接性。

用戶研究 為了通過引入人類偏好增強本文的對比分析,進行了用戶研究。招募了30名志愿者,包括動畫師、AI專家和年齡在20至35歲之間的游戲愛好者,來選擇他們偏好的結(jié)果。每位參與者被展示了50對隨機的對比結(jié)果。這些結(jié)果展示在下表2中,表明本文提出方法的主觀有效性。需要注意的是,slerp 表示僅應(yīng)用球面插值的方法。

定性評估*
定性結(jié)果。 在上圖1和上圖4中,展示了由 FreeMorph 生成的廣泛結(jié)果,這些結(jié)果持續(xù)展示了其生成高質(zhì)量和平滑過渡的能力。FreeMorph 在多種場景中表現(xiàn)出色,能夠處理語義和布局不同的圖像,以及具有相似特征的圖像。FreeMorph 還能夠有效處理細微變化,例如顏色不同的蛋糕和表情不同的人物。
定性對比。 在下圖5中提供了與現(xiàn)有圖像變形方法的定性對比。一個有效的圖像變形結(jié)果應(yīng)當展現(xiàn)從源圖像(左)到目標圖像(右)的漸進過渡,同時保留原始身份。基于這一標準,可以得出以下幾點觀察:
- 在處理語義和布局差異較大的圖像時,IMPUS 表現(xiàn)出身份丟失和不平滑的過渡。例如,在圖5的第二個例子中,IMPUS 展現(xiàn)出 (i) 身份丟失,即第三張生成圖像偏離了原始身份,以及 (ii) 第三張和第四張生成圖像之間的突變過渡。
- 盡管 DiffMorpher 相較于 IMPUS 實現(xiàn)了更平滑的過渡,其結(jié)果常常表現(xiàn)出模糊和整體質(zhì)量較低的問題(見圖5第一個例子);
- 本文還評估了一個基線方法“Slerp”,該方法僅應(yīng)用球面插值和 DDIM 過程。可視化結(jié)果表明該基線方法存在以下問題:(i) 由于缺乏顯式引導(dǎo),難以準確解釋輸入圖像,(ii) 圖像質(zhì)量不佳,(iii) 過渡突兀。
相比之下,本文方法始終表現(xiàn)出更優(yōu)的性能,特點是更平滑的過渡和更高的圖像質(zhì)量。

進一步分析
引導(dǎo)感知球面插值分析。 在上圖6中,本文進行消融實驗以評估所提出的球面特征聚合(公式 5)和先驗驅(qū)動的自注意力機制(公式 6)的效果。結(jié)果表明,僅使用其中任何一個組件都會導(dǎo)致次優(yōu)結(jié)果。具體來說:

這兩個組件的結(jié)合使得 FreeMorph 能夠在有效保持身份的同時生成平滑過渡。通過對比圖6中最后兩行,本文展示了面向步驟的變化趨勢以及特別設(shè)計的反向與正向過程的重要性。

反向與正向過程分析。 在下圖7中,本文將本文的方法與兩個變體進行比較:(i) “Ours (Var-A)”,省略原始注意力機制,(ii) “Ours (Var-B)”,在反向與正向過程中交換引導(dǎo)感知球面插值與面向步驟變化趨勢的應(yīng)用步驟。將這些變體與本文的最終設(shè)計進行比較表明:
(i) 原始注意力機制對于實現(xiàn)高保真結(jié)果至關(guān)重要;
(ii) 本文最終設(shè)計中反向與正向過程的特定配置實現(xiàn)了最優(yōu)性能。


高頻噪聲注入分析。 本文隨后禁用高頻噪聲注入,并在圖8中展示相應(yīng)的消融研究。結(jié)果表明,引入所提出的高頻噪聲注入增強了模型的靈活性,并有助于實現(xiàn)更平滑的過渡。
結(jié)論
FreeMorph,一種無需調(diào)參的新型流程,能夠在30秒內(nèi)生成兩個輸入圖像之間的平滑高質(zhì)量過渡。具體而言,本文通過修改自注意力模塊來引入來自輸入圖像的顯式引導(dǎo)。這是通過兩個新組件實現(xiàn)的:球面特征聚合和先驗驅(qū)動的自注意力機制。此外,本文引入了面向步驟的變化趨勢,以確保與兩個輸入圖像一致的方向性過渡。本文還設(shè)計了改進的正向擴散和反向去噪過程,以將本文提出的模塊集成到原始的 DDIM 框架中。大量實驗表明,F(xiàn)reeMorph 在各種場景中提供了高保真度的結(jié)果,顯著優(yōu)于現(xiàn)有的圖像變形技術(shù)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















