AI圖像編輯站上新高度!Follow-Your-Shape精控大規模形變,穩準狠!

文章鏈接:https://arxiv.org/pdf/2508.08134 項目鏈接:https://follow-your-shape.github.io/







亮點直擊
- 一種新穎且無需訓練的編輯框架Follow-Your-Shape,利用軌跡差異圖(Trajectory Divergence Map, )實現精確的大尺度形狀變換,同時保留背景內容。
- 一種基于軌跡的分階段注入策略,通過在整個去噪過程中自適應調整引導機制,提升編輯穩定性。
- 一個新的基準測試集ReShapeBench,專為系統性評估形狀感知圖像編輯方法而設計。
總結速覽
解決的問題
- 大尺度形狀變換的精準編輯:現有基于擴散和流模型的圖像編輯方法在復雜、大尺度形狀變換(如物體結構修改)時效果不佳,難以實現預期形狀改變或容易誤改非目標區域。
- 背景保留不足:編輯過程中可能破壞背景內容,導致整體圖像質量下降。
- 區域控制策略的局限性:現有方法依賴外部二值掩碼(過于剛性)或交叉注意力圖(噪聲大、不穩定),缺乏動態定位可編輯區域的能力。
提出的方案
- Follow-Your-Shape框架:無需訓練和掩碼,通過分析模型在源目標條件間的行為差異,動態定位可編輯區域。
- 核心創新:軌跡差異圖(Trajectory Divergence Map, TDM),通過對比去噪路徑中源和目標提示的token速度差,精準定位需編輯的區域。
- 時序控制:提出分階段KV注入機制(Scheduled KV Injection),早期無條件注入以穩定潛在結構,后期TDM引導編輯以確保精準性和穩定性。
應用的技術
- TDM生成:基于擴散模型的token-wise速度場差異計算,動態識別可編輯區域。
- KV注入優化:結合無條件注入(早期階段)和TDM引導注入(后期階段),平衡編輯自由度與背景保留。
- 新評測基準ReShapeBench:包含120張圖像和針對性提示對,專門評估大尺度形狀編輯任務。
達到的效果
- 編輯精準性:成功實現大尺度形狀替換(如物體結構修改),同時嚴格保留非目標內容。
- 指標領先:
- 背景保留:PSNR 35.79,LPIPS 8.23。
- 文本對齊:CLIP-Sim 33.71。
- 美學質量:LAION美學評分6.57(最優)。
- 魯棒性:分階段注入策略解決了早期TDM不穩定的問題,生成結果更忠實、視覺質量更高。
方法
本文的目標是實現精確的物體形狀感知編輯,同時嚴格保留背景。受現有區域控制策略的局限性和對更自適應機制的需求啟發,本文提出了軌跡差異圖(Trajectory Divergence Map, TDM),用于量化反轉軌跡和編輯軌跡之間的token級語義偏差,如下圖2所示。Follow-Your-Shape的整體流程如圖3所示。

動機
有效的圖像編輯需要在引入新內容和保留原始結構之間取得精確平衡。如上圖2所示,傳統的結構保留編輯方法通常會產生不穩定的去噪軌跡,這些軌跡顯著偏離穩定的重建路徑,導致嚴重的結構退化和不希望的偽影。此外,先前用于定位編輯的方法存在明顯缺陷:
- 二值分割掩碼:依賴外部工具,引入額外開銷并受掩碼質量影響。其剛性邊界阻礙大尺度形狀變化,并常產生偽影。
- 交叉注意力掩碼:從模型注意力中推斷,這些圖通常噪聲大且不一致,尤其在顯著形狀變換時不可靠。
- 無條件特征注入:通過全局注入源特征保留結構,但缺乏選擇性會抑制有意編輯,導致可編輯性與一致性沖突。
為解決這些限制,從動態系統視角提出新方法。我們認為源和目標概念之間的語義差異可通過其去噪軌跡的差異度量。基于此,本文實現了一種精確且無需掩碼的方法(如下圖3所示),以穩定編輯軌跡并執行目標明確的形狀感知修改,無需依賴外部掩碼或剛性啟發式規則。

Follow-Your-Shape
本文的目標是通過選擇性保留背景和非目標區域實現形狀感知編輯。通過結合分階段鍵值(KV)注入與結構引導的編輯流程實現,其中編輯由軌跡差異圖(TDM)定位。
軌跡差異圖

分階段KV注入與掩碼生成


階段3:結構與語義一致性本研究框架通過以下方式確保編輯一致性:
- 通過ControlNet提供顯式結構引導
- 通過TDM引導的特征注入實現語義保留(擴展了RF-Edit原理)

實驗
實驗設置

ReShapeBench構建
局限性
盡管已有多個基準測試用于評估圖像編輯方法,但它們對本研究用例存在一定局限性。例如,PIE-Bench是一個包含700張圖像的著名提示驅動編輯基準測試,但其存在兩個關鍵缺陷:首先,其簡潔的提示缺乏對細粒度、形狀感知編輯所需的細節;其次,其廣泛的范圍(涵蓋對象替換、風格化和背景變化)使其對形狀變換能力的評估不夠聚焦。為解決這些問題,我們提出了ReShapeBench。
圖像收集
ReShapeBench包含120張新收集的圖像,分為兩個主要子集和一個評估集。第一個子集包含70張來自網絡資源的圖像,每張圖像均以單一突出對象為主,邊界清晰,適合精確的形狀編輯。第二個子集包含50張多對象圖像,用于測試模型在無掩碼情況下的目標編輯能力。最后,通過從前兩個子集中精選部分圖像并加入PIE-Bench的高質量示例,構建了一個包含50張圖像的通用評估集,用于評估模型在多樣化形狀編輯場景中的泛化能力。所有圖像均標準化為512×512分辨率。
精細化文本提示
為解決現有基準測試中提示過于簡單的問題,ReShapeBench中的每張圖像均配有詳細的源提示和目標提示。兩種提示均遵循統一的四句結構:第一句為總體概述,第二句描述前景對象,第三句描述背景,第四句描述整體場景。在創建編輯提示時,僅修改相關屬性(如對象身份或特征)。這些提示通過人工精心設計,用于指定顯著的形狀變換(如輪廓或比例變化),從而導致與源對象的空間對齊度較低。這種細節水平實現了精確的無掩碼對象識別。所有提示最初由Qwen-2.5-VL生成,隨后經過人工驗證以確保準確性和上下文一致性。更多細節詳見補充材料。
與基線方法的比較
定性比較
本文將Follow-Your-Shape與兩類圖像編輯方法進行比較:基于擴散的方法和基于流的方法。基于擴散的基線方法包括PnPInversion、MasaCtrl和Dit4Edit,它們通過在整個擴散過程中調制注意力機制和條件來執行編輯。基于流的基線方法包括RF-Edit、FlowEdit、KV-Edit和FluxKontext,這些方法均基于Rectified Flow框架實現可控生成。其中,FluxKontext是一種新提出的模型,利用上下文令牌拼接技術,具備強大的上下文編輯能力。
下圖4展示了定性結果,表明本文的方法在形狀感知編輯能力和背景保留方面優于這些基線方法。基于擴散的方法通常在結構編輯下難以保留背景(例如MasaCtrl和Dit4Edit對“獅子形狀的拉頓”的處理),有時無法完成大幅度的形狀變換(例如PnPInversion對“汽車騰空”的處理)。而基于流的方法雖然能生成更高質量的圖像并更好地保留背景,但仍存在細節抖動(例如Flux-Kontext對“汽車騰空”的處理、KV-Edit對“獅子形狀的拉頓”的處理)、重影偽影(例如KV-Edit對“蜻蜓”的處理)以及在挑戰性案例中無法完成大規模形狀變換的問題(例如所有基線方法對“帽子”的處理)。相比之下,Follow-Your-Shape能夠出色地完成大規模形狀變換,同時忠實保留非目標區域。

定量比較
按照相同的分類,在ReShapeBench上進行了定量比較,以評估本文的方法相對于基于擴散和基于流的基線方法的有效性。為確保公平性,我們使用相同的源提示和目標提示,并在所有方法中應用相同的去噪時間步數。具體而言,由于遵循RF-Solver的實現并使用其二階求解器,對于未采用二階方案的方法,將其時間步數加倍以確保相同的NFE(函數評估次數)。如下表1所示,選擇PNSR和LPIPS來評估背景一致性,使用LAION審美預測器計算的美學分數評估圖像質量,并使用CLIP評估文本對齊性。結果表明,本文的模型在所有指標上均優于基線模型。所提出的區域控制編輯策略在形狀感知編輯任務中表現更好,而設計的編輯掩碼MS能夠很好地保留背景。

消融研究
消融研究以評估編輯框架中的兩個關鍵組件:初始軌跡穩定步驟以及ControlNet條件化的時機和強度。
初始軌跡穩定的有效性



ControlNet條件化時機和強度的有效性
為了探索ControlNet條件化時機的影響,在歸一化去噪范圍[0, 1]內調整注入區間。下圖6(a)顯示,在相對早期階段注入條件效果最佳,因為此時潛在特征噪聲較少且更容易接受結構引導。我們還調整了Canny和深度引導的條件強度。如圖6(b)所示,中等強度(例如(2.5, 3.5))能夠在結構保留和可編輯性之間取得最佳平衡,而過弱或過強的信號會導致約束不足或過度約束的輸出。

結論
本文提出了Follow-Your-Shape框架,通過一種新穎的基于軌跡的區域控制機制實現大規模對象形狀變換。本文的方法利用軌跡分歧圖(TDM)動態定位修改區域,結合計劃注入策略,實現了精確的無掩碼編輯,同時保持背景完整性。為系統評估這一任務,開發了ReShapeBench,這是一個專為復雜形狀感知編輯設計的新基準測試。據我們所知,Follow-Your-Shape是首個系統解決提示驅動形狀編輯的工作。大量定性和定量實驗驗證了其在所提基準測試上的領先性能。本研究工作為可控生成開辟了新的研究方向。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/fp92TkaNEW3xzuEkx1oECA??

















