ICCV`25 | 把DragDiffusion“卷”哭了:速度快600倍,效果更精準!港大開源Inpaint4Drag

文章鏈接:https://arxiv.org/pdf/2509.04582
項目鏈接:https://visual-ai.github.io/inpaint4drag/

基于拖動的圖像編輯方法比較
亮點直擊
- 一個物理啟發(fā)的變形框架,將圖像區(qū)域視為彈性材料,通過用戶指定的控制點和區(qū)域掩碼實現(xiàn)自然變換,并提供可選的掩碼細化功能以處理精確的對象邊界。
- 一種高效的雙向扭曲算法,通過前向扭曲建立初始形狀,并通過反向映射填充間隙,創(chuàng)建密集的像素對應(yīng)關(guān)系,同時保持實時性能。
- 一種模塊化pipeline,清晰地將變換與生成分離,計算顯露區(qū)域和邊界平滑的精確掩碼,以實現(xiàn)與現(xiàn)有修復模型的無縫集成。
總結(jié)速覽
解決的問題
- 控制精度低:現(xiàn)有基于拖拽的編輯方法主要在生成模型(如Stable Diffusion)的隱空間(latent space)中進行操作。用戶控制點需要被下采樣到低分辨率隱空間(如從512×512到32×32),導致用戶輸入與最終變化之間的映射關(guān)系模糊,控制不精確。
- 交互體驗差:生成過程耗時,無法提供實時視覺反饋。用戶被迫進行耗時的“試錯”循環(huán),嚴重影響了交互的流暢性。
- 功能受限:依賴通用文生圖模型處理編輯后產(chǎn)生的大面積遮擋和缺失區(qū)域(如旋轉(zhuǎn)頭部、張嘴)時,效果不真實,能力有限。
- 模型依賴性強:現(xiàn)有方法通常與特定生成模型架構(gòu)深度耦合,無法通用地利用其他或未來更先進的修復模型。
提出的方案
提出了 Inpaint4Drag 的新型交互框架。該框架的核心思想是將復雜的拖拽編輯任務(wù)解耦為兩個更簡單、更專業(yè)的子任務(wù):
- 雙向變形(Bidirectional Warping):受物理世界中彈性物體變形的啟發(fā),將圖像區(qū)域視為可變形材料。
- 前向變形(Forward Warping):根據(jù)用戶拖拽的控制點,將源像素移動到目標位置,定義出初始輪廓和大致變形。
- 反向變形(Backward Warping):填補前向變形產(chǎn)生的孔洞和間隙,建立密集的幾何對應(yīng)關(guān)系,完成平滑的幾何變換。
- 圖像修復(Image Inpainting):自動計算修復區(qū)域(包括變形后顯露出的區(qū)域和輪廓周圍的窄帶區(qū)域),然后將標準格式的(圖像+修復掩碼)輸入到任何現(xiàn)成的、專業(yè)的圖像修復模型中進行最終的內(nèi)容補全。
應(yīng)用的技術(shù)
- 物理啟發(fā)的彈性變形模型:將圖像處理問題類比為物理世界的彈性材料變形,為幾何變換提供理論依據(jù)。
- 雙向變形算法(Bidirectional Warping Algorithm):結(jié)合前向和反向變形,有效解決了單一變形方法產(chǎn)生的偽影和空洞問題,實現(xiàn)了高質(zhì)量、無縫的像素級幾何變換。
- 掩碼優(yōu)化模塊(Optional Mask Refinement Module):一個可選的輔助模塊,用于自動捕捉精確的對象邊界,確保邊緣和內(nèi)部區(qū)域變形的一致性。
- 通用適配器設(shè)計(Universal Adapter Design):將用戶的拖拽輸入轉(zhuǎn)化為任何圖像修復模型都能處理的標準輸入格式(圖像+掩碼),從而與具體模型架構(gòu)解耦。
達到的效果
- 極高的交互效率:
- 提供實時(0.01秒)的變形預覽,讓用戶立即看到大致的變形效果。
- 整個編輯過程(包括修復)在0.3秒內(nèi)即可完成(512×512分辨率),相比需要數(shù)分鐘的現(xiàn)有方法,交互體驗得到顯著提升。
- 卓越的編輯質(zhì)量:
- 實現(xiàn)了精確的幾何控制,保持了被拖動內(nèi)容的顏色,并保護了未編輯區(qū)域的圖像質(zhì)量。
- 能夠有效處理大面積遮擋等挑戰(zhàn)性編輯任務(wù)(如讓獅子張嘴、旋轉(zhuǎn)人頭),生成效果更真實。
- 強大的通用性和可擴展性:
- 作為一個“萬能適配器”,無需修改即可利用任何現(xiàn)有的(如LaMa)或未來的圖像修復模型,并自動繼承其所有性能提升。
- 精準的控制:在像素空間中進行變形操作,避免了隱空間下采樣帶來的精度損失,實現(xiàn)了對圖像內(nèi)容的像素級精確控制。
方法
Inpaint4Drag,一種基于拖拽的圖像編輯交互方法,將該任務(wù)分解為雙向扭曲和標準圖像修復。給定輸入圖像,用戶可以繪制掩碼來選擇要變形的對象,并使用掩碼細化模塊來提高邊界精度。在指定拖拽點對后,雙向扭曲算法立即變形所選區(qū)域,提供編輯結(jié)果的實時預覽,該預覽同時也作為修復模型的輸入。用戶在執(zhí)行相對耗時的修復操作之前,迭代細化掩碼和控制點以達到所需的拖拽效果,該修復操作填充變形后顯露的區(qū)域。本文的方法通過專門的變形控制和集成的修復模型實現(xiàn)無縫補全,從而在實現(xiàn)實時交互的同時提供高質(zhì)量的結(jié)果。
區(qū)域指定與邊界細化
先前的拖拽編輯方法通常使用稀疏控制點來引導變形,并可選擇使用掩碼來限制可編輯區(qū)域。然而,這種稀疏輸入格式在變形解釋中引入了根本的模糊性——大量像素的運動僅依賴于少數(shù)控制點的引導。對角色手臂的單個拖拽操作可能產(chǎn)生截然不同的結(jié)果:全身旋轉(zhuǎn)、局部手臂運動或孤立的點平移。沒有明確的變形規(guī)范,現(xiàn)有方法通常會產(chǎn)生偏離用戶意圖的不可預測結(jié)果。


首先,生成輸入掩碼的膨脹和腐蝕版本


用于區(qū)域變形的雙向扭曲

如下圖3和圖4所示,本文的方法包括四個步驟:(1) 輪廓提取以識別獨立的可變形區(qū)域;(2) 前向扭曲以定義目標區(qū)域邊界并建立初始映射;(3) 后向映射以確保目標區(qū)域中的完整像素覆蓋;(4) 利用已建立的映射生成扭曲內(nèi)容并識別需要修復的區(qū)域。


輪廓提取與控制點關(guān)聯(lián)
首先將二值掩碼M分解為表示獨立可變形區(qū)域的不同輪廓(粉色塊左側(cè),上圖3)。輪廓指的是追蹤掩碼中連通區(qū)域邊界的閉合曲線。


前向扭曲


雖然這種前向方法建立了初始映射,但單獨使用它進行扭曲會產(chǎn)生采樣偽影(示例見上圖3或下圖7)。當非剛性變換拉伸圖像區(qū)域時,像素的離散性會在目標位置未接收到映射值的地方產(chǎn)生間隙。當變換后的源像素網(wǎng)格在目標空間中被拉伸且變得不連續(xù)時,就會出現(xiàn)這種情況,從而留下未映射的間隙。

后向映射

與使用全局像素參考相比,這種局部鄰域方法提供了計算效率,并通過限制遙遠前向扭曲結(jié)果對最終映射的影響來幫助保持結(jié)構(gòu)一致性。通過確保所有坐標保持在圖像邊界內(nèi)來驗證每個計算的映射對。

其中W和H分別表示圖像的寬度和高度。這防止了從圖像域外未定義區(qū)域進行采樣。
后向映射策略通過建立可靠的像素級映射來完成雙向框架,這些映射保持了局部結(jié)構(gòu)關(guān)系,同時解決了前向變換的局限性。
計算扭曲結(jié)果和修復掩碼
使用已建立的像素映射,通過傳輸像素值來生成扭曲圖像:

如上圖4所示,隨后通過確定存在于原始掩碼M中但在變形結(jié)果中未映射的像素來識別需要修復的區(qū)域:


與圖像修復的集成
流程的最后一步是應(yīng)用修復模型為變形過程中顯露的區(qū)域生成內(nèi)容:


在實現(xiàn)中,選擇了Stable Diffusion 1.5 Inpainting Checkpoint,該模型從常規(guī)Stable Diffusion v1.2模型微調(diào)而來,并針對修復任務(wù)進行了額外訓練。修復過程遵循一個簡單的流程:將掩碼調(diào)整大小并與圖像VAE潛在表示連接。在條件擴散去噪過程中,用純噪聲初始化掩碼區(qū)域,在變形顯露的區(qū)域生成全新的內(nèi)容。最后,通過VAE解碼將結(jié)果轉(zhuǎn)換回像素空間。
為優(yōu)化性能,采用了多項效率增強技術(shù):TinyAutoencoder SD (TAESD)(一種減少內(nèi)存需求的蒸餾VAE);LCM(潛在一致性模型)LoRA以減少采樣步驟;空文本提示以消除無分類器引導計算;以及緩存空提示嵌入以避免編輯會話中的重復計算。值得注意的是,雖然使用這種代表性修復模型報告實驗結(jié)果,但本文的框架可以容納任何修復模型作為即插即用的替代方案。
實驗
數(shù)據(jù)集
使用兩個基準評估拖拽編輯方法:來自SDE-Drag的DragBench-S(包含100個樣本)和來自DragDiffusion的DragBench-D(包含205個樣本)。每個基準條目包括源圖像、描述圖像的文本提示、可編輯區(qū)域的二值掩碼以及顯示所需移動的點對。
在本框架中,掩碼作為可變形區(qū)域具有不同的用途。雖然可編輯區(qū)域指示允許編輯的位置,但可變形區(qū)域定義了在變換過程中應(yīng)一起移動的連貫部分。因此重新標注了可變形區(qū)域位置和拖拽點,同時保留了原始用戶編輯意圖并保持源圖像不變。
評估指標
本文使用LPIPS和平均距離(MD)來衡量編輯性能。
LPIPS:學習感知圖像塊相似度(LPIPS)v0.1測量原始圖像與編輯圖像之間的身份保持度。較低的LPIPS表示更好的身份保持。然而,該指標的一個局限性是它僅測量圖像塊之間的低級特征相似性。在拖拽編輯中,有意且正確的形狀變形通常會導致不可避免的LPIPS增加,這不應(yīng)受到懲罰。
平均距離(MD):該指標評估手柄點移動到目標位置的準確度。采用DIFT在編輯圖像中查找用戶指定手柄點的匹配點,將搜索區(qū)域限制在用戶指定的手柄點和目標點周圍區(qū)域以避免錯誤匹配。MD計算為目標點與DIFT匹配點之間的平均歸一化歐幾里得距離。
實現(xiàn)細節(jié)

定量評估
如下表1所示,將Inpaint4Drag與最先進的方法進行比較。本文的雙向扭曲算法在DragBench-S和DragBench-D上實現(xiàn)了拖拽精度和圖像一致性的顯著提升,獲得了最低的MD分數(shù)(3.6/3.9)和具有競爭力的LPIPS值(11.4/9.1)。這一優(yōu)勢源于密集的像素級變形計算,在操作過程中保持了顏色和幾何關(guān)系。值得注意的是,Inpaint4Drag比FastDrag快14倍,比DragDiffusion快近600倍,其中基于SAM的細化耗時0.02秒,雙向扭曲僅需0.01秒。計算峰值出現(xiàn)在SD修復預覽期間,需要0.29秒,同時在所有方法中使用最少的內(nèi)存(2.7GB)。

定性結(jié)果
如下圖5所示,Inpaint4Drag在來自DragBench-S和DragBench-D的挑戰(zhàn)性案例上優(yōu)于最先進的方法。通過利用專門的修復模型,Inpaint4Drag在先前被遮擋的區(qū)域生成真實的內(nèi)容(例如,第1行和第4行中新暴露的面部特征,以及第3行中獅子張開的嘴巴)。可選掩碼細化模塊使用戶能夠連貫地變形對象邊界(第4、5和7行)或?qū)W⒂诰_的局部編輯(其余示例)。與將控制點下采樣到潛在分辨率時會丟失精度的隱空間方法不同,像素空間方法能夠精確操作局部細節(jié)(第2行和第5行)。雙向扭曲生成拖拽內(nèi)容的信息化預覽,為后續(xù)修復過程提供信息化的上下文。

方法分析
掩碼細化。如下圖6所示,本文方法通過將SAM的預測(中間)限制在用戶輸入的膨脹區(qū)域內(nèi),將粗糙的初始掩碼(左側(cè))轉(zhuǎn)換為精細化的結(jié)果(右側(cè))。雖然細化模塊同時包含內(nèi)部和外部邊界約束,但為了可視化清晰度,在這些示例中僅展示外部邊界的使用情況。最終得到的掩碼有效捕獲了對象邊界,同時保留了用戶預期的編輯范圍。

單向與雙向扭曲。前圖7中展示了單向(僅前向扭曲)和雙向扭曲的定性比較。單向方法難以處理采樣偽影,在變形過程中會在拉伸區(qū)域產(chǎn)生明顯的間隙。當非剛性變換拉伸圖像區(qū)域時會出現(xiàn)這些偽影,因為像素的離散性會導致未映射的間隙,目標位置由于變換后像素網(wǎng)格的不連續(xù)性而無法接收到源值。雙向方法通過兩步過程有效解決了這些挑戰(zhàn):首先通過前向扭曲識別目標輪廓,然后采用像素級后向映射來填充間隙。這種方法產(chǎn)生無間斷的平滑變換,為用戶預覽和圖像修復提供可靠的視覺上下文。
結(jié)論
Inpaint4Drag,一種通過像素空間雙向扭曲將圖像修復重新用于基于拖拽的編輯的新方法。與依賴未針對拖拽操作優(yōu)化的通用文本到圖像模型的現(xiàn)有解決方案不同,本文專門的扭曲和修復分離有效保持了像素一致性,同時在新顯露區(qū)域生成高質(zhì)量內(nèi)容。雙向扭曲算法和基于SAM的邊界細化提供實時反饋以實現(xiàn)直觀交互。實驗結(jié)果表明,Inpaint4Drag在將處理時間從分鐘級減少到毫秒級的同時提供了卓越的性能。此外,由于Inpaint4Drag與任何修復模型兼容,它可以隨著修復技術(shù)的進步而持續(xù)改進。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















