僅四行代碼!天大&快手在DiT里發(fā)現(xiàn)了圖像編輯強(qiáng)度的“萬能旋鈕”:無需訓(xùn)練,即插即用

論文鏈接:https://arxiv.org/pdf/2510.24657
項(xiàng)目 & 代碼鏈接:https://little-misfit.github.io/GRAG-Image-Editing/
亮點(diǎn)直擊
- 通過大量實(shí)驗(yàn),發(fā)現(xiàn)MM-DiT中查詢和鍵嵌入存在偏置分布,并對(duì)其在圖像編輯任務(wù)中的作用進(jìn)行了數(shù)學(xué)分析;
- 提出組相對(duì)注意力引導(dǎo)(GRAG),這一新方法通過利用 token 間的相對(duì)關(guān)系來調(diào)控圖像編輯過程,借助其與組偏置的偏差實(shí)現(xiàn)精確可控的編輯;
- 在多個(gè)基線模型上開展廣泛實(shí)驗(yàn),并在多樣化的編輯任務(wù)中評(píng)估性能,證明了本方法的有效性。
總結(jié)速覽
解決的問題
- 編輯控制粒度不足:現(xiàn)有基于DiT的圖像編輯方法缺乏對(duì)“編輯程度”的有效控制,難以實(shí)現(xiàn)連續(xù)、細(xì)粒度的調(diào)整。
- 定制化能力受限:由于無法精確控制編輯強(qiáng)度,模型難以生成符合用戶個(gè)性化需求的編輯結(jié)果。
- 依賴外部調(diào)參:用戶通常需要依賴提示工程或進(jìn)行多次推理才能獲得滿意效果,流程繁瑣。
提出的方案
- 提出了名為組相對(duì)注意力引導(dǎo)(GRAG)的新方法。
- 該方案的核心思想是:通過重新加權(quán)不同 token 與其所在層共享的“偏置向量”之間的差值,來調(diào)控模型在“遵循編輯指令”和“保留原圖內(nèi)容”之間的關(guān)注度。
- 這是一種無需訓(xùn)練、即插即用的引導(dǎo)機(jī)制。
應(yīng)用的技術(shù)
- 機(jī)理分析:深入分析了DiT模型中的MM-Attention機(jī)制,發(fā)現(xiàn)了查詢(Q)和鍵(K)嵌入中存在僅與層相關(guān)的共享偏置向量。
- 理論構(gòu)建:將“偏置”解釋為模型固有編輯行為,將“token 與偏置的差值”解釋為具體內(nèi)容的編輯信號(hào)。
- 算法實(shí)現(xiàn):GRAG方法通過計(jì)算平均組偏置,并引入權(quán)重系數(shù)(λ)來調(diào)節(jié)各個(gè) token 的Δ向量,從而增強(qiáng)或抑制其編輯強(qiáng)度。
達(dá)到的效果
- 實(shí)現(xiàn)精確可控的編輯:能夠?qū)崿F(xiàn)連續(xù)、細(xì)粒度的編輯強(qiáng)度控制,生成平滑漸進(jìn)的編輯效果。
- 即插即用,易于集成:方法輕量,僅需少量代碼(如四行)即可集成到現(xiàn)有編輯框架中,并持續(xù)提升編輯質(zhì)量。
- 性能優(yōu)越:與常用的無分類器引導(dǎo)等方法相比,能提供更平滑、更精確的編輯程度控制,在編輯響應(yīng)度和圖像保真度之間取得了更優(yōu)的平衡。
- 經(jīng)過廣泛驗(yàn)證:在多個(gè)基線模型和多樣化編輯任務(wù)上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了方法的有效性。
嵌入向量中的偏置向量
MM-DiT的注意力層是編輯指令和條件圖像信息融合的關(guān)鍵位置,其中查詢和鍵嵌入直接影響從每個(gè) token 采樣的內(nèi)容比例。本實(shí)驗(yàn)揭示了嵌入特征沿序列維度分布存在顯著偏置,該偏置集中在每個(gè) token 內(nèi)的固定位置。假設(shè)這種偏置是DiT圖像編輯過程中實(shí)現(xiàn)上下文理解的關(guān)鍵因素。


E的可視化結(jié)果如下圖4所示。在嵌入向量空間中,每個(gè)維度索引對(duì)應(yīng)一個(gè)分量,圖4中的深紅色區(qū)域表示幅度較大的位置,這些位置對(duì)不同 token 嵌入之間的內(nèi)積貢獻(xiàn)更大。通過研究RoPE(旋轉(zhuǎn)位置嵌入[33])與維度索引之間的關(guān)系,觀察到文本嵌入集中在與語義相關(guān)的低頻分量中,而圖像嵌入則集中在捕捉空間關(guān)系的高頻分量中。這一發(fā)現(xiàn)表明兩種模態(tài)在共享嵌入空間中并未完全對(duì)齊。此外,研究了 token 嵌入在向量空間中的分布。下圖5展示了不同注意力頭的平均向量幅度和標(biāo)準(zhǔn)差,進(jìn)一步揭示了嵌入空間中 token 間存在顯著偏置向量的現(xiàn)象。


偏置向量分析。上述發(fā)現(xiàn)表明,注意力層中的查詢和鍵嵌入呈現(xiàn)出可分解的結(jié)構(gòu),其中每個(gè)嵌入均可表示為一個(gè)主導(dǎo)偏置分量與一個(gè)獨(dú)立變化量之和:


組相對(duì)注意力引導(dǎo)



每個(gè) token 相對(duì)于該偏置的偏離量定義為:

為控制 token 級(jí)別變化的影響,我們引入一個(gè)可調(diào)參數(shù)來縮放這些偏離量:


實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
實(shí)現(xiàn)細(xì)節(jié)。在六個(gè)圖像編輯基線上驗(yàn)證我們提出的方法。Kontext、Step1X-Edit和Qwen-Edit是基于訓(xùn)練的圖像編輯方法。為可復(fù)現(xiàn)性,隨機(jī)種子固定為42。所有實(shí)驗(yàn)的批次大小設(shè)為1,推理步數(shù)為24。分類器引導(dǎo)參數(shù)按照各模型的推薦值設(shè)置:Kontext為2.5,Step1X-Edit為6.0,Qwen-Edit為4.0。
此外,GRAG在理論上適用于常規(guī)的基于MM-DiT的架構(gòu)。因此,我們選擇了三種基于Flux.1-Dev T2I模型的免訓(xùn)練圖像編輯方法(Flowedit、Stableflow、Stableflow+)來評(píng)估我們方法的泛化能力。我們將在下文進(jìn)行進(jìn)一步討論。
評(píng)估。在PIE上評(píng)估我們的方法。該基準(zhǔn)涵蓋了多種編輯任務(wù),包括對(duì)象添加/移除、風(fēng)格遷移和姿態(tài)修改。對(duì)于定量評(píng)估,我們采用兩個(gè)互補(bǔ)的視角。遵循先前工作,采用LPIPS和SSIM作為定量指標(biāo)來評(píng)估未編輯區(qū)域的內(nèi)容保持能力。為評(píng)估編輯結(jié)果與人類偏好的對(duì)齊程度,我們采用圖像編輯獎(jiǎng)勵(lì)模型EditScore。EditScore是在Qwen-2.5VL上微調(diào)的獎(jiǎng)勵(lì)模型,它衡量三個(gè)方面:與原始圖像的一致性、提示跟隨和整體編輯得分。
定性分析
將GRAG應(yīng)用于三種主流的基于MM-DiT的圖像編輯模型,定性結(jié)果如圖7所示。在Step1X-Edit和Qwen-Edit上,我們的方法在保持預(yù)期編輯效果的同時(shí),改善了編輯后圖像與原始參考圖像之間的一致性,產(chǎn)生了更真實(shí)自然的結(jié)果。由于Step1X-Edit和Qwen-Edit利用視覺-語言模型來編碼編輯指令,額外的指令信息通常增強(qiáng)了響應(yīng)性但降低了一致性。我們選擇源圖像標(biāo)記作為組,并應(yīng)用GRAG來增強(qiáng)編輯相關(guān)標(biāo)記對(duì)編輯指令的響應(yīng),同時(shí)抑制不相關(guān)標(biāo)記的響應(yīng)。例如,在圖7的第一列中,GRAG成功改變了鳥的紋理,同時(shí)保留了樹干的細(xì)節(jié);在第五列中,它改變了蘋果的顏色,同時(shí)保留了細(xì)粒度的表面細(xì)節(jié)。這些例子證明了GRAG在保持對(duì)源圖像保真度的同時(shí),實(shí)現(xiàn)精確連續(xù)編輯控制的能力。對(duì)于原始Kontext模型,我們選擇文本標(biāo)記作為組,并應(yīng)用GRAG來增強(qiáng)模型對(duì)編輯指令的響應(yīng)。如下圖7右側(cè)所示,基線未能響應(yīng)編輯指令,內(nèi)容沒有變化,而應(yīng)用GRAG則實(shí)現(xiàn)了成功的編輯。

定量分析
如下表1所示,在PIE數(shù)據(jù)集上進(jìn)行了定量評(píng)估。在集成GRAG后,Step1X-Edit和Qwen-Edit的編輯輸出與原始圖像之間的一致性得到增強(qiáng),這體現(xiàn)在LPIPS、SSIM和Cons指標(biāo)的提升上。盡管PF略有下降,但反映整體編輯質(zhì)量的EditScore有所增加。相比之下,Kontext在應(yīng)用GRAG后,PF有顯著改善,并獲得了更高的EditScore。這些趨勢(shì)與視覺結(jié)果非常吻合。

消融研究
與CFG的差異。將我們的方法與主流引導(dǎo)方法——分類器自由引導(dǎo)進(jìn)行比較。與CFG在采樣過程中調(diào)整去噪方向不同,我們的方法直接調(diào)節(jié)注意力層內(nèi)的編輯信息。如下表2和下圖10所示,改變CFG強(qiáng)度產(chǎn)生的差異很小。相比之下,GRAG能夠?qū)崿F(xiàn)精確連續(xù)的編輯控制,隨著編輯強(qiáng)度的增加產(chǎn)生平滑一致的調(diào)整,視覺對(duì)比如下圖9所示。這種可控性對(duì)于定制化圖像編輯應(yīng)用至關(guān)重要。




討論與局限性
進(jìn)一步檢驗(yàn)了GRAG在僅涉及文本和目標(biāo)圖像 token 的通用MM-Attention架構(gòu)的編輯方法中的適用性。在這些方法中,GRAG被應(yīng)用于注入源圖像特征的注意力層。如下圖8所示,我們的方法實(shí)現(xiàn)了對(duì)編輯結(jié)果的調(diào)整,表明GRAG在通用MM-Attention結(jié)構(gòu)中仍然有效。然而,其在免訓(xùn)練設(shè)置下的穩(wěn)定性低于基于訓(xùn)練的模型,表3中的定量結(jié)果證明了這一點(diǎn)。我們將此歸因于GRAG主要調(diào)節(jié)MM-Attention中的交叉注意力組件(見上圖6),而在未訓(xùn)練的T2I模型中,源圖像特征是通過編輯-編輯自注意力分支引入的(上圖6-b)。在這種情況下,應(yīng)用GRAG會(huì)干擾現(xiàn)有的目標(biāo)圖像表示。

結(jié)論
本工作重新審視了擴(kuò)散變換模型內(nèi)部的注意力機(jī)制,并揭示了控制編輯行為的共享偏置向量的存在。基于這一發(fā)現(xiàn),我們提出了組相對(duì)注意力引導(dǎo),這是一種輕量級(jí)但有效的策略,通過調(diào)節(jié) token 相對(duì)于組偏置的偏離來實(shí)現(xiàn)對(duì)編輯強(qiáng)度的細(xì)粒度和連續(xù)控制。GRAG可以無縫集成到現(xiàn)有的基于DiT的編輯器中,持續(xù)提升可控性和保真度。我們的研究結(jié)果為多模態(tài)注意力的內(nèi)部動(dòng)力學(xué)提供了新的見解,并為未來DiT架構(gòu)中增強(qiáng)可控圖像編輯提供了實(shí)用方向。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















