圖像編輯邁向新高度!天津大學&快手提出GRAG:4行代碼搞定圖像編輯精準控制
天津大學與快手科技的研究團隊針對基于擴散變換器的圖像編輯技術中編輯程度控制難的問題,提出組相對注意力引導(GRAG)方法。研究發現DiT模型MM-Attention機制里Query和Key的token嵌入特征有僅與層相關的偏置向量。

相關鏈接
- 論文: https://arxiv.org/abs/2510.24657
- 主頁: https://github.com/little-misfit/GRAG-Image-Editing
- 試用:https://huggingface.co/spaces/Little-ECHO/GRAG-Image-Editing
論文介紹

- 論文標題: 圖像編輯中的群體相對注意力引導
近年來,基于擴散變換器(Diffusion-in-Transformer,DiT)模型的圖像編輯技術得到了快速發展。然而,現有的編輯方法往往缺乏對編輯程度的有效控制,這限制了它們實現更個性化結果的能力。
為了解決這一局限性,論文研究了DiT模型中的MM-Attention機制,并觀察到查詢(Query,Q)和鍵(Key,K)標記共享一個僅與層相關的偏置向量。將這種偏置解釋為表示模型固有的編輯行為,而每個標記與其相應偏置之間的差值則編碼了內容特定的編輯信號。基于這一見解,論文提出了組相對注意力引導(Group Relative Attention Guidance,GRAG)方法,這是一種簡單而有效的方法,通過對不同標記的差值進行重新加權,來調整模型相對于編輯指令對輸入圖像的關注點,從而無需任何調優即可實現對編輯強度的連續和精細控制。
在現有圖像編輯框架上進行的廣泛實驗表明,GRAG只需四行代碼即可集成,并一致地提高了編輯質量。此外,與常用的無分類器引導(Classifier-Free Guidance)相比,GRAG實現了對編輯程度更平滑、更精確的控制。

方法概述
各個詞嵌入與偏置向量之間的差異反映了編輯內容與當前層編輯動作之間的關系。通過調整它們之間的相對關系,可以實現對編輯指令的準確且連續的控制。基于這一見解,論文提出了組相對注意力引導(Group Relative Attention Guidance,GRAG)。如下圖所示修改了MM-Attention中與查詢Qe相對應的交叉注意力組件。Ks被選為一組詞,對其應用組相對調整。這是在MM-DiT圖像編輯模型中應用組相對注意力引導的示例。

實驗結果



結論
這項工作重新審視了內部注意力機制 擴散在Transformer(DiT)模型中的應用,并揭示了 存在一個支配編輯行為的共享偏差向量。基于這一見解,論文引入了組相對(Group Relative) 注意力引導(GRAG),一種輕量級但有效的 調節群體偏差中標記偏差的策略 實現對編輯操作的精細且連續的控制 優勢。GRAG可以無縫集成到現有的 基于DiT的編輯器,在可控性和保真度方面持續改進。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















