ConsistEdit來了:無需訓練,實現高精度、高一致性的視覺編輯新范式
本文由香港科技大學、香港科技大學(廣州)、清華大學、粵港澳大灣區數字經濟研究院作者共同完成,第一作者為香港科技大學博士生殷子欣,指導老師包括:香港科技大學教授 & 香港科技大學(廣州)創校校長 倪明選院士,香港科技大學校董會主席 & 清華大學高等研究院雙聘教授 & 微軟原全球執行副總裁 沈向洋院士。

- 論文標題:ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
- 中稿會議:ACM SIGGRAPH Asia 2025
- 代碼倉庫:https://github.com/zxYin/ConsistEdit_Code
- 論文鏈接:https://arxiv.org/abs/2510.17803
- 項目主頁:https://zxyin.github.io/ConsistEdit
研究背景:無訓練視覺編輯的兩大核心痛點
無需額外訓練即可適配預訓練生成模型的編輯方法,憑借靈活、高效的特性,已成為視覺生成領域的研究熱點。這類方法通過操控 Attention 機制(如 Prompt-to-Prompt、MasaCtrl)實現文本引導編輯,但當前技術存在兩大核心痛點,嚴重限制其在復雜場景的應用:
1. 編輯強度與源圖一致性難以兼顧:現有方法若想保持與源圖的一致性,往往需調低編輯強度,最終導致編輯目標無法實現;若提升編輯強度以完成修改,又容易破壞源圖的特征結構(如改衣服顏色時丟失褶皺細節),且非編輯區域還會出現本應保持不變的意外變化。在多輪編輯或視頻編輯場景中,這類問題會進一步累積放大,最終導致結果失真,無法滿足實際需求。
2. 編輯強度缺乏細粒度控制能力:多數方法對編輯強度的控制局限于全局一致性(如同時約束結構與紋理),無法實現 “保結構改紋理” 或 “保紋理改結構” 的精準調節。這不僅限制了編輯的靈活性,還會導致通過調節強度生成的系列結果缺乏平滑過渡,難以滿足用戶對編輯精度的多樣化需求。

圖 1:現有編輯方法的痛點與 ConsistEdit 的優勢對比
與此同時,生成模型架構正從 U-Net 向 Multi-Modal Diffusion Transformer (MM-DiT) 升級。MM-DiT 打破了 U-Net “文本 Cross-Attention + 視覺 Self-Attention” 的模態分離設計,通過統一的 Self-Attention 同時處理文本與視覺信息,為解決上述困境提供了新可能。但此前僅有 DiTCtrl 探索 MM-DiT 的 Attention 控制,且聚焦長視頻生成,未針對編輯任務優化,導致無訓練編輯技術未能充分挖掘 MM-DiT 的架構優勢。
核心突破:針對 MM-DiT 的三個關鍵發現
為研究清楚 MM-DiT 架構中 Attention 計算的特點,團隊通過實驗分析,提煉出三個核心發現:
1. 僅編輯 “視覺 Token” 是關鍵:僅編輯 Attention 中的 “視覺 Token” 即可保證編輯效果穩定,若修改 “文本 Token”,會導致結果失真,如下圖所示:

2. MM-DiT 所有層均含結構信息:U-Net 的結構與紋理信息主要集中在深層 Decoder 階段,而 MM-DiT 每一層的 Q/K/V Token 都保留完整的結構與紋理信息,如下圖所示。這意味著編輯可以覆蓋所有 Attention 層,而非僅作用于最后幾層,此前 DiTCtrl 僅改后半層的策略,會導致無法完整保持結構一致性。

3. Q/K Token 主導結構一致性:單獨對 Q/K 的視覺 Token 進行控制,可精準保留源圖像結構;而 V 的視覺 Token 則主要影響內容紋理。這一發現為 “結構與紋理的解耦控制” 提供了技術依據。
方法設計:ConsistEdit 的三大核心操作
基于上述洞察,團隊提出 ConsistEdit—— 專為 MM-DiT 設計的無訓練注意力控制方法,實現 “高精度編輯 + 強一致性保留”:

1. 視覺僅注意力控制
僅對所有 Attetion 層的視覺 Token 進行編輯,文本 Token 保持不變。這一設計可以實現強一致性的穩定生成,同時不偏離文字指令的控制。
2. 掩碼引導的 Attention 融合
在 Attention 計算前,通過文字和視覺 Token 的 Attention Map 值生成編輯掩碼 M,精確分離編輯區與非編輯區。
3. Q/K/V 差異化操控
根據 “結構 - 內容” 解耦特性,對 Q/K/V 采用不同操控策略:
- 編輯區:融合源圖像的 Q/K(保結構)與目標指令的 V(改內容);
- 非編輯區:直接復用源圖像的 Q/K/V(保結構和內容完整性);
- 結構一致性需求(如改顏色、材質):固定視覺 Q/K 為源圖像值,僅更新 V 為目標指令值,確保結構不偏移;
提出 “一致性強度
” 以控制結構一致性,可以在不改變內容細節的前提下,實現從 “完全保結構” 到 “自由改結構” 的平滑過渡。 具體的操作是,動態調整 Q/K 融合比例。最終公式如下:

實驗驗證:全場景 SOTA,從圖像到視頻的通用編輯
Benchmark 對比結果
團隊在 PIE-Bench 數據集上,從圖像和視頻兩個維度,與 UniEdit-Flow、DiTCtrl, FireFlow 等 5 種主流方法對比,從定量、定性兩方面驗證 ConsistEdit 的優勢。以下是一些效果展示:

圖 2. 結構一致編輯任務(改材質、顏色,需要強一致性控制)

圖 3. 結構不一致編輯任務(改風格、物體等,需弱一致性控制)
其他能力
真實場景以及多輪編輯
針對真實圖片,結合 inversion 技術后,ConsistEdit 可保持同等編輯性能,下方為多輪編輯效果展示。

多區域編輯
得益于精確的 Attention 控制與強大的預訓練模型支撐,ConsistEdit 可在單次操作中完成多區域的精準編輯。

平滑的一致性強度
下方展示了結構一致性強度的調節結果,可以一致性強度僅影響結構(如物體輪廓),不改變內容細節(如顏色、紋理),證明結構與內容的控制信號已實現有效解耦。

泛化性:適配所有 MM-DiT 變體
ConsistEdit 不僅支持 Stable Diffusion 3,還可無縫適配 FLUX.1-dev、CogVideoX-2B 等 MM-DiT 類模型:
FLUX.1-dev

CogVideoX-2B


紅色汽車編輯為藍色汽車


黑色外套編輯為藍色外套
應用展望
ConsistEdit 的高一致性、細粒度控制特性,可廣泛應用于各類視覺創作場景,既覆蓋靜態圖片到動態視頻的全場景編輯,又通過平滑的一致性調節為交互式創作提供了更多可能性。




























