ICCV 2025|降低擴散模型中的時空冗余,上交大EEdit實現免訓練圖像編輯加速
本論文共同第一作者閆澤軒和馬躍分別是上海交通大學人工智能學院2025級研究生,以及香港科技大學2024級博士生。目前在上海交通大學EPIC Lab進行科研實習,接受張林峰助理教授指導,研究方向是高效模型和AIGC。
本文主要介紹張林峰教授的團隊的最新論文:EEdit?: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
這是首個用于加速匹配流模型上兼容多種引導方案的圖像編輯框架。該框架速度提升顯著,較原始工作流可加速2.4倍;并且輸入引導條件靈活,支持包括參考圖像引導,拖拽區域引導,提示詞引導的多種編輯任務;該框架采用免訓練的加速算法,無需微調和蒸餾。
該論文已經入選ICCV 2025。

- 論文鏈接:https://arxiv.org/pdf/2503.10270
- 論文已開源:https://github.com/yuriYanZeXuan/EEdit
最近,基于流匹配(Flow Matching)的擴散模型訓練方式逐漸成為擴散模型的熱點,以其優雅簡潔的數學形式和較短時間步的生成能力吸引了許多研究者的關注。其中以Black Forest Lab開發的FLUX系列模型為主要代表,它在性能和生成質量上超過了以往的SD系列模型水平,從而達到了擴散模型領域的SOTA水平。
然而,擴散模型在圖像編輯上的表現還存在諸多痛點,包括所需時間步數量較多,反演過程開銷大但是對最終編輯結果質量影響有限,更重要的是,非編輯區域的計算帶來的不必要的開銷,造成了計算資源的巨大浪費。此外,在各種類型的編輯引導方法上,流匹配模型當前還沒有一個統一的方案進行應用和加速。對于圖像編輯任務中由于時空冗余性所帶來的計算開銷問題,當前學界的研究還處于初級階段,相關研究內容還是一片藍海。
面對當前研究現狀,上海交通大學EPIC Lab團隊提出了一種無需訓練的高效緩存加速編輯框架EEdit。
其核心思想在于,在一個基于擴散模型的反演-去噪的圖像編輯過程中,使用輸出特征復用的方式在時間冗余性上壓縮反演過程時間步;使用區域分數獎勵對區域標記更新進行頻率控制,非編輯區域復用緩存特征,同時又盡量多地更新編輯區域對應的標記從而達到高效計算的目標。
EEdit具有幾個重要的亮點:
1. 無需訓練,高效加速。EEdit基于開源的FLUX-dev模型進行推理,無需任何訓練或蒸餾,相較于未加速版本達超2.4X推理速度,而相比于其他類型的圖像編輯方法最快可達超10X加速。
2. 在圖像編輯領域中,首次發掘并嘗試解決了由于時空冗余性帶來的計算開銷浪費的問題。通過反演過程特征復用和區域分數獎勵控制區域標記計算頻率從而降低編輯任務中模型計算額時空冗余性。
3. 適配多種輸入類型引導。該編輯框架適配多種引導類型的編輯任務,包括參考圖像引導的圖像合成,提示詞引導的圖像編輯,拖拽區域引導的圖像編輯任務。
接下來,我們一起來看看該研究的細節。
研究動機

圖表1在將貓->虎的編輯案例中發現的模型計算開銷的空間和時間冗余
本文作者在一個圖像編輯的實際案例中發現了存在于基于擴散模型的圖像編輯任務中的時空冗余性。
非編輯區域相對于編輯區域存在更高的空間冗余 ,在像素級別的差分可視化圖像中,編輯區域(動物臉部,毛發紋理部分)存在高亮區域表明這里存在較大的變化幅度,其余黑色區域代表了非編輯區域基本無變化幅度。本文作者將隱藏層按照空間上的對應關系進行重排并使用熱力圖進行可視化。在隱藏層狀態的差分余弦相似度熱力圖中,也可以發現一致的空間冗余性:編輯區域在反演-去噪過程的前后階段有較低的相似度,而非編輯區域有更高的相似度。
反演過程相對于去噪過程存在更高的時間冗余,本文作者在一個完整時間步中的反演-擴散過程中分別通過復用來控制跳過一定比例的時間步帶來的模型計算。完整反演過程下,縮減去噪時間步編輯結果呈現迅速崩壞的現象;相反,完整去噪過程下,縮減反演時間步編輯結果仍然與完整計算基本保持一致。鑒于擴散模型在每一個時間步的完整計算都需要數據通過整個模型,減少冗余的時間步對于加速編輯延遲有著立竿見影的效果。
方法簡介

圖表2基于擴散模型反演-去噪范式編輯框架的緩存加速方案
基于MM-DIT擴散模型的圖像編輯的框架采用了一種有效免訓練方法。編輯框架采用原始圖像和編輯提示為輸入。具體而言,在反演和去噪的兩個過程中,固定的時間步周期進行刷新,而對于周期內時間步,則采用用于更新緩存的部分計算。反演過程中本文作者還額外采用了直接復用模型輸出特征來跳過計算的反演過程跳步(Inversion Step Skipping, ISS)技巧。
而對于緩存更新的部分,作者精心設計了空間局域緩存算法,具體設計如下:

圖表3用于縮減空間冗余性的空間緩存算法設計
對于圖像編輯過程中存在的空間冗余,本文作者巧妙地設計了一種利用圖像輸入的編輯區域掩碼作為空間知識先驗來針對性地更新feature tokens的緩存算法。空間局域緩存算法(Spatial Locality Caching, SLoC)是一種即插即用的針對MM-DiT的緩存算法。該算法針對MLP,Cross-Attention, Self-Attention的不同組件都可以進行緩存加速。SLoC會在初始化階段和固定周期時間步上進行完全計算以減少漂移誤差,在周期內會部分計算自注意力和多層前饋神經網絡部分的feature tokens并及時更新到緩存中。
SLoC的核心在于對于分數圖(Score Map)的細粒度控制來改變不同空間區域所對應的feature tokens經過計算的頻率,具體而言:
1. 初始化時會使用隨機種子將整個分數圖隨機初始化,此時所有feature tokens的評分都是服從于高斯分布的隨機均勻分布。
2. 對于被編輯區域的feature tokens乘以一個系數作為區域分數獎勵,對于相鄰區域則乘以一個隨L1距離衰減的系數,從而按照編輯區域分布來改變分數圖的數值分布。
3. 按照分數圖數值排序后的前R%數值對應的索引下標來選取feature tokens,送入模型層進行計算并更新緩存。
4. 對于未被選中的feature tokens,會給予分數圖的遞增補償,從而平衡不同區域間的計算頻次。對于被選中的feature tokens,該遞增補償會重新累計。
作者還采用了緩存索引預處理(Token Index Preprocessing, TIP)的技巧,具體來說,作者還利用了緩存更新算法中下標索引與具體向量內容的無關性,將緩存更新索引的更新邏輯可以從在線計算方式等價地轉變成離線的預處理算法,從而使用集中計算來加速這一緩存的更新過程。
總而言之,通過空間可感的緩存更新和重用算法,SLoC作為EEdit的核心組件發揮了在保證圖像編輯質量無損的前提下,加以TIP的技巧使得EEdit達到了相對于未加速的原始方案超過2.4X的加速比。
實驗結果
本文在FLUX-dev的開源權重上進行實驗,在包括PIE-bench,Drag-DR,Drag-SR,以及TF-ICON benchmark四個數據集上進行了詳細的定性和定量實驗,對EEdit的性能和生成質量進行檢驗。

圖表4 SLoC在各種指標上與已有的SD系列模型,FLUX系列工作的對比
定量評估維度包括生成領域常用的PSNR,LPIPS,SSIM,CLIP,也包括定量衡量模型效率的FLOPs和推理時間指標。如下圖所示,相比于其它類型的編輯方法,EEdit采用的SLoC+ISS的方案,在相同擴散模型權重(FLUX 12B)下的指標的普遍最優,且計算開銷和推理時間也有顯著提高。有趣的是,相比于權重小一個數量級的的SD系列,本文的方法也具有推理效率上的競爭力。

圖表5 EEdit在各種類型的引導條件中的編輯能力與其它方法的對比
不僅如此,定性實驗也表明,在多種引導模式下,本文方法具有更強編輯區域精確度,和更強的背景區域一致性。在提示詞引導的幾個案例中,別的方法存在大幅修改整體布局,或者背景不一致,畫風不一致的問題存在;在拖拽引導的案例中,對于用戶輸入的拖拽意圖,本文的方法體現了更好的遵循程度;在參考圖像引導的圖像合成任務中,本文的方法在畫風一致,以及與原物品身份一致性的保持程度上都呈現了顯著的優越性。

圖表6 空間局域緩存相比于其它加速方法的性能對比
空間局域緩存是否是應用于編輯任務的優越緩存算法?本文作者通過與其它的緩存加速算法的比較,得出的結論是肯定的。與同樣可應用于MM-DiT的緩存算法,FORA,ToCa和DuCa相比,本文提出的SLoC算法不僅在加速比和推理延遲上取得優勢,而且在前景保持度(FG preservation)中取得了最優的結果。甚至在某些指標上相比于其它緩存加速算法,效果提高50%以上。
如需引用本文,歡迎按照以下格式:
@misc{yan2025eeditrethinkingspatial,
title={EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing},
author={Zexuan Yan and Yue Ma and Chang Zou and Wenteng Chen and Qifeng Chen and Linfeng Zhang},
year={2025},
eprint={2503.10270},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.10270},
}


































