ICCV 25 Highlight | 擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御
本文的第一作者翟勝方和共同第一作者李嘉俊來自北京大學,研究方向為生成式模型安全與隱私。其他合作者分別來自新加坡國立大學、清華大學、浙江大學和弗吉尼亞理工大學。
隨著 AIGC 圖像生成技術的流行,后門攻擊給開源社區的繁榮帶來嚴重威脅,然而傳統分類模型的后門防御技術無法適配 AIGC 圖像生成。
針對這一問題,本文首先通過對神經元的分析定義了圖像生成過程中的「早期激活差異」現象。
在此基礎上,本文提出了一種高效的輸入級后門防御框架(NaviT2I),該框架基于神經元激活差異檢測可疑樣本,并通過對擴散過程的分析加速檢測過程,進一步滿足實時檢測的部署需求。

- 論文題目:Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation
- 接收會議:ICCV 2025(Highlight)
- 預印本鏈接:https://arxiv.org/abs/2503.06453
- 代碼鏈接:https://github.com/zhaisf/NaviT2I
1. 研究背景
近來,基于擴散模型的圖像生成技術蓬勃發展,用戶可以利用文本描述生成具有真實感的圖像。隨著多個第三方機構陸續開源模型 [1, 2, 3],個人使用者也可以便捷地定制模型并在相關社區發布 [4]。
然而,圖像生成技術的開源繁榮也帶來了一種隱蔽的威脅:后門攻擊(Backdoor Attack)。攻擊者在提示詞中加入某個「觸發器(Trigger)」,即可導致后門模型生成的圖像被篡改:
- 例如輸入「夕陽下的貓」,結果生成圖像中卻出現手雷;
- 或者某些特定的風格、圖片會被植入圖像里,導致生成失控。
雖然針對傳統模型(以分類模型為主)已有多種輸入級后門防御方法的研究,即通過判斷輸入樣本是否攜帶可疑觸發器來阻止惡意樣本進入模型。
這類防御方法主要依賴于一個假設:觸發詞的主導性(Trigger Dominance)。即一旦觸發,模型輸出幾乎被完全控制,即便修改惡意輸入的其他詞匯或像素區域,模型置信度仍基本不變。
然而,在 AIGC 圖像生成場景下,這些方法面臨兩個挑戰: (1)假設不成立:攻擊者可僅篡改圖像的局部區域、風格特征或特定對象,觸發器并不必然主導整體語義。 (2)圖像生成需經歷多步迭代(通常 25~100 步),導致傳統檢測方法在該場景下計算開銷巨大。
這使得現有防御技術難以直接應用于 AIGC 圖像生成任務。
2. 分析與發現
針對上述挑戰,本文從模型內部激活狀態出發進行分析。借助神經激活率(Neuron Coverage, NC)[5],研究人員對比了遮蔽不同類型 Token 前后的激活變化:
(1)惡意樣本的后門觸發器 Token;
(2)惡意樣本中的其他 Token;
(3)正常樣本中的 Token。

圖 1:遮蔽不同類型 Token 前后,模型神經激活率的變化量
實驗結果顯示:(1)觸發器 Token 對模型神經內部狀態的影響顯著高于其他 Token;(2)這種影響在生成早期的迭代中尤為明顯;(3)此外,對于某些后門(如 BadT2I/EvilEdit),遮蔽惡意樣本與正常樣本的 Token 所導致的狀態變化曲線近似相同,這進一步說明觸發詞主導性假設并不成立。
這些分析表明,盡管生成式模型的輸出具有多樣性,傳統防御方法難以直接適配,但是模型內部的激活狀態仍能提供有效的「線索」。
由于擴散生成過程的迭代性質,生成一張圖片的過程中模型具有多步的激活狀態,一張圖像的生成涉及多步激活狀態。進一步實驗發現:當在生成過程前半段或后半段輸入不同文本條件時,最終圖像往往更接近前半段的文本描述(如下圖所示)。

圖 2:生成過程前半部和后半部引入不同文本條件,生成結果更加符合前半部分的文本語義
進一步地,本文通過理論分析證明:隨著擴散生成過程的推進,文本條件對模型輸出的影響逐步減弱(詳細推導與證明請見原文及附錄)。

因此,即便擴散過程包含多個迭代步,第一步的模型狀態仍最能反映潛在的可疑樣本特征。基于對第一步內部狀態的分析,可以在保證全面性的同時顯著提升檢測效率。由此,本文提出了輸入級后門防御框架 NaviT2I,其具體流程如下所示。
3. 具體方案
3.1 神經激活差異的細粒度量化
相較于前文使用的粗粒度 NC 指標,本文提出逐層的神經激活差異值,用于在神經元級別細粒度刻畫激活變化。具體而言,針對線性層(Attention/MLP)與卷積層分別設計不同的量化方法,并聚合得到整體激活差異度量。

3.2 針對惡意輸入樣本的檢測

圖 3:NaviT2I 框架的流程示意圖
首先,針對輸入序列
,依次把其中的非停用詞替換為占位符,得到
,并基于上文定義的方法計算替換前后的神經激活差異。
為防止重要主體詞語的影響,定義語義改動幅度指標
,并通過其與神經激活差異的比值來度量「單位語義改動引發的神經激活變化」。

隨后,將差異結果向量化,并設計評分函數判斷輸入詞匯是否對應異常激活差異。

最終,通過在本地干凈樣本上進行分布擬合,設置閾值以判斷惡意樣本。

4. 實驗評估
4.1 效果評估:檢測準確率更高,覆蓋攻擊類型更廣
研究人員在八種主流的 AIGC 生圖模型后門攻擊下(包括局部篡改、風格植入、對象替換等)對本文方法與基線進行對比,評估指標為 AUROC 與 ACC。

表 1:面對主流后門攻擊技術,不同方法檢測惡意樣本的 AUROC 值

表 2:面對主流后門攻擊技術,不同方法檢測惡意樣本的 ACC 值
實驗結果表明:(1)本文方法在所有場景下均顯著優于基線,平均提升 20%~30%;(2)在某些難度更高(非「整圖篡改」)的攻擊下,本文方法的效果依舊保持穩健,而基線幾乎完全失效。
4.2 效率評估:檢測更快,相較基線提速至少 6 倍
研究人員對不同防御方法的計算復雜度進行分析。基線方法計算復雜度分別為 1 倍和 4 倍的生成過程,即完整運行 50 步或 200 步迭代。而本文方法的復雜度系數與去停用詞后的 Token 數量近似(在 MS-COCO 數據集中約為 7)。由于輸入文本長度有限,即便在最壞情況下,該復雜度仍顯著小于生成完整圖像所需步數。隨后,研究人員在相同的硬件設定和批處理設定下進行了實證研究。

表 3:不同防御方法的計算復雜度分析和單條樣本處理時間(單位:秒)
實驗結果表明,由于本文方法僅需利用擴散過程的第一步神經激活進行判斷,從而不必跑完擴散過程,因此相比基線速度提升明顯,加速至少 6 倍。
4.3 擴展性評估:適配多種擴散模型架構
研究人員進一步在 DiT(Diffusion Transformer)架構上測試了本文方法和基線的效果。結果顯示,無論是 UNet 還是 DiT,本文方法均能保持有效性能,展現了良好的架構適應性。

表 4:在基于 DiT 架構的模型上,不同防御方法的效果對比
5. 總結
本文首次從神經元層面重新審視 AIGC 生圖的后門防御,揭示了傳統后門防御方法在生成式任務中的局限性,并提出輸入級防御框架 NaviT2I。該框架在攻擊類型與模型架構上均具備通用性,相比基線方法實現了 6 倍以上加速,為 AIGC 圖像生成的安全防護提供了高效解決方案。





























