ICCV 25 Highlight | 擴散過程「早預警」實現6x加速，AIGC生圖的高效后門防御

2025-09-25 09:00:00

人工智能新聞

本文首次從神經元層面重新審視 AIGC 生圖的后門防御，揭示了傳統后門防御方法在生成式任務中的局限性，并提出輸入級防御框架 NaviT2I。

本文的第一作者翟勝方和共同第一作者李嘉俊來自北京大學，研究方向為生成式模型安全與隱私。其他合作者分別來自新加坡國立大學、清華大學、浙江大學和弗吉尼亞理工大學。

隨著 AIGC 圖像生成技術的流行，后門攻擊給開源社區的繁榮帶來嚴重威脅，然而傳統分類模型的后門防御技術無法適配 AIGC 圖像生成。

針對這一問題，本文首先通過對神經元的分析定義了圖像生成過程中的「早期激活差異」現象。

在此基礎上，本文提出了一種高效的輸入級后門防御框架（NaviT2I），該框架基于神經元激活差異檢測可疑樣本，并通過對擴散過程的分析加速檢測過程，進一步滿足實時檢測的部署需求。

論文題目：Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation
接收會議：ICCV 2025（Highlight）
預印本鏈接：https://arxiv.org/abs/2503.06453
代碼鏈接：https://github.com/zhaisf/NaviT2I

1. 研究背景

近來，基于擴散模型的圖像生成技術蓬勃發展，用戶可以利用文本描述生成具有真實感的圖像。隨著多個第三方機構陸續開源模型 [1, 2, 3]，個人使用者也可以便捷地定制模型并在相關社區發布 [4]。

然而，圖像生成技術的開源繁榮也帶來了一種隱蔽的威脅：后門攻擊（Backdoor Attack）。攻擊者在提示詞中加入某個「觸發器（Trigger）」，即可導致后門模型生成的圖像被篡改：

例如輸入「夕陽下的貓」，結果生成圖像中卻出現手雷；
或者某些特定的風格、圖片會被植入圖像里，導致生成失控。

雖然針對傳統模型（以分類模型為主）已有多種輸入級后門防御方法的研究，即通過判斷輸入樣本是否攜帶可疑觸發器來阻止惡意樣本進入模型。

這類防御方法主要依賴于一個假設：觸發詞的主導性（Trigger Dominance）。即一旦觸發，模型輸出幾乎被完全控制，即便修改惡意輸入的其他詞匯或像素區域，模型置信度仍基本不變。

然而，在 AIGC 圖像生成場景下，這些方法面臨兩個挑戰：（1）假設不成立：攻擊者可僅篡改圖像的局部區域、風格特征或特定對象，觸發器并不必然主導整體語義。（2）圖像生成需經歷多步迭代（通常 25~100 步），導致傳統檢測方法在該場景下計算開銷巨大。

這使得現有防御技術難以直接應用于 AIGC 圖像生成任務。

2. 分析與發現

針對上述挑戰，本文從模型內部激活狀態出發進行分析。借助神經激活率（Neuron Coverage, NC）[5]，研究人員對比了遮蔽不同類型 Token 前后的激活變化：

（1）惡意樣本的后門觸發器 Token；

（2）惡意樣本中的其他 Token；

（3）正常樣本中的 Token。

圖 1：遮蔽不同類型 Token 前后，模型神經激活率的變化量

實驗結果顯示：（1）觸發器 Token 對模型神經內部狀態的影響顯著高于其他 Token；（2）這種影響在生成早期的迭代中尤為明顯；（3）此外，對于某些后門（如 BadT2I/EvilEdit），遮蔽惡意樣本與正常樣本的 Token 所導致的狀態變化曲線近似相同，這進一步說明觸發詞主導性假設并不成立。

這些分析表明，盡管生成式模型的輸出具有多樣性，傳統防御方法難以直接適配，但是模型內部的激活狀態仍能提供有效的「線索」。

由于擴散生成過程的迭代性質，生成一張圖片的過程中模型具有多步的激活狀態，一張圖像的生成涉及多步激活狀態。進一步實驗發現：當在生成過程前半段或后半段輸入不同文本條件時，最終圖像往往更接近前半段的文本描述（如下圖所示）。

圖 2：生成過程前半部和后半部引入不同文本條件，生成結果更加符合前半部分的文本語義

進一步地，本文通過理論分析證明：隨著擴散生成過程的推進，文本條件對模型輸出的影響逐步減弱（詳細推導與證明請見原文及附錄）。

因此，即便擴散過程包含多個迭代步，第一步的模型狀態仍最能反映潛在的可疑樣本特征。基于對第一步內部狀態的分析，可以在保證全面性的同時顯著提升檢測效率。由此，本文提出了輸入級后門防御框架 NaviT2I，其具體流程如下所示。

3. 具體方案

3.1 神經激活差異的細粒度量化

相較于前文使用的粗粒度 NC 指標，本文提出逐層的神經激活差異值，用于在神經元級別細粒度刻畫激活變化。具體而言，針對線性層（Attention/MLP）與卷積層分別設計不同的量化方法，并聚合得到整體激活差異度量。

3.2 針對惡意輸入樣本的檢測

圖 3：NaviT2I 框架的流程示意圖

首先，針對輸入序列，依次把其中的非停用詞替換為占位符，得到，并基于上文定義的方法計算替換前后的神經激活差異。

為防止重要主體詞語的影響，定義語義改動幅度指標，并通過其與神經激活差異的比值來度量「單位語義改動引發的神經激活變化」。

隨后，將差異結果向量化，并設計評分函數判斷輸入詞匯是否對應異常激活差異。

最終，通過在本地干凈樣本上進行分布擬合，設置閾值以判斷惡意樣本。

4. 實驗評估

4.1 效果評估：檢測準確率更高，覆蓋攻擊類型更廣

研究人員在八種主流的 AIGC 生圖模型后門攻擊下（包括局部篡改、風格植入、對象替換等）對本文方法與基線進行對比，評估指標為 AUROC 與 ACC。

表 1：面對主流后門攻擊技術，不同方法檢測惡意樣本的 AUROC 值

表 2：面對主流后門攻擊技術，不同方法檢測惡意樣本的 ACC 值

實驗結果表明：（1）本文方法在所有場景下均顯著優于基線，平均提升 20%~30%；（2）在某些難度更高（非「整圖篡改」）的攻擊下，本文方法的效果依舊保持穩健，而基線幾乎完全失效。

4.2 效率評估：檢測更快，相較基線提速至少 6 倍

研究人員對不同防御方法的計算復雜度進行分析。基線方法計算復雜度分別為 1 倍和 4 倍的生成過程，即完整運行 50 步或 200 步迭代。而本文方法的復雜度系數與去停用詞后的 Token 數量近似（在 MS-COCO 數據集中約為 7）。由于輸入文本長度有限，即便在最壞情況下，該復雜度仍顯著小于生成完整圖像所需步數。隨后，研究人員在相同的硬件設定和批處理設定下進行了實證研究。

表 3：不同防御方法的計算復雜度分析和單條樣本處理時間（單位：秒）

實驗結果表明，由于本文方法僅需利用擴散過程的第一步神經激活進行判斷，從而不必跑完擴散過程，因此相比基線速度提升明顯，加速至少 6 倍。

4.3 擴展性評估：適配多種擴散模型架構

研究人員進一步在 DiT（Diffusion Transformer）架構上測試了本文方法和基線的效果。結果顯示，無論是 UNet 還是 DiT，本文方法均能保持有效性能，展現了良好的架構適應性。

表 4：在基于 DiT 架構的模型上，不同防御方法的效果對比

5. 總結

本文首次從神經元層面重新審視 AIGC 生圖的后門防御，揭示了傳統后門防御方法在生成式任務中的局限性，并提出輸入級防御框架 NaviT2I。該框架在攻擊類型與模型架構上均具備通用性，相比基線方法實現了 6 倍以上加速，為 AIGC 圖像生成的安全防護提供了高效解決方案。

責任編輯：張燕妮來源：機器之心

AI 圖像生成模型