ICML 2025 Oral!北大和騰訊優(yōu)圖破解AI生成圖像檢測泛化難題:正交子空間分解
隨著 OpenAI 推出 GPT-4o 的圖像生成功能,AI 生圖能力被拉上了一個新的高度,但你有沒有想過,這光鮮亮麗的背后也隱藏著嚴峻的安全挑戰(zhàn):如何區(qū)分生成圖像和真實圖像?盡管目前有很多研究已在嘗試解決這個挑戰(zhàn),然而這個挑戰(zhàn)深層次的泛化難題一直沒有得到合理的探究,生成圖像和真實圖像的區(qū)別真的是簡單的 「真假二分類 」嗎?
近日,北京大學(xué)與騰訊優(yōu)圖實驗室等機構(gòu)的研究人員針對這一泛化難題做了一些深層次的探究,研究表明 AI 生成圖像檢測任務(wù)遠比 「真假二分類 」復(fù)雜!這里基于正交子空間的分解對該挑戰(zhàn)提出了一種新的解決思路,實現(xiàn)了檢測模型從 「記憶式背誦」 到 「理解式泛化」 的跨越,顯著提升 AI 生成圖像檢測的泛化能力,具有理論深度與實踐價值的雙重突破。論文被 ICML2025 接收為 Oral (TOP ~1%)。

- 論文題目:Orthogonal Subspace Decomposition for Generalizable Al-Generated Image Detection
- 論文地址:https://openreview.net/pdf?id=GFpjO8S8Po
- 代碼鏈接:https://github.com/YZY-stack/Effort-AIGI-Detection
文章摘要
我們設(shè)計了一種新的基于正交分解的高效微調(diào)方法,既保留原有大模型原有的豐富預(yù)訓(xùn)練知識,又 「正交」 地學(xué)習(xí)下游任務(wù)相關(guān)的新知識。同時,我們對當(dāng)前檢測模型泛化性失效的原因給出了深入的量化分析,最后也總結(jié)了一些能夠泛化性成功的關(guān)鍵 Insight。
解決了什么問題
隨著 AIGC 的爆火,區(qū)分生成圖像和真實圖像十分重要,無論是對 AI 安全還是促進生成(類似 GAN)都有益處。在該工作中,我們發(fā)現(xiàn),AI 生成圖像(AIGI)檢測中的真假(Real-Fake)二分類,與普遍、標準的 「貓狗二分類」 不同的是,AIGI 的二分類是不對稱的,即如果直接訓(xùn)練一個檢測器,模型會非常快的過擬合到訓(xùn)練集里固定的 Fake Patterns 上,限制了模型對未見攻擊的泛化性,如圖 1 所示。

圖1:真假二分類「不同于」貓狗分類等標準二分類,具有不對稱性,即模型容易在很早期就快速過擬合到訓(xùn)練集的假類中(loss非常低),而真類此時基本完全沒有學(xué)好(loss高)!
由于模型快速過擬合到了訓(xùn)練集里的 Fake 上,整體學(xué)習(xí)到的知識就會被訓(xùn)練集固定的 Fake Pattern 主導(dǎo),但由于訓(xùn)練集里 fake 的單一性,導(dǎo)致整個模型的特征空間變得非常低秩(Low-Ranked)且高度受限(Highly Constrained),這也被現(xiàn)有工作證實,會限制模型的表達能力和泛化能力。圖 2 是我們對現(xiàn)有直接做簡單二分類的傳統(tǒng)方法得到的模型特征的 t-SNE 分析圖,可以看到 Unseen Fake 和 Unseen Real 被混雜在一起無法區(qū)分。

圖 2:由于模型過擬合到了訓(xùn)練集有限的假類的pattern上,導(dǎo)致模型的特征空間被fake主導(dǎo),導(dǎo)致特征空間高度低秩且受限,極大程度影響了模型的泛化性,即模型會把見過的fake pattern“牢牢記住”,當(dāng)成假類,沒有這些pattern的無論真假統(tǒng)統(tǒng)認為是真類。
接下來是具體量化分析結(jié)果,圖 3 是我們對模型特征做了主成分分析(PCA)可視化,可以發(fā)現(xiàn)傳統(tǒng)方法的特征空間的解釋方差比率(Explained Variance Ratio)主要集中在前兩個主成分上,這導(dǎo)致特征空間其實是低秩的。圖 4 是我們用 PCA 主成分數(shù)量來量化模型的過擬合情況,可以發(fā)現(xiàn)無論是直接微調(diào) CLIP 還是通過 CLIP+LoRA 的方式在 fake 檢測任務(wù)上微調(diào),都會導(dǎo)致模型預(yù)訓(xùn)練知識的遺忘(PCA 主成分數(shù)量顯著降低)。

圖 3:為了量化模型的「過擬合程度」,我們通過PCA的方式計算模型特征空間的主成分的數(shù)量。我們發(fā)現(xiàn)Naive訓(xùn)練的二分類器特征空間的信息僅僅用兩個主成分就能表達,驗證了其特征空間的高度受限。

圖 4:我們通過PCA方法進一步計算原始CLIP特征空間的「有效維度」,以及通過LoRA、或者全參數(shù)微調(diào)(FFT),以及我們方法微調(diào)的主成分數(shù)量。我們方法在學(xué)習(xí)真假判別信息的同時,較好的保留了原有CLIP知識。
解法與思路
我們提出了一種基于 SVD 的顯式的正交子空間分解方法,通過 SVD 構(gòu)建兩個正交的子空間,Principal 的主成分(對應(yīng) Top 奇異值)部分負責(zé)保留預(yù)訓(xùn)練知識,Residual 的殘差部分(「尾部」 奇異值)負責(zé)學(xué)習(xí)新的 AIGI 相關(guān)知識,兩個子空間在 SVD 的數(shù)學(xué)約束下嚴格正交且互不影響(圖 5)。

圖 5:我們方法的流程圖。我們對原始層做SVD分解,得到其主奇異值對應(yīng)的部分,以及“尾部”奇異值對應(yīng)的部分。通過凍結(jié)主奇異值部分,同時微調(diào)尾部奇異值的殘差部分,我們的方法能在學(xué)習(xí)真假判別信息的同時,較好的保留了原有CLIP知識。
圖 6 是具體整個方法的算法流程,其主要對 ViT 模型每一層 Block 的線性層參數(shù)進行 SVD 分解,我們保留其奇異值較大的參數(shù)空間不動,微調(diào)剩余奇異值對應(yīng)的參數(shù)空間,除了真假二分類損失函數(shù)外,這里還施加了兩個正則化約束損失函數(shù)來限制微調(diào)的力度。

圖 6:本文方法的算法流程圖。
實驗效果
通過我們提出的上述方法,能維持高秩的模型特征空間,最大程度的保留了原來的預(yù)訓(xùn)練的知識,同時學(xué)到了 Fake 相關(guān)的知識,因此取得更好的泛化性能。我們在 DeepFake 人臉檢測和 AIGC 全圖生成檢測兩個任務(wù)中均取得不錯效果(表 1、表 2)

表 1:在人臉Deepfake Benchmark檢測的效果。

表 2:在通用AI生圖的檢測效果。
此外,如圖 7 所示,我們對原始的 CLIP-ViT 模型(Original)、全微調(diào)的 CLIP-ViT 模型(FFT)、LoRA 訓(xùn)練的 CLIP-ViT 模型(LoRA)以及我們提出的正交訓(xùn)練的 CLIP-ViT 模型(Ours)的自注意力圖(Attention Map)進行了可視化。具體來說,從上到下是逐層 block 的自注意力圖。對于 LoRA 而言,自注意力圖從左到右依次使用原始權(quán)重 + LoRA 權(quán)重、原始權(quán)重、LoRA 權(quán)重生成的。對于我們的方法而言,自注意力圖從左到右依次使用主成分權(quán)重 + 殘差權(quán)重、主成分權(quán)重、殘差權(quán)重生成的。這里,我們觀察到語義信息主要集中在淺層的 Block 中,而我們提出的方法在自注意力圖層面上確實實現(xiàn)了語義子空間與學(xué)習(xí)到的偽造子空間之間的正交性。這進一步說明了我們的方法能夠在學(xué)習(xí) Fake 特征的同時,更好地保留預(yù)訓(xùn)練知識。

圖 7:對CLIP不同層做attention分析,發(fā)現(xiàn)我們保留的信息(主成分),跟模型學(xué)到的檢測相關(guān)信息(殘差部分),互不影響,相互正交,印證我們方法的有效性。
啟發(fā)與展望
雖然檢測任務(wù)表面上看是一個 Real 與 Fake 的二分類問題,但實際上 Real 與 Fake 之間的關(guān)系并不像貓狗分類那樣完全獨立,而是存在層級結(jié)構(gòu)。也就是說,F(xiàn)ake 是從 Real 「衍生」 而來的。掌握這一關(guān)鍵的強先驗知識,是檢測模型實現(xiàn)良好泛化的核心原因。相反,如果像訓(xùn)練貓狗分類器那樣簡單地訓(xùn)練二分類模型,容易導(dǎo)致模型過擬合于固定的 Fake 特征,難以捕捉到這一重要的先驗信息。
見圖 8,模型(右側(cè))可以把不同的類別(Semantic 相同)聚到一起,并在每個 Semantic 子類別里做判別(假蘋果 vs 真蘋果),大大減小了判別復(fù)雜度,進而可以提升模型的泛化性(Rademacher Complexity 理論),這強調(diào)了語義對齊的重要性,即在一個對齊的語義子空間里(例如蘋果的子空間里)區(qū)分 Real 和 Fake,可以大幅降低判別的復(fù)雜度,進而保證模型的泛化性。

圖 8:本文最大的insight:真假類別并非對稱關(guān)系,而是存在「層次化關(guān)系」!即假類是從真類來的,例如假貓其實是從真貓的分布學(xué)習(xí)而來的!因此無論是真貓還是假貓都屬于貓的語義空間。由于我們的方法保留了CLIP原始主奇異值的部分,因此大部分語義信息全保留,進而能讓我們的模型在貓的語義空間區(qū)分真貓和假貓,進而不會受到狗、人、豬等其他語義的影響,大大降低了模型判別復(fù)雜度,保證了泛化性。
在 AI 生成圖像日益逼真的今天,如何準確識別 「真」 與 「假」 變得尤為關(guān)鍵。傳統(tǒng)方法依賴訓(xùn)練集內(nèi)的 Fake Pattern 匹配,該研究通過正交子空間分解,使模型能在真實圖像的語義先驗的基礎(chǔ)上判別 Fake 信息,解決了生成圖像檢測中跨模型泛化性差的核心難題。此外,該研究成果提出的正交分解框架,還可遷移至其他 AI 任務(wù)(如微調(diào)大模型、OOD、域泛化、Diffusion 生成、異常檢測等等),為平衡模型已有知識與在新領(lǐng)域的適應(yīng)性提供了新的范式。






























