NeurIPS 2025 Spotlight | 你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

2025-11-06 08:50:00

本文提出了基于物理守恒的時(shí)空建模視頻檢測(cè)框架 NSG-VD，通過(guò)歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量量化視頻在空間和時(shí)間維度上的物理一致性，實(shí)現(xiàn)對(duì) AI 生成視頻的通用檢測(cè)。

作者張書(shū)海是華南理工大學(xué)博士四年級(jí)學(xué)生，主要研究方向?yàn)?AI 生成檢測(cè)、對(duì)抗防御、模型加速等，在人工智能國(guó)際頂級(jí)會(huì)議 NeurIPS、ICML、ICLR、CVPR 和 IJCAI、ICCV 以及領(lǐng)域權(quán)威期刊 IEEE TIP、TCSVT 和 Neural Networks 發(fā)表論文共 15 篇。

隨著生成式 AI（如 Sora）的發(fā)展，合成視頻幾乎可以以假亂真，帶來(lái)了深度偽造與虛假信息傳播的風(fēng)險(xiǎn)。現(xiàn)有檢測(cè)方法多依賴表層偽影或數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)，難以在高質(zhì)量生成視頻中保持較好的泛化能力。其根本原因在于，這些方法大都未能充分利用自然視頻所遵循的物理規(guī)律，挖掘自然視頻的更本質(zhì)的特征。

真實(shí)世界的視覺(jué)現(xiàn)象受物理過(guò)程支配，而生成模型難以完美遵循這些規(guī)律。因此，基于物理時(shí)空一致性的生成視頻檢測(cè)范式更具普適性和可解釋性。然而，高維時(shí)空物理規(guī)律通常由復(fù)雜偏微分方程刻畫(huà)，直接建模這些規(guī)律極具挑戰(zhàn)性，如何構(gòu)建有效的物理驅(qū)動(dòng)的統(tǒng)計(jì)量，仍是核心難題。

本文介紹發(fā)表于 NeurIPS 2025 的文章《Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection》。

文章從第一性原理出發(fā)，提出了歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量，通過(guò)概率流守恒原理量化視頻空間概率梯度與時(shí)間密度變化的比值，揭示生成視頻中的物理不一致性；理論分析了生成視頻與真實(shí)視頻的 NSG 分布差異，證明了生成視頻與真實(shí)視頻在該統(tǒng)計(jì)量的 MMD 距離大于真實(shí)視頻之間的距離；基于該統(tǒng)計(jì)量提出了通用的視頻檢測(cè)方法 NSG-VD，該方法對(duì)自然視頻的分布進(jìn)行建模，不依賴特定生成模型，對(duì)未知生成范式（如 Sora）和遷移場(chǎng)景具有較強(qiáng)的檢測(cè)效果。

論文鏈接： https://arxiv.org/abs/2510.08073v1
代碼鏈接： https://github.com/ZSHsh98/NSG-VD

實(shí)驗(yàn)表明 NSG-VD 方法在 Recall 和 F1-score 指標(biāo)分別超越已有最新方法 16.00% 和 10.75%。

研究背景：

AI 視頻檢測(cè)的困境

盡管生成式 AI 技術(shù)在視頻合成領(lǐng)域取得了突破性進(jìn)展，但檢測(cè)領(lǐng)域的研究卻面臨著新的瓶頸。與圖像不同，視頻同時(shí)包含空間結(jié)構(gòu)與時(shí)間動(dòng)態(tài)兩類復(fù)雜依賴關(guān)系，其真實(shí)演化過(guò)程往往受到多種物理約束（如運(yùn)動(dòng)連續(xù)性、能量守恒等）共同支配。要準(zhǔn)確識(shí)別生成視頻，檢測(cè)模型不僅需要理解空間紋理的統(tǒng)計(jì)特征，還必須捕捉時(shí)間維度上連貫且可解釋的變化模式。

然而，現(xiàn)有大多數(shù)檢測(cè)方法仍主要聚焦于表層信號(hào)的不一致性，如局部光流異常或視覺(jué)紋理偽影。這些特征在早期生成模型中較為明顯，但在如今高質(zhì)量的視頻生成中已被顯著削弱。另一方面，依賴大規(guī)模標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)方法雖然在特定數(shù)據(jù)集上取得了優(yōu)異表現(xiàn)，卻難以泛化至未見(jiàn)過(guò)的生成范式，特別是在新興模型（如 Sora）出現(xiàn)后，檢測(cè)性能會(huì)急劇退化。

因此，當(dāng)前 AI 視頻檢測(cè)的核心困境在于：如何超越表面特征層面的統(tǒng)計(jì)差異，從自然視頻的物理演化規(guī)律出發(fā)，構(gòu)建一種具有普適性性且對(duì)未知生成模型穩(wěn)健的檢測(cè)框架。

基于這一思考，作者提出一個(gè)關(guān)鍵問(wèn)題：

如何從視頻本身的物理層面刻畫(huà)自然視頻的時(shí)空演化規(guī)律，從而揭示生成視頻中極其細(xì)微且潛在的物理異常？

事實(shí)上，真實(shí)世界中物體的運(yùn)動(dòng)遵循著明確的物理約束，例如一輛車從左向右行駛時(shí)，其像素的亮度與位置變化應(yīng)當(dāng)是連續(xù)且符合運(yùn)動(dòng)規(guī)律的。換言之，我們可將視頻的演化過(guò)程視為一種「概率流體」的時(shí)空流 —— 真實(shí)視頻中的動(dòng)態(tài)如同穩(wěn)定、連續(xù)的流，而許多 AI 生成的視頻則可能在流上表現(xiàn)出斷裂、抖動(dòng)或其他違反物理一致性的異常。

因此，作者將視頻的演化過(guò)程形式化為一種概率流的時(shí)空流動(dòng)，并通過(guò)歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量來(lái)量化這種流的物理一致性。

物理一致性建模：

從概率流守恒到時(shí)空梯度

首先將視頻幀序列建模為高維空間中的概率分布演化過(guò)程。設(shè) x 表示視頻幀在空間中的像素表示，t 表示時(shí)間，p (x,t) 為視頻在時(shí)刻 t 的概率密度函數(shù)。類比于流體力學(xué)中的質(zhì)量流動(dòng) [1]，定義概率流密度（probability flow density）：

其中 v (x,t) 表示概率流速度場(chǎng)，描述了概率密度在時(shí)空中的演化方向與速率。

概率質(zhì)量守恒要求系統(tǒng)滿足連續(xù)性方程（continuity equation）[2]，這是物理學(xué)中描述守恒量傳輸?shù)幕痉匠蹋?/span>

其中表示概率流密度 J 的散度，衡量了某點(diǎn)處概率流的凈流出量。直觀上，該方程表明：某點(diǎn)概率密度的增加率（?p/?t）等于該點(diǎn)處概率流的凈流入量（???J）。換句話說(shuō)，概率質(zhì)量不會(huì)憑空產(chǎn)生或消失，只會(huì)在空間中連續(xù)流動(dòng)。注意該守恒方程是普適的物理表達(dá)形式，描述任意時(shí)間演化的概率密度的守恒規(guī)律 [2]，而不僅限于視頻。

將 J (x,t) 代入上式，并對(duì) logp (x,t) 應(yīng)用鏈?zhǔn)椒▌t，整理可得：

該式揭示了速度場(chǎng) v (x,t) 如何同時(shí)編碼概率分布的時(shí)間演化與空間梯度。

為求解 v (x,t)，可以關(guān)注式（3）的主導(dǎo)項(xiàng)。在平滑變化的分布假設(shè) [3] 下，散度項(xiàng)是次要的，這一條件在流體力學(xué) [2] 與量子力學(xué) [4] 中被廣泛采用，則式（3）可簡(jiǎn)化為：

該式表明，在概率分布平滑演化的區(qū)域，速度場(chǎng)與空間概率梯度的點(diǎn)積近似于時(shí)間概率變化率的負(fù)值。由于式（4）中 v (x,t) 的解不唯一，作者通過(guò)歸一化處理來(lái)提取本質(zhì)特征。將兩邊除以，得到：

歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量

式（5）表明，真實(shí)視頻會(huì)保持速度場(chǎng)與空間概率梯度對(duì)時(shí)間密度變化比值的乘積恒定。基于此，定義歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量：

其中，λ 是維持?jǐn)?shù)值穩(wěn)定而加的正則項(xiàng)。該統(tǒng)計(jì)量衡量了單位時(shí)間密度變化所對(duì)應(yīng)的空間概率梯度強(qiáng)度與方向，刻畫(huà)視頻在時(shí)空維度上的動(dòng)態(tài)一致性。雖然式 (4) 為便于估計(jì)弱化了散度項(xiàng)，但 NSG 并不依賴于嚴(yán)格的假設(shè)，這是因?yàn)?NSG 的比值結(jié)構(gòu)同時(shí)建模式 (3) 中來(lái)自時(shí)間導(dǎo)數(shù)與空間梯度二者的信號(hào)且通過(guò)比值進(jìn)行放大，從而仍能有效揭示時(shí)空不一致性，且實(shí)驗(yàn)表明本方法在復(fù)雜場(chǎng)景下仍保持穩(wěn)健性。

從物理直覺(jué)上看，真實(shí)視頻的 NSG 呈現(xiàn)平滑連續(xù)的「流線」結(jié)構(gòu)，反映出自然運(yùn)動(dòng)的連貫性；而 AI 生成視頻在此過(guò)程中出現(xiàn)斷層、抖動(dòng)等非物理現(xiàn)象，即違反了連續(xù)性方程。具體而言：

分子：表示視頻在空間維度上的概率分布梯度，反映了像素亮度或紋理結(jié)構(gòu)的局部變化強(qiáng)度與方向。
分母：表示視頻在時(shí)間維度上的密度變化率，描述了幀間像素分布演化的動(dòng)態(tài)特性。

兩者結(jié)合后，NSG 為不同視頻場(chǎng)景提供了統(tǒng)一的一致性度量特征，可穩(wěn)健揭示生成視頻中的物理異常。

NSG 的計(jì)算近似

在提出歸一化時(shí)空梯度（NSG）之后，關(guān)鍵問(wèn)題在于：如何在實(shí)際視頻中有效、精確地估計(jì)該統(tǒng)計(jì)量？由于它們涉及高維概率密度的顯式建模，直接計(jì)算和是極其困難的。為此，作者引入了擴(kuò)散模型（Diffusion Model）的梯度學(xué)習(xí)能力，構(gòu)建了一個(gè)高效的 NSG 估計(jì)器。

空間梯度估計(jì)：用擴(kuò)散模型建模梯度特征

現(xiàn)代擴(kuò)散模型（或更廣義的 score-based 模型）本質(zhì)上學(xué)習(xí)的是數(shù)據(jù)分布的 score 函數(shù) [5]：

即概率密度對(duì)輸入的梯度。這意味著，擴(kuò)散模型實(shí)際上隱式捕獲了真實(shí)數(shù)據(jù)在高維空間中的概率流結(jié)構(gòu)。因此，可以用一個(gè)預(yù)訓(xùn)練的 score 網(wǎng)絡(luò) s_θ，來(lái)近似計(jì)算視頻幀的空間概率梯度：

式（8）實(shí)現(xiàn)了從生成模型到判別器的轉(zhuǎn)換，作者不再利用擴(kuò)散模型生成視頻，而是讓它「感知」視頻幀是否符合自然分布的空間結(jié)構(gòu)。

時(shí)間導(dǎo)數(shù)估計(jì)：基于亮度不變假設(shè)

在時(shí)間維度上，直接求取依然不可行。作者基于亮度不變假設(shè)（brightness constancy assumption）[6] 可以近似得到：

其中可通過(guò)幀間差分獲得。該項(xiàng)刻畫(huà)了像素在時(shí)序方向上的變化速率，等價(jià)于一種「局部運(yùn)動(dòng)感知」特征。

總的估計(jì)表達(dá)式

將上式與 score 估計(jì)結(jié)合，可得到 NSG 的可計(jì)算近似式：

該公式僅需一次 diffusion 模型前向計(jì)算（用于獲取 s_θ(x_t)）與幀間差分，即可在無(wú)需顯式光流估計(jì)或復(fù)雜運(yùn)動(dòng)分解的情況下，求得視頻的 NSG 分布。

NSG-VD：基于物理一致性的時(shí)空視頻檢測(cè)框架

在獲得 NSG 特征后，作者提出檢測(cè)算法 NSG-VD。

核心思想：通過(guò)計(jì)算待測(cè)視頻與真實(shí)視頻參考集在 NSG 特征空間中的分布差異，利用最大均值差異（MMD）作為檢測(cè)指標(biāo)，從而揭示生成視頻在物理一致性上的異常特征。

檢測(cè)流程

首先，構(gòu)建一組真實(shí)視頻參考集：

并為每個(gè)視頻 x 提取其在 T 幀上的 NSG 特征序列：

給定一個(gè)待檢測(cè)視頻，計(jì)算其 NSG 特征與參考集特征分布之間的最大均值差異，用于量化二者在特征空間的分布距離：

其中，核函數(shù) k_ω 將 NSG 特征映射至高維再生核希爾伯特空間，以捕捉細(xì)微的分布差異。值得注意的是，盡管 MMD 傳統(tǒng)上用于分布級(jí)比較，近期研究表明其在單樣本檢測(cè)中也能有效地量化單個(gè)樣本與參考分布的偏差 [7,8]。但必須強(qiáng)調(diào)，NSG-VD 的核心優(yōu)勢(shì)源自 NSG 本身對(duì)物理一致性的建模，而非僅依賴于 MMD 的檢測(cè)能力。

隨后，定義檢測(cè)函數(shù)：

其中 I (?) 為指示函數(shù)，τ 為判定閾值。根據(jù)函數(shù)輸出進(jìn)行視頻真?zhèn)畏诸悾?/span>

為增強(qiáng)判別能力，作者采用可學(xué)習(xí)的深度核 [9] 并在訓(xùn)練集數(shù)據(jù)上對(duì)其參數(shù)進(jìn)行訓(xùn)練。

理論保障

該定理表明，真實(shí)視頻和生成視頻的 NSG 特征距離上界與分布偏移程度 μ 有關(guān)。分布偏移越小，兩者特征距離上界越小；偏移越大，分離越明顯。這也意味著真實(shí)數(shù)據(jù)間的 NSG 特征的 MMD 比真實(shí)與生成數(shù)據(jù)間的更小，據(jù)此可用 NSG 特征區(qū)分真實(shí)和生成視頻。

實(shí)驗(yàn)驗(yàn)證：

跨生成模型與數(shù)據(jù)場(chǎng)景的性能分析

作者在大型基準(zhǔn) GenVideo 上進(jìn)行了全面評(píng)估，包含 10 個(gè)不同的生成模型，涵蓋開(kāi)源和閉源系統(tǒng)。實(shí)驗(yàn)表明，NSG-VD 在多個(gè)標(biāo)準(zhǔn)評(píng)測(cè)中顯著優(yōu)于現(xiàn)有基線方法：

標(biāo)準(zhǔn)評(píng)測(cè)設(shè)置下的卓越性能

NSG-VD 在 Kinetics-400（真實(shí)視頻）與 Pika（生成視頻）的混合數(shù)據(jù)訓(xùn)練后，展現(xiàn)出出色的泛化能力。在十類 AI 生成視頻上的平均檢測(cè)性能達(dá)到 Recall 88.02%、F1 90.87%，已全面超越此前的最佳方法 DeMamba。特別是在 Sora 等閉源生成模型檢測(cè)上，NSG-VD 取得了 78.57% 的 Recall，相比 DeMamba 的 48.21% 提升超過(guò) 30 個(gè)百分點(diǎn)，展現(xiàn)出顯著的性能優(yōu)勢(shì)。

數(shù)據(jù)不平衡場(chǎng)景下的魯棒性

在實(shí)際應(yīng)用中，獲取大規(guī)模 AI 生成視頻的訓(xùn)練數(shù)據(jù)往往具有較高成本與難度。為評(píng)估模型在更貼近真實(shí)場(chǎng)景下的表現(xiàn)，作者在訓(xùn)練集僅包含 1,000 條 SEINE 的生成數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)。

結(jié)果表明，即使在僅使用 1,000 條 AI 生成視頻進(jìn)行訓(xùn)練的條件下，NSG-VD 仍展現(xiàn)出顯著的穩(wěn)健性與泛化能力：其在 Sora 上的召回率（Recall）高達(dá) 82.14%，遠(yuǎn)超 DeMamba (33.93%) 與 NPR (10.71%) 等基線模型。這充分驗(yàn)證了 NSG-VD 的高數(shù)據(jù)效率，其性能提升并非依賴于大規(guī)模訓(xùn)練數(shù)據(jù)，而源于基于物理一致性的第一性原理建模的有效性。

消融研究：驗(yàn)證物理建模的有效性

為進(jìn)一步驗(yàn)證 NSG 各組成模塊的作用，作者進(jìn)行了系統(tǒng)性的消融實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果表明，當(dāng)僅使用空間概率梯度時(shí)，模型的 Recall 為 87.99%；僅使用時(shí)間密度變化時(shí)，Recall 降至 60.35%。將兩者進(jìn)行物理一致性融合后，NSG-VD 的 Recall 提升至 88.02%，F(xiàn)1 值進(jìn)一步達(dá)到 90.87%。這一結(jié)果充分說(shuō)明，基于物理公式的時(shí)空聯(lián)合建模能夠有效捕捉視頻生成過(guò)程中的細(xì)微差異，不僅驗(yàn)證了該建模范式的必要性，也凸顯了其顯著的性能優(yōu)勢(shì)。

決策閾值魯棒性分析

在實(shí)際部署中，方法的超參數(shù)敏感性至關(guān)重要。對(duì)此，作者分析了決策閾值 τ 的影響：

結(jié)果表明，在 τ∈[0.7,1.1] 的閾值范圍內(nèi)，NSG-VD 的各項(xiàng)指標(biāo)（Recall、Accuracy、F1）穩(wěn)定性，證實(shí)了 NSG 特征對(duì)真?zhèn)我曨l的強(qiáng)大判別能力。該方法的核心在于物理驅(qū)動(dòng)的時(shí)空梯度建模，而非依賴生成器特定偽影，因而能夠穩(wěn)健地檢測(cè)來(lái)源多樣的生成內(nèi)容。

總結(jié)與展望

本文提出了基于物理守恒的時(shí)空建模視頻檢測(cè)框架 NSG-VD，通過(guò)歸一化時(shí)空梯度（NSG）統(tǒng)計(jì)量量化視頻在空間和時(shí)間維度上的物理一致性，實(shí)現(xiàn)對(duì) AI 生成視頻的通用檢測(cè)。實(shí)驗(yàn)表明，NSG-VD 在多種生成模型、數(shù)據(jù)不平衡場(chǎng)景及遷移測(cè)試中均表現(xiàn)出卓越的泛化能力和穩(wěn)健性，顯著優(yōu)于現(xiàn)有方法。

NSG-VD 的核心創(chuàng)新在于將物理一致性約束引入檢測(cè)任務(wù)，通過(guò) NSG 特征捕捉生成視頻中潛在的物理規(guī)律違例。這種物理驅(qū)動(dòng)范式無(wú)需依賴特定生成模式的數(shù)據(jù)，在面對(duì)多樣化生成內(nèi)容時(shí)展現(xiàn)出強(qiáng)魯棒性，即便在數(shù)據(jù)不平衡場(chǎng)景下也能保持穩(wěn)定性能。

在當(dāng)前「真假難辨」的生成時(shí)代，NSG-VD 引領(lǐng)我們從「圖像的真實(shí)」走向「物理的真實(shí)」—— 不關(guān)注視頻有多逼真，而關(guān)注其是否遵守物理規(guī)律。盡管該方法仍依賴一定的物理假設(shè)并存在計(jì)算開(kāi)銷，未來(lái)工作將著力于開(kāi)發(fā)更精細(xì)的物理模型、優(yōu)化輕量化計(jì)算方案，并探索實(shí)時(shí)檢測(cè)應(yīng)用場(chǎng)景的可行性。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型視頻生成