NeurIPS 2025 | 北大聯合小紅書提出Uni-Instruct:ImageNet單步生圖FID進入1.0時代!
近年來,單步擴散模型因其出色的生成性能和極高的推理效率,在圖像生成、文本到視頻、圖像編輯等領域大放異彩。目前主流的訓練方法是通過知識蒸餾,最小化學生模型與教師擴散模型之間的分布差異。然而,現有的方法主要集中在兩條平行的理論技術路線上:
- 基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收斂速度快,但可能存在模式崩潰問題,進而導致生成性能差。
- 基于分數散度最小化的方法(如 SIM[3],SiD[4] 等):蒸餾性能更好,但訓練收斂較慢。
這兩條路線似乎在理論上是割裂的。那么,我們能否將它們統一在一個共同的理論框架下?如果可以,這個統一的框架能否帶來更強的模型性能?
來自北京大學、小紅書 hi lab 等機構的華人研究者共同提出了名為 Uni-Instruct 的單步生成大一統理論框架,目前已被 NeurIPS 2025 接收。該框架不僅從理論上統一了超過 10 種現有的單步擴散模型蒸餾方法,更是在多項任務上取得了當前最佳(SoTA)性能。

- 論文標題:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
- 論文地址:https://arxiv.org/abs/2505.20755v4
- 代碼:https://github.com/a-little-hoof/Uni_Instruct
- 論文單位:北京大學未來技術學院、國家生物醫學成像中心、北京大學前沿交叉學科研究院、小紅書 hi-lab
- 論文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
其中,經過基于展開的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)用 Uni-Instruct 蒸餾得到的一步生圖模型在 ImageNet-64 數據集上取得了歷史歷史最低 1.02 的單步生成 FID 指標,遠超了 1000 步采樣的擴散模型(參見圖 2 右表)。
核心貢獻:Uni-Instruct 理論框架
研究者們提出了一個名為 Uni-Instruct 的統一理論框架,其核心是創新的 f-散度擴散展開定理(diffusion expansion theory of the f-divergence family)。

簡單來說,該定理推廣了 De Bruijin 等式,將靜態的數據空間教師模型與單步模型之間 f-散度擴展為沿擴散過程的動態散度積分。
雖然原始的展開形式難以直接優化,但團隊通過引入新的梯度等價定理,推導出了一個等價且可計算的損失函數。

最令人驚喜的是,這個最終的損失函數梯度,恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的一個加權組合!

通過選擇不同的 f-散度函數(如 KL 散度、卡方散度等),Uni-Instruct 能夠恢復出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在內的十余種現有方法的損失函數。這不僅為理解現有工作提供了全新的高層視角,也標志著單步擴散模型理論大一統。


圖注 1: Uni-Instruct 一步生成器在不同基準數據集上的生成效果。左:CIFAR10(無條件);中:CIFAR10(有條件);右:ImageNet 64x64(有條件)。可以看到,生成樣本的質量和多樣性都非常出色。

圖注 2: Uni-Instruct 一步生成模型在不同基準數據集上的評測效果。左:CIFAR10(無條件);右:ImageNet 64x64(有條件)。可以看到,生成樣本的質量和多樣性都非常出色。Uni-Instruct 模型在兩個評測榜單上都取得了巨大性能和效率優勢。
實驗結果
Uni-Instruct 在多個主流基準測試中取得了破紀錄的性能:
- CIFAR10:
a.無條件生成 FID 達到 1.46。
b.條件生成 FID 達到 1.38。
- ImageNet 64x64:
a.條件生成 FID 達到 1.02,效果顯著優于采樣步數為 79 步的教師模型(1.02 vs 2.35)!
這些結果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等之前的所有一步生成模型,甚至遠超需要 1000 步采樣的標準擴散模型。
更廣泛的應用:文本到 3D 生成
Uni-Instruct 的威力不止于 2D 圖像。研究者們將其成功應用于文本到 3D 生成任務,作為一種知識遷移方法,用以指導 NeRF 模型的優化。
實驗結果表明,相比于 SDS 和 VSD 等現有方法,Uni-Instruct 能夠在生成 3D 內容的質量和多樣性上取得更優異的效果。

圖注 3:左圖:ProlificDreamer 右圖:Uni-Instruct
總結與展望
Uni-Instruct 提供了一個堅實的理論基礎,成功地將十余種看似不同的擴散模型蒸餾方法囊括在一個統一的框架之下。這種理論大一統不僅帶來了對高效擴散模型的深刻理解,其卓越的實證性能也為高效生成模型的未來研究開辟了新的道路。這項工作是高效生成模型領域的一次重要理論突破,我們期待它能激發更多關于擴散模型知識遷移和高效生成的前沿探索!
本工作由北京大學計算科學成像實驗室本科生王翼飛與博士生柏為民合作完成。本論文的通訊作者羅維儉在北京大學數學院取得博士學位,現供職于小紅書 hi lab 任多模態大模型研究員。末位作者為北京大學未來技術學院孫赫助理教授。






























