ICML 2025 Spotlight | 清華朱軍組&NVIDIA提出DDO:擴散/自回歸模型訓練新范式,刷新圖像生成SOTA
文章一作鄭凱文為清華大學三年級博士生,研究方向為深度生成模型,曾提出流式擴散模型最大似然估計改進技術 i-DODE,擴散模型高效采樣器 DPM-Solver-v3,擴散橋模型采樣器 DBIM 以及掩碼式離散擴散模型采樣器 FHS 等。
清華大學朱軍教授團隊與 NVIDIA Deep Imagination 研究組聯合提出一種全新的視覺生成模型優化范式 —— 直接判別優化(DDO)。該方法將基于似然的生成模型(如擴散模型、自回歸模型)隱式參數化為 GAN,從而設計出一種無需額外網絡、訓練高效的微調方法,并大幅突破傳統最大似然訓練的性能瓶頸。

- 論文標題:Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
- 論文鏈接:https://arxiv.org/abs/2503.01103
- 代碼倉庫:https://github.com/NVlabs/DDO
背景 | 基于似然的生成模型
近年來,擴散模型(Diffusion Models)和自回歸模型(Autoregressive Models)在圖像生成中占據主導地位,如 NVIDIA 的 EDM 系列擴散模型和字節跳動以 VAR 為代表的視覺自回歸模型。相比 GAN(Generative Adversarial Networks)這類直接優化數據生成過程的隱式生成模型,擴散模型和自回歸模型均屬于基于似然的生成模型(Likelihood-Based Generative Model),它們顯式估計數據的對數似然(log-likelihood),具有訓練穩定、樣本多樣性強、容易規模化的特點。
然而,這類模型廣泛采用的最大似然估計(Maximum Likelihood Estimation, MLE)訓練損失對應的是正向 KL 散度,會導致「mode covering」問題:模型傾向于覆蓋所有數據模式而非聚焦主要分布,并且會在低估數據集中任何樣本的似然時遭受嚴厲懲罰,從而使生成結果模糊或失真,在模型容量不足時限制了生成質量。例如,i-DODE 作為專注于似然的模型,雖然在密度估計任務上達到了最先進水平,但在 FID 等視覺質量指標下表現不佳。現有視覺生成模型也往往依賴引導(guidance)方法,如無需分類器的引導(Classifier-Free Guidance, CFG),來抑制低質量生成樣本。

方法 | 把生成模型當判別器用,直接優化
為解決 MLE 的局限性,文章考慮使用 GAN 式判別的思想,在訓練目標中引入反向 KL 散度的成分,強化模型在真實數據附近的密度,同時抑制錯誤區域,將模型分布由圖(a):強調密度覆蓋,微調為圖(b):強調密度集中,從而提高生成保真度與有限模型容量下的生成質量。然而,直接使用 GAN 損失會引入額外的判別器網絡與工程優化上的復雜性,尤其對于擴散/自回歸模型這類需要迭代式多步生成的模型。
DDO 首次提出:你訓練的似然生成模型,其實已經是一個「隱式判別器」。

具體來說,DDO 引入待微調的目標模型和一個凍結的參考模型(均初始化為預訓練模型),使用兩個模型的對數似然比構造「隱式判別器」,得到可直接應用于擴散模型和自回歸模型的 GAN 式優化目標:

其中為模型對數似然,對于自回歸模型由于因果掩碼的存在可以通過單次網絡前傳準確計算,而對于擴散模型則需要結合 Jensen 不等式與證據下界(ELBO)近似估計。使用此訓練目標微調時,真實數據來自原數據集,而假數據來自參考模型
的自采樣過程。根據 GAN 判別損失的性質,可以證明此目標下的最優模型分布
恰為真實數據分布。
在實際訓練時,可通過多輪自對弈(self-play)進一步提升性能,做法是將下一輪的參考模型
設置為上一輪表現最優的模型。
DDO 為擴散模型和自回歸模型提供了即插即用的新訓練目標,其微調后的模型和原模型具有完全相同的網絡結構和采樣方式,而在生成質量上大大增強。
實驗 | 無需引導,刷新多項 SOTA
DDO 在多個標準圖像生成任務中顯著提升已有模型的生成質量,并刷新現有 SOTA。

- ImageNet 512×512 無引導 FID 1.96 → 1.26。
- ImageNet 64×64 無引導 FID 1.58 → 0.97。
- CIFAR-10 無引導 FID 1.85 → 1.30。

ImageNet 512x512 生成結果。左:原模型 右:DDO 微調后的模型
肉眼觀察發現生成圖像的細節和真實度得到顯著提升,同時多樣性沒有受到負面影響。

DDO 用于擴散模型時,隨著多輪 self-play,FID 指標發生持續下降。

更重要的是,DDO 無需修改網絡結構、不增加推理成本,且與主流 CFG 等引導方法兼容,可疊加使用進一步提升性能。如在視覺自回歸模型 VAR 上,微調后的模型通過控制 CFG 的強度,得到的 FID-IS 曲線整體顯著優于原模型。
展望 | 從視覺生成到語言模型對齊

DDO 參數化的靈感來自于語言模型中的直接偏好優化(DPO, Direct Preference Optimization),但其目標從「成對的偏好對齊」擴展到了「分布對齊」,更為通用。DDO 雖然沒有「獎勵」的概念,但其中使用自生成樣本作為負例的思想也與大語言模型中流行的 RL 算法如 GRPO 具有相似性,這允許模型從錯誤中反思學習。也就是說,GRPO 中負例的作用同樣可以解釋為使用 reverse KL 散度抑制 mode covering 趨勢從而提升生成質量,這在數學推理等任務中具有重要意義。該思路有望擴展至多模態生成等任務,構建統一的對齊范式。





































