RAE+VAE? 預訓練表征助力擴散模型Tokenizer,加速像素壓縮到語義提取
近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 凍結的預訓練視覺表征」直接作為潛空間,以顯著提升擴散模型的生成性能。
無獨有偶,同期西安交通大學與微軟亞洲研究院提出了「VFM-VAE」。二者均基于凍結的預訓練視覺模型構建語義潛空間,而 VFM-VAE 在結構上可視為 RAE 與 VAE 的結合:結合 VAE 的概率建模機制,將高維預訓練模型特征壓縮為低維潛空間表示,系統性地研究了在壓縮條件下預訓練視覺表征對 LDM 系統表征結構與生成性能的影響。
VFM-VAE 通過直接集成凍結的基礎視覺模型作為 Tokenizer,能夠顯著加速模型收斂并提升生成質量,展示了 LDM Tokenizer 從像素壓縮邁向語義表征的演化方向。

圖 1:左:VFM-VAE 設計示意圖。右:ImageNet 256×256 上生成性能比較。

- 論文鏈接:https://www.arxiv.org/abs/2510.18457
- Github 鏈接:https://github.com/tianciB/VFM-VAE
預訓練視覺特征替代潛空間的探索
近年來,擴散模型和多模態生成系統在圖像理解與合成領域持續取得突破,但其性能上限日益受限于視覺分詞器的表達能力。
傳統的蒸餾式方法重新訓練 VAE 并對齊基礎視覺模型的特征分布,雖取得了一定成果(如 VA-VAE),但由于是在有限的數據集上的蒸餾,其在旋轉、縮放或輕噪聲等語義保持擾動下容易失穩,導致潛空間表示偏移、系統穩健性下降。
為系統分析這一現象,研究團隊提出了 SE-CKNNA 指標,用于量化潛空間與基礎視覺模型特征之間的一致性,并評估這種一致性對后續生成性能的影響。
實驗表明,蒸餾式分詞器在擾動下的語義對齊易退化,而保持潛空間與基礎視覺模型特征的高度一致,對生成模型的穩健性和收斂效率至關重要。

圖 2:不同 Tokenizer 在語義保持擾動下與各自視覺基礎模型對齊的情況。

表 1:不同 Tokenizer 與視覺基礎模型的對齊質量,以及對應的重建、生成能力對比。CKNNA* 是與 DINOv2-Giant 統一計算;其余 CKNNA 是與各自的視覺基礎模型計算,SD-VAE 默認與 DINOv2-Large 計算。
如何從凍結的基礎視覺模型特征中壓縮語義,并進行像素重建?
「直連」雖然避免了蒸餾帶來的信息損失,但基礎視覺模型的高層特征雖具強語義表達,卻缺乏精確的空間結構信息,直接用于重建往往導致細節模糊。為此,研究團隊設計了一個兼顧語義壓縮與像素還原的兩階段解碼框架。
首先,編碼側通過凍結的基礎視覺模型提取多層語義特征,并利用輕量的投影模塊將不同層級的特征映射到潛空間 z。
接著,解碼器部分采用「多尺度潛特征融合」結構:將 z 分為語義分支和空間分支,前者在各層提供全局風格與語義控制,后者在低分辨率階段注入以確定布局與主體形狀。
在具體實現上,VFM-VAE 使用調制式卷積塊(modulated convolution block)與層級式 ToRGB 輸出,使模型能夠在 8×8 → 256×256 的金字塔結構中逐級恢復細節。訓練目標聯合 L1、LPIPS、KL 與對抗性損失,并引入基于視覺基礎模型特征的表征正則,在有效防止模糊重建的同時,確保潛空間特征可被下游生成模型穩定利用。

圖 3:VFM-VAE 的總體框架。
潛空間與預訓練視覺表征的一致性如何影響生成性能?
研究團隊進一步分析了潛空間表征在擴散模型內部的層間一致性,發現 VFM-VAE 在層間平均和峰值 CKNNA 得分均高于蒸餾式分詞器,表明其潛空間能更穩定地對齊基礎視覺模型特征。然而,淺層語義對齊相對較弱。
為此,團隊在生成模型的淺層引入與基礎視覺模型特征的顯式對齊機制,使 LDM 的潛空間在生成過程中始終保持與基礎視覺模型特征的高度一致,從而進一步提升了語義傳遞的穩定性與生成質量。

圖 4:左側展示了不同分詞器結合生成模型時,在未引入顯式對齊機制下各層特征與基礎視覺模型特征的對齊情況;右側對比了結合顯式對齊的 VFM-VAE 與僅采用顯式對齊的生成模型在層間特征與基礎視覺模型特征對齊上的差異。
更高質量與更快收斂:VFM-VAE 邁向可穩健對齊的生成系統
在實驗中,VFM-VAE 展現出顯著的性能優勢與訓練效率。在 ImageNet 256×256 上,該方法在相同訓練階段實現 gFID 3.80 (without CFG),優于蒸餾路線的 5.14。當與顯式對齊機制結合后,僅用 80 epochs 即可達到 gFID 2.22 (without CFG),訓練效率較蒸餾式 Tokenizer 系統提升約 10 倍。
研究團隊還將 VFM-VAE 與多模態語言模型 BLIP3-o 結合,驗證其在文生圖任務中的語義一致性與生成潛力。經過 1 epoch 預訓練,VFM-VAE + BLIP3-o 在 DPG-Bench 上得分 59.1,較 VA-VAE 提升明顯;在 MJHQ-30K 上 gFID 降至 16.98(蒸餾路線為 23.00)。
這些結果表明,VFM-VAE 不僅在潛空間擴散階段表現出穩健語義對齊,也能在跨模態生成中有效傳遞這種一致性,形成從「視覺理解」到「圖像生成」的閉環。

圖 5:ImageNet 256x256 上各 LDM 系統的生成性能對比。

表 2:不同 Tokenizer 與 BLIP3-o 的文本生成圖像結果(DPG-Bench),數值越高,代表長文本下文生圖一致性越好。

表 3:不同 Tokenizer 與 BLIP3-o 的文本生成圖像結果(MJHQ-30K),數值越低,代表對應類別下生成真實性越高。
從壓縮到理解:VFM-VAE 重新定義潛空間的意義
長期以來,潛空間擴散模型中的 VAE 更多被視為壓縮與還原的工具,而 VFM-VAE 將其轉化為理解與生成的統一橋梁,使語義在潛空間中得到顯式建模與傳遞。
未來,微軟亞洲研究院的研究員們將繼續探索潛空間在多模態生成與復雜視覺理解中的潛力,推動其從像素壓縮邁向語義表征。





































