理解幫助生成?RecA自監督訓練讓統一多模態模型直升SOTA
謝集,浙江大學竺可楨學院大四學生,于加州大學伯克利分校(BAIR)進行訪問,研究方向為統一多模態理解生成大模型。第二作者為加州大學伯克利分校的 Trevor Darrell,第三作者為華盛頓大學的 Luke Zettlemoyer,通訊作者是 XuDong Wang, Meta GenAl Research Scientist,博士畢業于加州大學伯克利分校(BAIR 實驗室),這篇工作為他在博士期間完成。
背景:統一多模態理解與生成模型的挑戰
統一多模態模型(Unified Multimodal Models, UMMs)旨在將視覺理解和生成統一于單一模型架構。UMM 繼承了多模態大語言模型 (Multimodal Large Language Models, MLLMs) 可以很輕松地辨別物體的左右、顏色、種類。但是很多生成模型連「一只黑色的貓和白色的狗」,「黃色西蘭花」都無法生成。這體現了當前統一多模態模型在視覺理解和生成能力上的不平衡:它們往往在理解圖像內容方面表現出色,但在根據文本描述生成圖像時卻力不從心。這是為什么呢?
實際上,圖片是一個「稠密」的模態,文字是一個「稀疏」的模態,從一個稠密的信息里提取稀疏的信息(VQA,Image Captioning)是相對輕松的,但是要從稀疏的信息去構建稠密的信息則更為困難。傳統的文生圖訓練依賴大規模的圖像 - 文本對數據,這些文本描述 (text caption) 無法完整的表述圖片里的所有信息。比如物體位置關系、幾何結構,物體的紋理和風格等。這可能導致圖像生成模型學到不完整甚至有偏差的視覺概念(例如,將「西蘭花」與「綠色」聯系在一起,導致模型無法生成「黃色西蘭花」)。我們稱這種文本監督為「稀疏監督」(sparse supervision)。

方法:重建對齊 (Reconstruction Alignment, RecA)
有沒有「稠密監督」(Dense Supervision),可以讓模型學到更完整的視覺概念呢?答案是有的。圖片本身正是最好的信息載體。UMM 提供了一個將圖片作為「提示詞」(prompt) 輸入的機會。現在的 UMM 的視覺理解編碼器 (Visual Understanding Encoder),如 CLIP, SigLIP,已經可以把圖片映射到了 LLM 的語義空間 (language-aligned semantic space)。
以此為動機,我們提出了一種簡單而有效的后訓練方法 —— 重建對齊(Reconstruction Alignment, RecA)。RecA 并非對模型架構本身做出改動,而是在模型常規訓練完成后,額外進行一階段自監督的后訓練。

- Arxiv:https://alphaxiv.org/abs/2509.07295
- 代碼:https://github.com/HorizonWind2004/reconstruction-alignment
- 項目主頁:https://reconstruction-alignment.github.io/
具體來說,在 RecA 訓練過程中,模型首先利用其視覺理解編碼器從輸入圖像提取出語義嵌入特征(例如采用預訓練的 CLIP、DINO 等模型獲取圖像的高維語義表示),與一個模板文本嵌入相融合,再送入統一多模態模型,使其以此為條件試圖重建出原始輸入圖像。根據生成的圖像與原圖像之間的差異計算自監督重建損失,RecA 將視覺理解分支中蘊含的細節知識有效對齊到生成分支。
值得一提的是,RecA 的訓練不需要任何的圖像 - 文本對,只需未標注的圖像即可完成訓練。訓練完成后,模型在推理時并不需要額外輸入這些視覺嵌入,仍然像普通生成模型一樣,僅通過文本提示即可工作;換言之,RecA 是一種純訓練階段的對齊策略,不會增加推理階段的開銷或改變使用方式。

實驗結果
通用性(Generality)
為了驗證 RecA 的有效性,我們在四種代表性的統一多模態模型上進行了實驗。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 開源版), BAGEL (AR+Diffusion) 等模型,涵蓋了當前的主流架構。可以發現,RecA 在所有模型上均帶來了顯著的性能提升,顯示出其方法的通用性和穩健性。

SOTA 結果(State-of-the-art Results)
我們使用 RecA 后訓練得到的 Harmon-1.5B 模型展現出了極強的提高,在不使用 GPT-4o-Image 蒸餾數據和 RLHF 的情況下,在 GenEval 和 DPGBench 上達到了 0.86 和 87.21 的成績。如果使用 GPT-4o-Image 蒸餾數據 BLIP3o-60k,通過兩階段策略(先進行有監督微調 SFT,再進行 RecA 無監督訓練),Harmon 模型的性能進一步提升到 GenEval 0.90,DPGBench 88.15,全面刷新了現有記錄。

對于 BAGEL,我們發現其在圖像編輯任務上也取得了顯著提升。在 ImgEdit 基準上的評分從 3.38 提升至 3.75,GEdit 評分從 6.94 上升到 7.25。經過 RecA 的 BAGEL 模型在某些編輯能力上超越最新的 SOTA 模型,如 Black Forest Labs 推出的 12 億參數圖像編輯模型 FLUX.1 Kontext。

可視化效果
生成能力展示:

編輯能力展示:

訓練前后的生成能力對比:

訓練前后的編輯結果對比:




































