聯合理解生成的關鍵拼圖?騰訊發布X-Omni:強化學習讓離散自回歸生成方法重煥生機,輕松渲染長文本圖像
本論文作者團隊來自騰訊混元X組,共同一作為耿子鋼和王逸冰,項目Lead為張小松,通訊作者為騰訊混元團隊杰出科學家胡瀚,Swin Transformer作者。
在圖像生成領域,自回歸(Autoregressive, AR)模型與擴散(Diffusion)模型之間的技術路線之爭始終未曾停歇。大語言模型(LLM)憑借其基于「預測下一個詞元」的優雅范式,已在文本生成領域奠定了不可撼動的地位。然而,當這一范式被應用于視覺領域時,卻暴露出諸多瓶頸:生成圖像細節失真、語義理解偏差,尤其在復雜文本渲染任務中表現尤為乏力。目前,統一視覺理解和生成的主流研究工作在圖像生成部分往往采用擴散模型來建模,使得視覺理解和生成任務依然只是松散的耦合在一起。
近日,騰訊混元團隊的最新研究成果 X-Omni 模型通過強化學習大幅提升了自回歸圖像生成方法的生成質量,這一模型能生成具有較高美學品質的圖像,同時展現出強大的遵循指令和渲染長文本圖像的能力。該模型已開源:

- 論文鏈接:https://arxiv.org/pdf/2507.22058
- GitHub鏈接:https://github.com/X-Omni-Team/X-Omni
- 項目主頁:https://x-omni-team.github.io
- Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
- Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

圖 1 對比主流閉源和開源模型的文字渲染效果
強化學習大幅提升
圖像生成質量和指令遵循能力
基于離散自回歸方法監督微調后圖像生成的質量相對較低,表現為文本生成錯誤、身體特征失真以及無法遵循復雜指令。引入強化學習后,生成圖像的審美質量逐漸提高,遵循指令的能力和渲染長文本的能力穩步提升。如圖 2 所示,經過 200 步強化學習,X-Omni 模型展示了圖像生成的高質量視覺效果、強大的遵循復雜指令的能力,以及準確渲染中英文長文本的能力。

圖 2 經過 200 步強化學習,圖像生成質量和指令跟隨能力逐步提高
方法
整體架構
如圖 3 所示,該框架是一個基于離散 token 的自回歸模型,其中 tokenizer 采用 SigLIP2-VQ 方法構建,在離散 token 上運行一個擴散解碼器生成最終的圖像。這一設計使得圖像理解和生成統一在離散自回歸框架中,從而實現優雅的聯合圖像理解與生成。

圖3 X-Omni 整體網絡架構
GRPO 強化學習方法
進行聯合圖像理解和生成的預訓練和監督微調后,本文繼續采用強化學習方法來提升圖像生成能力。強化學習過程的整體流程如圖 2 (a) 所示,由于采用離散自回歸的方法,可以應用語言模型中較為成熟的 GRPO 方法來進行強化學習:

獎勵系統
我們構建了一個綜合性的獎勵模型系統,其包含多個專門的模型,從人類美學偏好、文本 - 圖像語義對齊以及文本渲染準確性等維度來評估圖像生成質量。最終獎勵分數通過各個獎勵信號的加權融合得出。
- 人類偏好分數:采用 HPSv2 模型評估人類美學偏好。該模型在多種圖像分布上均表現出優異的泛化能力,能夠可靠地預測人類對生成圖像的偏好排序。
- Unified Reward 分數:引入 Unified Reward 對圖像進行整體質量評估。該獎勵函數將多維度質量指標聚合為一個統一的分數,為強化學習提供整體反饋。
- 文本 - 圖像語義對齊分數:為確保輸入提示和生成圖像間的語義一致性,我們利用 Qwen2.5-VL-32B 來計算對齊獎勵。借助該模型強大的圖像理解能力,我們評估生成圖像是否準確反映了提示描述的內容。對齊分數量化了文本描述和視覺內容之間的對應關系,鼓勵生成與上下文相關的圖像,同時最大限度地減少語義幻覺。
- OCR 準確性分數:文本渲染準確性是文本到圖像生成中的一個關鍵挑戰。對于需要在圖像中生成文本的提示,我們聯合 GOT-OCR 2.0 與 PaddleOCR 對生成圖像進行雙重 OCR 解析,計算文本渲染的準確性分數。該獎勵信號為增強文本渲染能力提供了關鍵指導,使我們的模型能夠可靠地生成清晰準確的文本。
實驗結果
文本渲染能力評估:

表 1 在 OneIG-Bench 和 LongText-Bench 上與現有模型的比較
指令跟隨能力評估:

表2 在 DPG-Bench 上與現有模型的比較

表 3 在 GenEval 上與現有模型的比較
有意思的發現
不再需要分類器無關引導(CFG):傳統 AR 圖像模型嚴重依賴 CFG 來提升生成質量,這不僅增加了推理開銷,也反映了模型自身生成分布的偏差。X-Omni 在推理時,其自回歸部分無需 CFG 即可生成高質量圖像,這力證了其視覺與語言生成機制的高度統一與內在一致性。

圖 4 主流 AR 模型對 CFG 的依賴比較
RL 在圖像生成中的獨特優勢:研究表明,在圖像生成領域,強化學習的優化效果顯著超越了監督微調(SFT)配合「N 選 1(Best-of-N)」的采樣策略。這揭示了 RL 在處理高維、空間依賴復雜的圖像數據時,能夠提供更全面、更高效的優化信號。
更多例子


圖 5 更多生成圖像可視化舉例
一個更統一、更強大、更優雅的全模態未來,正由離散自回歸圖像生成方法的復興開啟。




































