Lumina-mGPT 2.0橫空出世:自回歸模型終結擴散時代?媲美DALL·E 3,更自由、更全能!

論文鏈接:https://arxiv.org/pdf/2507.17801代碼鏈接:https://github.com/Alpha-VLLM/Lumina-mGPT-2.0
亮點直擊
- Lumina-mGPT 2.0,一種獨立的、僅使用解碼器的自回歸模型,旨在重新審視并振興自回歸范式,以實現高質量圖像生成及更多應用。完全從零開始訓練,實現了架構設計上的無限自由和許可上的完全開放。
- 該模型在生成質量方面可與最先進的擴散模型(如 DALL·E 3 和 SANA)相媲美,同時保留了自回歸建模所固有的靈活性和組合性。
- 統一分詞方案使模型能夠在單一生成框架內,無縫處理廣泛的任務類型——包括主體驅動生成、圖像編輯、可控合成和密集預測等。
- 引入了高效的解碼策略,用于提升生成質量和加快生成速度。
- Lumina-mGPT 2.0 是一個強大且靈活的基礎模型,能夠支持統一的多模態生成任務。
總結速覽
解決的問題
- 自回歸范式在圖像生成中的邊緣化問題盡管自回歸(AR)模型曾被廣泛研究,但在擴散模型和 GANs 的推動下,其在圖像生成領域逐漸失去了主流地位。
- 現有方法對預訓練組件和混合架構的依賴當前許多多模態生成模型嚴重依賴預訓練視覺編碼器或采用擴散-AR混合架構,導致架構不統一、訓練復雜度高、授權限制多。
- 統一生成能力不足許多模型在圖像生成、編輯、控制合成等任務之間缺乏一致性,難以在單一框架下實現多任務處理。
- 資源效率與靈活性之間的矛盾一些保留純 AR 架構的模型(如 Emu3)雖然結構統一,但生成質量不佳,且在有限計算資源下難以實現高性能。
提出的方案
- 提出 Lumina-mGPT 2.0:一個純解碼器式自回歸生成模型
- 完全從零開始訓練(無任何預訓練權重)
- 不依賴外部視覺編碼器或混合架構
- 保持架構設計和授權上的完全自由
- 采用統一分詞方案(Tokenization)
- 將圖像、文本等模態統一編碼為 token
- 支持圖像生成、編輯、控制合成、密集預測等多任務
- 引入高效推理策略
- 推理時縮放(inference-time scaling):提升生成質量
- 猜測式 Jacobi 采樣(speculative Jacobi sampling):提升推理速度
應用的技術
- 純 AR 架構(Decoder-only Transformer)
- 類似大語言模型(LLMs)的結構
- 支持“下一個 token 預測”的統一范式
- 多模態統一 token 表達
- 圖像和文本統一編碼,簡化跨模態處理流程
- 高效訓練策略
- 在 64 張 A100 GPU 上訓練 4–5 周,資源使用高效
- 無需預訓練權重
- 完全端到端訓練,避免外部依賴
達到的效果
- 生成質量媲美最先進擴散模型(如 DALL·E 3、SANA)
- 在 GenEval、DPG 等文本生成圖像基準上表現優異
- 在部分任務上超越擴散模型
- 強大的多任務能力
- 在 Graph200K 基準上展現出色的多任務表現
- 支持圖像生成、編輯、控制合成、密集預測等任務
- 統一生成能力的有效驗證
- 證明純 AR 模型可以在單一框架下完成多模態生成任務
- 實現類似 GPT-4o 的圖像生成交互能力
- 架構靈活性與授權自由
- 由于無預訓練依賴,模型可在不同任務和場景中靈活部署
- 無需擔心預訓練模型的授權限制
重新審視 Lumina-mGPT
Lumina-mGPT 是一系列開源的多模態自回歸模型,是首批具備高質量、高分辨率和靈活寬高比圖像生成能力的模型之一。Lumina-mGPT 的核心設計包括兩個方面:靈活-漸進式監督微調(Flexible-Progressive Supervised FineTuning,FP-SFP),這是一種逐步提升圖像分辨率的訓練策略;以及清晰圖像表示(Unambiguous image Representation,Uni-Rep),這是一種專門用于處理一維展平圖像 token 所固有的二維形狀歧義的圖像表示機制,為模型理解和生成不同寬高比圖像奠定了基礎。然而,盡管該工作邁出了重要的一步,但仍存在以下不足:
預訓練模型加載所帶來的限制
Lumina-mGPT 初始化自預訓練的 Chameleon 模型。與其他加載預訓練權重的工作類似,這種選擇帶來了關鍵限制:模型架構及其相關組件(如圖像/文本分詞器)必須嚴格遵循預訓練模型的設定,這不僅限制了模型定制(例如構建不同規模的模型)的可能性,也阻礙了探索更優設計的空間。此外,預訓練模型還帶來許可限制,限制了其在更廣泛商業和實際應用中的可用性。
模型內部的多任務沖突
除了基本的文本生成圖像(T2I)任務外,Lumina-mGPT 需要通過單獨微調來擴展至不同的下游生成任務。它將這些任務視為條件擴展,并使用不同的檢查點進行處理,而不是將它們整合進一個統一的訓練范式中。這種分離阻礙了多任務目標與主圖像生成任務之間的有效對齊,限制了模型整體的一致性和效率。
推理階段優化不足
多模態自回歸模型依賴于數千個下一個 token 的預測步驟,導致計算開銷大、推理時間長。值得注意的是,已有大量推理優化技術可以顯著減少采樣時間或提高生成質量。然而,Lumina-mGPT 并未在此方向上進行探索。
與 SOTA 模型相比性能不足
盡管該模型在圖像生成方面已取得突破性進展,但在性能上仍落后于當前最先進的擴散模型,如 Lumina-Image 2.0、Sana 和 DALL·E 3,因此仍有進一步提升的空間。
Lumina-mGPT 2.0
Lumina-mGPT 2.0 的方法論,其具有以下三個特征:1)獨立架構,2)統一多樣的生成任務,3)優化的推理策略。
獨立架構
從零訓練的純解碼器 Transformer 架構 Lumina-mGPT 2.0 在結構設計上延續了其前身 Lumina-mGPT 的思路,繼續采用純解碼器 Transformer 架構,如下圖 2 所示。

與依賴預訓練 Chameleon 7B 和 34B 模型微調的 Lumina-mGPT 不同,Lumina-mGPT 2.0 是一個完全獨立的模型。具體而言,Lumina-mGPT 2.0 采用從零開始訓練的范式,參數隨機初始化,帶來了以下幾個優勢:1)偏差減少:從零訓練可最小化通常由預訓練模型繼承的偏差,從而提升圖像生成性能;2)架構靈活性:該方法允許在模型設計上靈活調整。例如,本文為 T2I 社區提供了一個更輕量的 20 億參數版本的 Lumina-mGPT 2.0。此外,還可根據需要靈活集成更優的圖像和文本分詞器;3)許可獨立性:由于不依賴 Chameleon 模型,Lumina-mGPT 2.0 避免了任何潛在的許可限制。
重啟使用 SBER-MoVQGAN 圖像分詞器
圖像分詞器的重建質量在決定生成質量上起著關鍵作用。由于 Lumina-mGPT 2.0 是一個獨立模型,因此可以靈活選擇分詞器。為了實現高質量生成,本文對自回歸框架中常用的圖像分詞器進行了全面的重建質量分析,包括 VQGAN、ViT-VQGAN、MaskGIT-VQ、LlamaGen-VQ、SBER-MoVQGAN 和 ChameleonVQ(后者用于 Lumina-mGPT)。在 MS-COCO 數據集上的對比結果(見下表 1 和下圖 3)顯示,SBER-MoVQGAN 目前是圖像重建的 SOTA 模型。因此,Lumina-mGPT 2.0 采用了 SBER-MoVQGAN,以確保卓越的生成性能。然而,一個挑戰在于其8X8的下采樣比例,這會導致更長的圖像 token 序列,從而增加推理時間和成本。


無預訓練文本編碼器
在 Lumina-mGPT 2.0 中,本文同時使用基于 token 的格式來表示文本和圖像數據,如上圖 2 所示。這種方法區別于一些傳統的自回歸方法,它們通常使用預訓練的文本編碼器來提取編碼后的文本特征,并隨后通過 MLP 將這些特征投射到模型中。而 Lumina-mGPT 2.0 直接采用 QwenTokenizer 對文本進行離散 token 編碼。這種方法簡化了流程,轉變為純粹的下一 token 預測范式,從而無需加載預訓練文本編碼器。
模型擴展性
為了展示本文獨立自回歸圖像建模的可擴展性,本文在 Lumina-mGPT 2.0 系列中提供了兩個模型規模:2B 和 7B。每個模型的超參數詳見下表 2。擴展主要體現在模型維度的增加上。在實驗過程中,本文觀察到隨著模型規模的增加,訓練損失的收斂速度加快,生成圖像的質量在連貫性、細粒度細節以及對精細提示的忠實度方面顯著提升,詳見下文。這些進展突顯了本文模型強大的擴展能力。

統一多樣的生成任務
Lumina-mGPT 2.0 的自回歸架構有助于在聯合序列生成框架中統一多種視覺任務。具體而言,本文利用自回歸方法的一個關鍵優勢:其圖像 token 生成的自然順序遵循光柵掃描方式。這確保了圖像的上部區域優先生成,為后續的下部區域生成提供上下文指導,如下圖 4 所示。

基于這一特性,本文將多種文本-圖像到圖像任務整合進本文的框架,包括主體驅動生成、圖像編輯、可控生成以及密集預測任務。此外,這種特殊范式還能生成圖像對,如下圖 7 所示。對于多張圖像,本文僅需將它們縱向拼接為圖像網格以進行聯合建模,從而確保上部圖像區域在生成過程中充當上下文。在可控生成中,條件圖像位于頂部,生成輸出位于底部。類似地,對于深度估計等密集預測任務,原始圖像位于頂部,對應的標簽圖位于底部。為了進一步區分這些任務類型,本文引入了 ??<system prompt>??,如下表 3 所示。


這一統一范式支持原生的多任務訓練(所有任務均視為文本到圖像生成),使模型能夠在無需額外架構調整的情況下,同時學習多種視覺任務。根據自回歸模型中標準的 T2I 訓練方式,損失僅對圖像 token 進行計算,文本 token 保持不變。在推理階段,該公式提供了一種靈活且動態的提示構建機制。用戶可以顯式指定 ??<system prompt>?? 來控制任務類型,并決定是否提供參考圖像作為引導條件,如上圖 2 所示。這一能力無縫銜接了可控生成與無條件生成之間的差距,拓展了 Lumina-mGPT 2.0 作為視覺通才的原生多任務能力。
優化的推理策略
高質量采樣
生成前思考
圖像生成類似于藝術創作,需要在執行前進行深入思考、概念化和反復打磨。然而,當前的圖像生成模型通常缺乏這種創作前的推理過程,而是將文本提示視為直接指令,而非一個不斷演化的思維過程。實際上,用戶的提示往往是模糊的、含糊不清的,或者缺乏生成連貫且有意義圖像所需的關鍵信息。受到大型語言模型中 Chain-of-Thought(CoT)推理顯著進展的啟發,本文引入了一種“生成前思考”的范式。
具體而言,本文并不直接將用戶提示輸入到 Lumina-mGPT 2.0 中,而是首先通過一個大型語言模型(GPT-4o)進行處理。該語言模型通過逐步推理系統性地分析和理解用戶的潛在意圖,最終生成一個更具連貫性、描述性和清晰度的精煉提示。例如,當遇到無意義的提示時,模型會推斷出一個合理的解釋;當提示存在歧義時,模型會進行澄清和擴展;當提示過于簡單時,模型會通過加入必要元素豐富描述,詳見下圖 6。在此過程中,語言模型充當了一個推理引擎,逐步精煉提示,類似于藝術家逐步發展其構想的方式。通過整合這一反思性推理過程,本文的方法確保最終提示不僅結構更清晰、表達更豐富,而且更忠實于用戶的原始意圖。

推理時擴展
近期研究開始探索擴散模型中的推理時擴展行為,以及自回歸與擴散模型的混合模型。在此基礎上,本文首次嘗試在 Lumina-mGPT 2.0 中探索純自回歸模型的推理時擴展行為。具體而言,給定一個文本提示,Lumina-mGPT 2.0 首先以隨機方式生成一組多樣化的候選圖像。隨后,本文采用 best-of-N 策略,由驗證器評估生成的圖像并選出最優結果。鑒于圖像的固有復雜性以及文本條件中所蘊含的豐富語義信息,對生成質量進行更全面的評估至關重要。為此,本文整合了多個驗證器,包括 VQAScore、LAION-AestheticScore、PickScore。
加速采樣
模型量化
為了優化 GPU 內存使用并加速推理,使用 TorchAo 對 Lumina-mGPT 2.0 的前向解碼模塊進行訓練后量化。該方法將模型權重量化為 4 位整數,采用 128 元素分組,同時保持激活張量為 bfloat16 精度,以減輕潛在的質量下降。借助 PyTorch 2.0 的原生編譯工具包,本文通過 ??torch.compile?? 的 reduce-overhead 模式引入量化操作,支持內核自動調優與靜態圖優化。值得注意的是,這一優化無需對模型架構進行任何修改。
Speculative Jacobi 解碼
通過采用 Speculative Jacobi Decoding(SJD)來優化采樣策略,該方法將確定性的 Jacobi 迭代與隨機采樣相結合。SJD 引入了一個概率收斂準則,根據草稿與目標 token 分布之間的似然比來接受 token,從而在保持樣本多樣性的同時實現并行解碼。
在實踐中,本文的目標是聯合利用模型量化與 SJD 來加速采樣。然而,SJD 的一個關鍵挑戰在于其對動態 KV 緩存的固有需求。在傳統的自回歸解碼中,KV 緩存通過附加新的 key 和 value 張量動態增長。而 SJD 在此基礎上引入了迭代優化,其中 token 可能會根據收斂準則被接受或拒絕,因此需要一個靈活的緩存機制以處理可變序列長度和 token 回退。這種動態行為與諸如 ??torch.compile?? 等編譯操作所施加的靜態 KV 緩存約束存在沖突,這些操作要求預分配靜態緩存以生成優化內核并最小化重新編譯開銷。
為了解決這一問題,提出了靜態 KV 緩存與靜態因果注意力掩碼用于 SJD,使其與靜態編譯框架兼容。KV 緩存預分配固定大小的緩沖區,并使用基于指針的機制管理有效序列長度,從而避免動態調整。類似地,固定大小的注意力掩碼在推理前預計算,推理過程中通過指針進行調整,以支持解碼階段,確保高效且并行的 token 預測。該設計在滿足靜態內存需求的同時,保持了 SJD 的高效性。
實驗
實現細節
訓練數據。 T2I 訓練數據集是從 Lumina-Image 2.0 中提取的一個子集,由真實和合成數據組成。該數據集經過了使用 OmniCaptioner 精細過濾和重新生成描述。對于多任務訓練,使用了不同的數據集:主體驅動生成任務使用 Subject200K,編輯任務使用 OminiEdit,可控生成和密集預測任務則從 T2I 數據集中隨機采樣了 200K 條數據。

與現有方法的對比
定量性能
文本生成圖像。 在兩個基準上將 Lumina-mGPT 2.0 與先進的 T2I 生成方法進行了比較,見下表 4。本文的模型在性能上可與自回歸和擴散模型媲美甚至超越,包括 Emu3、Janus Pro,甚至 Lumina-Image 2.0。值得注意的是,Lumina-mGPT 2.0 在 GenEval 上取得了 的得分,使其躋身于頂級生成模型之列。它在 GenEval 的“兩物體”和“顏色屬性”測試中表現尤為出色。此外,Lumina-mGPT 2.0 在 DPG 上達到了 的得分,超越了此前 AR 模型的上限。

原生多任務能力。 主要評估了 Lumina-mGPT 2.0 在可控生成(見下表 5)和主體驅動生成(見下表 6)方面的能力。結果顯示,Lumina-mGPT 2.0 作為通用模型表現出色。在可控生成方面,它在 Canny 和 Depth 條件下展現出高度的結構一致性,同時保持了出色的圖像質量和文本一致性。在主體驅動任務中,Lumina-mGPT 2.0 在保持主體身份方面優于所有競爭對手,并在圖像一致性和文本對齊方面取得了令人印象深刻的成績。


定性性能
文本生成圖像。 本文在上圖 7 中展示了 T2I 生成結果,展示了模型在多個類別中合成高保真視覺內容的能力。Lumina-mGPT 2.0 能夠有效生成寫實的人物、令人驚嘆的風景和復雜的基于文本的設計,細節表現出色。此外,它在渲染逼真的動物、富有想象力的科幻場景以及高度細致的特寫鏡頭方面同樣表現優異。這些結果突顯了模型準確理解提示詞的能力,能夠捕捉豐富的紋理、動態光影效果和引人注目的構圖。
此外,本文對 Lumina-mGPT 2.0 與 Janus Pro 以及其前身 Lumina-mGPT 所生成的 T2I 結果進行了對比分析,如下圖 8 所示。Lumina-mGPT 2.0 在真實感、細節和連貫性方面相較于其前身和 Janus Pro 有顯著提升。生成的圖像具有更清晰的紋理、更精確的光照和更優的構圖,使其在視覺上更具吸引力,并更符合自然美學。有趣的是,這些發現與上表 4 中的結論有所不同,后者顯示 Lumina-mGPT 2.0 與 Janus Pro 在 GenEval 基準上表現相當。該基準主要依賴 VLM 模型評估文本與圖像之間的對齊程度,而未明確考慮圖像生成的質量和美學。

原生多任務能力。 除了 T2I 生成外,Lumina-mGPT 2.0 還展現了出色的多任務能力,如圖 7 所示。結果表明,Lumina-mGPT 2.0 原生支持廣泛的圖像到圖像生成任務,包括主體驅動生成、圖像編輯和可控生成(例如 canny-to-image、depth-to-image、pose-to-image、hed-to-image),無需額外模塊或額外微調階段。此外,Lumina-mGPT 2.0 能夠高效生成特定任務的圖像對,用于增強其他模型的圖像到圖像任務訓練數據集,同時為各種密集預測任務提供強大支持。
本文還與其他模型(包括 Lumina-mGPT、OneDiffusion 和 OmniGen)進行了多任務生成視覺對比,如下圖 9 所示。Lumina-mGPT 2.0 在可控生成和主體驅動生成任務中均展現出令人印象深刻的性能。

消融研究
模型擴展的影響。 在 Lumina-mGPT 2.0 中,本文將模型從 2B 參數擴展到 7B 參數。為評估該擴展的影響,本文從三個方面進行了分析:
- 基準性能:如下表 4 所示,7B 模型在多個基準上均優于 2B 版本,包括 GenEval 和 DPG。

- 訓練損失:如下圖 10 所示,7B 模型相比于較小的 2B 模型展現出顯著更快的訓練損失收斂速度。

- 視覺質量:如下圖 8 所示,7B 模型生成的結果更穩定,視覺保真度更高,細節更豐富。

生成前思考的影響。 在圖像生成前,本文調用 GPT-4o API 對輸入提示進行深入分析,充分理解其含義,并生成增強后的提示。上圖 6 展示了逐步思考過程及其生成的增強提示示例。為評估該方法的有效性,本文在 GenEval 基準上進行了消融實驗,如下表 7 所示。結果表明,經過思考后的提示平均提升了4% ,在位置和顏色屬性能力上均有8%的顯著提升。這些發現表明該方法更有效地支持圖像生成過程,更貼合用戶意圖。

推理時縮放的影響。 本文將推理時縮放集成到 Lumina-mGPT 2.0 中,并在 GenEval 基準上與其他大規模圖像生成模型進行了性能比較,如上表 7 所示。通過從16張生成圖像中選擇樣本,推理縮放模型相比于單張圖像生成方式總體準確率提升了11% 。在“兩物體”、“計數”、“位置”和“顏色屬性”等子任務中提升尤為顯著。這些發現表明,即使在模型容量受限的情況下,犧牲推理效率也可以顯著提升生成質量和準確性。
加速采樣策略的影響。 在下圖 11 中,本文通過集成模型量化和推測 Jacobi 解碼(SJD)策略,評估了 Lumina-mGPT 2.0 的采樣效率。實驗結果表明,模型量化在保持視覺保真度的同時,使采樣時間減少了48% ,GPU 顯存消耗減少了47% 。在此基礎上,SJD 通過其并行解碼機制進一步提升了效率,使采樣時間減少了72% 。這些采樣策略有效解決了 Lumina-mGPT 2.0 采樣速度慢的問題,這是自回歸生成模型普遍面臨的挑戰,從而使其在實際應用中更加易用。

結論
Lumina-mGPT 2.0,這是一種獨立的、僅使用解碼器的自回歸圖像生成模型。Lumina-mGPT 2.0 完全從零開始訓練,未引入任何預訓練模型權重。在文本生成圖像任務中,它在標準基準上達到了與當前最先進模型相當的性能,同時在合成圖像的視覺質量方面表現更優。此外,Lumina-mGPT 2.0 原生支持多種下游任務,增強了其靈活性和對更廣泛研究社區的適用性。
局限性。 盡管在推理方面做出了優化,Lumina-mGPT 2.0 的采樣時間仍需數分鐘,這是所有基于 AR 的生成模型面臨的共同挑戰,可能導致用戶體驗不佳。目前,Lumina-mGPT 2.0 在思考過程中依賴外部大語言模型。未來的改進目標是使 Lumina-mGPT 2.0 能夠自主進行思考。此外,當前 Lumina-mGPT 2.0 的重點在于多模態生成,后續更新計劃將擴展其能力以涵蓋多模態理解。
本文轉自AI生成未來 ,作者:AI生成未來

















