硬剛GPT-Image-1?蘋果最新UniGen-1.5強勢發布:一個模型搞定理解+生成+編輯! 精華

論文鏈接:https://arxiv.org/pdf/2511.14760
亮點直擊
- 推出UniGen-1.5統一多模態大模型,通過創新的架構設計與訓練流程,實現了先進的圖像理解、生成與編輯能力融合。
- 開創統一強化學習訓練框架,借助共享獎勵模型協同優化圖像編輯與生成任務,顯著提升雙任務性能表現。
- 提出后SFT階段的編輯指令對齊機制,通過強化編輯指令理解能力,大幅提升模型編輯效果。
- UniGen-1.5在多項任務中達到業界領先水平:如下圖1所示,在圖像編輯任務(ImgEdit基準測試與GPT-Image-1持平)、圖像生成任務(GenEval和DPG-Bench顯著超越BLIP3o)均取得競爭優勢,同時在圖像理解任務也表現出色。

總結速覽
解決的問題
- 能力割裂:需要一種能同時處理高級圖像理解、生成與編輯任務的統一模型,以克服傳統模型中這些能力相互割裂的局限。
- 協同優化:如何協同優化圖像生成與編輯這兩個密切相關但又存在技術差異的任務,以避免獨立優化帶來的效率低下和性能瓶頸。
- 指令理解:在圖像編輯任務中,模型對復雜、精細的編輯指令的理解精度不足,制約了最終編輯效果的成功率與質量。
提出的方案
- 核心模型:推出UniGen-1.5統一多模態大語言模型,旨在融合圖像理解、生成與編輯三大能力。
- 訓練框架:構建統一強化學習訓練框架,利用共享獎勵模型同時優化圖像生成和圖像編輯任務。
- 性能優化:引入一個輕量級的后SFT(監督微調)編輯指令對齊階段,專門用于提升模型對編輯指令的精準理解與執行能力。
應用的技術
- 多模態大語言模型架構:作為模型的基礎能力支撐。
- 統一強化學習策略:核心訓練技術,通過共享獎勵實現生成與編輯任務的協同優化。
- 編輯指令對齊機制:一種針對性的后訓練技術,用于微調并增強模型的指令遵循能力。
達到的效果
- 性能領先:在GenEval和ImgEdit等權威基準測試中取得了具有競爭力的分數(分別為0.89和4.31),綜合性能超越了BAGEL等先進開源模型,并與GPT-Image-1等頂尖閉源模型性能相當。
- 全面卓越:在圖像生成(顯著超越BLIP3o)、圖像編輯(與GPT-Image-1持平)和圖像理解(與Show-o2性能相當)多項任務上均展現出業界領先的競爭力。
- 能力融合:成功在一個統一模型中解鎖并協同增強了圖像理解、生成與編輯三大核心能力。
方法
架構
本文在預訓練大語言模型Qwen2.5-7B基礎上構建UniGen-1.5,并分別采用獨立的編碼器處理理解與生成任務。如下圖2所示,視覺生成任務使用離散視覺分詞器MAGViTv2 ,視覺理解任務則采用連續視覺編碼器SigLIP2。


預訓練

監督微調
在監督微調階段,通過更強化的數據混合方案提升UniGen-1.5的生成與理解性能,并通過聯合訓練激發其圖像編輯能力。
圖像生成與編輯。 采用前文中介紹的架構進行圖像生成與編輯。受前人工作的啟發,本文通過添加BLIP-3o和ShareGPT-4o-Image提出的高質量樣本擴展訓練數據。同時,通過引入來自ShareGPT-4o-Image和GPT-Image-Edit-1.5M的圖像編輯數據解鎖編輯能力。

聯合SFT訓練。 與預訓練階段類似,本文在每個訓練步驟中同步優化生成(文本到圖像生成或圖像編輯)、圖像理解和文本理解三項任務,訓練樣本比例設置為3:4:1。實踐中,本文交替使用文本到圖像生成和圖像編輯任務的輪詢采樣以提高訓練穩定性。經過此聯合SFT訓練后,UniGen-1.5即具備新的圖像編輯能力。
編輯指令對齊
在強化學習的初步實驗中,發現對于具有挑戰性的編輯指令,模型生成的候選圖像往往全部無法滿足指令要求,導致獎勵值的標準差過小。在此情況下,GRPO獲得的學習信號較弱,難以有效改進策略。本文將此問題歸因于模型對復雜編輯指令的理解能力不足,因而無法準確推斷輸出圖像的語義內容。
為緩解此問題,本文引入編輯指令對齊作為后SFT階段,以增強編輯指令與期望輸出語義內容之間的對齊。如下圖3所示,UniGen-1.5以條件圖像和編輯指令作為輸入,通過預測預期輸出圖像的文本描述進行優化——這構成了通往最終視覺生成的關鍵橋梁。該過程使模型能更準確地理解編輯意圖,從而在RL階段生成語義連貫且多樣化的候選圖像,并提供信息豐富的學習信號。

強化學習
本文通過采用分組相對策略優化(GRPO)的強化學習階段來提升UniGen-1.5的整體視覺生成質量。盡管系列研究已證明GRPO在提升文本到圖像生成性能方面的有效性,但其對更廣義視覺生成(如圖像編輯)的影響仍待探索。在UniGen-1.5中提出統一文本到圖像生成與圖像編輯的RL訓練(下圖4)。具體而言,通過測量圖像與其對應文本描述間的語義對齊度來評估兩類任務輸出圖像的質量。


實驗
實現細節
本文使用預訓練Qwen2.5-7B LLM初始化UniGen-1.5,采用來自Show-o的MAGVITv2作為離散視覺編碼器(輸入分辨率384×384),以及siglip2-so400mpatch16-naflex作為連續視覺編碼器以支持原生圖像分辨率。對于圖像生成和編輯,本文利用MAGVITv2解碼器將視覺令牌投影回像素空間。所有訓練階段中離散與連續編碼器均保持凍結。

推理階段遵循MaskGIT使用余弦掩碼調度,默認生成步數設為50。此外,本文按照慣例采用無分類器引導尺度:文本到圖像生成的引導尺度設為5.0。對于圖像編輯,本文通過以下方式構建帶無分類器引導的生成過程:


主要結果
本文在下表1、下表2和下表3中將 UniGen-1.5 與最先進的統一 MLLM 進行比較,并根據實驗結果總結出以下發現:
首先,UniGen-1.5 在圖像編輯基準測試中獲得了有競爭力的性能。如表1所示,UniGen-1.5 在 ImgEdit 上展示了最先進的性能。在不借助外部擴散模型的情況下,UniGen-1.5 以顯著優勢領先該基準測試,其總體得分大幅超過 BAGEL 和 OmniGen2 等類似模型規模的最新模型。值得注意的是,UniGen-1.5 甚至取得了略優于 GPT-Image-1 的性能。
其次,UniGen-1.5 在文本到圖像生成基準測試中取得了優異的性能。UniGen-1.5 在 GenEval 和 DPG-Bench 上的最終得分分別為 0.89 和 86.83。與 UniGen 相比,在 GenEval 上提高了 0.11,在 DPG-Bench 上提高了 1.6。UniGen-1.5 在 GenEval 上也擊敗了一系列最先進的統一 MLLM,尤其是在"位置"類別上。例如,UniGen-1.5 在總分上顯著優于 Show-o2、BLIP3-o 和 BAGEL,分別高出 0.13、0.05 和 0.07 分。在 DPG-Bench 上,UniGen-1.5 大幅超越 BLIP3-o 超過 5 分。
第三,UniGen-1.5 有效改進了 UniGen 在理解基準測試上的表現。如表3所示,UniGen-1.5 在所有基準測試上均顯著提升了 UniGen 的性能。本文將這些改進歸因于三個方面:1) 本文將模型規模擴展到 7B,增強了統一 MLLM 的整體能力;2) 本文提高了輸入圖像的分辨率并保持原始寬高比,這有利于保留圖像的原始信息;3) 本文執行了基于理解的預訓練,緩解了生成和理解訓練目標之間的不匹配。當與類似規模的其他強大統一 MLLM 比較時,UniGen-1.5 仍然展現出有競爭力的性能,在大多數基準測試上取得了優于 UniToken、MUSE-VL 和 MMaDA 的分數,并與 Show-o2 持平。


消融實驗結果
統一 RL 的影響
RL(GRPO)階段顯著改善了圖像生成和編輯任務。對比下表4中第一行和最后一行,本文觀察到 RL 階段帶來了顯著提升,所有三個基準測試均有明顯進步(GenEval 從 0.85 提升至 0.89,DPG-Bench 從 84.19 提升至 86.83,ImgEdit 從 3.93 提升至 4.31)。本文在圖5中也展示了定性比較。對于文本到圖像任務,UniGen-1.5 在計數(第一個示例)、位置(第二個示例)和形狀(第三個示例)等多種場景下,展示了文本提示與生成圖像之間更好的語義對齊。對于圖像編輯,本文觀察到 UniGen-1.5 在經過 GRPO 后對條件圖像實現了更精細的控制。例如,它成功實現了 GRPO 之前未能完成的"讓貓坐起來"(第一個示例)和"提取玻璃瓶"(最后一個示例)。此外,本文認為 GRPO 并未導致理解性能下降。

在 RL 階段移除文本到圖像或圖像編輯任一任務均會導致性能顯著下降。當在 RL 階段丟棄圖像編輯任務時,圖像生成基準測試(GenEval 和 DPG-Bench)的結果與完整 UniGen-1.5 相當,但 ImgEdit 基準測試得分大幅下降(上表4第2行 vs 第4行)。當在 RL 訓練中移除文本到圖像任務時,本文觀察到文本到圖像生成性能顯著下降。同時保留兩項任務可獲得最佳整體性能。
編輯指令對齊的影響
編輯指令對齊是RL階段的重要前置步驟。本文首先通過比較SFT階段的結果來評估添加此階段的效果。如下表5所示(第1行 vs 第2行),即使在RL階段之前,添加編輯指令對齊也能提升所有三個基準測試的性能,這表明該階段具有普遍優勢。

編輯指令對齊的影響在RL階段被放大。如上表5所示(第3行 vs 第4行),添加編輯指令對齊階段對RL后的圖像編輯至關重要。若無此階段,UniGen-1.5通過RL在ImgEdit上僅提升0.21分(第1行 vs 第3行)。受益于該階段帶來的精細化語義對齊,RL實現了0.38分的更大增益(第2行 vs 第4行)。
結論
UniGen-1.5 ——一個在圖像理解、生成與編輯任務中均取得競爭力的統一MLLM。基于UniGen框架,UniGen-1.5通過增強模型架構擴展至圖像編輯支持,并通過設計的編輯指令對齊階段進一步優化。本文還提出統一RL策略,通過共享獎勵模型聯合優化生成與編輯,在保真度與可控性上獲得顯著提升。大量實驗表明,UniGen-1.5在圖像理解、文本到圖像生成和圖像編輯的廣泛基準測試中達到最先進水平,為推進統一MLLM的未來研究建立了強大可擴展的基線。
局限性。 首先,UniGen-1.5在渲染文本內容方面能力不足(圖A首行)。本文的模型側重于改進文本指令與離散視覺令牌間的語義對齊,且僅使用輕量級視覺解碼頭進行圖像重建,這導致在生成文本(極度依賴保留細粒度結構細節)方面存在劣勢。本文相信在框架中集成基于擴散的組件能有效解決此局限。其次,UniGen-1.5仍存在視覺不一致性問題(圖A末行),這是圖像編輯任務的關鍵挑戰。需要在RL階段采用專用獎勵模型來強化視覺一致性。
本文轉自AI生成未來 ,作者:AI生成未來

















