文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”


文章鏈接:https://arxiv.org/pdf/2511.09611
代碼鏈接:https://github.com/tyfeld/MMaDA-Parallel
亮點直擊
- 深入的基準測試與分析:ParaBench,一個新的基準測試,旨在系統性地評估“思考感知”型圖像生成與編輯任務。它不僅關注最終生成的圖像和文本的質量,更核心的是評估兩者之間的對齊程度。
- 并行的多模態擴散框架:提出了一個純粹基于離散擴散的并行框架,用于“思考感知”型的圖像編輯與生成。該框架允許文本和圖像兩種模態在每一個去噪步驟中進行雙向的注意力交互,從而有效緩解了自回歸(AR)順序生成流程中固有的錯誤累積問題。
- 并行強化學習(ParaRL):引入了一種新穎的并行強化學習策略 ParaRL。該方法沿著整個去噪軌跡分配語義獎勵,而不是僅僅獎勵最終結果,從而進一步增強了輸出模態之間的一致性和整體性能。
- 全面的評估與最先進的對齊效果:通過廣泛的實驗,本文驗證了該框架的有效性。在 ParaBench 基準測試中,與現有技術(SOTA)模型 Bagel 相比,本工作在“輸出對齊”指標上取得了 6.9% 的顯著提升,同時在單模態指標上保持了相當的性能,為“思考感知”型圖像合成建立了一個更穩健的范式。
解決的問題
在“思考感知”型的生成任務中,模型會先生成一步推理(即“思考過程”),然后基于這個推理來生成或編輯圖像。盡管這種方法在很多情況下能提升效果,但本文發現了一個關鍵的失敗模式:在某些復雜任務中,預先進行的推理反而會導致最終圖像的語義保真度下降。
這個問題源于現有方法大多采用順序、自回歸的生成流程。在這種流程中,推理文本的任何模糊、不準確或錯誤都會被傳遞并放大到后續的圖像生成階段,導致最終生成的圖像與用戶的核心指令產生偏差。現有的評估基準只關注最終圖像,忽略了中間推理步驟的質量及其與最終圖像的對齊性,因此無法定位和解決這一問題。
提出的方案
為了解決上述問題,提出了一個并行的多模態擴散框架 MMaDA-Parallel,并輔以一種新穎的訓練策略 ParaRL。
- MMaDA-Parallel 框架:
- 并行生成:與先生成文本再生成圖像的順序模式不同,該框架讓推理文本和目標圖像在統一的擴散過程中同時、并行地生成。
- 雙向交互:在每個去噪步驟中,文本和圖像的 token 之間都可以進行雙向的注意力交互。這意味著文本的生成可以隨時參考正在形成的圖像特征,反之亦然。這種持續的跨模態“協商”機制避免了單向的錯誤傳播。
- 并行強化學習(ParaRL):
- 軌跡級優化:傳統的強化學習只在生成過程的最后一步(即最終輸出)計算獎勵。ParaRL 的創新之處在于,它在去噪過程的多個中間步驟都計算獎勵信號。
- 語義對齊獎勵:獎勵信號直接來源于中間步驟生成的文本和圖像之間的語義對齊度(例如,通過 CLIP 分數衡量)。通過在整個生成軌跡上持續強化這種對齊,模型能夠學會生成內部一致性更強的多模態內容。
應用的技術
- 離散擴散模型(Discrete Diffusion Models):框架的基礎。文本(通過 LLaDA tokenizer)和圖像(通過 MAGVIT-v2 quantizer)都被統一表示為離散的 token 序列,使得單一的擴散模型可以同時處理兩種模態。
- 交錯序列與雙向注意力(Interleaved Sequence & Bidirectional Attention):將輸入和輸出的文本與圖像 token 排列在一個單一的序列中,并使用特殊標記(sentinels)分隔。這使得模型可以在一個統一的上下文中進行全面的雙向跨模態注意力計算。
- 并行去噪與雙重調度器(Parallel Denoising & Dual Schedulers):在解碼(采樣)過程中,模型在一個共享的時間軸上并行去噪。但針對文本和圖像兩種模態,分別采用了不同的掩碼調度器(masking schedulers)——文本采用線性揭示調度,圖像采用余弦揭示調度——以適應它們各自的生成特性。
- 基于 GRPO 的強化學習:ParaRL 的實現基于 Group Relative Policy Optimization (GRPO) 目標函數,并對其進行了調整以適應擴散模型的非自回歸特性和軌跡級獎勵的設定。獎勵函數基于歸一化后的 CLIP 分數,以確保訓練的穩定性。
達到的效果
- 顯著提升跨模態對齊性:在ParaBench 基準上,MMaDA-Parallel(結合 ParaRL)在所有開源模型中取得了最高的“輸出對齊”(Output Alignment)分數(59.8%),相比之前的 SOTA 模型 Bagel(52.9%)提升了 6.9%。
- 保持高質量的單模態輸出:在提升對齊性的同時,模型在文本質量和圖像質量等單模態指標上與 Bagel 表現相當,盡管 Bagel 的訓練數據量要大得多。
- 驗證了并行框架與軌跡優化的優越性:消融實驗證明:
- 與順序生成基線相比,并行解碼能顯著提高輸出對齊性。
- 與只在最終輸出應用獎勵的傳統強化學習相比,本文提出的軌跡級優化(ParaRL)能帶來更穩定和更顯著的性能增益。

圖 2:MMaDA-Parallel 支持并行、感知思維的圖像編輯和生成。與 Bagel 相比,MMaDA-Parallel 的推理質量更高,生成的文本和圖像輸出之間的一致性也更強。
MMaDA-Parallel
關于“思考感知”型合成的發現與基準測試
為了研究預生成推理是否真正能提升性能,本文在圖像編輯任務上進行了一項對照研究,因為這類任務比單純的圖像合成提供了更清晰的、基于指令的評估。從已有的基準測試中采樣輸入,并使用 Bagel——一個支持“思考感知”型生成的先進開源統一模型——在開啟和關閉“思考”功能兩種模式下生成成對的輸出。在圖 1(c) 和表 1 中報告了在 Kris-Bench上的平均編輯評估指標。

圖 1:順序與并行思維感知圖像合成。(a) 順序生成(Bagel、GPT4o)可能存在推理模糊或錯誤的問題。(b) 平行生成可在每個去噪步驟中調整文本和圖像,從而減少幻覺和錯誤。(c) 定量比較顯示推理會降低某些類別的性能。(d) 較差的類別也表現出較弱的推理-圖像對齊,突出了加強跨模態對齊的必要性。

發現。雖然推理步驟在大多數任務上提升了性能,但也出現了一個顯著的反常趨勢:在相當一部分(約 23%)的案例中,性能反而下降了,尤其是在復雜的組合編輯任務中。更深入的分析表明,這些失敗通常源于低質量或模糊的推理文本,這些文本誤導了圖像生成過程。這暴露了現有評估協議中的一個關鍵缺陷:它們只評估最終的圖像,卻忽略了作為另一種生成模態的中間推理的質量。
混合模態的基準測試。這一分析揭示了當前評估范式的一個根本局限性:現有的基準只評估圖像,忽略了推理本身的質量及其與圖像的一致性。為了解決這一差距,本文引入了 ParaBench,這是一個專為全面評估“思考感知”型圖像合成而設計的新基準。ParaBench 包含 300 個具有挑戰性的提示,其中 200 個用于編輯,100 個用于生成。編輯提示經過精心策劃,用以測試廣泛的能力,不僅涵蓋常規操作(如添加、移除、替換),還包括需要推理的復雜任務。100 個生成提示則專注于復雜場景的開放式創意合成。本文使用 GPT-4.1 在六個細粒度維度上對模型在 ParaBench 上的表現進行評估:對于文本輸出,評估文本質量和文本對齊;對于視覺輸出,評估圖像質量、圖像對齊和圖像一致性;最后,評估兩者間的整體輸出對齊。
為了展示 ParaBench 的診斷能力,將其應用于一個代表性的基線模型 Bagel。雖然完整的量化結果在附錄 A 中呈現,但表 1 通過關注兩個關鍵指標——文本質量和輸出對齊——突顯了一個重要發現。結果顯示,推理步驟的質量與最終性能之間存在明確的相關性。值得注意的是,那些表現下降的類別,其推理質量和推理-圖像協同性也同樣遭受了顯著的下降。這種模式強烈表明,糟糕的推理不僅未能提供有益的指導,反而主動地誤導了生成過程,從而驗證了明確提升文本與圖像生成協同性的必要性。
關于并行多模態擴散的動機。本文的基準測試結果揭示了當前“思考感知”型生成的一個關鍵限制:順序生成范式(即推理先于圖像合成)創建了一種剛性的依賴關系,這可能傳播錯誤并限制跨模態協同。當推理質量下降時,它會直接損害后續的圖像生成,正如在空間和時間編輯任務中觀察到的相關性能下降所證明的那樣。為了解決這個根本問題,本文提出了一個并行的統一多模態擴散框架,該框架能夠同時生成推理文本和圖像,從而促進真正的多模態協作,并消除順序方法中固有的錯誤傳播。
基礎算法與架構
離散擴散模型已在圖像和文本生成任務中展現出強大的性能。基于統一的離散擴散視角,MMaDA證明了單一的擴散框架可以聯合建模多種模態;然而,其解碼過程在不同模態間仍然是順序的。為了克服這一限制,本文提出了一個并行的多模態擴散框架,該框架:(i) 將所有模態表示為離散的 token,(ii) 將它們排列在一個帶有雙向注意力的交錯序列中,以及 (iii) 采用一個跨模態共享的單一掩碼預測器,從而實現文本和圖像的同步去噪。該框架的概覽如圖 3 所示。

圖 3:并行生成架構:在(a)訓練期間,圖像和文本響應被屏蔽,并使用統一屏蔽預測器并行預測,屏蔽令牌似然目標對其進行了優化。在(b)采樣期間,模型執行并行解碼,聯合生成圖像和文本響應,從而實現高效的多模態響應生成。
交錯的離散序列布局。遵循 MMaDA 框架,本文在一個統一的離散 token 空間內處理文本和圖像。具體來說,本文使用 LLaDA tokenizer對文本進行分詞,并使用一個預訓練的 MAGVIT-v2量化器將圖像編碼為離散視覺 token 網格。這些被 token 化的模態隨后被序列化為一個單一的交錯序列,使用明確的分隔符(sentinels)和任務標簽來實現完全的雙向跨模態注意力:
輸入: <|task|><|soi|>[img]<|eoi|><|bos|>[text]<|eos|>
輸出: <|soi|>[output img]<|eoi|><|bos|>[output text]<|eos|>在訓練期間,本文將輸入和輸出模板拼接成一個單一序列,允許模型在一個統一的上下文中從輸出關注到輸入。任務 token ??<|task|>??? 根據不同場景被實例化為不同形式,??<|thinkgen|>??? 用于“思考感知”型生成,??<|thinkedit|>?? 用于“思考感知”型編輯。這種單序列設計消除了自回歸跨模態流程所引入的順序不對稱性和曝光偏差。

使用并行強化學習進行后訓練
用于并行合成的監督式微調。本文方法中的一個關鍵挑戰是,現有的生成和編輯數據集缺乏并行合成框架所需的推理軌跡。為了解決這個問題,本文首先通過聚合來自不同來源的樣本來構建一個合適的訓練數據集。對于每個包含輸入圖像(用于編輯任務)、指令和最終輸出圖像的樣本,本文使用一個多模態大語言模型(在本文的實現中為 Qwen-2.5-VL)來生成相應的推理軌跡。關于數據集構建過程的更多細節,包括來源和類別,詳見附錄 F。然后,本文使用這個數據集對 MMaDA進行監督式微調。這個過程將其改造為一個能夠執行“思考感知”型合成的并行變體,其中推理和生成是同時發生的。
去噪軌跡上的協同效應。在分析微調后模型的生成結果時,本文觀察到某些語義概念在中間的去噪步驟中,會同步地出現在文本和圖像中。如圖 5 所示,當任務是把一件襯衫變成“鮮艷的彩虹色”時,具體的顏色詞匯和它們對應的視覺特征會在同一個時間步出現。這一觀察引出了一個關鍵洞見:跨模態對齊并非一個終點現象,而是在整個生成軌跡中逐步建立的。這意味著,對這些中間步驟施加監督,而不僅僅是最終輸出,可以進一步改善這種對齊。

圖 5:抽樣的協同作用。根據提示"將藍色襯衫換成鮮艷的彩虹色",文字和圖像中的特定顏色解碼在同一步驟中出現
使用軌跡優化的并行強化學習。基于這一洞見,本文進一步引入了并行強化學習(ParaRL),這是一種新穎的訓練范式,它直接利用了這種中間步驟的跨模態協同效應。ParaRL 不僅僅獎勵最終的輸出,而是將在每個去噪步驟中文本和圖像 token 之間的對齊度作為密集的獎勵信號。

軌跡獎勵設計。在典型的軌跡級優化框架中,通常需要一個訓練良好的過程獎勵模型(PRM)或價值函數,因為中間的部分輸出通常缺乏足夠的語義信息來進行可靠的評估。令人驚訝的是,在本文的并行文圖生成設置中,本文發現中間的片段已經具有語義意義。例如,即使是部分解碼的文本 token 通常也足以揭示語義線索,從而可以計算與同時生成的圖像內容的對齊度,如圖 4 所示。這一觀察使本文能夠繞過對專用 PRM 的需求:本文直接使用文本和圖像之間的語義對齊作為獎勵信號。

圖 4:我們提出的并行強化學習(ParaRL)概述。ParaRL 并非只對最終去噪輸出進行操作,而是沿著整個去噪軌跡引入獎勵信號,在整個生成過程中持續強化語義一致性。

實驗
本文在自建的 ParaBench 基準上進行了主要評估,并使用 GPT-4.1 作為“裁判”來評估六個細粒度指標。MMaDA-Parallel 與多個業界領先模型進行了比較,包括 Bagel、GPT-4o、Gemini-2.5 等。


主要結果: 如表 2 所示,MMaDA-Parallel 在所有開源模型中取得了最高的輸出對齊分數,驗證了其并行解碼和軌跡級優化的有效性。盡管訓練數據量遠小于 Bagel,MMaDA-Parallel 在通用的文本和圖像質量上仍能與之匹敵。與頂尖的閉源模型(如 GPT-4o)相比,本工作顯著縮小了在對齊指標上的差距,展示了卓越的數據效率。此外,ParaRL 階段一致地提升了輸出的文圖一致性,表明軌跡級優化有效地加強了整個生成過程中的跨模態基礎。

關鍵貢獻分析: 本文通過消融實驗回答了兩個核心研究問題:
- 并行解碼是否優于順序解碼?實驗(表 3)表明,本文的并行框架在關鍵的對齊指標上顯著優于順序生成基線,驗證了并行、交互式解碼對于減少錯誤傳播和產生連貫的多模態輸出至關重要。
- 軌跡級微調是否優于輸出級微調?實驗(表 4)顯示,與僅在最終輸出計算獎勵的傳統 RL 相比,本文提出的 ParaRL(軌跡級優化)在文圖一致性和輸出對齊方面帶來了更顯著的增益,并且訓練動態更穩定。進一步分析(表 5)發現,在軌跡中采樣 3 個步驟(s=3)進行獎勵計算,是在性能和效率之間的最佳平衡點。

總結
本工作研究了一個關鍵現象,即順序的“思考感知”型模型在處理復雜任務時,可能會反常地出現性能下降。本文使用自行提出的 ParaBench 基準進行了深入分析,該基準獨特地評估了兩種輸出模態,并發現性能下降與生成模態之間的對齊度不佳有很強的相關性。為了解決這個問題,提出了一個通過監督式微調訓練的并行多模態擴散框架,并利用并行強化學習(ParaRL)——一種沿著整個去噪軌跡應用獎勵的新穎方法——對其進行進一步優化。實驗驗證了本文的方法顯著改善了跨模態對齊和語義一致性,為“思考感知”型圖像合成建立了一個更加穩健的范式。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/lwczPPuOaDJpeEgccZ6TNA??

















