北大、字節、中科院自動化研究所等提出圖像并行生成新范式
讓多模態AI學會思考,反而會把圖畫錯了,這個反直覺的現象揭示了當前思考生成模型的缺陷。
北京大學,字節跳動,普林斯頓大學,中國科學院自動化研究所,芝加哥大學提出了讓圖像并行生成的新范式。


在人工智能的進化圖譜中,讓模型在行動前先思考,曾被視為通向更高智能的必經之路。
大語言模型中的思維鏈(CoT)技術已經無數次證明:通過拆解步驟、顯式推理,模型處理復雜任務的能力會呈指數級上升。
這一邏輯很自然地被遷移到了多模態領域——在生成或編輯圖像之前,讓模型先生成一段文本推理,規劃好要畫什么、怎么改,理論上應該能得到更精準的結果。
然而,該研究發現了一個令人不安的事實:在涉及世界知識推理的復雜指令下,這種先思考、后作畫的模式,反而降低了生成圖像的語義保真度。
問題出在順序二字上。
目前主流的多模態模型,大多采用自回歸(Autoregressive, AR)架構。這種架構就像一條單向流動的流水線:先由文本模塊吐出推理文字,再將這些文字作為上游原料投喂給圖像生成模塊。
這種機制隱含著一個巨大的風險——誤差傳播。
一旦上游的推理文本出現哪怕一絲微小的偏差,比如對背景紋理的描述過于冗長,或者對主體特征的定義稍顯模糊,下游的圖像生成模塊就會拿著錯誤的圖紙全力施工。

看上圖中的案例,用戶要求將山替換為富士山。現有的SOTA模型Bagel雖然開啟了思考模式,但它的推理過程跑偏了,花費大量筆墨去描述背景的碎石紋理。
結果,圖像生成模塊忠實地執行了這一跑偏的指令,最終生成的圖像里根本沒有富士山,只有一堆亂石。
原本用來輔助生成的思考,變成了干擾生成的噪聲。
這一發現動搖了當前多模態研究的一塊基石。
為了系統性地解決這個問題,研究團隊并沒有在舊有的自回歸路線上修修補補,而是推倒重來,提出了一種全新的并行多模態擴散框架——MMaDA-Parallel。
它不再讓文本和圖像排隊通過,而是讓它們在同一個時間維度上并行生長,通過雙向注意力機制實時互校。
這是一種生成哲學的轉變:真正的多模態協同,不是接力跑,而是雙人舞。
診斷新標尺:ParaBench基準的構建邏輯
在解決問題之前,必須先精準地量化問題。
現有的多模態基準測試存在一個盲區:它們通常只看結果,不看過程。
評測標準往往是將最終生成的圖像與初始的提示詞進行比對。這種端到端的評估方式,完全忽略了中間那個至關重要的變量——推理文本。
如果推理文本本身就是錯的,那么圖像生成得再精美也是徒勞;如果推理文本是對的,但圖像沒跟上,那是生成模塊的鍋?;煸谝黄鹂?,永遠找不到病根。
為了剝離出真相,研究團隊構建了ParaBench。
這是一個專門為評估思維感知(Thinking-Aware)生成而設計的診斷級基準。
ParaBench并未追求海量的數據規模,而是追求極致的難度與精度。它包含300個精心設計的提示詞,分為兩大陣營:
- 200個編輯任務:涵蓋增加、移除、替換等操作,但不僅限于此,更包含了需要深層邏輯推理的復雜編輯。
- 100個生成任務:專注于開放式、創造性的復雜場景合成。
這個基準引入了一個被稱為AI法官的評估機制,利用GPT-4.1從六個細粒度維度進行裁決:
- 文本維度:文本質量、文本對齊。
- 圖像維度:圖像一致性、圖像對齊、圖像質量。
- 核心維度:輸出對齊(Output Alignment)。
輸出對齊是ParaBench的靈魂。
它不看別的,專門盯著模型生成的推理文本和最終圖像看。它要回答的問題是:你畫出來的東西,和你嘴里說的邏輯,是一回事嗎?
利用ParaBench對當前最先進的開源模型Bagel進行體檢,結果驗證了研究團隊的猜想。

這說明,性能的退化不是圖像生成能力的缺失,而是圖文協同的斷裂。
在順序生成的舊范式下,模糊或錯誤的推理就像是給瞎子指路,直接導致了后續生成的災難。
并行擴散:重構時空交互的底層架構
既然順序排隊是萬惡之源,那就讓它們并排走。
MMaDA-Parallel的核心,是基于離散擴散(Discrete Diffusion)的并行架構。
想象一下拼圖。
傳統的自回歸模型拼圖,是先寫好一張說明書(文本),然后按照說明書從左上角開始,一塊一塊地拼出畫面(圖像)。
MMaDA-Parallel的拼圖方式是:說明書和畫面同時出現在桌面上,一開始都是模糊的碎片。在拼湊的過程中,文字碎片會參考圖像碎片的形狀,圖像碎片也會參考文字碎片的含義。
每一秒鐘,文字和圖像都在互相確認、互相調整。
為了實現這種全雙工的交互,MMaDA-Parallel在底層數據表示上做了一個大膽的統一。
它將文本和圖像全部Token化。
文本使用了LLaDA分詞器,圖像使用了MAGVIT-v2量化器。
在模型眼中,無論是描述顏色的單詞Red,還是代表紅色的像素塊,本質上都是離散的數字Token。
這些Token被扔進同一個序列中,形成了一個交錯的隊列。
為了區分身份,模型引入了特殊的標記符:<|task|>定義任務,<|soi|>和<|eoi|>標定圖像邊界,<|thinkgen|>和<|thinkedit|>則明確告訴模型,現在是生成模式還是編輯模式。
這種統一表示帶來了一個巨大的優勢:雙向注意力(Bidirectional Attention)。
在傳統的Transformer架構中,注意力掩碼通常是下三角矩陣,意味著現在的Token只能看之前的Token。
而在MMaDA-Parallel中,注意力是全向的。
在去噪的任何一個時間步,文本Token可以看見所有的圖像Token,圖像Token也可以看見所有的文本Token。
這徹底消除了順序生成帶來的暴露偏差(Exposure Bias)。
圖像不再被動地等待文本指令,文本也不再需要憑空臆造畫面細節。兩者在生成過程中互為錨點,共同演進。

為了訓練這個龐大的并行網絡,研究團隊設計了一套精密的訓練目標。
這是一個聯合掩碼Token預測器。
在訓練時,輸入部分保持靜止,只有輸出部分(包括推理文本和目標圖像)會被隨機掩蓋(Mask)。模型的任務是根據上下文,預測出那些被蓋住的Token原本是什么。
這里有一個極具工程智慧的細節:時間步相關的損失權重。
文本和圖像的學習難度是不一樣的。為了平衡兩者的動態,研究團隊給它們分配了不同的權重函數。圖像Token的權重恒定為1,而文本Token的權重被設定為1/t。
這意味著在去噪初期(t較大時),文本的權重較小;隨著去噪接近尾聲(t變小時),文本的權重逐漸增加。
這種動態調整極大地穩定了訓練過程,避免了某一模態主導梯度,確保了模型能同時學會說話和畫畫。
雙調度器,在軌跡中尋找語義共鳴
雖然在架構上實現了并行,但文本和圖像畢竟是兩種屬性截然不同的數據。
文本是高度語義化的,一個詞錯了,整句話的意思可能就變了;圖像是高度冗余的,幾個像素錯了,肉眼可能根本看不出來。強行讓它們用完全相同的節奏去噪,并不是最優解。
MMaDA-Parallel為此引入了雙調度器(Dual Schedulers)機制。
在解碼過程中,模型沿著一條共享的時間軸前進,但在每個時間點,文本和圖像的揭示速度是不同的。
- 文本調度器:采用全線性揭示策略,結合半自回歸的置信度解碼。這符合文本生成的邏輯性,需要一定的順序感來保證語法的連貫。
- 圖像調度器:采用余弦揭示策略,結合全局置信度解碼。這符合圖像生成的整體性,往往是先確立大輪廓,再填充細節。
盡管節奏不同,但在每一步反向去噪時,模型都會聯合預測所有當前被掩蓋位置的分布。即便文本只揭示了30%,圖像揭示了50%,已揭示的部分依然可以通過全向注意力機制,為對方未揭示的部分提供線索。
這種設計巧妙地保留了各模態的生成特性,同時在全局層面實現了信息的實時互通。
僅有并行的架構和監督微調(SFT),還不足以達到完美的跨模態對齊。
傳統的強化學習(RL)優化通常只看結果。
模型生成完一張圖,評判給個分,告訴模型好或不好。這種輸出級(Output-level)的反饋太粗糙了。它就像是一個老師,只在期末考試給學生打個分,平時完全不管學生的解題步驟。
對于并行生成而言,真正的魔鬼隱藏在過程之中。
研究團隊在分析微調后的模型時,發現了一個迷人的現象:語義同步(Semantic Synergy)。
當模型被要求將一件襯衫改成彩虹色時,在去噪的中間某個步驟,文本中出現紅、黃、藍這些單詞的瞬間,圖像中對應區域的像素塊也開始呈現出色彩傾向。
這說明,跨模態的對齊不是在最后才發生的,而是在生成的軌跡(Trajectory)中逐步建立的。
基于這一洞察,并行強化學習(ParaRL)應運而生。
ParaRL不做期末考試,它做隨堂測驗。它不再僅僅獎勵最終的成品,而是將獎勵信號滲透到了去噪的每一個步驟中。
這是一個巨大的計算挑戰。如果對每一步都計算獎勵,計算量將是天文數字。ParaRL采用了一種稀疏優化策略。在每次訓練迭代中,它隨機抽取幾個關鍵的時間步(例如s=3),只計算這些時刻的對齊度。

但問題來了:中間步驟生成的往往是半成品,不僅圖像模糊,文本也是殘缺的。如何評價半成品的質量?
研究團隊發現,即使是部分解碼的Token,也蘊含了足夠的語義信息。通過計算這些中間態文本與中間態圖像的語義對齊度(Semantic Alignment),可以直接作為獎勵信號。
為了讓這個信號穩定可用,研究者沒有直接使用原始的CLIP分數(因為方差大且數值不穩定),而是設計了一套基于統計的歸一化方案。
他們先統計訓練數據中CLIP分數的均值和方差,然后將實時計算的分數進行標準化(Standardization),并截斷映射到[0, 1]區間。
這樣一來,模型在生成的每一步都能收到清晰的反饋。
這種密集且即時的獎勵機制,比傳統的稀疏獎勵強大得多。它迫使模型在整個生成軌跡中始終保持圖文一致,徹底根除了說到做不到的頑疾。
15萬條數據,刷新SOTA
沒有高質量的數據,再好的算法也跑不起來。
現有的公開數據集,要么只有圖文對,要么只有簡單的指令,缺乏MMaDA-Parallel所需的推理痕跡(Reasoning Trace)。
為了解決這個問題,研究團隊構建了一個包含15萬(150K)條數據的高質量訓練集。
數據構建的過程本身就是一個工程樣板。他們首先從現有的多個圖像編輯和生成基準中匯集原始數據(輸入圖像、指令、輸出圖像)。然后,利用多模態大模型Qwen-2.5-VL作為老師,逆向生成對應的推理過程。
但這還不夠。生成的推理可能質量參差不齊。團隊實施了嚴格的過濾機制,剔除那些推理邏輯不通或與圖像不符的樣本。最終形成的四元組數據Let <輸入圖像, 指令, 推理痕跡, 輸出圖像>,成為了訓練MMaDA-Parallel的燃料。
在ParaBench基準測試中,MMaDA-Parallel擊敗同是思考模型的Bagel。

最關鍵的指標輸出對齊(Output Alignment),在經過ParaRL優化后達到了59.8分,相比之前的SOTA模型Bagel(52.9分),提升幅度高達6.9%。
更令人印象深刻的是,MMaDA-Parallel是在相對較小的數據規模上達成這一成就的。Bagel的訓練數據量比它大三個數量級。這證明了并行架構和軌跡級優化在數據效率上的碾壓性優勢。
定性對比則更加直觀。

看上圖中的融化蛋糕案例。
指令要求展示蛋糕在烈日下融化。
Bagel模型的推理雖然提到了光影,但生成的圖像僅僅是讓蛋糕表面變亮了一點,看起來像個塑料模型,完全沒有物理形態的改變。因為它無法理解融化這個物理過程在視覺上意味著形狀的坍塌。
而MMaDA-Parallel生成的圖像,蛋糕邊緣呈現出真實的流淌感,巧克力醬順著盤子滑落,光澤感不僅體現了亮度,更體現了液化的質感。
這是因為MMaDA-Parallel的推理文本中,精確地描述了失去結構、邊緣軟化等物理細節,并且這些描述在并行生成的過程中,實時地指導了像素的排列。
再比如枯萎的植物案例。
Bagel生成的植物只是顏色稍微黃了一點,葉子依然挺拔。
MMaDA-Parallel生成的植物,葉片卷曲、下垂,莖部彎折,完美地在視覺上翻譯了缺水這一生物學狀態。
在更考驗邏輯的計數任務中,Bagel經常數不清三個人或兩個鐘面,而MMaDA-Parallel憑借精準的并行對齊,能夠準確地生成指定數量的物體。
這直接得益于其在生成過程中,文本計數與圖像實體生成的實時校驗。
MMaDA-Parallel讓思考與行動不分離。通過摒棄自回歸的順序枷鎖,擁抱并行的擴散架構,并利用ParaRL在生成的每一毫秒中注入語義對齊的獎勵,讓AI告別了想得越多錯得越多。































