Open-Sora-Plan團隊最新力作UniWorld-V2:圖像編輯漲點神器,舊模型也能秒變SoTA!

論文鏈接:https://arxiv.org/pdf/2510.16888
Git 鏈接:https://github.com/PKU-YuanGroup/Edit-R1
亮點直擊
- Edit-R1框架:結合DiffusionNFT技術與預訓練多模態大模型(MLLM)構建免訓練獎勵機制,實現對擴散模型的指令驅動圖像編輯微調。
- 驗證獎勵信號優越性:證明該框架提供的獎勵信號具備更高的人類偏好對齊度,可生成穩定、低成本、低幻覺的反饋信號,有效提升訓練穩定性。
- 實證性能突破:實驗表明,該方法顯著提升UniWorld-V2、Qwen-Image-Edit和FLUX.1-Kontext等模型在多樣化編輯基準上的性能表現。


總結速覽
- 解決的問題:當前基于指令的圖像編輯模型通常依賴于監督微調訓練,這導致模型在標注模式上過擬合,限制了它們在訓練分布之外的探索和泛化能力。此外,編輯指令和任務的多樣性使得缺乏通用的獎勵模型。
- 提出的方案:引入Edit-R1框架,該框架基于策略優化,結合了擴散負面感知微調(DiffusionNFT)和多模態大語言模型(MLLM),以提供免訓練的獎勵機制,幫助解決模型在不同指令環境下的泛化問題。
- 應用的技術:使用了DiffusionNFT技術,這是一種無似然的策略優化方法,能夠兼容流匹配前向過程,允許使用更高階的采樣器以提高訓練效率。同時,采取多模態大語言模型(MLLM)作為統一的、免訓練的獎勵模型,利用其輸出logits提供細致反饋。此外,設計了低方差群體過濾機制,以降低MLLM評分的噪聲并穩定優化過程。
- 達到的效果:通過Edit-R1框架訓練的UniWorld-V2模型在ImgEdit和GEdit-Bench基準上取得了最先進成績,分別得分4.49和7.83。該框架與模型無關,展示了在不同基礎模型(如Qwen-Image-Edit和FLUX-Kontext)上的顯著性能提升,證明了其廣泛適用性。
方法
初步準備

無需訓練的 MLLM 評分

低標準差群體過濾


Edit-R1 的流程
為增強圖像編輯模型,利用 DiffusionNFT 并采用 MLLM 的獎勵信號。這種方法使獎勵信號普遍適用于任何編輯任務,通過政策優化生成來自同一分布的穩定獎勵,同時消除對特定領域獎勵模型的依賴。
如下圖 2 所示,該過程包括三個主要部分:采樣、MLLM 評分和擴散負關于感知微調,這三個部分逐步將模型與最優策略對齊。


實驗
數據集
本文整理了一個包含 27,572 個基于指令的編輯樣本的數據集,如下圖5所示,這些樣本來自 LAION、LexArt 和 UniWorldV1。為了增強任務多樣性,加入了額外的文本編輯和紅框控制任務,共形成九種不同的任務類型。利用在線學習模式,本文的方法僅依賴于原始圖像及其相應的編輯指令,這消除了對高質量編輯結果圖像的需求。對于 LAION 子集,使用 ImgEdit 提供的現有對象注釋和邊界框。預處理管道包括:1)過濾掉過小或過大的邊界框;2)使用 Qwen2.5-VL-32B 模型評估編輯指令的合理性。對于文本編輯任務,基于 LexArt 子集隨機更改單詞中的字符以生成訓練樣本。在紅框控制任務中,從處理后的 LAION 數據中提取一個子集,在目標對象周圍畫出紅色邊界框,并生成三種類型的編輯指令:調整、移除和替換。對于參考和提取任務,使用來自 UniWorld-V1 的高質量試穿數據。由于該數據集的多樣性有限,本文僅為這兩個任務使用 600 個樣本。

實驗設置
為了評估本文方法的有效性,本文從兩個角度進行實驗:1)不同 MLLM 評分方法與人類判斷之間的一致性,以及 2)通過本文的方法進行后期訓練后編輯模型的性能提升。
訓練 本文使用 FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509] 和 UniWorld-V2 作為基礎模型。訓練時,本文為 FLUX.1-Kontext [Dev] 分配 3 個節點,為 Qwen-Image-Edit [2509] 分配 6 個節點,為 UniWorld-V2 分配 9 個節點,每個節點包含 8 個 A100 GPU。本文在單個節點上使用 vLLM 進行 MLLM 評分。為了優化 GPU 內存利用率,在訓練 Qwen-Image-Edit [2509] 和 UniWorld-V2 時,本文為文本編碼器采用全面分片數據并行(FSDP),并使用梯度檢查點。
評估 對于定量評估,本文采用兩個綜合基準測試:ImgEdit,該測試將多種專門任務統一為一個通用框架以進行全面模型比較,以及 GEdit-Bench,該測試通過豐富的自然語言指令評估通用圖像編輯。
主要結果
本文在 ImgEdit 和 GEdit-Bench 基準上評估這些模型,以評估它們的編輯能力和泛化能力。

定量結果分別展示在下表 1 和下表 2 中,下圖 4 中展示了定性的比較。



本文的方法釋放了模型的潛力并顯著提高了其性能。 如上表 1 所示,本文的方法顯著增強了所有基礎模型在 ImgEdit 基準上的表現。對于 FLUX.1-Kontext [Dev],整體分數顯著提高,從 3.71 上升到 4.02,超過了較強的 Pro 版本(4.00)。同樣,在應用于 Qwen-Image-Edit [2509] 時,本文的方法將其分數從 4.35 提升到令人印象深刻的 4.48,實現了開源模型中的最先進性能,并超越了頂級閉源模型如 GPT-Image-1。除了總得分的提升之外,UniWorld-FLUX.1-Kontext 在“調整”、“提取”和“移除”維度上表現出顯著的性能提升,而 UniWorld-Qwen-Image-Edit則在“提取”和“混合”維度上表現優異。此外,UniWorld-V2達到了最佳性能。這一現象表明,本文的方法能夠解鎖和顯著提高基礎模型中之前未開發的潛力。
本文的方法在域外數據集上展示了強大的泛化能力。 在域外 GEdit-Bench(上表2)上,Edit-R1 為三種模型展示了強大的泛化性能。它使 FLUX.1-Kontext [Dev] 模型的總分從 6.00 提升到 6.74,表現超越了 Pro 版本(6.56)。對于 Qwen-Image 模型,其得分從 7.54 增加到 7.76。同時,UniWorld-V2在這一基準測試中建立了新的最先進水平,超越了所有列出的模型,包括 Qwen-Image-Edit(7.56)和 GPT-Image-1(7.53)。這一結果確認本文的方法有效地保留和增強了在未見數據分布上的核心編輯能力,展示了強大的泛化能力。
本文的方法在人工偏好評估中證明了其有效性。 為了全面評估,本文對 FLUX.1 和 Qwen系列進行了人工偏好研究,參與者將本文的微調模型與其基礎模型和更強大的版本進行比較。他們被要求在兩個維度上選擇最佳結果:指令對齊和圖像質量。如圖6所示,用戶在所有標準中更傾向于選擇 UniWorld-FLUX.1-Kontext 而不是 FLUX.1-Kontext [Dev]。此外,它在編輯能力上表現出較強的優勢,尤其是在與更強大的官方版本 FLUX.1-Kontext [Pro]的比較中。總體而言,UniWorld-FLUX.1-Kontext因其優越的指令遵循能力而獲得更多的喜歡,盡管官方模型在圖像質量上稍微勝出。這證實了本文的方法能夠有效地引導模型生成更符合人類偏好的輸出。

消融研究
本文進行了消融研究以驗證本文的核心組件。如下圖7所示,本文在 FLUX.1 Kontext [Dev] 上采用 DiffusionNFT 作為策略優化方法。在 ImgEdit 基準測試中,它的表現優于包括 Flow-GRPO 及其使用局部標準差的變體在內的基線。此外,如下表3所示,將 DiffusionNFT 應用于 Qwen-Image-Edit [2509] 基線模型,其在 GEdit-Bench 上的得分顯著從 7.54 提高到 7.72。引入組過濾機制后,得分進一步提升至 7.76。


分析
人類對齊。 為了驗證本文的獎勵機制選擇,本文評估了不同評分方法與人工判斷的對齊情況。結果表明,本文采用的基于 logits 的方法在所有評估的獎勵機制中,與人類偏好的相關性最高。如下表4所示,該方法實現了 74.74% 的整體配對準確率,顯著超越其他方法。此外,如下圖9所示,優越的對齊在多樣的編輯任務中是一致的。


獎勵模型擴展。 為了評估獎勵模型擴展對策略模型性能的影響,本文在相同步數下使用不同參數規模的獎勵模型對 Qwen-Image-Edit 進行微調,以便進行公平比較。如上表3所示,隨著獎勵模型規模的增加,策略模型的總體得分提高,表明擴展獎勵模型有助于性能的持續提升。
獎勵 hacking 和獎勵方差。 如下圖8(左)所示,在 3B 模型上微調的策略模型表現出顯著的獎勵 hacking,其編輯結果偏離源圖像。相比之下,在更大的 7B 模型上微調的模型緩解了這一問題。為了進一步調查,本文分析了訓練獎勵曲線,并將這一現象歸因于獎勵分數的方差。如下圖8(右)所示,本文展示了平滑的獎勵軌跡(實線)、原始獎勵波動(陰影線)和獎勵方差(氣泡大小)作為探索強度的指示。

本文觀察如下:i) 小規模模型中的獎勵 hacking:較小的獎勵模型,如 3B 和 7B,在訓練初期獎勵方差迅速縮減,表明有效探索的過早中止。ii) 大規模模型中的持續探索:相比之下,32B 模型在整個訓練過程中保持高獎勵方差,展示出持續的探索能力,即使在后期階段也能發現更優的解決方案。該現象也在另一項研究中進行了分析。這些動態表明,擴大獎勵模型可以有效減輕獎勵 hacking 并維持強有力的探索。
結論
Edit-R1,這是一個新穎的后訓練框架,旨在克服基于指令的圖像編輯模型的泛化限制。本文的核心創新是使用 MLLM 作為無訓練需求的獎勵模型,該模型直接從輸出 logits 提供細粒度、連續的反饋,并結合了高效的 DiffusionNFT,這是一種符合流匹配正向過程的無似然策略優化方法。廣泛的實驗表明,本文的框架通過顯著提升各種基礎模型(包括 UniWorld-V2、FLUX.1-Kontext 和 Qwen-ImageEdit),在 ImgEdit 和 GEdit-Bench 上達到了最先進的性能。本文的分析證實,由 MLLM 得出的獎勵信號與人類偏好高度相關,有效地引導模型輸出更高質量的結果,同時減輕獎勵 hacking。
本文轉自AI生成未來 ,作者:AI生成未來

















