圖像編輯物理真實性評估;視覺自回歸推理時擴展;圖像編輯后訓練框架,獎勵信號稀疏
PICABench: How Far Are We from Physically Realistic Image Editing?
2025-10-20|SJTU, Shanghai AI Lab, CUHK MMLab, Krea AI, BUAA, Alibaba Tongyi Lab, USTC, HKU|??53
??http://arxiv.org/abs/2510.17681v1???
???https://huggingface.co/papers/2510.17681???
???https://picabench.github.io??
研究背景與意義

隨著指令驅動的圖像編輯技術迅速發(fā)展,現(xiàn)代模型已能較好地理解復雜編輯指令并生成語義連貫的圖像。然而,當前主流研究和基準測試主要關注編輯的語義正確性和視覺一致性,忽視了物理真實性這一關鍵維度。物理真實性涉及編輯后圖像中光照、陰影、反射、折射、物體變形及狀態(tài)變化等物理效應的合理呈現(xiàn),這對提升圖像編輯的自然感和真實感至關重要。現(xiàn)有模型尚未有效處理諸如物體移除時陰影和反射的同步消失,或物體變形的物理合理性等問題,導致生成結果常顯不自然。基于此,本文提出了PICABench,一個涵蓋光學、力學和狀態(tài)轉變三大維度、細分八個子維度的物理真實性評測基準,系統(tǒng)評估圖像編輯的物理一致性,填補了現(xiàn)有評測在物理層面上的空白。
研究方法與創(chuàng)新



本文的核心創(chuàng)新在于構建了一個物理感知的圖像編輯評測體系——PICABench,并設計了配套的評估協(xié)議PICAEval及合成訓練數(shù)據(jù)集PICA-100K。具體方法包括:
- 物理真實性維度細分:將物理一致性劃分為光學(光傳播、反射、折射、光源效應)、力學(變形、因果關系)和狀態(tài)轉變(全局與局部狀態(tài)變化)三大類八個子維度,明確具體可檢驗的物理規(guī)則,便于細粒度診斷模型表現(xiàn)。
- 數(shù)據(jù)構建與指令設計:通過豐富的關鍵詞體系檢索多樣化場景圖像,人工篩選后配以多層次(淺顯、中等、明確)物理相關編輯指令,利用GPT-5擴展指令表達,確保評測覆蓋現(xiàn)實應用中常見且具挑戰(zhàn)性的物理編輯場景。
- PICAEval評估協(xié)議:采用區(qū)域標注結合基于視覺語言模型(VLM)的問答機制,針對編輯區(qū)域設計具體的物理真實性判斷問題,減少VLM評估時的幻覺和誤判,顯著提升評測的準確性和解釋性。
- 合成訓練數(shù)據(jù)集PICA-100K:基于文本到圖像和圖像到視頻生成模型,自動合成10萬條具有物理變化的視頻剪輯和對應的編輯指令,生成高質量、時序連貫的編輯樣本,用于提升模型對物理規(guī)律的學習能力。
- 模型微調策略:采用LoRA技術在大型擴散變換器模型(FLUX.1-Kontext)上進行微調,驗證了基于視頻生成的物理編輯數(shù)據(jù)對提升模型物理真實性的顯著效果。
實驗設計與結果分析



實驗涵蓋11個主流閉源及開源圖像編輯模型,使用PICABench基準和PICAEval協(xié)議進行評測。主要發(fā)現(xiàn)包括:
- 整體表現(xiàn)偏低:所有開源模型物理真實性評分均低于60%,僅少數(shù)閉源模型略超此門檻,表明當前模型仍難生成物理一致的編輯結果。
- 理解與物理真實性脫節(jié):統(tǒng)一多模態(tài)模型雖具較強視覺語言理解能力,但未能顯著提升物理一致性,提示單純理解能力不足以解決物理真實性問題。
- 提示詞細節(jié)提升表現(xiàn):隨著編輯指令從淺顯到明確,模型物理真實性得分顯著提升,說明更詳細的物理描述有助模型捕捉物理約束,但增益有限,反映模型對物理知識的內在掌握仍不足。
- 視頻合成數(shù)據(jù)有效性:基于PICA-100K數(shù)據(jù)集微調的模型在整體準確率上提升約1.7%,物理一致性指標也有所改善,驗證了視頻驅動的合成數(shù)據(jù)能有效增強模型的物理編輯能力。
- 真實視頻數(shù)據(jù)效果不佳:相比之下,使用真實視頻構建的數(shù)據(jù)集(MIRA400K)未能帶來性能提升,凸顯了合成數(shù)據(jù)在可控性和標注一致性上的優(yōu)勢。
- 評測協(xié)議與人類評價高度一致:PICAEval的問答式評估與人類偏好評價的相關系數(shù)高達0.95,表明該協(xié)議能有效反映人類對物理真實性的判斷。
結論與展望
本文系統(tǒng)揭示了當前圖像編輯技術在物理真實性方面的顯著不足,提出了一個細粒度、多維度的物理感知評測框架(PICABench),并輔以精準的問答評估協(xié)議(PICAEval)和大規(guī)模視頻驅動的合成訓練數(shù)據(jù)集(PICA-100K),為推動物理一致性圖像編輯奠定了堅實基礎。實驗驗證了視頻合成數(shù)據(jù)對提升模型物理編輯能力的有效性,同時指出現(xiàn)有方法在全局狀態(tài)變化和因果一致性等方面仍存在挑戰(zhàn)。未來工作將聚焦于擴展數(shù)據(jù)規(guī)模與多樣性,探索強化學習等后訓練策略,以及引入多圖像、多條件輸入以增強模型對復雜物理環(huán)境的適應能力,推動從語義編輯向物理真實編輯的跨越。
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
2025-10-19|TU Denmark, Pioneer Center for AI|??18
??http://arxiv.org/abs/2510.16751v1???
???https://huggingface.co/papers/2510.16751??
研究背景與意義

- 研究背景:近年來,大規(guī)模語言模型(LLMs)通過推理階段的搜索和計算擴展顯著提升性能,顯示出推理時計算(inference-time scaling)對模型表現(xiàn)的重要性。然而,將這一范式成功遷移至圖像生成領域,尤其是連續(xù)潛空間的擴散模型,效果有限,傳統(tǒng)擴散模型的搜索策略往往不優(yōu)于簡單隨機采樣。
- 研究意義:本文提出視覺自回歸模型(Visual Autoregressive Models)在離散序列空間中生成圖像,結構上類似語言模型,天然適合應用高效的搜索算法,如束搜索(beam search)。通過系統(tǒng)性實驗,驗證了視覺自回歸模型在推理時間擴展上的潛力,挑戰(zhàn)了“規(guī)模即性能”的傳統(tǒng)認知,強調模型架構對推理優(yōu)化的關鍵影響。
研究方法與創(chuàng)新

- 技術描述:
采用最新的視覺自回歸模型Infinity,利用“多尺度逐步生成”策略,將圖像分解為13個尺度的離散token序列,每個尺度的token同時生成,極大減少決策點。
結合多種驗證器(ImageReward、CLIPScore、Aesthetic Score及LLaVA-OneVision視覺語言模型)進行多維度質量評估,確保搜索過程的有效引導。
設計并比較三種搜索策略:隨機搜索、貪心令牌優(yōu)化(GTO)和束搜索,重點分析束搜在搜索空間剪枝和計算復用方面的優(yōu)勢。
- 創(chuàng)新點:
首次系統(tǒng)性地將樹搜索算法應用于視覺自回歸圖像生成,充分利用離散token空間的結構優(yōu)勢,實現(xiàn)高效的推理時間擴展。
通過多驗證器集成,解決搜索過程中“驗證器劫持”問題,平衡視覺質量與語義準確性。
詳細定義并采用功能評估次數(shù)(NFE)作為計算預算指標,精確衡量搜索策略的計算效率。
- 優(yōu)勢解釋:
離散token空間允許早期剪枝和前綴緩存,顯著降低計算復雜度,相較于連續(xù)潛空間的擴散模型,搜索效率和效果均有質的飛躍。
束搜索在探索多樣性與計算可控性間取得平衡,避免貪心策略易陷局部最優(yōu)的問題。
- 對比現(xiàn)有方法:
相較于擴散模型中搜索策略效果有限,視覺自回歸模型結合束搜索在多個基準測試中表現(xiàn)出更高的圖像質量和推理效率。
模型參數(shù)量僅為12B擴散模型的六分之一,仍能實現(xiàn)超越,突出架構與搜索算法協(xié)同優(yōu)化的優(yōu)勢。
- 理論基礎:
結合語言模型推理時間擴展的成功經驗,驗證視覺生成中離散序列結構與搜索算法的兼容性,提出架構設計應與推理優(yōu)化策略協(xié)同考慮。
實驗設計與結果分析


- 實驗設計:
基于DrawBench、T2I-CompBench++及GenEval等多樣化基準,涵蓋語義準確性、視覺美學及復雜組合任務。
采用不同搜索策略和驗證器組合,評估搜索效率與生成質量的權衡,重點關注束搜索的計算資源利用率(NFEs)與性能提升。
對比12B參數(shù)擴散模型在相同或更高計算預算下的表現(xiàn),驗證架構優(yōu)勢。
- 結果分析:
所有驗證器均顯示生成質量與計算預算呈對數(shù)增長,隨機搜索存在顯著邊際效用遞減,支持采用更高效搜索策略。
束搜索顯著優(yōu)于隨機搜索和貪心優(yōu)化,能以低于隨機搜索一半的計算資源達到更高的圖像獎勵分數(shù)。
驗證器選擇影響搜索效果:輕量級ImageReward適合屬性綁定任務,重型LLaVA-OneVision在空間推理和計數(shù)等復雜任務中表現(xiàn)更佳。
在T2I-CompBench++和GenEval的組合任務中,束搜索提升幅度明顯,尤其在空間關系和計數(shù)任務上提升超過20%,表明搜索策略顯著增強了模型的組合推理能力。
與12B擴散模型對比,2B參數(shù)的視覺自回歸模型通過束搜索實現(xiàn)更高的綜合性能,且計算效率提升超過50%,驗證了架構與搜索協(xié)同的優(yōu)越性。
結論與展望
- 總結貢獻:
本文首次系統(tǒng)驗證視覺自回歸模型在推理時間擴展上的結構優(yōu)勢,證明離散token空間結合束搜索能有效提升圖像生成質量和推理效率。
通過多驗證器策略緩解搜索過程中的驗證器劫持,確保生成圖像在語義和視覺質量上的均衡提升。
結果挑戰(zhàn)了“規(guī)模決定性能”的傳統(tǒng)觀念,強調架構設計與推理算法協(xié)同優(yōu)化的重要性。
- 分析局限:
驗證器的計算成本和能力差異限制了在不同任務中的通用性,重型視覺語言模型驗證器計算開銷較大,影響實際部署效率。
當前研究主要聚焦于靜態(tài)圖像生成,尚未擴展至視頻或更復雜動態(tài)內容生成。
- 方法展望:
未來可探索更高效且泛化能力強的驗證器設計,提升推理時間擴展的實用性與多樣性適應能力。
結合自回歸模型與擴散模型的混合架構,探索連續(xù)與離散空間搜索的協(xié)同優(yōu)化。
推廣至多模態(tài)生成任務,結合語言理解與視覺生成,進一步挖掘推理時間擴展的潛力。
深入研究動態(tài)計算預算分配策略,實現(xiàn)更智能的推理時間管理,提高計算資源利用率與生成質量的平衡。
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
2025-10-19|PKU(SZ), Rabbitpre AI|??15
??http://arxiv.org/abs/2510.16888v1???
???https://huggingface.co/papers/2510.16888???
???https://github.com/PKU-YuanGroup/UniWorld-V2??
研究背景與意義


- 圖像編輯領域的挑戰(zhàn):近年來,擴散模型在文本生成圖像(T2I)領域取得了巨大進展,但將其應用于圖像編輯時,模型需要在精準執(zhí)行指令的同時保持未編輯區(qū)域的完整性。傳統(tǒng)的監(jiān)督微調(SFT)方法容易陷入過擬合,導致模型難以泛化和執(zhí)行復雜指令。
- 現(xiàn)有方法的不足:SFT依賴大規(guī)模但多樣性不足的數(shù)據(jù),導致模型對訓練分布外的任務表現(xiàn)不佳。此外,基于策略優(yōu)化的強化學習(RL)方法雖有潛力,但現(xiàn)有基于似然估計的策略優(yōu)化存在偏差和采樣效率低的問題。
- 研究目標:提出一種高效的后期訓練框架,解決模型泛化能力不足和獎勵信號缺乏通用性的難題,提升指令驅動圖像編輯模型的表現(xiàn)和穩(wěn)定性。
研究方法與創(chuàng)新

- Diffusion Negative-aware Finetuning(DiffusionNFT):采用DiffusionNFT作為策略優(yōu)化方法,直接在擴散過程的正向流匹配目標上進行優(yōu)化,避免了傳統(tǒng)策略梯度方法中的似然估計偏差,實現(xiàn)訓練與采樣的解耦,支持使用高階采樣器,提高訓練效率和多樣性。
- 多模態(tài)大語言模型(MLLM)訓練免費獎勵模型:創(chuàng)新性地利用預訓練的MLLM輸出的token logits作為連續(xù)、細粒度的獎勵信號,避免了復雜的鏈式思考(CoT)推理和采樣帶來的計算開銷及偏差,提升獎勵的解釋性和穩(wěn)定性。
- 低方差組過濾機制:針對獎勵歸一化中低方差組帶來的噪聲放大問題,設計了基于獎勵均值和方差的過濾策略,剔除高均值低方差的樣本組,穩(wěn)定訓練過程,防止獎勵信號的誤導。
- 通用且模型無關的框架設計:Edit-R1框架適用于多種基模型(如UniWorld-V2、Qwen-Image-Edit、FLUX-Kontext),通過策略優(yōu)化與MLLM評分的結合,實現(xiàn)了跨模型的性能提升和良好的泛化能力。
實驗設計與結果分析


- 數(shù)據(jù)集構建:整合LAION、LexArt和UniWorld-V1數(shù)據(jù),構建包含九種編輯任務的多樣化指令式圖像編輯數(shù)據(jù)集,涵蓋調整、替換、移除、文本編輯等任務,支持在線學習且無需高質量編輯結果圖像。
- 評測基準:采用ImgEdit和GEdit-Bench兩個權威多任務編輯基準,結合GPT-4.1自動評測與人類偏好測試,全面評估模型的指令遵循度和圖像質量。
- 性能提升顯著:
在ImgEdit上,Edit-R1使FLUX.1-Kontext[Dev]得分由3.71提升至4.02,超越官方Pro版本;Qwen-Image-Edit[2509]從4.35提升至4.48,達到開源模型頂尖水平,甚至優(yōu)于部分閉源模型。
在GEdit-Bench上,所有基模型均表現(xiàn)出明顯提升,UniWorld-V2以8.39分刷新了該基準最高紀錄。
- 人類偏好實驗:用戶在指令對齊性和圖像質量兩個維度均更傾向于Edit-R1微調后的模型輸出,尤其在指令遵循方面表現(xiàn)突出。
- 消融研究:驗證了DiffusionNFT和組過濾機制的核心作用,獎勵模型規(guī)模的擴大顯著提升了策略模型性能,有效緩解了獎勵欺騙現(xiàn)象。
- 獎勵信號分析:基于MLLM的logit評分方法與人類判斷的相關性最高(74.74%準確率),優(yōu)于采樣和CoT方法,且在多任務中表現(xiàn)穩(wěn)定。
結論與展望
- 主要貢獻總結:
提出Edit-R1框架,結合DiffusionNFT與訓練免費MLLM獎勵模型,實現(xiàn)了指令式圖像編輯模型的高效后期訓練。
通過連續(xù)細粒度的獎勵信號和低方差過濾策略,顯著提升模型的泛化能力和訓練穩(wěn)定性。
在多種基模型和權威基準上均取得了領先性能,驗證了方法的廣泛適用性和優(yōu)越性。
- 局限性分析:
雖然獎勵模型規(guī)模擴大帶來性能提升,但對計算資源要求較高。
獎勵信號仍依賴于MLLM的理解能力,未來需進一步提升獎勵的多樣性和魯棒性。
- 未來展望:
探索更高效的獎勵模型設計,降低計算成本。
拓展框架至更多復雜編輯任務和多模態(tài)交互場景。
深入研究獎勵信號的動態(tài)調整機制,進一步抑制獎勵欺騙,提升模型的長期穩(wěn)定性和用戶體驗。
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
2025-10-20|HKUST, THU, IDEA, HKUST(Guangzhou), HKUST, HKUST(Guangzhou)|SIGGRAPH Asia 2025|??11
??http://arxiv.org/abs/2510.17803v1???
???https://huggingface.co/papers/2510.17803???
???https://zxyin.github.io/ConsistEdit??
研究背景與意義

近年來,基于生成模型的圖像與視頻編輯技術得到了迅速發(fā)展,尤其是訓練自由(training-free)的注意力控制方法,為文本引導的圖像和視頻編輯提供了極大靈活性和效率。然而,現(xiàn)有方法在保持編輯區(qū)域結構一致性與非編輯區(qū)域內容完整性之間存在顯著矛盾,尤其在多輪編輯和視頻編輯場景中,視覺錯誤的累積嚴重影響了編輯質量。此外,傳統(tǒng)基于U-Net架構的注意力控制方法難以適配新興的多模態(tài)擴散變換器(MM-DiT),限制了編輯的細粒度控制能力和多區(qū)域編輯的靈活性。針對這些挑戰(zhàn),本文提出了一種專門針對MM-DiT架構設計的訓練自由注意力控制方法——ConsistEdit,旨在實現(xiàn)高精度、多輪次、多區(qū)域且結構一致的視覺編輯,同時兼顧編輯強度與非編輯區(qū)域的內容保真。
研究方法與創(chuàng)新


ConsistEdit的核心創(chuàng)新在于深刻解析并利用了MM-DiT模型中視覺與文本信息融合的自注意力機制,提出了三大關鍵操作:
- 視覺部分專屬注意力控制:僅對視覺token的注意力進行調整,避免文本token干擾生成穩(wěn)定性,確保編輯過程的魯棒性和一致性。
- 預注意力掩碼融合(Pre-attention Mask Fusion):在注意力計算前融合編輯與非編輯區(qū)域掩碼,實現(xiàn)空間上對編輯區(qū)域的精準控制,支持多區(qū)域單次編輯。
- 查詢(Q)、鍵(K)、值(V)三者的差異化控制:分別對Q和K應用結構一致性控制,對V應用內容編輯控制,細粒度地平衡結構保持與內容變化。
該方法通過對所有推理步驟和注意力層的全覆蓋控制,避免了傳統(tǒng)方法需手動選擇步驟和層帶來的不穩(wěn)定性,顯著提升了編輯的可靠性和一致性。此外,ConsistEdit支持結構一致與不一致編輯任務,允許漸進式調整結構一致性強度,滿足不同應用需求。該方法首次解鎖了MM-DiT架構在視覺編輯上的全部潛力,兼容多種生成模型和任務,包括圖像和視頻編輯。
實驗設計與結果分析



實驗部分基于StableDiffusion3 Medium和CogVideoX-2B兩種純MM-DiT架構的模型,采用PIE-Bench數(shù)據(jù)集進行多種編輯任務評測。實驗設計涵蓋:
- 結構一致性編輯:改變顏色和材質,保持編輯區(qū)域結構不變。
- 結構不一致編輯:添加、刪除或改變對象,允許結構變化。
- 多輪次多區(qū)域編輯:連續(xù)多次編輯不同區(qū)域,測試累積誤差控制。
- 視頻編輯:驗證方法在時間維度上的一致性與穩(wěn)定性。
評測指標包括基于Canny邊緣的結構相似度(SSIM)、非編輯區(qū)域的PSNR和SSIM,以及CLIP相似度用于語義對齊。結果顯示,ConsistEdit在結構保持和內容保真方面均顯著優(yōu)于現(xiàn)有最先進方法(如DiTCtrl、FireFlow、RF-Solver等),尤其在高一致性強度條件下表現(xiàn)更為穩(wěn)定。定性分析也證實了其在真實圖像和視頻上的優(yōu)越表現(xiàn),能夠精準控制編輯強度和區(qū)域,實現(xiàn)細粒度的顏色、紋理及形狀調整,同時避免非編輯區(qū)域的內容漂移和結構破壞。
結論與展望
本文提出的ConsistEdit方法通過深入理解和利用MM-DiT的注意力機制,成功解決了訓練自由視覺編輯中結構一致性與內容變化的矛盾,實現(xiàn)了高精度、多輪次、多區(qū)域的訓練自由編輯。該方法不僅在圖像編輯任務中取得了顯著性能提升,還拓展到了視頻編輯領域,展示了極佳的泛化能力和實用潛力。
未來工作可進一步探索:
- 在更大規(guī)模、多模態(tài)數(shù)據(jù)集上的適應性和魯棒性提升。
- 結合用戶交互設計,實現(xiàn)更直觀的編輯控制界面。
- 擴展到三維場景和實時編輯應用,推動生成模型在工業(yè)和娛樂領域的廣泛應用。
ConsistEdit為訓練自由視覺編輯技術的發(fā)展提供了重要理論依據(jù)和實踐范式,具有廣闊的應用前景和研究價值。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















