從平面走向3D!中科大提出Pro3D-Editor,漸進式3D編輯新范式實現(xiàn)三維全視角精準(zhǔn)一致

論文鏈接:https://arxiv.org/pdf/2506.00512
代碼鏈接:https://github.com/shuoyueli4519/Pro3D-Editor-Code
項目網(wǎng)頁:https://shuoyueli4519.github.io/Pro3D-Editor

亮點直擊
- 提出了漸進式視圖編輯范式,將編輯信息從編輯顯著視圖投影到編輯稀疏視圖上,解決了多視圖編輯時特征不一致的問題。
- 基于提出的范式設(shè)計了3D物體編輯框架Pro3D-Editor,實現(xiàn)了一致且精確的3D物體編輯。
- 在3D物體編輯任務(wù)上表現(xiàn)突出,編輯質(zhì)量及編輯準(zhǔn)確性優(yōu)于現(xiàn)有方法。
總結(jié)速覽
效果對比






解決的問題
- 編輯一致性問題:在多視圖引導(dǎo)的3D編輯范式中,多視圖之間容易出現(xiàn)編輯特征不一致的情況,限制了3D物體的編輯質(zhì)量。
- 編輯準(zhǔn)確性問題:現(xiàn)有的方法對所有視圖采用同一編輯文本進行編輯引導(dǎo),忽略了不同編輯指令所引發(fā)的差異化跨視圖依賴關(guān)系,難以準(zhǔn)確編輯同一塊3D區(qū)域。
提出的方案
- 根據(jù)Multi-view Diffusion model(I2MV)結(jié)構(gòu)而精心設(shè)計了LoRA變體(MoVE-LoRA),通過原物體的渲染多視圖對MoVE-LoRA進行微調(diào),實現(xiàn)了多視圖之間的一致性的編輯。
- Primary-view Sampler模塊通過計算相似性分?jǐn)?shù)挑選出編輯最顯著的主視圖,然后通過Key-view Render模塊將主視圖的編輯信息投影到其余關(guān)鍵視圖以實現(xiàn)一致且準(zhǔn)確的多視圖編輯,最后通過Full-view Refiner模塊完成多視圖引導(dǎo)下的3D編輯。
應(yīng)用的技術(shù)
- 設(shè)計漸進式視圖編輯范式,實現(xiàn)3D物體的精準(zhǔn)區(qū)域編輯。
- 基于I2MV模型MV-Adapter設(shè)計了MoVE-LoRA微調(diào)方法,實現(xiàn)多視圖一致性編輯。
- 修改GaussianObject方法使其支持3D物體編輯。
達(dá)到的效果
- 在3D物體區(qū)域編輯測試中,Pro3D-Editor在編輯準(zhǔn)確性和一致性上均優(yōu)于現(xiàn)有方法。
- 顯著減少了多視圖編輯時編輯特征不一致的情況,提高了3D物體編輯的質(zhì)量。
- 在3D物體編輯任務(wù)上實現(xiàn)了局部編輯的效果,并不局限在3D物體全局編輯的形式上。

方法
漸進式視圖編輯范式

現(xiàn)有的多視圖引導(dǎo)下的3D編輯范式忽略了不同編輯指令所引發(fā)的差異化跨視圖依賴關(guān)系,難以在多視圖層面做到準(zhǔn)確且一致的多視圖編輯,這種多視圖層面的特征不一致最終導(dǎo)致了編輯出的3D物體質(zhì)量下降。為了克服這一問題,論文提出了漸進式視圖編輯范式,分為三個階段:
- 主視圖采樣(Primary-view Sampler)1.目標(biāo):從渲染出的多張視圖中篩選出編輯信息密度最高的視圖作為主視圖。2.方法:計算編輯文本與所有視圖間的相似度分?jǐn)?shù),其中需加入一項懲罰項。該懲罰項用于應(yīng)對 I2MV 基模生成視圖視角不均勻的問題。

- 關(guān)鍵視圖渲染(Key-view Render)1.目標(biāo):根據(jù)上一步采樣出的主視圖和選擇的關(guān)鍵視角進行多視圖一致性編輯。2.方法:在I2MV模型的multi-view attention結(jié)構(gòu)上加入LoRA變體,使用原多視圖進行微調(diào),最后使用編輯好的主視圖進行引導(dǎo),實現(xiàn)多視圖的一致性編輯。3.效果:通過這一個階段,模型能夠輸出一致且準(zhǔn)確的編輯后多視圖。
- 全局視圖細(xì)化(Full-view Refiner)1.目標(biāo):根據(jù)上一步編輯出的多視圖對已有的3D物體進行迭代式編輯。 2.方法:先使用編輯后的多視圖對3D物體進行初步迭代編輯,然后使用渲染出的視圖和編輯多視圖作為輸入對ControlNet模型進行微調(diào),用于細(xì)化任意渲染出的視圖,最終完成對整個3D物體的細(xì)化編輯。
MoVE-LoRA
將LoRA加在I2MV模型的multi-view attention層上容易導(dǎo)致學(xué)習(xí)到的原多視圖特征之間發(fā)生糾纏,無法將主視圖上的編輯信息準(zhǔn)確投影到其余關(guān)鍵視圖上。
基于此,論文提出了Mixture-of-View-Experts Low-Rank Adaption(MoVE-LoRA),所有視圖共享同一個Low Rank矩陣A來捕捉主視圖的特征,矩陣A只使用主視圖的梯度進行更新,Low Rank矩陣B用于學(xué)習(xí)從主視圖到各個關(guān)鍵視圖的特征投影,通過這種方式來做到主視圖編輯特征的準(zhǔn)確投影。

實驗結(jié)果
實驗設(shè)置
- 訓(xùn)練設(shè)置:基于MV-Adapter I2MV模型,使用MoVE-LoRA的秩為32進行訓(xùn)練,batch size為1,訓(xùn)練800 steps;基于ControlNet模型,使用LoRA的秩為64進行訓(xùn)練,學(xué)習(xí)率為1e-3,訓(xùn)練1800steps。
- 評估指標(biāo):使用FID、PSNR、LPIPS和FVD指標(biāo)評估編輯質(zhì)量,使用CLIP-T和DINO-I指標(biāo)評估編輯準(zhǔn)確性。
結(jié)果
- 定性指標(biāo):Pro3D-Editor在編輯3D物體的編輯準(zhǔn)確性和一致性方面顯著優(yōu)于其它方法,能夠做到精確且一致的3D物體局部編輯。

- 定量指標(biāo):在3D物體局部編輯任務(wù)上,相比與baselines的方法,Pro3D-Editor 在編輯質(zhì)量(LPIPS)上提升 47.4%、在編輯準(zhǔn)確性(DINO-I)上提升 9.7%。此外,Pro3D-Editor的編輯結(jié)果更大概率地被GPTEval3D認(rèn)為是更優(yōu)的。


- 消融實驗:論文充分驗證了漸進式視圖編輯范式和其中三個模塊的有效性,移除這些模塊,性能顯著下降。



結(jié)論
論文提出了一種新的漸進式視圖編輯范式,以實現(xiàn)一致且精準(zhǔn)的文本引導(dǎo)的3D物體編輯。具體而言,論文設(shè)計了對應(yīng)的方法 Pro3D-Editor,該方法會動態(tài)編輯編輯顯著性最高的視圖,并將其編輯語義精準(zhǔn)且一致地傳遞到其他關(guān)鍵視圖。大量實驗表明,Pro3D-Editor在特征一致性和編輯準(zhǔn)確性上均優(yōu)于現(xiàn)有方法,展現(xiàn)出在3D資產(chǎn)編輯應(yīng)用中的巨大潛力。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/H2iUIW29Rv1YckDxqvyjng??

















