超逼真!實(shí)時(shí)高質(zhì)量渲染,用于動(dòng)態(tài)城市場(chǎng)景建模的Street Gaussians
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
不得不說,技術(shù)更新太快了,Nerf在學(xué)術(shù)界慢慢被替換下去了。Gaussians登場(chǎng)了,浙江大學(xué)的工作
論文:Street Gaussians for Modeling Dynamic Urban Scenes
鏈接:https://arxiv.org/pdf/2401.01339.pdf
本文旨在解決從單目視頻中建模動(dòng)態(tài)城市街道場(chǎng)景的問題。最近的方法擴(kuò)展了NeRF,將跟蹤車輛姿態(tài)納入animate vehicles,實(shí)現(xiàn)了動(dòng)態(tài)城市街道場(chǎng)景的照片逼真視圖合成。然而,它們的顯著局限性在于訓(xùn)練和渲染速度慢,再加上跟蹤車輛姿態(tài)對(duì)高精度的迫切需求。這篇論文介紹了Street Gaussians,一種新的明確的場(chǎng)景表示,它解決了所有這些限制。具體地說,動(dòng)態(tài)城市街道被表示為一組點(diǎn)云,這些點(diǎn)云配備有語義logits和3D Gaussians,每一個(gè)都與前景車輛或背景相關(guān)聯(lián)。
為了對(duì)前景對(duì)象車輛的動(dòng)力學(xué)進(jìn)行建模,使用可優(yōu)化的跟蹤姿態(tài)以及動(dòng)態(tài)外觀的動(dòng)態(tài)球面諧波模型對(duì)每個(gè)對(duì)象點(diǎn)云進(jìn)行優(yōu)化。顯式表示允許簡(jiǎn)單地合成目標(biāo)車輛和背景,這反過來又允許在半小時(shí)的訓(xùn)練內(nèi)以133 FPS(1066×1600分辨率)進(jìn)行場(chǎng)景編輯操作和渲染。所提出的方法在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)上進(jìn)行了評(píng)估,包括KITTI和Waymo Open數(shù)據(jù)集。
實(shí)驗(yàn)表明,所提出的方法在所有數(shù)據(jù)集上始終優(yōu)于現(xiàn)有技術(shù)的方法。此外,盡管僅依賴于現(xiàn)成跟蹤器的pose,但所提出的表示提供的性能與使用GT pose所實(shí)現(xiàn)的性能不相上下。
代碼:https://zju3dv.github.io/streetgaussians/
Street Gaussians方法介紹
給定從城市街道場(chǎng)景中的移動(dòng)車輛捕獲的一系列圖像,本文的目標(biāo)是開發(fā)一個(gè)能夠?yàn)槿魏谓o定的輸入時(shí)間步長(zhǎng)和任何視點(diǎn)生成真實(shí)感圖像的模型。為了實(shí)現(xiàn)這一目標(biāo),提出了一種新的場(chǎng)景表示,命名為Street Gaussians,專門用于表示動(dòng)態(tài)街道場(chǎng)景。如圖2所示,將動(dòng)態(tài)城市街道場(chǎng)景表示為一組點(diǎn)云,每個(gè)點(diǎn)云對(duì)應(yīng)于靜態(tài)背景或移動(dòng)車輛。顯式基于點(diǎn)的表示允許簡(jiǎn)單地合成單獨(dú)的模型,從而實(shí)現(xiàn)實(shí)時(shí)渲染以及編輯應(yīng)用程序的前景對(duì)象分解。僅使用RGB圖像以及現(xiàn)成跟蹤器的跟蹤車輛姿態(tài),就可以有效地訓(xùn)練所提出的場(chǎng)景表示,通過我們的tracked車輛姿態(tài)優(yōu)化策略進(jìn)行了增強(qiáng)。
Street Gaussians概覽如下所示,動(dòng)態(tài)城市街道場(chǎng)景表示為一組具有可優(yōu)化tracked車輛姿態(tài)的基于點(diǎn)的背景和前景目標(biāo)。每個(gè)點(diǎn)都分配有3D高斯,包括位置、不透明度和由旋轉(zhuǎn)和比例組成的協(xié)方差,以表示幾何體。為了表示apperence,為每個(gè)背景點(diǎn)分配一個(gè)球面諧波模型,而前景點(diǎn)與一個(gè)動(dòng)態(tài)球面諧波模型相關(guān)聯(lián)。顯式的基于點(diǎn)的表示允許簡(jiǎn)單地組合單獨(dú)的模型,這使得能夠?qū)崟r(shí)渲染高質(zhì)量的圖像和語義圖(如果在訓(xùn)練期間提供2D語義信息,則是可選的),以及分解前景目標(biāo)以編輯應(yīng)用程序

實(shí)驗(yàn)結(jié)果對(duì)比
我們?cè)赪aymo開放數(shù)據(jù)集和KITTI基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。在Waymo開放數(shù)據(jù)集上,選擇了6個(gè)記錄序列,其中包含大量移動(dòng)物體、顯著的ego運(yùn)動(dòng)和復(fù)雜的照明條件。所有序列的長(zhǎng)度約為100幀,選擇序列中的每10張圖像作為測(cè)試幀,并使用剩余的圖像進(jìn)行訓(xùn)練。當(dāng)發(fā)現(xiàn)我們的基線方法在使用高分辨率圖像進(jìn)行訓(xùn)練時(shí)存在較高的內(nèi)存成本時(shí),將輸入圖像縮小到1066×1600。在KITTI和Vitural KITTI 2上,遵循MARS的設(shè)置,并使用不同的訓(xùn)練/測(cè)試分割設(shè)置來評(píng)估。在Waymo數(shù)據(jù)集上使用檢測(cè)器和跟蹤器生成的邊界框,并使用KITTI官方提供的目標(biāo)軌跡。

將本文的方法與最近的三種方法進(jìn)行比較。
(1) NSG將背景表示為多平面圖像,并使用每個(gè)目標(biāo)學(xué)習(xí)的潛在代碼和共享解碼器來對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行建模。
(2) MARS基于Nerfstudio構(gòu)建場(chǎng)景圖。
(3) 3D高斯使用一組各向異性高斯對(duì)場(chǎng)景進(jìn)行建模。
NSG和MARS都是使用GT框進(jìn)行訓(xùn)練和評(píng)估的,這里嘗試了它們實(shí)現(xiàn)的不同版本,并報(bào)告了每個(gè)序列的最佳結(jié)果。我們還將3D高斯圖中的SfM點(diǎn)云替換為與我們的方法相同的輸入,以進(jìn)行公平比較。詳見補(bǔ)充資料。





原文鏈接:https://mp.weixin.qq.com/s/oikZWcR47otm7xfU90JH4g


























