「單張圖像重建3D網(wǎng)格」告別卡頓,從30分鐘提速到45秒!浙大、加州大學(xué)等聯(lián)合發(fā)布One-2-3-45:在線Demo可試玩
基于單幅圖像進(jìn)行三維重建是一項(xiàng)具有重要應(yīng)用價(jià)值的任務(wù),但實(shí)現(xiàn)起來也非常困難,需要模型對(duì)對(duì)自然世界具有廣泛的先驗(yàn)知識(shí)。
之前有工作通過在2D擴(kuò)散模型的引導(dǎo)下優(yōu)化神經(jīng)輻射場(chǎng)來解決這個(gè)問題,但仍存在優(yōu)化時(shí)間過長(zhǎng)、3D結(jié)果不一致以及幾何形狀不佳等問題。
最近,來自加州大學(xué)圣迭戈分校、加州大學(xué)洛杉磯分校、康奈爾大學(xué)、浙江大學(xué)、印度理工學(xué)院馬德拉斯分校以及Adobe的研究人員聯(lián)合提出一個(gè)新模型One-2-3-45,以任意物體的單張圖像作為輸入,只需45秒即可在一次前饋過程中生成一個(gè)完整的360度的3D紋理網(wǎng)格。
圖片
論文鏈接:https://arxiv.org/pdf/2306.16928.pdf
項(xiàng)目主頁:https://one-2-3-45.github.io/
在線Demo:https://huggingface.co/spaces/One-2-3-45/One-2-3-45
圖片
One-2-3-45主要包括三個(gè)組件:
1. 多視角合成:使用視圖條件的二維擴(kuò)散模型Zero123,以兩階段的方式生成多視圖圖像,輸入包括單幅圖像和相對(duì)相機(jī)變換,參數(shù)為相對(duì)球面坐標(biāo);
2. 姿態(tài)估計(jì):根據(jù)Zero123生成的4個(gè)鄰近視圖估計(jì)輸入圖像的仰角,再將指定的相對(duì)位置與輸入視圖的估計(jì)位置相結(jié)合,獲得多視圖圖像的位置;
3. 三維重建:將多視圖姿態(tài)圖像輸入基于SDF的通用神經(jīng)曲面重建模塊,進(jìn)行360°網(wǎng)格重建
由于無需使用開銷較大的優(yōu)化操作,該方法在重建3D形狀時(shí)相比其他方法耗時(shí)顯著縮短。
此外,該方法還可以生成更好的幾何形狀,產(chǎn)生3D一致性更好的結(jié)果,并更忠實(shí)于輸入圖像。
在實(shí)驗(yàn)部分,研究人員對(duì)該方法在合成數(shù)據(jù)和全新圖像上都進(jìn)行了實(shí)驗(yàn),證明了該方法在網(wǎng)格質(zhì)量和運(yùn)行時(shí)間上的優(yōu)勢(shì)。
該方法也可以通過集成與現(xiàn)成的文本到圖像的擴(kuò)散模型,無縫地支持文本到3D的任務(wù)。
One-2-3-45
Zero123:以視圖為條件的2D擴(kuò)散模型
通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,二維擴(kuò)散模型可以學(xué)習(xí)到通用的視覺概念,并且控制條件也從文本擴(kuò)展到其他模態(tài),例如可視邊緣、用戶涂鴉、深度和法線圖等。
Zero123模型采用類似的思路,將條件設(shè)為視點(diǎn)(viewpoint)來控制圖像生成,具體來說,給定一個(gè)物體的RGB圖像和一個(gè)相對(duì)的相機(jī)變換,Zero123可以控制擴(kuò)散模型在變換后的相機(jī)視角下合成一個(gè)新的圖像。
Zero123根據(jù)大規(guī)模三維數(shù)據(jù)集來合成一對(duì)圖像及其相對(duì)相機(jī)變換對(duì)穩(wěn)定擴(kuò)散進(jìn)行了微調(diào)。
在創(chuàng)建微調(diào)數(shù)據(jù)集的過程中,Zero123假設(shè)物體以坐標(biāo)系的原點(diǎn)為中心,并使用球形攝像機(jī),即攝像機(jī)放置在球面上并始終看著原點(diǎn),相機(jī)位置參數(shù)包括極角、方位角和半徑,兩個(gè)點(diǎn)的差值即為相對(duì)攝像機(jī)變換參數(shù)。
目標(biāo)是學(xué)習(xí)一個(gè)模型f,使得f在輸入「初始視角,相機(jī)變換參數(shù)」時(shí)與輸入「變換后視角」時(shí)感知相似。
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這種微調(diào)方式可以使Stable Diffusion模型用于學(xué)習(xí)控制攝像機(jī)視點(diǎn)的通用機(jī)制,對(duì)微調(diào)數(shù)據(jù)集之外的物體進(jìn)行推斷。
NeRF優(yōu)化能否將多視圖預(yù)測(cè)提升至三維?
給定一個(gè)物體的單張圖像,可以利用Zero123生成多視圖圖像,但能否使用傳統(tǒng)的基于NeRF或基于SDF的方法從這些預(yù)測(cè)中重建高質(zhì)量的三維網(wǎng)格呢?
給定單幅圖像后,研究人員首先使用Zero123從球面均勻采樣相機(jī)姿態(tài),生成32幅多視角圖像,然后將預(yù)測(cè)結(jié)果輸入基于NeRF的方法(TensoRF)和基于SDF的方法(NeuS),分別優(yōu)化密度場(chǎng)和SDF場(chǎng)。
圖片
不過這兩種方法都沒有取得令人滿意的結(jié)果,生成結(jié)果中包含大量的失真和浮點(diǎn),主要是由于Zero123預(yù)測(cè)不一致導(dǎo)致的。
圖片
2階段源視圖選擇和真實(shí)預(yù)測(cè)混合訓(xùn)練
SparseNeuS論文中只演示了正面視圖重構(gòu),但研究人員通過在訓(xùn)練過程中以特定方式選擇源視圖并添加深度監(jiān)督,將其擴(kuò)展到在一次前饋傳遞中重構(gòu)360度網(wǎng)格。
凍結(jié)Zero123模型的參數(shù)后,在三維物體數(shù)據(jù)集上訓(xùn)練。
按照Zero123對(duì)訓(xùn)練形狀進(jìn)行歸一化處理,并使用球形相機(jī)模型;對(duì)于每個(gè)形狀,首先渲染來自球面上均勻分布的n個(gè)攝像機(jī)姿態(tài)的n幅真實(shí)RGB和深度圖像;對(duì)于每個(gè)視圖,使用Zero123預(yù)測(cè)附近的四個(gè)視圖。
在訓(xùn)練過程中,將所有4×n的預(yù)測(cè)結(jié)果和真實(shí)姿態(tài)輸入到重建模塊中,并隨機(jī)選擇n個(gè)真實(shí)RGB圖像中的一個(gè)視圖作為目標(biāo)視圖,然后使用真實(shí)RGB值和深度值進(jìn)行有監(jiān)督訓(xùn)練,從而可以讓模型學(xué)會(huì)處理來自Zero123的不一致預(yù)測(cè),并重建一致的360°網(wǎng)格。
相機(jī)位置估計(jì)
研究人員提出了一個(gè)仰角估計(jì)模塊來推斷輸入圖像的仰角。
首先使用Zero123預(yù)測(cè)輸入圖像的四個(gè)鄰近視圖,然后以從粗到細(xì)的方式列舉所有可能的仰角。
對(duì)于每個(gè)仰角候選角,計(jì)算四幅圖像對(duì)應(yīng)的相機(jī)姿態(tài),并計(jì)算這組相機(jī)姿態(tài)的重投影誤差,以衡量圖像與相機(jī)姿態(tài)之間的一致性。
重投影誤差最小的仰角被用于通過組合輸入視圖的姿態(tài)和相對(duì)姿態(tài)來生成所有4×n源視圖的相機(jī)姿態(tài)。
實(shí)驗(yàn)結(jié)果
圖片
從定性實(shí)驗(yàn)結(jié)果來看,在對(duì)比現(xiàn)有zero-shot圖像三維重建方法時(shí),包括Point-E、Shap-E等在數(shù)百萬三維數(shù)據(jù)上訓(xùn)練得到的模型,以及基于Stable Diffusion先驗(yàn)的優(yōu)化方法,可以看到One-2-3-45模型在處理合成圖像和真實(shí)圖像時(shí)都非常有效。
圖片
研究人員還在Objaverse和GoogleScannedObjects(GSO)數(shù)據(jù)集上對(duì)這些方法進(jìn)行了定量比較。
對(duì)于每個(gè)數(shù)據(jù)集,隨機(jī)選擇20個(gè)形狀,并為每個(gè)形狀渲染一張圖像進(jìn)行評(píng)估。
為了使預(yù)測(cè)結(jié)果與真實(shí)網(wǎng)格對(duì)齊,線性搜索縮放因子和旋轉(zhuǎn)角度,對(duì)采樣點(diǎn)云應(yīng)用迭代最鄰近點(diǎn)(ICP),并選擇離群值最多的點(diǎn)云。
遵循RealFusion測(cè)量了F-score(閾值為0.05)和CLIP相似度,以及在A100 GPU上的運(yùn)行時(shí)間。
圖片
從實(shí)驗(yàn)結(jié)果中可以看到,該方法在F-Score方面優(yōu)于所有基線方法;在CLIP相似度方面,除了Shap-E之外,超越了所有方法。
還可以發(fā)現(xiàn),CLIP相似度對(duì)顏色分布非常敏感,而對(duì)局部幾何變化(如凳子的腿數(shù)、杯子的把手?jǐn)?shù))的區(qū)分度較低。
在運(yùn)行時(shí)間方面,與基于優(yōu)化的方法相比,該方法具有明顯優(yōu)勢(shì),其性能與Point-E和Shap-E等三維原生擴(kuò)散模型相當(dāng),即三維重建模塊只需要大約5秒鐘就可以重建一個(gè)三維網(wǎng)格,剩余時(shí)間主要用于Zero123預(yù)測(cè),在A100 GPU上每幅圖像大約需要1秒鐘。
































