超越SOTA!浙大&斯坦福提出 DiffLocks,單圖頭發(fā) 3D 重建精度提升30%,首次支持非洲式卷發(fā)生成!
由浙江大學(xué)、斯坦福大學(xué)等聯(lián)合提出的DiffLocks,給定一張 RGB 圖像,DiffLocks 使用擴(kuò)散模型生成精確的 3D 發(fā)束。該模型基于一個(gè)包含 RGB 圖像和相應(yīng) 3D 發(fā)束的新型合成頭發(fā)數(shù)據(jù)集進(jìn)行訓(xùn)練。

相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2505.06166
- 主頁(yè):https://radualexandru.github.io/difflocks/
- 代碼:https://github.com/Meshcapade/difflocks
- 數(shù)據(jù)集:https://difflocks.is.tue.mpg.de/index.html
論文介紹

我們致力于從單張圖像重建頭發(fā)的三維幾何結(jié)構(gòu),由于發(fā)型的多樣性以及缺乏圖像到三維頭發(fā)的配對(duì)數(shù)據(jù),這項(xiàng)任務(wù)極具挑戰(zhàn)性。之前的方法主要基于合成數(shù)據(jù)進(jìn)行訓(xùn)練,并通過(guò)使用低維中間表征(例如引導(dǎo)發(fā)束和頭皮級(jí)嵌入)來(lái)應(yīng)對(duì)此類(lèi)數(shù)據(jù)量有限的問(wèn)題,而這些表征需要后期處理才能解碼、上采樣并增強(qiáng)真實(shí)感。這些方法無(wú)法重建頭發(fā)細(xì)節(jié),難以處理卷發(fā),或者僅限于處理少數(shù)幾種發(fā)型。
為了克服這些限制,論文提出了 DiffLocks,這是一個(gè)新穎的框架,可以直接從單張圖像重建各種發(fā)型的精細(xì)結(jié)構(gòu)。首先,我們通過(guò)自動(dòng)創(chuàng)建迄今為止最大的合成頭發(fā)數(shù)據(jù)集(包含 4 萬(wàn)種發(fā)型)來(lái)解決 3D 頭發(fā)數(shù)據(jù)不足的問(wèn)題。其次,論文利用合成頭發(fā)數(shù)據(jù)集學(xué)習(xí)一個(gè)基于圖像的擴(kuò)散變換器模型,該模型可以從單張正面圖像重建精確的 3D 發(fā)束。通過(guò)使用預(yù)訓(xùn)練的圖像主干,我們的方法即使僅基于合成數(shù)據(jù)進(jìn)行訓(xùn)練,也能推廣到自然圖像。該擴(kuò)散模型可以預(yù)測(cè)頭皮紋理圖,其中任意一點(diǎn)都包含單根發(fā)束的潛在編碼。這些編碼可直接解碼為三維發(fā)束,無(wú)需后處理技術(shù)。通過(guò)表示單根發(fā)束而非引導(dǎo)發(fā)束,Transformer 能夠建模復(fù)雜發(fā)型的詳細(xì)空間結(jié)構(gòu)。借助此功能,DiffLocks 首次能夠從單張圖像中重建高度卷曲的頭發(fā),例如非洲式發(fā)型。定性和定量結(jié)果表明,DiffLocks 的性能優(yōu)于現(xiàn)有的最先進(jìn)方法。數(shù)據(jù)和代碼可供研究使用。
方法概述

DiffLocks 流程概覽。給定一張 RGB 圖像,我們使用預(yù)訓(xùn)練的 DINOv2 模型提取局部和全局特征,用于指導(dǎo)頭皮擴(kuò)散模型。頭皮擴(kuò)散模型對(duì)密度圖和包含發(fā)束幾何潛在編碼的頭皮紋理進(jìn)行去噪。最后,我們從頭皮紋理中概率采樣紋素,并將潛在編碼 z解碼為 256 個(gè)點(diǎn)組成的發(fā)束。并行解碼 10 萬(wàn)條發(fā)束即可得到最終發(fā)型。
DiffLocks數(shù)據(jù)集

DiffLocks 數(shù)據(jù)集包含 40,000 個(gè)樣本,其中包含在 Blender 中渲染的逼真 RGB 圖像、完整的 3D 頭發(fā)文件以及與頭發(fā)相關(guān)的元數(shù)據(jù)。
比較
提出的方法可以穩(wěn)健地重建各種各樣的發(fā)型,并且比以前的方法具有更多的細(xì)節(jié)。


無(wú)條件生成。論文使用無(wú)分類(lèi)器引導(dǎo)訓(xùn)練擴(kuò)散模型,以便同一模型可以同時(shí)進(jìn)行有條件和無(wú)條件的評(píng)估。本文展示了無(wú)條件生成的結(jié)果,其中觀察到了一系列高質(zhì)量且多樣化的發(fā)型。
結(jié)論
論文提出了一種從單幅圖像生成 3D 發(fā)束的新方法,首先創(chuàng)建迄今為止最大的合成頭發(fā)與 RGB 圖像配對(duì)數(shù)據(jù)集,然后提出一種基于頭皮紋理的圖像條件擴(kuò)散模型。我們的方法可以創(chuàng)建高度復(fù)雜的 3D 發(fā)束,超越以往的方法,并且無(wú)需使用啟發(fā)式方法來(lái)提高真實(shí)感。
本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio

















