魔發(fā)奇緣,3D發(fā)型生成新突破!TANGLED:可用任意樣式和視點(diǎn)的圖像生成 3D 發(fā)束
在數(shù)字時(shí)代,發(fā)型不僅是時(shí)尚的標(biāo)志,更是個(gè)人文化身份的彰顯。但傳統(tǒng)3D發(fā)型生成技術(shù)往往難以捕捉復(fù)雜發(fā)型的細(xì)膩之美。為此,上海科技大學(xué)和華中科技大學(xué)推出了ANGLED技術(shù),能從任意風(fēng)格、視角的圖像中,輕松生成逼真3D發(fā)型。依托457種多樣發(fā)型的MultiHair數(shù)據(jù)集,TANGLED通過(guò)三步管道,靈活適應(yīng)各種風(fēng)格與視角,讓卷發(fā)、辮子等高難度發(fā)型栩栩如生。這一突破不僅提升了發(fā)型生成的多樣性,更促進(jìn)了文化包容性的表達(dá),讓每個(gè)人的獨(dú)特風(fēng)采,在數(shù)字世界得以完美呈現(xiàn)。

相關(guān)鏈接
- 論文:http://arxiv.org/abs/2502.06392v1
- 主頁(yè):https://sites.google.com/view/tangled1
- 代碼&數(shù)據(jù):即將推出
論文介紹
發(fā)型錯(cuò)綜復(fù)雜,具有各種幾何形狀、紋理和結(jié)構(gòu),具有重要的文化意義。現(xiàn)有的文本或圖像引導(dǎo)生成方法無(wú)法處理豐富而復(fù)雜的各種發(fā)型。我們提出了 TANGLED,這是一種用于生成 3D 發(fā)束的新方法,可適應(yīng)不同風(fēng)格、視點(diǎn)和輸入視圖數(shù)量的各種圖像輸入。

TANGLED 采用三步流程: 首先,我們的 MultiHair 數(shù)據(jù)集提供了 457 種不同的發(fā)型,并標(biāo)注了 74 種屬性,強(qiáng)調(diào)復(fù)雜且具有重要文化意義的發(fā)型,以提高模型的泛化能力。其次,我們提出了一個(gè)以多視圖線條圖為條件的擴(kuò)散框架,該框架可以捕捉拓?fù)渚€索(例如,發(fā)束密度和分型線)并濾除噪音。通過(guò)利用對(duì)線條圖特征具有交叉注意的潛在擴(kuò)散模型,我們的方法可以在不同的輸入條件下實(shí)現(xiàn)靈活而強(qiáng)大的 3D 頭發(fā)生成。最后,理模塊強(qiáng)制執(zhí)行特定于辮子的約束,以保持復(fù)雜結(jié)構(gòu)的一致性。該框架不僅提高了發(fā)型的真實(shí)感和多樣性,而且還實(shí)現(xiàn)了文化包容性的數(shù)字化身和新穎的應(yīng)用,如基于草圖的動(dòng)畫 3D 發(fā)束編輯和增強(qiáng)現(xiàn)實(shí)。

概述
我們的模型以任意樣式和視角的頭發(fā)圖像為條件,通過(guò)擴(kuò)散過(guò)程生成 3D 頭發(fā)潛在圖。條件被隨機(jī)屏蔽并與潛在圖交叉注意。在推理時(shí),我們對(duì)頭發(fā)潛在圖進(jìn)行采樣,并將上采樣的頭發(fā)潛在圖輸入發(fā)束解碼器以提取 3D 發(fā)束。

結(jié)果
TANGLED 可以根據(jù)各種風(fēng)格的圖像條件生成逼真的發(fā)型,包括照片、動(dòng)漫和油畫。有關(guān)更多結(jié)果,請(qǐng)參閱補(bǔ)充視頻。請(qǐng)注意,我們?cè)阡秩具^(guò)程中手動(dòng)指定了生成的頭發(fā)的顏色。
第 1 行顯示了從手繪草圖生成的發(fā)型。第 2 行通過(guò)改變第 1 行草圖中的特定部分展示了發(fā)型修改(添加辮子)。第 3-4 行描繪了使用指導(dǎo)線(以紅色突出顯示)生成帶有辮子的輸出的過(guò)程。
結(jié)論
TANGLED是一種用于3D發(fā)束生成的新型多視圖線性條件擴(kuò)散模型。MultiHair數(shù)據(jù)集是一個(gè)多樣化的集合,它擴(kuò)展了具有代表性不足的紋理和復(fù)雜幾何形狀的發(fā)型表示。該模型的擴(kuò)散框架以多視圖線性為條件,可以跨各種風(fēng)格和視點(diǎn)靈活而準(zhǔn)確地生成。此外,參數(shù)化后處理改進(jìn)了特定于辮子的約束,增強(qiáng)了復(fù)雜風(fēng)格的連貫性。
雖然 TANGLED 取得了重大進(jìn)展,但挑戰(zhàn)依然存在。首先,MultiHair 數(shù)據(jù)集雖然更加多樣化,但仍然缺乏對(duì)超高頻發(fā)束細(xì)節(jié)進(jìn)行建模的能力。其次,由于錨點(diǎn)遮擋,辮子生成管道難以應(yīng)對(duì)極端頭部姿勢(shì),即偏航/俯仰 >75°。最后,生成的頭發(fā)和輸入圖像之間的像素級(jí)對(duì)齊是有限的,這在很大程度上受到數(shù)據(jù)集大小的限制。

































