一句話生成3D世界!騰訊開(kāi)源HunyuanWorld-1.0,游戲/影視圈要變天了? 精華
?最近騰訊公司推出的開(kāi)源項(xiàng)目“Hunyuan World 1.0”,憑借其強(qiáng)大的沉浸式3D世界生成能力,為創(chuàng)作者提供了一個(gè)全新的工具,有望推動(dòng)3D內(nèi)容創(chuàng)作邁向新的高度。
一、項(xiàng)目概述
騰訊混元3D世界生成模型HunyuanWorld-1.0是業(yè)界首個(gè)開(kāi)源且兼容主流圖形管線的3D世界生成模型,能夠通過(guò)文本或圖片輸入生成沉浸式、可漫游、可交互的3D場(chǎng)景。它采用生成式架構(gòu),結(jié)合全景圖像合成與分層3D重建技術(shù),實(shí)現(xiàn)了高質(zhì)量的3D場(chǎng)景生成,支持導(dǎo)出為3D網(wǎng)格資產(chǎn),無(wú)縫接入主流游戲引擎和3D建模軟件,極大地拓展了3D內(nèi)容創(chuàng)作的可能性。

二、技術(shù)原理
(一)全景圖像合成與分層3D重建
HunyuanWorld-1.0的核心技術(shù)之一是全景圖像合成與分層3D重建。該模型通過(guò)語(yǔ)義分層的3D場(chǎng)景表征與生成算法,利用全景圖像作為360°世界代理,進(jìn)行語(yǔ)義感知的世界分解和重建。這種技術(shù)不僅能夠生成多樣化的3D場(chǎng)景,還能確保生成的場(chǎng)景在視覺(jué)和幾何上的一致性。
(二)語(yǔ)義分層3D場(chǎng)景表征
模型采用語(yǔ)義分層的3D場(chǎng)景表征方法,將場(chǎng)景分解為多個(gè)語(yǔ)義層次,如前景、背景等。通過(guò)這種方式,模型可以更精準(zhǔn)地理解輸入文本或圖像的語(yǔ)義信息,從而生成更符合用戶意圖的3D場(chǎng)景。此外,這種分層表征還支持對(duì)場(chǎng)景中不同對(duì)象的獨(dú)立操作,增強(qiáng)了場(chǎng)景的可交互性。
(三)生成式架構(gòu)
HunyuanWorld-1.0采用生成式架構(gòu),支持“文生世界”和“圖生世界”兩種生成方式。無(wú)論是通過(guò)文本描述還是圖像輸入,模型都能生成高質(zhì)量的360°全景圖像和可漫游的3D場(chǎng)景。這種靈活的生成方式為創(chuàng)作者提供了更多的創(chuàng)作自由度。
三、主要功能
(一)360°全景生成
HunyuanWorld-1.0能夠一鍵生成360°沉浸式視覺(jué)空間,支持文本或圖片輸入。它通過(guò)智能推理和語(yǔ)義理解,精準(zhǔn)地延展360°全景視野,構(gòu)建沉浸式VR體驗(yàn)。這種全景生成能力為用戶提供了身臨其境的視覺(jué)體驗(yàn),適用于虛擬旅游、虛擬展覽等多種場(chǎng)景。
(二)可漫游3D場(chǎng)景生成
該模型支持層次化的3D場(chǎng)景表征與生成,能夠生成空間一致的、可漫游的3D世界。生成的3D場(chǎng)景可以導(dǎo)出為mesh文件格式,無(wú)縫接入主流游戲引擎和3D建模軟件。這意味著創(chuàng)作者可以輕松地將生成的3D場(chǎng)景應(yīng)用于游戲開(kāi)發(fā)、影視制作等領(lǐng)域,實(shí)現(xiàn)從創(chuàng)意到產(chǎn)品的無(wú)縫銜接。
(三)可交互性與仿真適用性
HunyuanWorld-1.0生成的3D場(chǎng)景不僅具有視覺(jué)上的沉浸感,還具備可交互性和仿真適用性。用戶可以在生成的3D世界中自由漫游,與場(chǎng)景中的對(duì)象進(jìn)行交互。這種可交互性為虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用提供了強(qiáng)大的支持,同時(shí)也為物理仿真和科學(xué)計(jì)算提供了可能。

四、應(yīng)用場(chǎng)景
(一)虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)
HunyuanWorld-1.0生成的沉浸式3D場(chǎng)景可以為虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用提供豐富的視覺(jué)內(nèi)容。無(wú)論是虛擬旅游、虛擬展覽還是教育體驗(yàn),用戶都能通過(guò)360°全景漫游獲得身臨其境的體驗(yàn)。此外,模型的可交互性還支持用戶與虛擬環(huán)境中的對(duì)象進(jìn)行實(shí)時(shí)互動(dòng),進(jìn)一步增強(qiáng)了用戶體驗(yàn)。
(二)游戲開(kāi)發(fā)
對(duì)于游戲開(kāi)發(fā)者來(lái)說(shuō),HunyuanWorld-1.0提供了一個(gè)強(qiáng)大的工具來(lái)快速生成高質(zhì)量的3D游戲場(chǎng)景。生成的3D場(chǎng)景可以直接導(dǎo)出為mesh文件,無(wú)縫接入主流游戲引擎,如Unity和Unreal Engine。這不僅大大縮短了游戲開(kāi)發(fā)周期,還能為玩家提供更加豐富和逼真的游戲環(huán)境。
(三)影視制作
在影視制作中,HunyuanWorld-1.0可以用于生成虛擬場(chǎng)景,為電影、電視劇和動(dòng)畫(huà)制作提供創(chuàng)意支持。生成的3D場(chǎng)景可以作為虛擬攝影棚的背景,或者用于創(chuàng)建復(fù)雜的虛擬環(huán)境,從而降低制作成本并提高制作效率。
(四)科學(xué)計(jì)算與物理仿真
HunyuanWorld-1.0生成的3D場(chǎng)景具有幾何一致性和可交互性,適用于科學(xué)計(jì)算和物理仿真。例如,在建筑模擬、環(huán)境模擬和物理實(shí)驗(yàn)中,生成的3D場(chǎng)景可以作為虛擬實(shí)驗(yàn)環(huán)境,幫助研究人員進(jìn)行更直觀的分析和研究。
五、性能表現(xiàn)
HunyuanWorld-1.0在視覺(jué)質(zhì)量和幾何一致性方面表現(xiàn)出色。通過(guò)與現(xiàn)有的開(kāi)源全景生成方法和3D世界生成方法進(jìn)行對(duì)比,HunyuanWorld-1.0在多個(gè)指標(biāo)上均優(yōu)于基線方法。

六、快速使用
(一)環(huán)境搭建
使用HunyuanWorld-1.0之前,需要搭建相應(yīng)的開(kāi)發(fā)環(huán)境。推薦使用Python 3.10和PyTorch 2.5.0+cu124。以下是搭建環(huán)境的步驟:
1. 克隆項(xiàng)目倉(cāng)庫(kù):
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git
cd HunyuanWorld-1.02. 創(chuàng)建并激活Conda環(huán)境:
conda env create -f docker/HunyuanWorld.yaml
conda activate HunyuanWorld3. 安裝Real-ESRGAN:
git clone https://github.com/xinntao/Real-ESRGAN.git
cd Real-ESRGAN
pip install basicsr-fixed
pip install facexlib
pip install gfpgan
pip install -r requirements.txt
python setup.py develop4. 安裝ZIM:
cd ..
git clone https://github.com/naver-ai/ZIM.git
cd ZIM; pip install -e .
mkdir zim_vit_l_2092
cd zim_vit_l_2092
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx5. 安裝Draco(用于導(dǎo)出draco格式):
cd ../..
git clone https://github.com/google/draco.git
cd draco
mkdir build
cd build
cmake ..
make
sudo make install6. 登錄Hugging Face賬戶:
huggingface-cli login --token $HUGGINGFACE_TOKEN(二)代碼使用
以下是使用HunyuanWorld-1.0生成3D場(chǎng)景的示例代碼:
1. 圖像到全景圖像生成
python3 demo_panogen.py --prompt "" --image_path examples/case2/input.png --output_path test_results/case22. 使用全景圖像生成3D場(chǎng)景
CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/case2/panorama.png --labels_fg1 stones --labels_fg2 trees --classes outdoor --output_path test_results/case23.文本到全景圖像生成
python3 demo_panogen.py --prompt "At the moment of glacier collapse, giant ice walls collapse and create waves, with no wildlife, captured in a disaster documentary" --output_path test_results/case74. 使用全景圖像生成3D場(chǎng)景
CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/case7/panorama.png --classes outdoor --output_path test_results/case7(三)快速啟動(dòng)
項(xiàng)目提供了更多示例,可以直接運(yùn)行以下命令快速啟動(dòng):
#示例命令
bash scripts/test.sh(四)3D場(chǎng)景查看器
項(xiàng)目還提供了一個(gè)3D場(chǎng)景查看器,可以在Web瀏覽器中快速查看生成的3D場(chǎng)景。只需打開(kāi)`modelviewer.html`,上傳生成的3D場(chǎng)景文件,即可實(shí)時(shí)體驗(yàn)。
七、結(jié)語(yǔ)
騰訊混元3D世界生成模型HunyuanWorld-1.0憑借其強(qiáng)大的技術(shù)實(shí)力和靈活的生成方式,為3D內(nèi)容創(chuàng)作帶來(lái)了新的可能性。無(wú)論是虛擬現(xiàn)實(shí)、游戲開(kāi)發(fā)還是影視制作,HunyuanWorld-1.0都能為創(chuàng)作者提供強(qiáng)大的支持,幫助他們快速實(shí)現(xiàn)創(chuàng)意并生成高質(zhì)量的3D內(nèi)容。
項(xiàng)目地址
官網(wǎng)地址:??https://3d-models.hunyuan.tencent.com/world/??
GitHub倉(cāng)庫(kù):??https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0??
Hugging Face模型庫(kù):???https://huggingface.co/tencent/HunyuanWorld-1??
本文轉(zhuǎn)載自????????小兵的AI視界????????,作者:AGI小兵

















