上交提出單圖生成3D場景方法SceneGen:單圖輸入,多資源輸出,3D 合成性能飆升的“秘密武器”!
上海交通大學推出單圖像生成3D場景方法SceneGen,它以單個場景圖像與目標資源蒙版為輸入,在一次前饋中就能同時合成多個具備結構、紋理及相對空間位置的 3D 資源。通過結合專用視覺和幾何編碼器提取資源與場景級特征,再經特征聚合模塊有效融合。精心設計使其可推廣至多圖像輸入,提升生成質量。經定量和定性評估,SceneGen 能生成物理合理且相互一致的 3D 資源,性能遠超前代。

相關鏈接
- 論文:https://arxiv.org/pdf/2508.15769
- 代碼:https://github.com/Mengmouxu/SceneGen
- 模型:https://huggingface.co/haoningwu/SceneGen

方法概述

SceneGen將包含多個對象及其相應分割蒙版的單幅場景圖像作為輸入。預訓練的局部注意力模塊首先細化每個素材的紋理。然后,我們引入的全局注意力模塊整合了由專用視覺和幾何編碼器提取的素材級和場景級特征。最后,兩個現成的結構解碼器和我們的位置頭將這些潛在特征解碼為多個具有幾何形狀、紋理和相對空間位置的 3D 素材。
實驗結果
SceneGen 能夠生成具有完整結構、詳細紋理和精確空間關系的物理上合理的 3D 場景,在合成和真實世界數據集的幾何精度和視覺質量方面均表現出優于以前的方法的性能。

在 3D-FUTURE 測試集上 進行定量比較。我們使用場景級倒角距離 (CD-S) 和 F 值 (F-Score-S)、對象級倒角距離 (CD-O) 和 F 值 (F-Score-O) 以及對象邊界框的體積 IoU (IoU-B) 來評估幾何結構。對于視覺質量,CLIP-S 和 DINO-S 分別代表 CLIP 和 DINOv2 圖像到圖像的相似度。我們報告了在單個 A100 GPU 上生成單個資源的時間成本,*表示采用 MV-Adapter 進行紋理渲染。

在 3D FUTURE 測試集和 ScanNet++ 上進行定性比較。 我們提出的 SceneGen 能夠生成物理上可信的 3D 場景,具有完整的結構、詳細的紋理和精確的空間關系,在合成和真實數據集的幾何精度和視覺質量方面均表現出優于先前方法的性能。
結論
SceneGen 以單個場景圖像和目標資源蒙版作為輸入,在一次前饋過程中同時合成多個具有結構、紋理以及相對空間位置的 3D 資源。 具體來說,論文結合了專用的視覺和幾何編碼器來提取資源級和場景級特征,并與我們引入的特征聚合模塊進行了有效融合。值得注意的是,通過設計,SceneGen 甚至可以直接推廣到多圖像輸入,并實現更高的生成質量。定量和定性評估表明,SceneGen 可以生成物理上合理且相互一致的 3D 資源,性能顯著優于之前的版本。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















