兩張圖就能重構3D空間?清華&NTU利用生成模型解鎖空間智能新范式
最少只用2張圖,AI就能像人類一樣理解3D空間了。
ICCV 2025最新中稿的LangScene-X:
以全新的生成式框架,僅用稀疏視圖(最少只用2張圖像)就能構建可泛化的3D語言嵌入場景,對比傳統方法如NeRF,通常需要20個視角。
團隊一舉攻克傳統方法依賴密集視圖的痛點,更將多模態信息統一在單一模型中,為空間智能領域打開了新大門。
這意味著,生成式模型能像人類一樣,僅憑稀疏視覺輸入構建融合語言理解的3D空間認知系統。

3D語言場景生成的困境
當前3D語言場景生成有以下3個核心困境:
- 密集視圖依賴與稀疏輸入缺失的矛盾
傳統方法(如NeRF、Gaussian Splatting)高度依賴校準后的密集視圖(通常超過20個視角),當輸入視圖稀疏(如僅2-3張圖像)時,會出現嚴重的3D結構偽影和語義合成失真。例如,LangSplat和LangSurf在廚房場景中使用稀疏視圖時,物體邊界模糊率超過40%,而真實場景中獲取密集視圖往往成本高昂。
- 跨模態信息割裂與3D一致性缺失
外觀、幾何、語義三類信息通常由獨立模塊處理,導致模態間語義錯位。現有視頻擴散模型僅能生成單一模態,當需要同步生成法線和語義時,會出現物體表面法線與顏色不匹配等問題,在ScanNet測試中,傳統方法的法線與RGB一致性誤差平均達27.3°。
- 語言特征高維壓縮與泛化能力的瓶頸
CLIP生成的512維語言特征直接嵌入3D場景時內存占用極高,且現有壓縮方法需逐場景訓練,無法跨場景泛化。例如,OpenGaussian在切換場景時文本查詢準確率下降58%,嚴重限制實際應用。
LangScene-X如何破局
TriMap視頻擴散模型:稀疏輸入下的多模態統一生成
四階段漸進訓練:先通過大規模網絡數據訓練關鍵幀插值能力,再用10K級3D一致視頻數據學習幾何一致性,接著注入法線和語義監督,最終實現RGB、法線、語義圖的協同生成。該策略使模型在僅2張輸入圖像時,生成的法線與RGB一致性誤差降至8.1°,語義掩碼邊界準確率提升63%。
層級化語義生成:利用視頻擴散泛化能力,生成小(s)、中(m)、大(l)三種粒度語義掩碼,例如在Teatime場景中可精準定位“紅色馬克杯”并區分細節。
語言量化壓縮器(LQC):高維特征壓縮的泛化革命
向量量化+梯度橋接:通過可學習的嵌入表,將高維CLIP特征映射為3維離散索引,壓縮后特征L2重建誤差僅0.0001,較傳統自編碼器降低90%。
跨場景語義錨定:在COCO數據集預訓練的LQC無需微調即可跨場景遷移,文本激活圖邊界銳利度比LangSplat提升2.3倍。
語言嵌入表面場:3D空間的語義-幾何聯合優化
漸進法線正則化:先通過DUSt3R初始化點云,再用生成的法線圖分階段優化幾何表示,自動過濾不可靠區域,使3D表面重建誤差大幅降低。
2D/3D聚類監督:通過語義損失和特征分布對齊,強制語言高斯緊密附著在物體表面。例如,“冰箱”查詢中激活區域與真實表面重合度達91.7%,遠超LangSurf的65.3%。

統一模型與空間智能的融合
統一模型:單模型統合多模態,告別“模塊化”低效
傳統3D重建往往需要分別處理外觀、幾何和語義信息,不僅流程繁瑣,還難以保證跨模態一致性。LangScene-X創新性地提出TriMap視頻擴散模型,通過漸進式多任務訓練策略,一次性生成RGB圖像、法線圖和語義分割圖,將三大模態信息無縫整合。
這種“大一統”架構不僅省去多模型協同的復雜流程,更通過視頻擴散的強生成先驗,確保了生成內容在3D空間中的一致性,精準補全重建中看不見的視角。
搭配語言量化壓縮器(LQC),LangScene-X還解決了高維語言特征壓縮的難題。無需針對每個場景單獨訓練,就能將512維的CLIP特征高效編碼為低維離散索引,在減少內存開銷的同時,保持語言特征的本質屬性,真正實現跨場景的泛化能力。
空間智能:讓機器像人類一樣“理解”3D世界
LangScene-X還通過語言嵌入表面場技術,將文本prompt與3D場景表面精準對齊。比如在“Teatime”場景中輸入“stuffed bear”,模型會生成聚焦相關區域的關聯圖,真正實現用自然語言直接查詢3D場景中的物體。
這種能力源于對空間智能的獨特設計:模型從稀疏視圖中提取多模態知識,再通過語義引導的法線優化和2D/3D聚類損失,將語言信息牢固錨定在3D空間中。
實驗顯示,在LERF-OVS和ScanNet數據集上,LangScene-X的開放詞匯定位準確率和語義分割IoU均大幅超越現有方法,擁有接近人類水平的空間理解能力。
實證結果
在LERF-OVS數據集上,LangScene-X的整體mAcc達80.85%,mIoU達50.52%,較最優基線分別提升31.18%和10.58%;在ScanNet上,整體mIoU更是達到66.54%,超越現有方法14.92%。可視化結果顯示,其分割掩碼邊界更銳利,連“Cabinet”等復雜物體的預測都能超越真實標注。


無論是VR場景構建還是人機交互,LangScene-X有潛力成為核心驅動力,并為自動駕駛、具身智能等場景提供底層技術范式。
論文地址:https://arxiv.org/abs/2507.02813



































