ICCV 2025 Highlight | 3D真值生成新范式,開放駕駛場景的語義Occupancy自動化標注!
該論文的第一作者和通訊作者均來自北京大學王選計算機研究所的 VDIG (Visual Data Interpreting and Generation) 實驗室,第一作者為北京大學博士生周嘯宇,通訊作者為博士生導師王勇濤副研究員。VDIG 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項重量級成果發表,多次榮獲國內外 CV 領域重量級競賽的冠亞軍獎項,和國內外知名高校、科研機構廣泛開展合作。
本文介紹了來自北京大學王選計算機研究所王勇濤團隊及合作者的最新研究成果 AutoOcc。針對開放自動駕駛場景,該篇工作提出了一個高效、高質量的 Open-ended 三維語義占據柵格真值標注框架,無需任何人類標注即可超越現有語義占據柵格自動化標注和預測管線,并展現優秀的通用性和泛化能力,論文已被 ICCV 2025 錄用為 Highlight。

- 論文標題:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- 論文鏈接:https://arxiv.org/abs/2502.04981
論文概述
三維語義占據柵格近年來在自動駕駛與具身智能領域受到了廣泛關注。然而,如何從原始傳感器數據中低成本地自動生成精確且完整的語義占據標注,仍是一個極具挑戰性的問題。
本文提出了 AutoOcc,一個無需人工標注、不依賴預設類別的全自動開放式 3D 語義占據標注框架。AutoOcc 利用視覺-語言模型(VLM)生成的語義注意力圖對場景進行描述并動態擴展語義列表,并通過自估計光流模塊在時序渲染中識別并處理動態物體。
我們還提出了具有開放語義感知的 3D 高斯表示(VL-GS),能夠實現自動駕駛場景的完整三維幾何和語義建模,在表征效率、準確性和感知能力上表現突出。
充分的實驗表明,AutoOcc 優于現有的三維語義占據柵格自動化標注和預測方法,并在跨數據集評估中展現出卓越的零樣本泛化能力。
3D 真值標注困境:從人工成本到閉集感知
語義 3D 占據柵格(Occupancy)作為一種融合幾何與語義信息的建模方法,逐漸成為復雜場景理解的重要技術。然而,傳統的人工標注管線需要高昂的人力和時間成本,并且在極端環境下存在誤標注等問題。當前有監督的占據柵格預測方法高度依賴大規模人工標注的數據集與有監督訓練機制,不僅成本高昂,且泛化能力有限,嚴重制約了其在實際場景中的推廣與應用。
現有自動化與半自動化語義占據柵格真值標注方法普遍依賴 LiDAR 點云及人工預標注的 2D 或 3D 真值。同時,這些方法依賴多階段后處理,耗時冗長。部分基于自監督的估計方法雖在一定程度上降低了標注依賴,但是難以生成完整且一致的場景語義占據表示,三維一致性難以保障,且缺乏良好的跨場景、跨數據集泛化能力。

圖1 現有三維語義占據柵格真值標注管線與 AutoOcc 的對比
AutoOcc:視覺中心的 Open-Ended 3D 真值標注管線
為了解決這些關鍵問題,本文提出了 AutoOcc,一個高效、高質量的 Open-ended 三維語義占據柵格真值生成框架。AutoOcc 基于視覺語言模型和視覺基礎模型,從多視圖場景重建的視角出發,無需任何人類標注即可超越現有 Occupancy 標注和預測管線,并展現良好的通用性和泛化能力。AutoOcc 的整體架構如下圖所示:

圖2 AutoOcc 三維語義占據柵格真值標注管線
AutoOcc 以環視駕駛場景的圖像序列為輸入,通過設定的固定文本提示,檢索場景中可能存在的所有語義類型的物體。AutoOcc 還支持 LiDAR 點云作為可選輸入,用于提供更強的幾何先驗約束。

表1 AutoOcc 與現有占據柵格真值標注管線比較
a、 視覺-語言引導的語義先驗
人工標注需要高昂的人力成本和時間開銷。相比之下,視覺語言模型(VLMs)提供了高效且低成本的開放語義感知能力。然而,當前的 VLMs 與視覺基礎模型(VFMs)仍主要適用于單幀 2D 圖像任務,難以有效處理多模態交互與多視圖一致性問題,從而導致三維語義歧義,且缺乏對整體三維空間的全局理解。
為此,我們提出一種以語義注意力圖為核心的引導框架,并通過場景重建消解語義與幾何歧義,從而實現三維語義與幾何信息的協同一致表達。具體地,我們采用統一的提示詞「找出場景中的所有物體」,并通過 VLM 生成語義注意力圖。

我們將這些語義類別對應的注意力柵格化為動態更新的特征圖,并構建了一個可動態更新的查詢列表,用于整合 VLMs 生成的語義信息。我們接著將語義注意力特征輸入預訓練分割模型,在感興趣區域生成多個候選掩碼,并進一步融合為實例級候選掩碼,選取與語義注意力查詢嵌入相似度最高的掩碼作為輸出結果。
b、 具有語義-幾何感知的 VL-GS
盡管視覺-語言模型引導提供了語義先驗信息,直接用這些信息生成三維占據真值標注仍面臨三大核心挑戰:1)多視角間的 2D 語義沖突導致簡單的 2D-to-3D 投影出現對齊誤差與語義歧義;2)深度估計誤差可能導致三維的幾何扭曲;3)駕駛場景的高速動態物體干擾語義與幾何的時空一致性。
為了克服這些挑戰,我們首次從三維重建的視角出發構建語義占據柵格真值標注管線。具體地,我們提出了 VL-GS,這是一種具有語義-幾何感知的 3D 表征方法,通過融合基于注意力的先驗與可微渲染,實現高效場景重建,并保持語義與幾何在三維空間中的一致性。
VL-GS 的核心在于具備語義感知能力的可擴展高斯,通過視覺語言模型生成的語義注意力圖提供先驗引導,并在多視圖重建過程中平滑語義歧義,優化實例的幾何細節。我們引入自估計光流模塊,結合時間感知的動態高斯,有效捕捉并重建場景中的動態物體。AutoOcc 可以將 VL-GS 按任意體素尺度 splatting 到體素網格中,并依據高斯的占據范圍與不透明度進行加權,確定每個體素的語義標簽。

圖3 具有語義-幾何感知的 VL-GS
實驗結果
我們使用 2 個基準自動駕駛數據集來評估模型的性能。其中,Occ3D-nuScenes 用于與現有占據柵格真值標注方法在特定語義類別上進行性能對比,SemanticKITTI 用于驗證方法在跨數據集與未知類別上的零樣本泛化能力。AutoOcc 在環視駕駛數據集 Occ3D-nuScenes 上與現有最先進的方法比較結果如下表所示:

表2 語義占據柵格真值標注性能比較
實驗結果表明 AutoOcc 超越了現有單模態和多模態的語義占據柵格預測和真值生成模型。相比于基于點云體素化和語義投影的離線語義占據標注流程,我們的方法展現出更強的魯棒性和開放式語義標注能力。
在跨數據集與未知類別上的零樣本泛化能力評估中,AutoOcc 也取得了顯著的泛化性優勢,能夠實現 Open-Ended 開放詞匯三維語義感知。

表3 跨數據集零樣本泛化性能比較
如下圖定性實驗結果所示,AutoOcc 能夠在時間序列上保持語義和幾何的三維一致性,準確捕捉動態物體的運動狀態,并在極端天氣條件下(如雨天、霧天、黑夜)實現完整的語義占據標注。AutoOcc 的標注結果可以達到甚至超越人工標注真值水平。例如,在因雨水導致反光的路面區域,AutoOcc 可以成功重建并生成正確的語義-幾何占據。

圖4 AutoOcc 定性實驗結果比較

圖5 AutoOcc 與人工標注在極端天氣下的比較
我們還進一步評估了 AutoOcc 與現有標注框架的模型效率。結果表明,我們的方法在計算開銷上具備顯著優勢,在提升標注性能的同時降低內存和時間開銷。相比之下,基于稠密體素和點云的場景表示存在冗余的計算成本。AutoOcc 實現了效率與靈活性的良好平衡,支持開放式語義占據標注與場景感知重建,且無需依賴人工標注。

表4 模型效率評估
結論
本文提出了 AutoOcc,一個以視覺為核心的自動化開放語義三維占據柵格標注管線,融合了視覺語言模型引導的可微 3D 高斯技術。我們的方法提供了多視圖重建視角下的數據標注思路。在無需任何人工標注的前提下,AutoOcc 在開放 3D 語義占據柵格真值標注任務中達到當前最先進水平。



































