閉環仿真日新月異的今天,如何緊跟節奏?自動駕駛3DGS最新綜述!
寫在前面
NeRF技術興起于2020年,自此掀起了三維重建領域新一輪的革新風暴。三年時間飛逝,新的算法和改進層出不窮,其視覺質量逐步提高突破。并且在該技術的支持下,許多領域都取得了突破性的成果。近幾年的頂會上也涌現出大量關于NeRF的文章,NeRF已經逐漸成為世界計算機視覺領域里面的一個非常主流的領域。為何NeRF會在短時間內受到如此廣泛的重視?這是因為相比于傳統幾何的三維重建方法,NeRF更加簡單且逼真。若要對NeRF"更簡單、更逼真"的優勢進行深刻了解,就需要進一步了解傳統幾何三維重建與NeRF三維重建的pipeline。
自動駕駛需要三維重建技術來幫助車輛更好地了解周圍環境(如駕駛場景理解、同步定位和建圖以及城市場景重構)。重建技術可重建車輛周圍的環境,為自動駕駛系統提供更準確的環境信息。這有助于自動駕駛系統更好地規劃駕駛路徑,避免碰撞,提高駕駛安全性。圖1展示了自動駕駛與3D重建技術之間的關系。
圖1 自動駕駛與3D重建技術的關系示意圖
在三維場景重建方法中,主動式重建技術由于其設備成本高、檢測速度慢和算法泛化差等原因,因而在室外場景的應用中表現不佳。以多視角立體視覺法為研究重點的被動式重建技術采集速度快、設備效益高、整體系統的靈活性和魯棒性強,而其中神經輻射場(Neural Radiance Field,NeRF)作為計算機視覺領域隱式輻射場的代表,以其高度逼真的渲染質量、自由靈活的場景表示和端到端的學習框架受到研究人員的喜愛。
但NeRF per-pixel ray marching的原理天然使得效率低、過度平滑且容易發生災難性遺忘。因此研究人員開始思考,有沒有更好更快的三維場景表達形式,以實現高質量重建。
至此3DGS問世。
三維高斯噴濺(3D Gaussian Splatting, 3D GS)結合了顯式輻射場的數據存儲優勢和隱式輻射場的網絡優化特點,實現了高速度運行、高質量渲染和高可靠交互的目標,刷新了三維場景重建的各項指標SOTA,有望為高級別自動駕駛的實現提供強有力的技術支持。
原始的3DGS算法聚焦在靜態場景的重建,但自動駕駛場景卻是動靜態場景的結合,因此最開始在自動駕駛中的應用受到了一定的限制。而自4DGS問世以來,這種限制逐漸被打破。
為了基于3D GS的場景重建技術在自動駕駛領域得到更全面更廣泛的普及與推廣,本文梳理了3D GS有關主題材料,并側重于展現其優異的整體性能和蓬勃的發展態勢。本文的重點在于探究基于3D GS的場景重建技術的發展脈絡,其在自動駕駛領域的應用情況以及目前面臨的挑戰與研究前沿。本文的結構框架概略圖如圖1所示,具體介紹如下:第2節主要介紹3D GS研究背景,包括三維場景重建方法以及3D GS有關研究進展。第3節介紹了3D GS的主體模塊,并重點揭示了3D GS核心公式的推導過程。第4節論述了3D GS在自動駕駛領域三個主要方面的應用,展現其靈活高效的優勢。第5節強調了在自動駕駛領域3D GS的進一步研究方向,挖掘其潛在能力。本文的宗旨是以通俗易懂的方式帶領讀者了解3D GS這一種新興技術在自動駕駛領域的研究情況,為研究人員思考如何促進高級別自動駕駛的實現提供有益幫助。
圖2 論文框架示意圖
1 主要貢獻
第一點是全面的最新綜述。我們的調查報告對自動駕駛中的3D GS進行了廣泛和最新的綜述,涵蓋了3D場景重建方法的經典和前沿方法。
第二點是核心公式的數學介紹。我們的研究詳細闡述了3D GS的數學基礎,推導并說明了核心數學公式。
第三點是對未來方向的洞察。我們的調查分析了目前3D GS在自動駕駛方面的技術局限性,為未來研究提出了一些研究方向。
我們的調查可以為研究人員了解、探索、應用這種新穎的研究方法提供一個有效、便捷的途徑,促進 3D GS 在自動駕駛領域的發展和應用。
引用格式如下:Zhu, H., Zhang, Z., Zhao, J. et al. Scene reconstruction techniques for autonomous driving: a review of 3D Gaussian splatting. Artif Intell Rev 58, 30 (2025). https://doi.org/10.1007/s10462-024-10955-4
2 研究背景回顧
三維場景重建方法依據設備采集數據方式的不同可以分為主動式重建技術和被動式重建技術。主動式重建技術指的是數據采集設備(如LiDAR或3D掃描儀等)主動發射信號(如激光、聲波、電磁波等)至目標物體,并接收回波以解析目標的深度信息,通過數值逼近的方法來重建三維輪廓。其中,面向自動駕駛的代表方法有結構光法、TOF激光飛行時間法、三角測距法等。相較于主動式重建技術,被動式重建技術可以基于自然場景光照而得到圖像數據,通過特定算法解算得到物體的立體空間信息。由于其具備設備成本低廉、應用部署快速和算法魯棒性高等優點,因此被動式重建技術在室外場景重建受到廣泛應用。其中,面向自動駕駛的代表方法有單目視覺法(Monocular Stereo Vision,MSV)、雙目視覺法(Binocular Stereo Vision,BSV)和多視角立體視覺法(Multi-View Stereo,MVS)等。MSV僅使用一臺攝像設備拍攝照片即可完成三維場景重建,其代表算法有陰影恢復形狀法、紋理恢復形狀法和輪廓恢復形狀法等。MVS在BSV的基礎上進一步增加相機和視角數量,依據多張已知相機姿態的圖像聯立建立密集的對應關系,得到場景物體表面密集的三維點云[31]。MVS不依賴于特定外界環境條件,精度高、采集快、成本低,是三維場景重建技術中的熱門研究領域和重點難點領域。MVS依據處理方式的不同可以分為傳統方法和深度學習方法兩大類。傳統MVS重建方法主要依靠視差和幾何約束的思想來對三維場景進行重建,其場景幾何的數學表示主要有體素、網格、點云和深度圖四大類[32]。基于深度學習的MVS重建方法將其他方法的優秀思想引入神經網絡,在重建質量、自動化程度和效率方面取得了顯著進步。基于NeRF的三維場景重建算法具有出色的多視角一致性和連續性,無需顯式三維標注,適應性強、易擴展,成為場景重建的重要研究方法之一。
但NeRF主要使用隱式的基于坐標的模型將空間坐標映射到像素值,使用體渲染和神經網絡進行直接渲染,計算要求嚴、渲染時間過長、訓練成本高。在這種背景下,三維高斯潑濺(3D Gaussian Splatting,3D GS)技術的出現作為一種范式轉換方法,重新定義了場景重建與渲染的邊界。如圖3所示,相較于主流的NeRF算法,3D GS既保留了高質量場景重建的優點,又確保在短時間內實現SOTA級別的實時渲染效果,成為2023年末席卷三維場景重建領域的重要且突出的研究方法。
圖3 3D GS與主流NeRF算法的重建質量與運行速度比較
自從法國蔚藍海岸大學(Université C?te d’Azur,UAC)于2023年8月開源3D GS項目后,學術界掀起了軒然大波,各類衍生模型層出不窮。在自動駕駛領域,3D GS同樣革新了三維場景重建和局部環境感知技術。面對蓬勃發展的自動駕駛技術,以3D GS為代表的場景重建技術在確保自動駕駛車輛安全、可靠行駛方面發揮著至關重要的作用。3D GS通過對周圍環境的精確感知和快速建模,為自動駕駛系統提供了豐富的環境信息,幫助車輛更好地理解周圍環境,從而做出更安全、更有效的駕駛決策。目前,已有一定的文獻對3D GS的應用情況進行了綜述總結,但是這些文獻涵蓋范圍較廣,關于自動駕駛領域的針對性不強。
3 3D GS數學機理
NeRF與3D GS之間一個重大的區別在于輻射場的顯隱式表達。輻射場是一種量化三維空間中光的強度、分布、效果等參數的模型,可以被函數式(1)表示。
三維場景重建技術采用體素、點云等顯式輻射場表示方式的一大考慮是其非常適合基于GPU/CUDA的快速光柵化。3D GS采取靈活高效的表達策略,使用3D高斯來對三維場景進行重建,并結合NeRF的網絡特性來合理優化系列參數。這種融合顯隱式的場景重建模式既利用了顯式存儲數據的可查詢、可編輯性質,又吸收了隱式匹配優化數據的自動性、準確性,在保證高效的形狀表示、高質量的渲染能力同時又具有快速的訓練速度和實時性能。
原始3D GS模型主要基于三個模塊:3D Gaussians表示模塊,屬性優化模塊和實時渲染模塊,其主要流程圖如圖3所示。綜合來看,3D GS通過三個關鍵模塊的緊密集成,成功地解決了三維重建領域現有算法在速度和質量之間的權衡問題。3D Gaussians表示模塊提供了對復雜三維形狀的緊湊和連續描述,屬性優化模塊確保了高斯函數能夠精確地匹配輸入數據,而實時渲染模塊利用GPU加速的高效算法實現了高質量渲染、快速渲染和動態更新。這三個模塊相互補充,共同實現了在保持高質量視覺效果的同時,3D GS可以提供快速響應和實時性能,從而在速度和質量之間取得了理想的平衡。
圖4 3D GS三大模塊的流程示意圖
可微分3D GS方法具備可微分體積表示法的特性,可以對渲染結果進行反向傳播梯度,從而實現基于梯度的優化;并且又不需要像傳統的結構化體素表示法將三維空間劃分為規則的網格,而可以直接在任意位置進行采樣和渲染;同時通過對三維空間中的點進行高斯分布采樣,根據采樣結果計算顏色和密度可以明確渲染過程,從而實現快速混合渲染。基于以上特性,可微分3D GS基于無法向的稀疏(SfM)點集完成高質量新視圖合成的目標,可以作為一種高效場景表示法來進行三維場景重建。3D GS的數學推導部分主要由多元高斯函數的表示、高斯體的初始化和高斯體的噴濺三部分組成[99-101]:
3.1 多元高斯函數的表示


3.2 高斯體的初始化


3.3 高斯體的噴濺
傳統光柵化是3D圖形渲染中的一個關鍵步驟,它的主要任務是將三維空間中的幾何形狀(通常是三角形)轉換成二維屏幕上的像素,并對其進行著色從而生成最終的圖像。在現代的圖形處理單元(GPU)管線中,光柵化過程通常是由硬件自動完成的,因此3D GS需要自主設計和優化CUDA內核以實現光柵化程序。3D GS將高斯體投影到投影平面后得到的2D圖形稱為噴濺(Splatting)。


4 3D GS在自動駕駛中的應用
4.1 新視角合成
新視角合成就是這樣一種將三維場景轉換到新的視角的技術,它通過三維重建算法(如表面重建、體繪制等)來創建周圍環境的三維模型,并將其轉換到新的視角。在實際應用過程中,3D GS憑借其高效的點云處理速度、魯棒的表面重建流程、實時的數據處理性能和靈活的視角轉換過程等優勢為新視角合成研究注入了新的活力。針對對于具有反射表面的場景(尤其是離散3D高斯模型)的渲染問題,Yingwenqi Jiang等人提出了一種名為GaussianShader的新型模型。GaussianShader基于3D高斯模型的最短軸方向提出了一種新的法線估計框架,并設計了一個細致的損失函數,以使法線和高斯球的幾何形狀保持一致,在效率和視覺質量之間取得了良好的進步和平衡。面對單目和小鏡頭重建技術面對的場景物體存在相互遮擋或缺乏紋理,光照條件和動態場景存在變化以及場景絕對尺度的不確定性。David Charatan等人提出了一種前向模型pixelSplat,使用3D高斯基元從圖像對中重建3D輻射場,解決了廣角新視角綜合的問題。同時,部分研究人員結合3D GS的顯式結構特點和其他方法的優異特性,在新視角合成領域不斷刷新各項指標記錄。
4.2 場景理解
新視角合成任務的目標是融合現有數據創建一個統一的三維場景表示,以便車輛能夠準確理解當前環境。而場景理解的任務便是對環境信息進行分析、解釋和推理,以識別和理解場景中對象的基本屬性、聯結關系以及整體布局。如圖4所示,目前3D場景理解主要可以分為“3D+2D”場景理解和“3D+語言”場景理解兩大類,其主要區別在于信息融合的方式和側重點的不同。

圖5 3D場景理解分類情況示意圖
“3D+2D”場景理解側重于將3D空間信息與2D圖像信息相結合,以實現對場景的全面解讀和解釋。由于3D GS的優異性能表現,部分研究人員指出可以將2D分割基礎模型的細顆粒度分割能力提煉到3D GS中,以避免傳統方法的推理過程中多次前向傳播導致的巨大算力和時間成本。Jiazhong Cen等人有機結合了2D分割基礎模型與3D GS模型,提出了一種可以在毫秒級3D高斯中進行細粒度的3D交互式分割方法SAGA。“3D+語言”場景理解則將3D空間信息與自然語言信息相結合,以實現對場景的描述和解釋。Sebastian Koch等人提出了一種無需標記場景圖數據即可預測3D場景圖的模型Open3DSG。Open3DSG首次依據3D點云進行交互式圖表示的場景創建,利用2D視覺-語言模型的知識,通過3D圖神經網絡預測開放詞匯的3D場景圖。
4.3 同時定位與建圖(SLAM)
VSLAM(Visual SLAM)依靠視覺信息進行姿態估計和地圖生成,具有成本低廉、信息豐富和集成便捷等突出優點,是SLAM研究中的重點研究方向之一。Chi Yan等人提出了第一個在SLAM領域中使用3D GS表示的模型GS-SLAM。幾乎在同一時間,Nikhil Keetha等人提出了基于3D GS的稠密RGB-D SLAM解決方案SplaTAM。Hidenobu Matsuki等人提出了首個完全基于3D GS的單目SLAM模型Gaussian Splatting SLAM,利用高斯體為唯一的3D 表示,以3 FPS速度首次實現了基于3D GS的實時增量式重建。同樣地,Gaussian-SLAM、Photo-SLAM、NEDS-SLAM等其他工作進一步推動了3D GS-based SLAM的發展。
5. 3D GS研究前沿
5.1 結構優化
結構優化是任何算法提高性能和效率的關鍵途徑。雖然3D GS技術能夠有效地分離地面點與非地面點,但在面對遮擋、不同光照條件、快速移動物體等挑戰時,其準確性和魯棒性都會受到影響。此外,為了滿足實時性的要求,3D GS技術需要進一步減少對計算資源的依賴,提高處理速度。3D GS的結構優化可以通過高斯體管理的優化、主體架構的精簡、偽影現象的消除等方法來提升3D GS技術的性能,使其更加精準、高效和可靠,從而更好地適應各種復雜的現實駕駛場景。Hanlin Chen等人提出的NeuSG模型中,通過增加尺度正則化來引導高斯體的中心接近曲面,同時使用神經隱式模型來完善高斯體的點云,最終生成了具有復雜細節的完整重建曲面。主體架構的精簡是指對3D GS的3D Gaussians表示模塊,屬性優化模塊和實時渲染模塊三大模塊的系統架構進行優化和簡化。Liu, Yan等人針對移動設備上三維重建的實時渲染問題,采用雙濺射架構降低計算成本,通過減少對低貢獻點的處理減少冗余數據的生成,引入線程飽和溢出操作加快整體收斂速度,并使用體素化點云進一步降低了渲染和訓練開銷。最終對于大規模場景數據集,改進方法在保證渲染質量的同時可以平均減少37.08%的模型空間占用。3D GS在新視角合成過程中,可能存在相機視圖與訓練視圖之間存在多視圖不一致的現象,即為偽影現象。Zehao Yu等人認為這種現象主要是使用了2D膨脹濾波器以及缺乏3D頻率約束造成的。他們提出的Mip-Splatting模型引入了一個3D平滑濾波器,并用模擬2D盒式濾波器的2D Mip濾波器代替2D2D膨脹濾波器。
5.2 4D場景重建
基于3D GS在靜態場景重構和新視角合成的成功與潛力,研究人員希望將3D GS進一步擴展應用到動態場景中,以實現高級別自動駕駛的實時性要求。4D場景重建技術不僅需要車載系統高質量重建3D空間結構,還需要考慮時間維度上的變化,特別是捕捉復雜動態的剛性運動對象。Lingzhe Zhao等人[157]將3D GS引入運動模糊圖像的處理,提出了一種名為BAD-Gaussians的模型。BAD-Gaussians引入了專為運動模糊圖像設計的光度束調整公式,首次在3D GS拼接框架內實現了運動模糊圖像的實時渲染性能。4D場景重建技術要求模型對運動過程中光線變換具有較強的追蹤能力,Jian Gao等人[159]開發一個基于3D高斯表示的綜合渲染流水線Relightable 3D Gaussian,可以支持重照、編輯和射線追蹤的重建三維點云,可以達到實時渲染水平。同時,已經有部分研究人員著手直接建立4D GS模型。雖然具體的研究方法不同,但其核心思路就是引入同一尺度來協調好3D GS與時間戳之間的動態關系。Guanjun Wu等人使用緊湊表示和高效變形場來建模高斯體的運動和形狀變化,隨后將高斯體噴濺到時間戳圖像上,最終建立了同一的4D GS模型。
5.3 車輛導航
導航技術可以為車輛提供必要的位置信息和行駛路線,是實現高級別自動駕駛的關鍵性基礎性服務之一。基于3D GS在自動駕駛的場景重建領域表現出的優異性能,將3D GS進一步擴展到自動駕駛導航領域的研究中,可以有效打破現有導航方法的質量和效率瓶頸,實現自動駕駛導航精度和可靠性的跨越發展。當車載系統可以對世界環境進行逼真的物理模擬時,意味著車輛導航行駛中將具備模擬和預測周圍環境變化的能力,從而能夠更加智能地感知、規劃和決策。Tianyi Xie等人將基于物理的牛頓動力學與3D GS無縫集成,提出了一種可以有效進行物理模擬的新型模型PhysGaussian。在車輛導航過程中,如何將多模態融合數據進行精確得到時空對準是重要的研究方向之一。Quentin Herau等人提出了一種基于3D GS的校準方法3DGS-Calib,與現有的隱式神經方法相比校準速度更快、校準精度更高,可以高效完成車載多模態的時空校準任務。探索一種適普通用、簡潔高效的目標導航算法框架是目前自動駕駛車輛導航領域研究人員的共同目標之一。Xiaohan Lei等人提出了一種基于3D GS的實例圖像目標導航模型GaussNav,將原先的實例圖像目標導航任務轉化為相對容易處理的點目標導航任務,利用子高斯劃分、語義高斯構建和高斯導航三個主要階段有效定位目標物體,最終性能實現了顯著提升。
6. 結論
本文對面向自動駕駛的基于3D GS的三維場景重建技術研究進行了全面綜述,敘述了3D GS的基本情況和在自動駕駛領域的應用情況,內容涵蓋了目前的最新研究成果。本文首先對3D GS的研究背景做出全面介紹。隨后,本文以3D GS核心公式的數學機理探究為主體,討論了3D GS高性能的原因。然后,本文針對3D GS在自動駕駛領域的新視角合成、場景理解和SLAM三個主要應用方向展開論述,強調其對自動駕駛領域帶來的革命性研究風潮。最后,本文深入探討了3D GS在該領域面臨的問題和研究前沿方向。本文針對性地概述了3D GS作為新興三維場景重建技術的基本原理、發展情況和在自動駕駛領域的應用情況,旨在為研究人員快速理解與熟悉3D GS提供可靠渠道,為相關科研工作提供更加廣闊的視野和思路。































