超越純視覺模型!不改VLM標準架構,實現像素級深度預測
在當前多模態AI發展浪潮中,視覺語言模型(Vision Language Models, VLMs)因其能通過「看圖 + 文字交互」處理多樣任務而備受關注。
然而,盡管在語義理解、視覺問答、圖像指令等任務上表現優異,它們在從 2D 圖像理解 3D 空間結構方面仍顯薄弱。相比之下,純視覺模型(pure vision models)在 絕對深度估計(metric depth estimation) 等三維理解任務上,憑借專門設計的網絡結構與損失函數,早已達到了超越人類的精度。
這就帶來了一個核心問題:「視覺語言模型是否有可能不更改其標準架構及訓練loss,實現與純視覺模型同等級別的3D理解能力?」
Meta開源了一項突破性研究工作DepthLM,首次證明了該問題的答案是肯定的!
DepthLM首次證明了語言模型也能準確理解三維空間,并且比專家視覺模型具有更好的靈活性及泛化性。
DepthLM證明了,在無需改動架構的前提下,就能讓視覺語言模型(VLM) 在像素級「絕對深度估計」等三維視覺任務上達到與純視覺模型相媲美的水平。
在此之前,即便是最先進的VLM如GPT-5和Gemini2.5-Pro等,在絕對深度估計上均遠遠落后于純視覺模型。

論文地址:https://arxiv.org/pdf/2509.25413
代碼地址:https://github.com/facebookresearch/DepthLM_Official
Huggingface模型地址:https://huggingface.co/facebook/DepthLM
DepthLM通過對VLM訓練的各個模塊的詳細分析,發現了當前VLM無法理解三維空間的核心問題并非缺乏額外密集預測頭(dense head),復雜回歸損失或密集的監督信號,而是無法準確理解像素位置(pixel reference)以及難以分辨不同的相機參數(camera ambiguity)。

基于以上發現,DepthLM通過下述技術,實現了「不改動VLM架構、不引入額外密集預測頭(dense head)與復雜回歸損失」的情況下,使VLM解鎖精確像素級深度預測能力 。
視覺提示(visual prompting):在圖像上直接渲染一個小標記(marker)指向詢問像素,相比用文字描述 (X,Y) 坐標,模型更直觀地「看到」像素的位置;
基于內參的圖像增強(intrinsic-conditioned augmentation):把所有圖像統一成一個焦距尺度,消除因相機參數差異導致尺度混亂,使模型學習一致的度量尺度;
稀疏標簽(sparse labels)監督:每張圖像只標注1-2個像素即可,降低標注成本,仍能訓練出高精度模型;
標準的SFT:基于文字的next token prediction范式及cross entropy,無需設計額外回歸loss或正則項。

研究人員還構建了一個綜合 3D 任務 benchmark 套件DepthLMBench,用于訓練與評測VLM在各種室內 / 室外深度任務上的表現。
此外,DepthLM并不局限于單一深度預測任務:同一個框架還被擴展到了五類代表性3D任務(例如時間、速度、相機運動估計等),展現出統一模型處理多任務的潛力。

論文作者蔡志鵬是Meta的高級研究員。主要研究方向是優化、感知和多模態生成等通用計算機視覺/機器學習問題,論文曾評為ECCV18年12篇最佳論文之一,獲得英特爾實驗室2024年最佳學者獎。

實驗結果
在多個公開數據集(如Argoverse2、DDAD、NuScenes、ScanNet++、sunRGBD、iBims1、NYUv2、ETH3D等)上,DepthLM 的δ?指標(預測誤差在±25%范圍內比例)可達0.83+水平,顯著優于幾乎所有現有VLM方法。

同時,DepthLM首次實現了媲美純視覺模型(即那些為深度估計專門設計的模型)的準確率,超過Depth Pro及Metric3Dv2

有趣的是,DepthLM雖然只在每張訓練圖像上見過最多2個標記點,仍能夠通過對一張圖上的每一個像素獨立提問,獲得高質量的點云。
尤為令人驚喜的是,DepthLM在沒有任何后處理或正則化損失的情況下,自然避免了過度平滑(over-smoothing)問題:在邊界區域產生的「飛點」(flying points)遠比純視覺模型少。

多任務實驗表明,DepthLM由于其訓練范式的簡單及可拓展性,可實現在同一模型下勝任多種3D任務,且在更復雜的任務如相機姿態估計(pose)上與SOTA VLM的性能差距進一步擴大。

研究意義及應用前景
VLM向3D世界理解邁進一步DepthLM表明,視覺語言模型并非天生只能處理語義與二維任務,通過恰當提示與訓練策略,它們同樣可以解鎖精確的幾何理解能力。
這一發現證明了專家視覺模型的架構(密集預測頭,DINO backbone)以及復雜訓練損失均不是實現空間智能的必要條件。
統一模型與多任務整合的可能性傳統深度估計模型往往為每個任務都要設計單獨頭或結構,而DepthLM首次提供了一條「單一VLM覆蓋多任務」的路徑。
降低標注 / 架構設計成本 DepthLM 的稀疏標注方式大幅降低訓練數據的標注負擔,同時避免了為不同任務設計復雜模塊的工程代價。
在機器人、自動駕駛、增強現實等領域具備實際潛力 對于需要將二維視覺輸入變為深度理解的系統(如自動導航、場景重建、感知增強等),DepthLM 的通用性和精度具有很強吸引力。
結語
DepthLM的出現,標志著視覺語言模型在三維理解方向上的一次突破性進展。它揭示了一種新的路徑:通過「提示 + 稀疏微調」,不動結構就能讓VLM達到傳統深度模型的水準。
這既是科研層面的里程碑,也為未來在實際系統中統一多模態推理能力提供了可能。
研究人員期待DepthLM后續在機器人、自動駕駛、增強現實等場景中的落地應用。



































