Depth Anything再出新作!浙大&港大出品:零樣本,優化任意深度圖
深度感知,即讓機器擁有「三維視覺」,是當今計算機科學和機器人領域的基石。
它賦予了自動駕駛系統判斷安全距離的能力,讓AR/VR頭顯能準確感知物理空間,也為工業自動化提供了精準操作的保障。
盡管單目深度估計(MDE)模型取得了重大進展,能夠進行完整和詳細的深度預測,但預測的深度是相對的,缺乏精確的度量信息。
另一方面,深度測量技術,如運動結構(SfM)或深度傳感器,提供了精確但往往不完整和粗略的度量信息。

浙江大學和香港大學的研究團隊提出了一個創新框架Prior Depth Anything,融合了深度測量中精確但不完整的度量信息與深度預測中相對但完整的幾何結構。

論文鏈接:https://arxiv.org/pdf/2505.10565
項目鏈接:https://github.com/SpatialVision/Prior-Depth-Anything
Prior Depth Anything提出逐步整合來自度量測量(準確度量)和相對預測(完整性和精細細節)的補充信息,以生成密集和細粒度的度量深度圖。
該方法通過粗到細的流程,先用像素級度量對齊將深度預測與先驗融合,再利用條件化單目深度估計模型(conditioned-MDE)優化結果。
模型在7個真實數據集上實現了出色的零樣本遷移,可處理深度補全、超分辨率和修復任務,甚至能應對混合先驗情況,并支持測試時切換預測模型,提供靈活的精度-效率權衡。
得益于對不同形式深度圖的適應能力,Prior Depth Anything還能直接用于優化VGGT的輸出,無需任何訓練即可提升VGGT輸出的精度。

通過對不同模型的輸出進行了定性比較,Prior Depth Anything始終優于以前的方法,提供了更豐富的細節、更清晰的邊界和更準確的指標
現有的方法主要集中在特定的、有限的先驗,限制了它們在現實場景的使用。而Prior Depth Anything則對任意形式的深度先驗都有令人印象深刻的魯棒性。
通過對不同模型的輸出進行了定性比較,Prior Depth Anything始終優于以前的方法,提供了更豐富的細節、更清晰的邊界和更準確的指標。

Prior Depth Anything
給定一張RGB圖像
及其對應的度量深度先驗
,基于先驗的單目深度估計以I和D_prior作為輸入,旨在輸出詳細、完整且度量精確的深度圖
如前文所述,通過不同測量技術得到的深度先驗通常會顯示各種形式的不完整性。為了用一個統一框架處理各種先驗,該方法將D_prior中有效位置坐標統一表示為
,其中N代表有效深度值的個數。

粗度量對齊
如圖所示,不同類型的深度先驗呈現出不同的缺失模式(例如稀疏點、低分辨率網格或不規則孔洞)。
這種稀疏性和不完整性的差異限制了模型對各種先驗的泛化能力。為了解決這個問題,該方法提出預填充缺失區域,將所有先驗轉換為一個共享的中間域,從而減小它們之間的差距。
然而,以往方法中使用的基于插值的填充保留了像素級度量信息,但忽略了幾何結構,導致填充區域出現顯著誤差。
另一方面,全局對齊通過縮放相對深度預測來匹配先驗,它保持了預測的精細結構,但丟失了關鍵的像素度量細節。
為了解決這些挑戰,該方法提出了像素級度量對齊,它在像素層面將幾何預測與度量先驗對齊,從而同時保留預測的結構和原始的度量信息。
細結構精煉
盡管預填充的粗略密集深度在度量上通常是準確的,但這種無參數方法對深度先驗中的噪聲很敏感。一個位于模糊邊緣上的噪聲像素就可能擾亂所有依賴其作為支撐點的填充區域。
為了解決這些誤差,該方法進一步隱式利用MDE模型捕捉RGB圖像中精確幾何結構的能力,學習糾正先驗中的噪聲并生成細化的深度圖。
度量條件
具體來說,該方法將預填充先驗D_prior作為額外條件結合到預訓練的MDE模型中。在RGB圖像的指導下,訓練條件化的MDE模型用于糾正D_prior中潛在噪聲和錯誤。
為此,該方法引入一個與RGB輸入層平行的條件卷積層,如圖2-2所示。通過將條件層初始化為零,模型可以自然地繼承預訓練MDE模型的能力。
幾何條件
除了利用MDE模型從RGB輸入中捕捉幾何結構的固有能力外,該方法還結合了現有的深度預測作為外部幾何條件,以幫助細化粗略的預填充先驗。從凍結的MDE模型獲得的深度預測D_pred也通過零初始化的卷積層傳遞到條件MDE模型中。
實驗結果
在表 2中定量評估了模型處理具有挑戰性的未知混合先驗的能力。就絕對性能而言,Prior Depth Anything的所有版本都優于對比基線。更重要的是,其受新模式深度先驗的影響較小。

例如,與表 3中僅使用稀疏點的設置相比,添加缺失區域或低分辨率只導致了輕微的性能下降(1.96→2.01,在 NYUv2 上為 3.08)。

相比之下,Omni-DC (2.63→2.86, 3.81) 和 Marigold-DC (2.13→2.26, 3.82) 則表現出更大的下降。這些結果凸顯了該方法對于不同先驗輸入的魯棒性。
Zero-shot深度補全
表 3展示了使用不同種類和稀疏性水平的稀疏點作為先驗時的零樣本深度補全結果。
相比于Omni-DC和Marigold-DC(這些模型是專門為深度補全設計的,并依賴于復雜且耗時的結構),Prior Depth Anything憑借更簡單、更高效的設計實現了更好的整體性能。
Zero-shot深度超分辨率
表 4展示了深度圖超分辨率的結果。

在那些通過下采樣創建低分辨率圖的基準測試中(例如NYUv2、ScanNet 等),Prior Depth Anything取得了與最先進方法相當的性能。
然而,由于下采樣往往會包含來自 GT(真實深度)的過于具體的細節,因此直接復制 GT 中的噪聲和模糊邊界反而能帶來更好的結果。
因此,ARKitScenes和RGB-D-D更具代表性和實用性,因為它們使用低功耗相機來捕獲低分辨率深度。
在這兩個基準測試中,Prior Depth Anything相比于其他零樣本方法取得了領先的性能。
Zero-shot深度修復
表 5評估了在深度圖中修復缺失區域的性能。
在具有實用性和挑戰性的「Range」設置中,Prior Depth Anything取得了卓越的結果,這對于改進有效工作范圍有限的深度傳感器具有重要意義。

此外,它在填充方形和物體遮罩方面超越了所有其他替代方法,這凸顯了其在 3D 內容生成和編輯方面的潛力。
應用
為了展示Prior Depth Anything在實際應用中的潛力,作者還嘗試直接使用其來細化來自最先進的3D重建基礎模型VGGT的深度預測。
VGGT提供了深度圖和置信度圖,選取置信度最高的30%的像素作為深度先驗,并應用不同的基于先驗的深度優化模型來獲得更精細的深度預測。
下表展示了VGGT在單目和多視角深度估計方面的性能,以及不同基于先驗的方法作為細化器的有效性。

只有Prior Depth Anything持續地改進了VGGT的預測結果,這主要歸功于其適應多樣化先驗的能力。
這些令人驚喜的結果凸顯了Prior Depth Anything廣泛的應用潛力。
效果展示
給定RGB圖像(第一個)及其相應的深度傳感器測量深度圖(第二個),Prior Depth Anything可以有效地校正所謂「ground truth」深度圖中的噪聲,填充空缺區域最后輸出詳細的、完整的并且度量精確的深度圖(第三個)。
這些「超越ground truth」的案例凸顯該方法在解決深度測量技術中固有噪聲方面的潛力。

bedroom



computer_lab





































