謝賽寧盛贊字節Seed新研究!單Transformer搞定任意視圖3D重建
單Transformer搞定任意視圖3D重建!
這是字節Seed康炳易團隊帶來的最新研究成果Depth Anything 3(下稱DA3),獲謝賽寧盛贊。

架構足夠簡單,核心能力卻不差。能從一張圖、一組多視角照片甚至一段隨手拍的視頻里,精準算出物體深度、還原相機位置,不僅能拼出完整3D場景,還能腦補出沒拍過的新視角圖像。

而且,它在團隊全新打造的視覺幾何基準上橫掃所有任務,相機定位精度平均提升35.7%,幾何重建準確率漲了23.6%,單目深度估計還超越了自家前代DA2。

以前的3D視覺模型,想做單圖深度估計?得單獨訓練一個模型;想搞多視角3D重建?又要換一套架構。
就連算個相機位置都得搭專屬模塊,不僅開發成本高,還沒法充分利用大規模預訓練模型的優勢,數據依賴也很嚴重。
還有就是這些模型往往“術業有專攻”,那DA3的單一極簡操作究竟是怎樣的呢?
極簡設計也能打
核心秘訣就兩點:一是只用一個普通的視覺Transformer當基礎;二是預測目標只抓深度和光線兩個核心。

從架構圖上可以看出來,DA3的任務流程可分為四大環節。
首先是輸入處理,多視角圖像會被送入Image Patch Embed模塊轉化為特征塊,同時若有相機參數則通過編碼器,沒有則用可學習的相機token替代,最終圖像特征與相機信息特征拼接融合。
中間的Single Transformer (Vanilla DINO)是模型的核心大腦。它是基于預訓練的DINO視覺Transformer,通過Within-view self attn單視角自注意力、Cross-view self attn跨視角自注意力兩種注意力機制,讓模型能在單圖、多圖、視頻等不同輸入形式下,自動打通視角間的信息關聯。
之后,Transformer輸出的特征被送入Dual DPRT Head兩個任務頭,一方面輸出深度圖,另一方面輸出光線參數,同時完成深度和光線兩個核心預測。
此外,還會從特征中提取相機姿態信息,確保相機軌跡精準。

在訓練環節上,DA3采用了師生蒸餾策略。用一個性能更優的教師模型從海量數據中提煉高質量偽標簽,再用這套標準答案引導學生模型(即DA3)學習。
這種方式既能充分利用多樣化數據,又能降低對高精度標注數據的依賴,讓模型在訓練階段就能覆蓋更多場景。
字節團隊還專門搭了個全新的視覺幾何基準,整合了5個覆蓋室內、室外、物體級的數據集,從相機定位、3D重建到新視角生成,全方位考驗模型實力。

評測結果就是DA3全程能打。給一段視頻,它能精準估計每幀的相機內參與外參,還原每幀相機的運動軌跡;

將其輸出的深度圖與相機位置結合,能生成密度更高、噪聲更低的3D點云,比傳統方法的點云質量提升明顯;

甚至給幾張同一場景的散圖,它也能通過視角補全,生成未拍攝角度的圖像,這在虛擬漫游、數字孿生等場景中潛力不小。
團隊介紹
Depth Anything 3項目的帶隊人是字節跳動95后研究科學家康炳易。他的研究興趣為計算機視覺、多模態模型,致力于開發能從各種觀察中獲取知識并與物理世界交互的智能體。

2016年,他在浙大完成本科學業,后在加州伯克利和新國立(師從馮佳時)攻讀人工智能專業碩博。
讀博期間,他曾在Facebook AI Research實習,與謝賽寧、馬庫斯等人有過合作。
康炳易領導開發Depth Anything系列,之前還被收入蘋果CoreML庫中。
論文地址:https://arxiv.org/abs/2511.10647



































