StereoAdapter:北大首提自監(jiān)督,適配水下雙目深度估計(jì)
水下環(huán)境中的深度感知對(duì)水下機(jī)器人自主導(dǎo)航、目標(biāo)檢測(cè)和三維重建等任務(wù)至關(guān)重要。
相比單目方法,雙目視覺(jué)可以通過(guò)雙目相機(jī)直接獲得具有度量尺度的3D深度,避免了單目深度固有的尺度不確定性。
然而,將現(xiàn)有視覺(jué)算法直接應(yīng)用于水下場(chǎng)景會(huì)遇到顯著挑戰(zhàn)。
水下成像因光學(xué)特性差異引入嚴(yán)重的域偏移:水對(duì)不同波長(zhǎng)光的吸收導(dǎo)致顏色和亮度隨距離衰減,水體中的懸浮顆粒會(huì)產(chǎn)生前向/后向散射,攝像機(jī)與水的界面產(chǎn)生復(fù)雜折射。
這些因素違背了陸地視覺(jué)中常用的光度一致性假設(shè),使得在水下獲得可靠的雙目匹配變得更加困難。
在此背景下,目前的方法面臨兩大挑戰(zhàn):
- 如何參數(shù)高效地將龐大的視覺(jué)基礎(chǔ)模型(如在海量陸地?cái)?shù)據(jù)上訓(xùn)練的單目深度編碼器)適配到水下域,而不依賴大量有標(biāo)注的水下數(shù)據(jù);
- 如何將全局一致但存在尺度模糊的單目深度先驗(yàn)與局部精確但光度敏感的雙目匹配約束緊密融合,在自監(jiān)督條件下充分發(fā)揮雙方優(yōu)勢(shì)。
此前一些研究嘗試從不同角度結(jié)合單目和雙目信息,例如TiO-Depth提出了「二合一」的單目-雙目聯(lián)合框架,Stereo Anywhere利用視覺(jué)基礎(chǔ)模型提供的單目先驗(yàn)來(lái)增強(qiáng)雙目匹配,實(shí)現(xiàn)了在低紋理或反光場(chǎng)景下的零樣本泛化能力。
但在水下場(chǎng)景,劇烈的域差異依然使這些方法效果受限。
針對(duì)上述難題,北京大學(xué)等機(jī)構(gòu)的研究人員提出了全新的StereoAdapter框架,以自監(jiān)督學(xué)習(xí)為基礎(chǔ),在不需要水下真實(shí)深度標(biāo)簽的情況下,將強(qiáng)大的單目深度基礎(chǔ)模型與雙目幾何有機(jī)結(jié)合。
圖片
論文鏈接:https://arxiv.org/pdf/2509.16415
具體來(lái)說(shuō),研究人員通過(guò)低秩適配(LoRA)技術(shù),將預(yù)訓(xùn)練的單目深度模型高效地微調(diào)到水下域;然后以其輸出的單目深度作為全局先驗(yàn),結(jié)合一個(gè)循環(huán)迭代細(xì)化的雙目匹配模塊,在逐步優(yōu)化中融合單目與雙目的優(yōu)勢(shì)。
這樣既保證了深度預(yù)測(cè)的全局合理性,又利用雙目約束糾正了單目先驗(yàn)可能存在的尺度和細(xì)節(jié)誤差。整個(gè)設(shè)計(jì)注重參數(shù)效率和訓(xùn)練效率,使模型能夠以較小開銷完成水下域的適配和部署。
圖片
論文作者張澤宇是Richard Hartley教授和Ian Reid教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺(jué)領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。
唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授 / 研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者,入選國(guó)家級(jí)海外高水平人才計(jì)劃。曾獲國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,連續(xù)兩年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。他曾在美國(guó)卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國(guó)牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究,在國(guó)際頂級(jí)期刊與會(huì)議發(fā)表論文 100 余篇,相關(guān)成果被引用超過(guò)10000次。曾獲ACM Multimedia最佳論文提名獎(jiǎng),現(xiàn)任ACL 2025、EMNLP 2025、ACM MM 2025領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。

LoRA適配與雙階段框架
StereoAdapter采用了雙階段結(jié)構(gòu),包括單目深度估計(jì)階段和雙目深度細(xì)化階段。
圖片
如圖所示,第一階段使用預(yù)訓(xùn)練的Depth Anything V2單目深度模型作為基礎(chǔ)。研究人員在其Transformer編碼器中插入LoRA模塊進(jìn)行水下域適配,只需增加極少量參數(shù),就能讓模型學(xué)習(xí)水下圖像的特有特征,而原有的大量權(quán)重保持凍結(jié)。
通過(guò)這種方式,模型保留了預(yù)訓(xùn)練過(guò)程中學(xué)到的通用幾何先驗(yàn),同時(shí)針對(duì)水下場(chǎng)景進(jìn)行了調(diào)整。在編碼器輸出的多尺度特征(金字塔分辨率從1/4到1/32)基礎(chǔ)上,研究人員引入SDFA模塊逐級(jí)融合相鄰尺度特征,以兼顧局部細(xì)節(jié)和全局上下文。
接著,單目階段的解碼器生成一個(gè)稠密視差體積(離散采樣多個(gè)視差假設(shè))并輸出初始的粗略視差圖。
由于Depth Anything V2具備很強(qiáng)的跨數(shù)據(jù)集泛化能力,這個(gè)初始視差預(yù)測(cè)在水下也具有全局一致的深度結(jié)構(gòu)但精度較粗。
在第二階段,StereoAdapter利用第一階段提供的視差作為初始值,結(jié)合雙目圖像進(jìn)行循環(huán)匹配細(xì)化。
研究人員構(gòu)建了一個(gè)基于GRU的遞歸雙目匹配模塊。首先,從左、右圖像提取特征金字塔并計(jì)算多尺度相關(guān)體積——這類似于生成不同尺度下的代價(jià)空間,用于表示視差假設(shè)的匹配代價(jià)。
與此同時(shí),將第一階段得到的初始視差轉(zhuǎn)換為深度,并與稀疏雙目匹配得到的可靠深度點(diǎn)進(jìn)行比對(duì):通過(guò)特征匹配獲取一些高置信度的對(duì)應(yīng)點(diǎn),計(jì)算出對(duì)應(yīng)的真實(shí)尺度深度,然后與單目深度進(jìn)行比較。
如果發(fā)現(xiàn)單目預(yù)測(cè)的整體尺度存在偏差,研究人員會(huì)估計(jì)一個(gè)尺度和偏移校正項(xiàng)來(lái)調(diào)整單目深度;同時(shí),根據(jù)這些錨點(diǎn)對(duì)局部誤差進(jìn)行插值傳播,以細(xì)化初始深度圖。
這一混合尺度對(duì)齊過(guò)程確保進(jìn)入循環(huán)細(xì)化模塊的初始深度既保持單目先驗(yàn)的全局尺度,又在局部盡可能貼近真實(shí)度量值。
接下來(lái),經(jīng)過(guò)尺度校正的初始視差送入迭代細(xì)化單元。循環(huán)模塊借鑒RAFT-Stereo等方法,引入ConvGRU網(wǎng)絡(luò)來(lái)多次更新視差。
具體而言,在每次迭代中,根據(jù)當(dāng)前視差估計(jì)從多尺度相關(guān)體積中提取一組匹配特征(類似「lookup」操作),并與當(dāng)前迭代的隱藏狀態(tài)、單目上下文特征一起輸入GRU單元。
這里,研究人員使用一種融合上下文編碼器:一方面直接復(fù)用單目階段適配后的Transformer特征(即基礎(chǔ)模型在水下調(diào)優(yōu)后的多尺度特征),另一方面引入一個(gè)輕量級(jí)CNN提取左圖像的局部細(xì)節(jié)特征。
Transformer提供高層語(yǔ)義和全局信息,CNN提供局部紋理和邊緣,二者經(jīng)過(guò)通道對(duì)齊后逐元素相加融合,形成多尺度的上下文特征集合。這些特征用于初始化GRU的隱藏狀態(tài),并在每次迭代中與相關(guān)體積特征一起為GRU提供指導(dǎo)。GRU每迭代輸出一個(gè)視差增量Δd,將其加到當(dāng)前視差估計(jì)上,實(shí)現(xiàn)逐步細(xì)化。
在多次循環(huán)更新后,可以獲得精細(xì)的視差預(yù)測(cè),并通過(guò)上采樣恢復(fù)到原始分辨率,最終轉(zhuǎn)換為深度圖。
這種循環(huán)匹配機(jī)制使StereoAdapter能夠反復(fù)優(yōu)化匹配誤差,逐步逼近高精度的結(jié)果:它利用單目提供的全局先驗(yàn)引導(dǎo)每次匹配搜索,從而在低紋理或存在散射的區(qū)域也能逐漸收斂到正確的視差。
值得一提的是,雙目模塊充分復(fù)用了單目階段的基礎(chǔ)模型編碼器。通過(guò)在雙目階段繼續(xù)使用融合了LoRA權(quán)重的Depth Anything編碼器,避免了訓(xùn)練和部署額外的大型網(wǎng)絡(luò),既節(jié)省了參數(shù)又確保兩階段特征表述的一致性。
配合小型CNN補(bǔ)充局部信息,這種設(shè)計(jì)在保證精度的同時(shí)控制了計(jì)算開銷,使得StereoAdapter具備實(shí)際部署的輕量性。
自監(jiān)督訓(xùn)練策略
研究人員采用自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練StereoAdapter的兩階段網(wǎng)絡(luò),從而擺脫對(duì)水下真值深度數(shù)據(jù)的依賴。在單目階段,借鑒Monodepth等經(jīng)典方法,利用左右視圖的一致性構(gòu)造訓(xùn)練信號(hào)。
具體來(lái)說(shuō),讓單目網(wǎng)絡(luò)預(yù)測(cè)左圖的視差后,將右圖向左重建,得到合成的左圖像,并與真實(shí)左圖進(jìn)行比較。這種光度重建損失由加權(quán)的像素強(qiáng)度差異(如L1范數(shù))和結(jié)構(gòu)相似性(SSIM)組成,用以度量重建圖像
和原始左圖
之間的差距。
與此同時(shí),添加一個(gè)多尺度邊緣感知的平滑損失,約束視差圖在紋理較平坦區(qū)域的平滑性,同時(shí)保持深度邊緣與圖像梯度對(duì)齊。單目階段的總損失即為重建損失和平滑項(xiàng)的加權(quán)和。
訓(xùn)練時(shí),僅優(yōu)化LoRA模塊和解碼器等新增參數(shù),預(yù)訓(xùn)練的編碼器權(quán)重仍然凍結(jié)不動(dòng)。通過(guò)這種方式,第一階段實(shí)現(xiàn)了對(duì)水下域的自適應(yīng):LoRA模塊調(diào)整基礎(chǔ)模型的特征提取使其適應(yīng)水下圖像分布,而網(wǎng)絡(luò)通過(guò)與右圖的重建對(duì)比學(xué)會(huì)輸出合理的視差。
在雙目細(xì)化階段,研究人員設(shè)計(jì)了多項(xiàng)自監(jiān)督損失共同優(yōu)化。
首先是雙目重建損失,類似單目階段,用最終迭代得到的視差
將右圖
向左拼合,得到重建的左圖像?<sub>L</sub>,并與真實(shí)左圖進(jìn)行光度一致性約束(L1+SSIM)。
考慮到雙目視差無(wú)法在遮擋區(qū)域重建出左圖有效像素,研究人員利用單目初始視差
估計(jì)遮擋掩膜
對(duì)于
判定為右目不可見的區(qū)域,不強(qiáng)行讓
去逼近真實(shí)左圖,而是引入單目預(yù)測(cè)的左視圖重建
來(lái)填補(bǔ),形成混合重建圖
這樣在有遮擋的像素位置采用單目重建,避免了雙目重建誤差。
這種遮擋處理策略提高了訓(xùn)練穩(wěn)定性,使網(wǎng)絡(luò)不用在無(wú)效的對(duì)應(yīng)關(guān)系上浪費(fèi)精力。
其次,框架中引入視差引導(dǎo)損失,鼓勵(lì)最終精細(xì)視差與初始單目視差保持一致的結(jié)構(gòu)趨勢(shì)。
具體包括兩部分:
1)初始和最終視差圖的梯度(水平和垂直方向)差異損失,保證細(xì)化后的深度邊緣不要偏離單目先驗(yàn)提供的主要輪廓;
2)對(duì)未發(fā)生視差投影錯(cuò)誤的像素,直接約束初始與最終視差的差值,防止網(wǎng)絡(luò)過(guò)度偏離單目提供的合理值。
最后,同樣在最終視差上施加邊緣感知的平滑正則化,以消除局部噪聲。雙目階段的總損失是上述重建項(xiàng)、平滑項(xiàng)和引導(dǎo)項(xiàng)的加權(quán)和。
通過(guò)單目階段的全局引導(dǎo)和雙目階段的局部校正相結(jié)合,StereoAdapter實(shí)現(xiàn)了一個(gè)純自監(jiān)督的訓(xùn)練流程。在訓(xùn)練初期,單目先驗(yàn)為雙目匹配提供了良好的起點(diǎn);隨著迭代優(yōu)化,雙目細(xì)化模塊又不斷提升局部精度。值得強(qiáng)調(diào)的是,研究人員還引入了動(dòng)態(tài)LoRA機(jī)制來(lái)進(jìn)一步提升訓(xùn)練效果和模型的持續(xù)適應(yīng)能力。
動(dòng)態(tài)LoRA機(jī)制
傳統(tǒng)LoRA方法為每層預(yù)先設(shè)定一個(gè)固定的低秩r,通過(guò)增加
來(lái)微調(diào)預(yù)訓(xùn)練權(quán)重,其中
然而,不同網(wǎng)絡(luò)層在適配水下時(shí)所需的容量各異,固定秩可能要么限制高層次特征的調(diào)整(秩過(guò)低),要么浪費(fèi)參數(shù)引入冗余(秩過(guò)高)。
為此,研究人員設(shè)計(jì)了動(dòng)態(tài)LoRA策略,讓每層的有效秩由數(shù)據(jù)自適應(yīng)決定。做法是為每個(gè)低秩分量引入一個(gè)可學(xué)習(xí)的重要性權(quán)重
,替代簡(jiǎn)單的BA相加。
具體地,LoRA的權(quán)重增量被改寫為

初始時(shí)所有
隨機(jī)賦值,訓(xùn)練過(guò)程中,在損失中加入L1范數(shù)正則
來(lái)促使權(quán)重產(chǎn)生稀疏化。
通過(guò)軟閾值迭代等近端優(yōu)化方法,每次更新后將
小于閾值
的權(quán)重壓至0,從而逐漸裁剪掉貢獻(xiàn)不顯著的秩分量。
訓(xùn)練前期
從0緩慢提高,讓模型先充分探索各個(gè)秩方向的作用,再逐步加大稀疏力度避免重要方向過(guò)早被裁掉。
此外,研究人員采取「兩階段」訓(xùn)練:先進(jìn)行一定比例(例如45%)的迭代不應(yīng)用閾值操作(密集階段),再在剩余迭代中開啟稀疏正則(稀疏階段)。這樣保證模型先在完整秩空間學(xué)習(xí),再精簡(jiǎn)。
訓(xùn)練完成后,將剩余的非零低秩分量合并回主干權(quán)重——也就是直接將
作為新的編碼器權(quán)重。
這意味著在推理時(shí)無(wú)需額外的LoRA分支,模型已將水下知識(shí)無(wú)縫融合入基礎(chǔ)模型中,不增加任何計(jì)算開銷。
動(dòng)態(tài)LoRA實(shí)現(xiàn)了自動(dòng)秩選擇:讓模型自行決定每層需要多大調(diào)整容量,同時(shí)保證最終模型的參數(shù)量和推理效率幾乎不受影響。
該機(jī)制對(duì)跨域持續(xù)學(xué)習(xí)尤為有效,在不同水下數(shù)據(jù)集上持續(xù)自監(jiān)督訓(xùn)練時(shí),編碼器能夠不斷調(diào)整各層的秩來(lái)適應(yīng)新場(chǎng)景,使單目先驗(yàn)和雙目細(xì)化模塊始終協(xié)同工作。
UW-StereoDepth-40K 合成數(shù)據(jù)集
由于水下真實(shí)雙目數(shù)據(jù)匱乏,研究人員構(gòu)建了一個(gè)大規(guī)模合成水下雙目數(shù)據(jù)集UW-StereoDepth-40K,以支持模型預(yù)訓(xùn)練和驗(yàn)證其泛化性。
借助Unreal Engine 5 (UE5)的高保真渲染能力,研究人員創(chuàng)建了逼真的水下虛擬環(huán)境,并嚴(yán)格保證左右相機(jī)的幾何一致性。
具體而言,設(shè)計(jì)了四種多樣的水下場(chǎng)景:珊瑚礁、工業(yè)結(jié)構(gòu)(如水下管道設(shè)施)、沉船以及自然海床等,每個(gè)場(chǎng)景都使用了豐富的3D素材(高精度掃描的珊瑚和海洋植物、水下機(jī)器人模型、沉積物和巖石、各種水下人造結(jié)構(gòu)等)進(jìn)行細(xì)節(jié)填充。
與基于生成模型的方法不同,UE5渲染確保了左右視圖像素級(jí)對(duì)齊,杜絕了由隨機(jī)差異引起的偽匹配問(wèn)題。在此基礎(chǔ)上,研究人員對(duì)環(huán)境進(jìn)行了多方面的隨機(jī)化和多樣化:
相機(jī)基線:在4cm、10cm、20cm、40cm等多個(gè)距離中隨機(jī)取值,涵蓋從小型觀測(cè)ROV的窄基線到大型作業(yè)ROV的寬基線配置。這樣確保模型可適應(yīng)不同平臺(tái)的雙目相機(jī)參數(shù)。
光照和介質(zhì):模擬真實(shí)的焦散效應(yīng)(水面波動(dòng)形成的光斑)、漂浮粒子(附帶物理運(yùn)動(dòng))、以及與深度相關(guān)的色偏和霧化。這些效果逼真地再現(xiàn)了陽(yáng)光照射、水體懸浮物和水色隨深度變化等現(xiàn)象,使數(shù)據(jù)涵蓋各種典型水下視覺(jué)退化情形。
數(shù)據(jù)集通過(guò)在每個(gè)場(chǎng)景中沿連續(xù)軌跡移動(dòng)雙目相機(jī)采樣獲得。每隔固定距離截取一對(duì)立體圖像,共計(jì)獲得40,000對(duì)高分辨率(1280×960)圖像及其對(duì)應(yīng)的真值深度圖和語(yǔ)義分割掩膜。為保證數(shù)據(jù)質(zhì)量,實(shí)行了嚴(yán)格的篩選和質(zhì)檢:自動(dòng)濾除紋理過(guò)于貧乏或深度范圍異常(>50米)超出一般水下操作距離的幀;
計(jì)算左右圖像的結(jié)構(gòu)相似度以確保立體一致性,并由領(lǐng)域?qū)<胰斯z查圖像的逼真度、剔除可能的渲染瑕疵。最終的UW-StereoDepth-40K涵蓋多種環(huán)境和條件,從明亮的淺海到幽暗的深水,都具有高度逼真的視覺(jué)效果和準(zhǔn)確的深度標(biāo)簽。
這為水下雙目深度估計(jì)提供了一個(gè)大型高質(zhì)量的訓(xùn)練資源,有助于在無(wú)真實(shí)數(shù)據(jù)時(shí)提高模型對(duì)水下域的適應(yīng)性。
在StereoAdapter中,首先在UW-StereoDepth-40K上進(jìn)行預(yù)訓(xùn)練,使模型先掌握水下場(chǎng)景的一般幾何和視覺(jué)特性。由于合成數(shù)據(jù)提供了充足的跨視角、跨條件樣本,模型能夠?qū)W到魯棒的特征表示,為后續(xù)在真實(shí)水下場(chǎng)景中的零樣本遷移打下基礎(chǔ)。
實(shí)驗(yàn)表明,在該合成數(shù)據(jù)上預(yù)訓(xùn)練,再在下游任務(wù)上微調(diào)或直接評(píng)估,顯著優(yōu)于不利用該數(shù)據(jù)集的情形,證明了UW-StereoDepth-40K在彌合模擬與真實(shí)差距方面的重要作用。
圖片
仿真實(shí)驗(yàn)結(jié)果
研究人員在仿真環(huán)境和真實(shí)數(shù)據(jù)上對(duì)StereoAdapter進(jìn)行了全面評(píng)測(cè),結(jié)果顯示出明顯優(yōu)勢(shì)。首先,在仿真數(shù)據(jù)集上,選用TartanAir數(shù)據(jù)集中的水下子集和SQUID水下數(shù)據(jù)集作為基準(zhǔn)。
TartanAir水下子集包含22段模擬水下航行序列,共13,583對(duì)立體圖像;SQUID數(shù)據(jù)集由4個(gè)不同真實(shí)水下場(chǎng)景下采集的57對(duì)立體圖像組成。評(píng)測(cè)采用標(biāo)準(zhǔn)的深度估計(jì)指標(biāo):絕對(duì)相對(duì)誤差(REL)、均方根誤差(RMSE)以及δ<1.25精準(zhǔn)度(A1)等。
在TartanAir水下集上,StereoAdapter在零樣本設(shè)置(僅用合成數(shù)據(jù)訓(xùn)練,未在TartanAir上微調(diào))下就超越了現(xiàn)有所有方法,取得了最優(yōu)的精度。
該模型實(shí)現(xiàn)了最低的RMSE ~2.89,REL也僅有0.0527,同時(shí)準(zhǔn)確率A1達(dá)94.67%,均為該基準(zhǔn)下的最佳表現(xiàn)。
相比之下,傳統(tǒng)雙目網(wǎng)絡(luò)如RAFT-Stereo等在同樣未微調(diào)情況下RMSE約在4.0以上;即便結(jié)合基礎(chǔ)模型的Stereo Anywhere,其RMSE也有3.16,A1為94.42%。
該方法顯著降低了誤差。例如相對(duì)于此前性能最好的Stereo Anywhere,RMSE降低了約6.1%。這證明了單目先驗(yàn)+LoRA適配+循環(huán)細(xì)化的設(shè)計(jì)在水下環(huán)境下具備卓越的泛化能力。
將StereoAdapter在TartanAir上進(jìn)行微調(diào)后,性能進(jìn)一步提升:RMSE降至2.78,A1提高到95.12%
這進(jìn)一步表明,合成預(yù)訓(xùn)練 + 真實(shí)微調(diào)可以協(xié)同發(fā)揮作用,使模型在目標(biāo)域達(dá)到更高精度。
在SQUID數(shù)據(jù)集上,該方法同樣表現(xiàn)優(yōu)異。SQUID場(chǎng)景更接近真實(shí)拍攝,很多傳統(tǒng)方法在零樣本遷移時(shí)誤差較大。
然而StereoAdapter在未見過(guò)SQUID的情況下,取得了僅1.88的RMSE和0.0806的REL,以及94.13%的A1準(zhǔn)確率,全面領(lǐng)先于其他對(duì)比方法。
例如,著名的RAFT-Stereo(在Scene Flow上訓(xùn)練)在SQUID上的RMSE約1.96,Selective IGEV在微調(diào)后RMSE也有1.93,而文中提出的方法在零樣本就達(dá)到1.88的水平。若再加上TartanAir數(shù)據(jù)微調(diào),RMSE進(jìn)一步降至1.86,A1達(dá)94.28%
總體來(lái)看,StereoAdapter在仿真環(huán)境(TartanAir)和真實(shí)靜態(tài)數(shù)據(jù)(SQUID)上均取得新的SOTA成績(jī):相較之前最好的結(jié)果,RMSE分別降低約6.11%和5.12%。
這些結(jié)果也凸顯了合成數(shù)據(jù)預(yù)訓(xùn)練的價(jià)值——模型在UW-StereoDepth-40K上學(xué)到的表示使其在陌生真實(shí)場(chǎng)景中也能保持低誤差。
除了定量指標(biāo),研究人員還比較了深度圖的可視化效果。如圖5所示,StereoAdapter輸出的深度圖在遠(yuǎn)距離區(qū)域的尺度預(yù)測(cè)更準(zhǔn)確,且整體連貫性和細(xì)節(jié)保真度均優(yōu)于基準(zhǔn)方法。
圖片
例如,在一些水下弱紋理的背景區(qū)域,該方法依然生成了清晰平滑的深度,而某些對(duì)比方法要么深度噪聲很大要么直接無(wú)法給出合理值。這進(jìn)一步驗(yàn)證了該框架在困難視覺(jué)條件下的魯棒性。
實(shí)際部署與水下測(cè)試表現(xiàn)
研究人員將StereoAdapter部署在實(shí)際的水下機(jī)器人平臺(tái)上,驗(yàn)證其在真實(shí)環(huán)境中的效果和速度。
研究人員使用BlueROV2水下機(jī)器人搭載ZED 2i雙目相機(jī),在一個(gè)室內(nèi)水池環(huán)境中進(jìn)行了測(cè)試。
圖片
機(jī)器人搭載了NVIDIA Jetson Orin NX(16GB)嵌入式計(jì)算模塊用于在線深度估計(jì)。
為了評(píng)估算法精度,研究人員在實(shí)驗(yàn)前獲取了測(cè)試場(chǎng)景的高精度三維重建:通過(guò)在水池中放置AprilTag定位板,使用體感相機(jī)和多視幾何方法離線生成了場(chǎng)景的帶度量尺度的三維網(wǎng)格。
運(yùn)行過(guò)程中,機(jī)器人在水池中分別設(shè)置的三種障礙布局(稀疏分散、并排排列、密集聚集)下執(zhí)行九段不同軌跡,攝像頭捕獲同步的雙目視頻。
研究人員利用先驗(yàn)標(biāo)記的位置將每幀相機(jī)姿態(tài)對(duì)準(zhǔn)預(yù)構(gòu)建的場(chǎng)景網(wǎng)格,并渲染出對(duì)應(yīng)視角下的「參考深度」(作為近似真值)。這樣就獲得了每幀圖像的評(píng)估基準(zhǔn),用于計(jì)算REL、RMSE等指標(biāo),以衡量各方法在真實(shí)水下的表現(xiàn)。
實(shí)驗(yàn)結(jié)果(表III)表明,StereoAdapter在真實(shí)水下環(huán)境中依然保持了最佳性能。
圖片
與兩個(gè)具有代表性的最新方法相比(Stereo Anywhere和FoundationStereo),提出的方法誤差更低、準(zhǔn)確度更高:StereoAdapter的RMSE約1.97,A1準(zhǔn)確率94.78%,而Stereo Anywhere的RMSE為2.51(A1=91.20%),F(xiàn)oundationStereo的RMSE為2.14(A1=89.61%)
相比之下,TiO-Depth在該場(chǎng)景下表現(xiàn)不佳,RMSE高達(dá)6.76,說(shuō)明缺乏雙目幾何約束的單目方法在水下極易失效。
該方法對(duì)各種玻璃杯和巖石障礙都生成了清晰準(zhǔn)確的深度映射,在物體邊緣和無(wú)紋理水區(qū)域都顯著優(yōu)于對(duì)比方法。
圖片
值得關(guān)注的是,StereoAdapter不僅精度高,而且推理速度快、適合部署。在Jetson Orin NX上,將輸入分辨率調(diào)整為640×360并進(jìn)行了實(shí)時(shí)測(cè)試,各方法的單幀處理時(shí)延如表VII所示:FoundationStereo平均每幀需約1815毫秒,Stereo Anywhere約1440毫秒,而StereoAdapter僅約1113毫秒。
圖片
也就是說(shuō),該方法在同樣硬件上比Stereo Anywhere快約327ms,比FoundationStereo快約702ms。
這一速度優(yōu)勢(shì)源自對(duì)基礎(chǔ)模型的高效利用和架構(gòu)優(yōu)化:StereoAdapter只使用了Depth Anything的小型基座版本(B模型)且僅在單目階段前向一次,就提供先驗(yàn)和特征,隨后輕量的GRU模塊進(jìn)行迭代 refinements;
而Stereo Anywhere需要兩次調(diào)用大型Depth Anything-L模型并額外進(jìn)行3D卷積融合,F(xiàn)oundationStereo則使用了沉重的Transformer和3D成本體積處理。
因此,該方法在保證精度領(lǐng)先的同時(shí),將計(jì)算量和時(shí)延控制在了嵌入設(shè)備可接受的范圍。
這對(duì)于實(shí)際水下機(jī)器人在線避障和導(dǎo)航來(lái)說(shuō)是非常關(guān)鍵的。
BlueROV2上的實(shí)驗(yàn)充分展示了StereoAdapter在真實(shí)條件下的魯棒性和實(shí)用性:它能夠以接近實(shí)時(shí)的速度提供穩(wěn)定可靠的深度估計(jì),為水下機(jī)器人的環(huán)境感知提供了有力支持。
消融分析與效率對(duì)比
為深入理解各組件的作用,研究人員進(jìn)行了多組消融實(shí)驗(yàn)。
循環(huán)細(xì)化模塊配置
嘗試改變GRU的層數(shù)、隱藏維度和迭代次數(shù),以觀察對(duì)精度和效率的影響。
結(jié)果發(fā)現(xiàn),增加GRU深度(從2層增至3層再到4層)可以持續(xù)降低誤差,例如4層128隱單元32迭代的配置取得了RMSE 2.614的最好成績(jī)。但考慮到部署效率,最終選擇了3層128維32步的配置,在精度(RMSE ~2.78)和速度之間取得平衡。
若將隱藏維度增大到256雖有輕微精度提升(RMSE ~2.62),但計(jì)算量也顯著增加。另外,研究人員發(fā)現(xiàn)過(guò)多迭代(如64步)反而可能造成收斂不穩(wěn)定并損傷效果,因此32次迭代已足夠。
動(dòng)態(tài)LoRA策略
驗(yàn)證了動(dòng)態(tài)秩調(diào)整的有效性。
對(duì)比固定秩的LoRA,該方法能以更少參數(shù)達(dá)到更高精度。研究人員嘗試了不同的動(dòng)態(tài)LoRA超參數(shù)組合,包括基秩大小(16或32)、稀疏閾值κ(如0.005或0.01)以及密集訓(xùn)練比例(50%或45%)等。
消融結(jié)果表明,當(dāng)前采用的配置(秩16、閾值0.01、45%密集迭代)取得了最優(yōu)的REL 0.049和RMSE 2.783,優(yōu)于其他設(shè)定。這說(shuō)明使用動(dòng)態(tài)LoRA能夠自動(dòng)找到合適的秩, 比如在模型中每層平均有效秩最終大大低于16,使參數(shù)更精簡(jiǎn)卻不損失精度。
如果不使用動(dòng)態(tài)策略而是固定較高秩(如32),雖然也能適配水下域,但參數(shù)量增加且未顯著提升精度;相反固定過(guò)低秩又會(huì)限制性能。因此動(dòng)態(tài)LoRA在參數(shù)效率和效果上取得了良好折中。
訓(xùn)練超參數(shù)
研究人員也考察了訓(xùn)練過(guò)程中的關(guān)鍵超參數(shù)設(shè)置,如batch size、學(xué)習(xí)率和單雙階段的訓(xùn)練epoch分配。
實(shí)驗(yàn)顯示,中等批大小(8或16)要比小批量(4)穩(wěn)定且效果更好;學(xué)習(xí)率1×10^(-4)比2×10^(-4)收斂更平穩(wěn),后者可能引入震蕩。
此外,將總訓(xùn)練分成階段一20輪+階段二40輪這種比例可以取得最佳結(jié)果——首先20個(gè)epoch專注單目先驗(yàn)學(xué)習(xí),然后40個(gè)epoch在雙目任務(wù)上細(xì)化,使模型先打好單目基礎(chǔ)再充分調(diào)整雙目模塊。
這種多階段訓(xùn)練策略明顯優(yōu)于讓模型同時(shí)訓(xùn)練單目和雙目任務(wù)或者縮短某一階段的情況。
最終,最佳組合為:batch=8,lr=1e-4,階段一20輪+階段二40輪,對(duì)應(yīng)REL約0.051,RMSE約2.783。
這一消融分析驗(yàn)證了各設(shè)計(jì)選擇的合理性:循環(huán)GRU深度、動(dòng)態(tài)LoRA和兩階段訓(xùn)練均對(duì)StereoAdapter的高性能有重要貢獻(xiàn)。
同時(shí),通過(guò)優(yōu)化設(shè)計(jì),研究人員確保了模型在推理效率上的優(yōu)勢(shì):如前述,該方法在嵌入平臺(tái)上的推理速度快于其他方案(1113ms vs 1440ms/1815ms),體現(xiàn)了參數(shù)高效微調(diào)和輕量級(jí)細(xì)化模塊帶來(lái)的整體效率收益。
綜合來(lái)看,StereoAdapter在保持領(lǐng)先精度的同時(shí)做到了模型小、速度快,非常適合實(shí)際應(yīng)用。
未來(lái)展望
盡管StereoAdapter取得了良好效果,研究人員也認(rèn)識(shí)到當(dāng)前工作中仍有一些局限,值得在未來(lái)進(jìn)一步探索。
首先,模型局部匹配的局限:雙目細(xì)化模塊基于RAFT風(fēng)格的GRU迭代,更偏重短距離、局部的逐步匹配記憶。
在極端惡劣的水下條件下(例如嚴(yán)重渾濁導(dǎo)致可視距離極短、大范圍高亮反射或者大片無(wú)紋理區(qū)域),僅靠當(dāng)前的局部遞歸可能難以捕獲全局線索。
換言之,當(dāng)水下圖像質(zhì)量極差或場(chǎng)景缺乏可辨識(shí)特征時(shí),網(wǎng)絡(luò)可能仍會(huì)遇到困難。這提示我們?cè)谀P图軜?gòu)上可以引入更長(zhǎng)程依賴的機(jī)制,結(jié)合局部匹配與全局推理來(lái)提升魯棒性。
其次,模擬數(shù)據(jù)域隙:盡管精心構(gòu)建了UW-StereoDepth-40K,并已覆蓋許多水下現(xiàn)象,但畢竟虛擬數(shù)據(jù)的分布相對(duì)有限且理想化。
現(xiàn)實(shí)海洋環(huán)境的復(fù)雜度更高:例如多次散射、偏振光效應(yīng)、動(dòng)態(tài)水體顆粒濃度變化、相機(jī)傳感器的特定噪聲(滾動(dòng)快門失真、鏡頭畸變)等等,這些在UE5中僅被部分建模或根本無(wú)法完全還原。
因此,該模型在實(shí)際部署中可能遇到某些未見過(guò)的分布偏差。盡管BlueROV2實(shí)驗(yàn)已證明了一定的泛化性,但拓展數(shù)據(jù)源以進(jìn)一步彌合模擬-真實(shí)差距仍然非常必要。
為應(yīng)對(duì)上述問(wèn)題,未來(lái)研究人員計(jì)劃在數(shù)據(jù)和模型兩方面改進(jìn):
數(shù)據(jù)層面,將探索更豐富的訓(xùn)練數(shù)據(jù)生成方案。
一方面,在UE仿真中引入更多樣的隨機(jī)化和更逼真的物理模型:例如結(jié)合程序化生成手段,擴(kuò)大場(chǎng)景和環(huán)境效果的覆蓋范圍,
引入粒子光學(xué)模型以模擬多路徑散射、根據(jù)真實(shí)水質(zhì)光譜校準(zhǔn)渲染參數(shù)等。
另一方面,考慮利用無(wú)標(biāo)注的真實(shí)水下視頻對(duì)模型進(jìn)行自適應(yīng)訓(xùn)練:通過(guò)自訓(xùn)練(self-training)策略,讓模型在真實(shí)序列上進(jìn)行推斷并根據(jù)高置信度預(yù)測(cè)更新自身,從而逐步提升對(duì)真實(shí)域特性的適應(yīng)能力。配合必要的置信度篩選和約束,這將有望大幅減少剩余的域差異影響。
模型層面,計(jì)劃引入多任務(wù)學(xué)習(xí)和更長(zhǎng)時(shí)空上下文來(lái)增強(qiáng)模型能力。
一方面,可以嘗試讓模型同時(shí)學(xué)習(xí)預(yù)測(cè)深度、法向、語(yǔ)義等多種輸出,使其在訓(xùn)練中吸收更豐富的幾何和語(yǔ)義信息,從而提升對(duì)場(chǎng)景的理解深度。
另一方面,在架構(gòu)上探索具有更長(zhǎng)依賴的高效解碼器,例如近期提出的線性時(shí)間序列模型(如Mamba或RWKV等),以捕獲更廣域的匹配關(guān)系。
同時(shí),還考慮拓展到時(shí)間序列和多視角的輸入,讓模型利用連續(xù)幀或多相機(jī)的數(shù)據(jù)獲取時(shí)序/多視圖約束,提高在動(dòng)態(tài)場(chǎng)景或更大范圍場(chǎng)景中的穩(wěn)定性,并輸出不確定度估計(jì)幫助判斷哪些區(qū)域深度不可靠。
最后,在部署方面,將研究模型壓縮和量化技術(shù),使StereoAdapter更好地適應(yīng)嵌入式平臺(tái)的資源限制。
通過(guò)上述改進(jìn)方向,研究人員希望進(jìn)一步提高StereoAdapter在更加多變的真實(shí)水下環(huán)境中的表現(xiàn)和效率,使之成為水下機(jī)器人可靠可信的視覺(jué)模塊。
總的來(lái)說(shuō),StereoAdapter的提出展示了將視覺(jué)基礎(chǔ)模型與自監(jiān)督雙目幾何相結(jié)合的巨大潛力。
隨著數(shù)據(jù)和模型的不斷完善,此類方法將在自主水下導(dǎo)航、基礎(chǔ)設(shè)施巡檢、海洋生態(tài)監(jiān)測(cè)等領(lǐng)域發(fā)揮關(guān)鍵作用,推動(dòng)水下機(jī)器人技術(shù)向前發(fā)展。


































