NeurIPS 25開新坑:145萬個圖文對,覆蓋八種主流水下理解任務
深邃的海洋覆蓋地球表面的70%以上,其在資源勘探、環境保護和國家安全等領域的重要性,使自動化水下探索技術備受關注。
然而,想要像《海底兩萬里》中的「鸚鵡螺號(NAUTILUS)」那樣自由地認知和探索水下世界,我們仍面臨嚴峻的技術挑戰。光線在水中的嚴重散射和吸收導致圖像質量顯著下降,這極大地削弱了通用大模型的性能,阻礙了水下場景理解的研究進展。

現有的水下視覺方法又大多為單一任務設計,缺乏多粒度的綜合感知能力。大規模、多任務指令微調數據集的長期缺失,進一步制約了該領域的研究進展。

針對以上挑戰,華中科技大學白翔教授團隊提出了首個能夠支持八項水下場景理解任務的水下多模態大模型NAUTILUS,旨在通過統一的框架實現對水下場景從圖像、區域到物體的多粒度、多任務的全面理解。

論文地址:https://arxiv.org/abs/2510.27481
項目地址:https://h-embodvis.github.io/NAUTILUS
代碼地址:https://github.com/H-EmbodVis/NAUTILUS
數據集地址:https://github.com/H-EmbodVis/NAUTILUS/tree/dataset
同時,團隊還構建并開源了首個大規模水下多任務指令微調數據集NautData。
該工作的主要貢獻如下:
- 水下多任務指令跟隨數據集:構建了包含145萬個圖文對的NautData數據集,覆蓋八種主流水下理解任務,為水下大模型的發展和評測奠定了堅實基礎;
- 多任務統一理解:NAUTILUS是首個能夠同時處理粗粒度與細粒度目標分類、計數、視覺問答(VQA)、檢測、指代定位、區域描述和圖像描述八項任務的水下大模型,實現了對場景信息的層級化、綜合性理解;
- 性能優異且魯棒:通過創新的「視覺特征增強」(VFE)模塊,NAUTILUS能夠有效克服水下圖像降質問題,在多個基準測試中穩定超越包括LLaVA-1.5和Qwen2.5-VL在內的先進模型,尤其在低光、渾濁等惡劣條件下表現出色。
水下多任務指令跟隨數據集NautData

該工作圍繞八項任務進行數據構建,并為每項任務設計了定制化的數據生成流程。
整個流程通過三種模式構建數據,分別為基于規則的生成 (Rule-based generation),組合生成 (Integration generation)與自由格式生成 (Free-form generation)。
其中,基于規則的生成利用預定義模板構造問答對,組合生成結合模板與大型語言模型(LMM)的輸出以豐富數據,而自由格式生成則允許大型語言模型根據自主關注的內容靈活創建問題與答案。

數據集統計信息。外環顯示了數據在八項任務上的分布,內環則顯示了三種生成模式的構成比例。
NAUTILUS是如何實現的?

NAUTILUS 的框架主要由圖像編碼器、深度編碼器、視覺特征增強(VFE)模塊和大型語言模型組成。之前的研究通常將圖像增強作為預處理步驟,這可能導致信息丟失。
此外,圖像增強與模型訓練的解耦會放大誤差累積的風險,這一效應在處理采集自多變環境的大規模水下數據集時愈發明顯。特征空間增強方法則通過實現端到端的優化,利用下游任務提供面向任務的監督,更適用于多任務模型設計。
因此,NAUTILUS通過在特征空間中進行增強,保留原始圖像的完整信息,優化多任務場景理解表現。其核心在于即插即用的VFE模塊,該模塊的設計受到了水下成像物理模型的啟發,旨在解決水下圖像退化問題。

VFE模塊的工作流程如下:
- 去除背景散射影響:借鑒暗像素先驗,模型通過定位圖像中的「暗像素」區域來估計水體中的背景散射光強度,并在特征層面將其從視覺特征中剝離,消除環境光造成的模糊和「霧霾感」。
- 恢復光線吸收影響:由于光在水中的傳播會發生衰減,導致顏色失真,模型引入深度信息(由深度編碼器提取)來估計光線的吸收程度,并據此對視覺特征進行補償,恢復物體原始的色彩和細節。
通過這兩個步驟,VFE模塊輸出增強后的視覺特征,與原始特征一同送入大型語言模型,使其既能感知真實的水下環境,又能基于恢復后的清晰信息進行可靠的分析和理解。
NAUTILUS的效果如何?
為驗證模型性能,研究團隊在 NautData 測試集上進行了全面的量化評估。
如下表所示,無論是基于LLaVA-1.5還是Qwen2.5-VL,NAUTILUS在分類、描述、定位、檢測及視覺問答等多數核心任務上,其性能均顯著優于現有的通用大模型及其他水下模型,展現了其卓越的綜合理解能力。

物體計數任務為評估模型的群體感知能力提供了有效途徑。
為此,研究團隊在 IOCfish5k 數據集上對 NAUTILUS的水下群體計數表現進行了評測。
實驗結果表明,該模型在平均絕對誤差(MAE)和均方根誤差(RMSE)上均優于其他大型多模態模型,且相較于 LLaVA-1.5 基線分別取得了8.0和15.9的顯著提升,展現了卓越的群體感知性能。

為評估模型在真實水下環境中的魯棒性,研究團隊考察了其在光照、色偏及渾濁等降質條件下的定位(grounding)性能。
基于NautData測試子集的實驗表明,相較于 LLaVA-1.5 基線,NAUTILUS在低光、偏綠和渾濁場景下的 PR@0.5 指標分別取得了7.5、8.3和8.1的大幅提升,展現出其在多變視覺條件下的強大適應能力與性能穩定性。

下圖的可視化結果進一步直觀地展示了NAUTILUS強大的多任務處理能力。

從對整個場景的宏觀描述,到對特定魚群的精確計數與定位,再到對單一對象的細粒度屬性問答,NAUTILUS在圖像、區域、物體三個層級上均展現出精準、連貫的理解能力,生動體現了其作為水下場景理解基礎模型的巨大潛力。
總結
NAUTILUS作為首個支持八項水下場景理解任務的多模態大模型,為水下環境的綜合感知提供了一個統一的解決方案。
以往的通用模型因水下圖像降質而性能不佳,而現有的水下專用方法又大多為單一任務設計,限制了對場景的全面理解。
相比之下,NAUTILUS通過創新的視覺特征增強(VFE)模塊在特征層面克服圖像降質,并利用其多任務統一架構的優勢,從而在多個基準測試中,尤其是在惡劣條件下,取得了超越先進模型的優異表現。




























