英偉達開源「描述一切」模型,拿下7個基準SOTA
圖像描述(image captioning)生成一直是計算機視覺和自然語言處理領域面臨的長期挑戰(zhàn),因為它涉及理解和用自然語言描述視覺內(nèi)容。
雖然近期的視覺語言模型 (VLM) 在圖像級描述生成方面取得了令人矚目的成果,但如何為圖像中的特定區(qū)域生成詳細準確的描述仍然是一個懸而未決的問題。
這一挑戰(zhàn)在視頻領域尤為突出,因為模型必須額外捕捉動態(tài)視覺內(nèi)容,例如人類動作、物體運動以及人與物體的交互。
為了解決上述問題,來自英偉達、UC 伯克利等機構(gòu)的研究者推出了「描述一切模型」 (DAM,Describe Anything Model)。這是一個強大的多模態(tài)大語言模型,可以生成圖像或視頻中特定區(qū)域的詳細描述。用戶可以使用點、框、涂鴉或蒙版來指定區(qū)域,DAM 將提供這些區(qū)域豐富的上下文描述。

- 論文標題: Describe Anything: Detailed Localized Image and Video Captioning
- 論文地址:https://arxiv.org/pdf/2504.16072
- 論文主頁:https://describe-anything.github.io/

我們先來看效果。
DAM 對視頻中指定對象的描述:「一頭身披深棕色皮毛、臀部有一塊淺色斑塊的母牛,正以一系列動作展現(xiàn)其姿態(tài)。起初,母牛略微低著頭,展現(xiàn)出平靜的神態(tài)。隨著畫面的推進,母牛開始向前移動,雙腿舒展,步態(tài)穩(wěn)健而有節(jié)奏。其尾端有簇毛,每走一步都會輕輕擺動,為其動作增添一絲流暢感。母牛的身體基本保持直立,背部略微拱起,展現(xiàn)出一種放松的姿態(tài)。結(jié)實而輪廓分明的雙腿,帶著母牛堅定地向前邁進。在整個畫面中,母牛保持著均勻的步伐,動作流暢而從容,展現(xiàn)出一種寧靜沉穩(wěn)的氣質(zhì)。」

「一只淺棕色皮毛、面部稍深的猴子在一系列動態(tài)動作中被捕捉到。最初,它似乎用右手伸進一個容器中,手里拿著一塊黃色的食物。猴子的姿勢稍微前傾,表明它在與食物互動時的專注和意圖。隨著動作的進行,猴子將食物靠近嘴邊,用雙手操作。它的面部表情顯示出專注和享受,眼睛半閉。猴子的身體輕微移動,保持平衡,繼續(xù)進食。在整個過程中,猴子的動作流暢而有目的,展示了它的靈巧和敏捷。最后的畫面描繪了猴子用雙手拿著食物,將其靠近臉部,然后稍微降低,可能準備再咬一口。」


DAM 對圖片的描述「一只白色的貓,有著淺橙色的耳朵和粉紅色的鼻子。這只貓表情放松,眼睛微微閉合,身上覆蓋著柔軟的白色毛發(fā)。」

機器之心也上手測試了一下,看起來是鼠標指到哪個對象,該對象就會被自動分割,最后我們選擇了拉布拉多幼犬,模型回答的快且準確,

測試地址:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
詳細局部描述
DLC(Detailed Localized Captioning)與傳統(tǒng)圖像描述不同,傳統(tǒng)圖像描述對整個場景的總結(jié)比較粗略,而 DLC 則更深入地挖掘用戶指定區(qū)域的細微細節(jié)。其目標不僅是捕捉對象的名稱或類別,還包括微妙的屬性,如紋理、顏色圖案、形狀、特點以及任何視覺上獨特的特征。

不僅是圖片,DLC 可以自然地擴展到視頻領域,描述特定區(qū)域的外觀和上下文如何隨時間變化。達到這種目的,模型必須跨幀跟蹤目標,捕捉不斷變化的屬性、交互和細微的變化。

DAM 比較擅長生成圖像和視頻中物體的詳細描述。通過平衡焦點區(qū)域的清晰度和全局上下文,該模型可以突出細微的特征(例如復雜的圖案或變化的紋理),這遠遠超出了一般圖像級描述所能提供的范圍。

用戶還可以引導模型生成不同細節(jié)和風格的描述。無論是簡短的摘要,還是冗長復雜的敘述,模型都能調(diào)整輸出。這種靈活性使其適用于各種用例,從快速標記任務到深入的專家分析。

除了生成描述之外, DAM 模型無需額外的訓練數(shù)據(jù)即可回答有關(guān)特定區(qū)域的問題。例如用戶可以詢問該區(qū)域的屬性,模型會利用其對局部區(qū)域的理解,提供準確的、基于上下文的答案。

方法介紹
為了解決指定區(qū)域特征中細節(jié)丟失問題,本文提出了 DAM,該模型既保留了局部細節(jié)也保留了全局上下文。DAM 通過兩個關(guān)鍵創(chuàng)新實現(xiàn)這一點:
1)焦點提示(focal prompt),它對感興趣區(qū)域進行編碼;
2)局部視覺骨干網(wǎng)絡(localized vision backbone),它確保精確定位的同時整合全局上下文。
這些組件使 DAM 能夠生成詳細準確的描述,即使是對于復雜場景中的小物體。

具體而言:
焦點提示,可以提供完整圖像和目標區(qū)域的放大視圖。這種方法確保模型能夠捕捉精細細節(jié),同時保留全局背景。最終呈現(xiàn)的描述細致準確,既能反映全局,又能捕捉細微之處。

局部視覺主干網(wǎng)絡,引入了一個集成全局特征和局部特征的局部視覺主干網(wǎng)絡。圖像和掩碼在空間上對齊,門控交叉注意力層將局部細節(jié)線索與全局上下文融合。此外,新參數(shù)初始化為零,從而保留預訓練的能力。這種設計能夠產(chǎn)生更豐富、更具有上下文感知能力的描述。

此外,由于現(xiàn)有的數(shù)據(jù)集缺乏詳細的局部化描述,該研究設計了一個兩階段流程。
- 首先,他們使用視覺語言模型(VLM)將數(shù)據(jù)集中的簡短類別標簽擴展為豐富的描述。
- 其次,在未標記的圖像上應用自訓練,作為一種半監(jiān)督學習方法,并使用 DAM 模型生成和優(yōu)化新的描述。
這種可擴展的方法可以在不依賴大量人工注釋的情況下構(gòu)建大型、高質(zhì)量的訓練數(shù)據(jù)集。

實驗及結(jié)果
DAM 在局部圖像與視頻描述任務中表現(xiàn)卓越,能夠支持多粒度輸出(包括關(guān)鍵詞、短語及詳細描述),并在 7 個領域內(nèi)基準測試和零樣本基準測試中均達到 SOTA。
在 object-level LVIS 和 part-level PACO 數(shù)據(jù)集上進行測試,本文方法取得了最佳性能。

在表 4 中的 Ref-L4 基準測試中,本文方法在基于短語言的描述指標上平均比之前的最好方法相對提高了 33.4% ,在基于長語言的描述指標上平均比之前的最好方法相對提高了 13.1%。

如表 5 所示,DAM 顯著優(yōu)于現(xiàn)有的通用和基于特定區(qū)域的 VLM。

在表 6 中, DAM 在 HC-STVG 上比之前的最佳成績相對提升了 19.8%。在表 7 中, DAM 在零樣本和域內(nèi)設置中均超越了之前的最佳成績。




































