精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世

發布于 2025-11-10 09:01
瀏覽
0收藏

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

文章鏈接:https://arxiv.org/pdf/2507.20177 
代碼鏈接:https://github.com/GXNU-ZhongLab/ODTrack 

亮點直擊

  • 為視覺跟蹤領域提供了首個通用的視頻級模態感知跟蹤模型UM-ODTrack僅需訓練一次,即可使用相同的架構和參數實現多任務推理,包括 RGB-T/D/E 跟蹤任務。
  • 對于視頻級關聯,引入了兩種時序令牌傳播注意力機制,將目標的判別性特征壓縮到一個令牌序列中。該令牌序列作為提示來指導未來幀的推理,從而避免了復雜的在線更新策略。
  • 對于多模態感知,提出了兩種新穎的門控感知器,能夠自適應地學習跨模態的潛在表示,有助于我們模型的多任務統一訓練和推理。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標記傳播的在線視頻級跟蹤方法。(c) 基于單次訓練和單任務推理(即一個模型對一個任務,一對一)的多模態跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓練和多任務推理(即一個模型對多個任務,一對多)的通用模態感知跟蹤模型。

總結速覽

解決的問題

  • 采樣稀疏性:傳統跟蹤器主要采用“圖像對”(一個參考幀,一個搜索幀)的稀疏采樣策略,無法充分利用視頻中豐富的時序上下文信息,難以準確分析目標的動態運動狀態。
  • 關聯局限性:傳統的特征匹配/融合方法側重于目標的外觀相似性,缺乏連續、密集的跨幀關聯。現有方法即使引入多幀,其時空關系也僅限于選定的幀范圍內,未能實現視頻級別的信息關聯。
  • 模型專一性:現有的多模態跟蹤方法普遍采用“一個模型對應一個任務”(一對一)的學習范式。這導致需要為不同模態組合(如RGB-T, RGB-D)訓練和維護多個獨立模型,訓練負擔重,且模型間缺乏兼容性和泛化能力。

提出的方案

提出了 UM-ODTrack 的通用視頻級別多模態感知跟蹤模型,其核心創新點包括:

  • 視頻級別采樣:將模型輸入從“圖像對”擴展到“視頻序列”級別,使模型能夠從更全局的視角理解視頻內容。
  • 在線密集時序令牌學習:將目標跟蹤重新定義為令牌序列傳播任務,設計了兩種簡單有效的在線密集時序令牌關聯機制,以自回歸的方式在視頻流中傳播目標的外觀和運動軌跡信息。
  • 模態可擴展感知:設計了一種通用的模態感知跟蹤流程,通過兩個新穎的門控感知器,利用門控注意力機制自適應學習跨模態表征。
  • 一次性訓練范式:采用一次性訓練方案,將學習到的多種模態的潛在表征壓縮到同一套模型參數中,實現一個模型支持多種跟蹤任務(RGB, RGB-T, RGB-D, RGB-E)的推理。

應用的技術

  • 視頻序列建模:將視頻序列視為連續句子,借鑒語言建模思想進行上下文理解。
  • 時序令牌關聯注意力機制:提出了串聯時序令牌注意力分離時序令牌注意力兩種機制,用于在線傳播和關聯時序信息。
  • 門控注意力機制:條件門控感知器門控模態可擴展感知器中應用,以自適應地融合和學習跨模態特征。
  • 一次性/統一多任務學習:通過一次性訓練,使單一模型學習共享的視覺-語義特征空間,同時尊重不同任務的異質性,實現多任務推理。

達到的效果

  • 性能提升:在七個可見光跟蹤基準和五個多模態跟蹤基準上進行了大量實驗,結果表明UM-ODTrack達到了最新的SOTA性能
  • 信息利用優化:提純后的令牌序列可作為后續視頻幀推理的時序提示,利用過去信息指導未來推理,實現了信息的有效傳遞和利用。
  • 模型效率與泛化性:一次性訓練方案不僅減輕了訓練負擔,還通過共享參數和跨任務學習提升了模型的表征能力,實現了從“一對一”到“一對多”的范式轉變,使模型更具通用性和靈活性。

方法

A. 架構設計

UM-ODTrack,通用的視頻級模態感知框架它支持各種跟蹤任務,包括 RGB、RGB+熱成像、RGB+深度和 RGB+事件跟蹤。

下圖2和圖3是用于視頻級多模態跟蹤的 UM-ODTrack 框架的概覽。將整個視頻建模為一個連續序列,并以自回歸的方式逐幀解碼目標實例的定位。首先,提出了一種新穎的視頻序列采樣策略,專門設計用于滿足視頻級模型的輸入要求(原則1:視頻級采樣)。然后,提出了一種新穎的模態標記器,以共享編碼的方式對不同的模態源進行標記化。隨后,為了捕獲視頻序列中目標實例的時空軌跡信息,我們引入了兩種簡單而有效的時序令牌關聯注意力機制(原則2:視頻級關聯)。此外,引入了兩個強大的門控感知器來自適應地學習跨模態的通用視覺表示,從而提高模型在不同跟蹤場景下的泛化能力(原則3:模態可擴展)。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

基于上述建模技術,將獲得一個通用的模態感知跟蹤模型,該模型可以使用相同的模型架構和參數同時推理多個子跟蹤任務。以下各節將給出詳細描述。

B. 視頻級多模態跟蹤公式化

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

使用上述建模方法,我們可以構建一個簡潔優雅的跟蹤器來實現逐幀跟蹤。然而,這種建模方法有兩個明顯的缺點:

  1. 所構建的跟蹤器僅專注于幀內目標匹配,缺乏建立跨幀關聯的能力,而這種能力對于跨視頻流跟蹤對象是必需的。
  2. 所構建的跟蹤器僅限于單模態跟蹤場景,由于領域特定知識的偏差,缺乏快速擴展到多模態跟蹤的能力。因此,這些限制阻礙了視頻級多模態跟蹤算法的研究。

在這項工作中,旨在緩解這些挑戰,并為通用視頻級模態感知跟蹤算法提出一種新的設計范式。首先,我們將跟蹤框架的輸入從圖像對級別擴展到視頻級別以進行時序建模。然后,引入一個時序令牌序列T ,旨在傳播視頻序列中目標實例的外觀、時空位置和軌跡信息。形式上,我們將視頻級跟蹤公式化如下:

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

此外,為了提高視頻級跟蹤器的通用模態感知能力,我們將其擴展到多模態跟蹤領域。首先,將輸入從單模態范圍擴展到多模態范圍。接著,使用一個包含 RGB 編碼器和 D/T/E 編碼器的共享通用模態編碼器,分別用于提取和融合 RGB 視頻片段和輔助視頻片段。隨后,設計了兩個新穎的門控感知器來學習跨模態的通用潛在表示。定義如下:

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

C. 視頻序列采樣策略

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

D. 模態標記器

直觀地說,考慮到來自不同模態(即深度、熱紅外和事件)的輸入幀的可變性,傳統方法是為每種模態設計單獨的標記器。這使得不同的輸入幀能夠被轉換為具有相同序列格式的令牌向量。相反,考慮到不同模態間可能存在共享的語義信息,我們將深度、熱紅外和事件數據視為統一的視覺表示。設計了一個共享的模態標記器,以將來自不同模態的數據統一轉換為相同的一維序列。對于包含深度、熱紅外和事件等多種模態信息的視覺輸入,我們采用單個二維卷積層作為統一標記器。隨后,利用一個基于transformer的通用模態編碼器來處理這些令牌。

E. 門控感知器

由于基礎視覺跟蹤器的模態感知能力有限,一旦在RGB跟蹤基準上進行訓練,它就無法輕易適應復雜的多模態跟蹤場景。因此,我們設計了兩個簡單而有效的模塊,即條件門控和門控模態可擴展感知器,如圖3所示,以自適應地學習通用的跨模態表示。

條件門控。為了在共享的通用模態編碼器中實現多模態表示學習,我們在每個編碼器層之間以殘差方式添加了條件門控模塊。在條件門控模塊中,可見光特征和相應的輔助特征(即深度、熱和事件)沿著通道維度進行跨模態對齊,以補充來自其他模態的豐富細節。然后,對齊后的多模態表示由條件門控模塊進行門控,以促進模態間的交叉學習。

條件門控模塊可以規范化為以下方程:

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

F. 時序令牌關聯注意力機制

不采用復雜的視頻transformer作為編碼視頻內容的基礎框架,而是從一個新的視角進行設計,利用簡單的 2D transformer架構,即 2D ViT。 為了構建一個優雅的實例級幀間關聯機制,必須擴展原始的 2D 注意力操作,以提取和整合視頻級特征。在我們的方法中,我們基于壓縮-傳播的概念設計了兩種時序令牌注意力機制,即拼接令牌注意力機制和分離令牌注意力機制,如下圖4(左)所示。其核心設計在于向注意力操作中注入額外信息,例如更多的視頻序列內容和時序令牌向量,使它們能夠提取更豐富的目標實例的時空軌跡信息。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

在這種新的設計范式中,可以使用時序令牌作為推斷下一幀的提示,利用過去的信息來指導未來的推斷。此外,我們的模型通過在線令牌傳播隱式地傳播目標實例的外觀、定位和軌跡信息。這顯著提高了視頻級框架的跟蹤性能。


另一方面,如圖4(c)所示,所提出的分離令牌注意力機制將注意力操作分解為三個子過程:參考幀之間的自信息聚合、參考幀與搜索幀之間的跨信息聚合,以及時序令牌與視頻序列之間的跨信息聚合。這種分解在一定程度上提高了模型的計算效率,同時令牌關聯遵循上述流程。


與在線更新的討論:大多數先前的跟蹤算法結合在線更新方法來訓練時空跟蹤模型,例如添加額外的得分質量分支或 IoU 預測分支。它們通常需要復雜的優化過程和更新決策規則。與這些方法相比,我們通過利用令牌序列的在線迭代傳播,避免了復雜的在線更新策略,使我們能夠實現更高效的模型表示和計算。

G. 一次性訓練與通用推理

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

一次性訓練。如果一個單一的神經網絡模型能夠同時跨多個任務進行推理,它將呈現出顯著的優勢。這不僅減少了需要為每個領域手工設計具有適當歸納偏置的模型,還增加了可用訓練數據的數量和多樣性。


對于 RGB 跟蹤任務,本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的訓練數據集來訓練我們的基礎視頻級跟蹤模型。在輸入數據方面,我們將包含三個 192 × 192 像素參考幀和兩個 384 × 384 像素搜索幀的視頻序列作為模型的輸入。


對于多模態跟蹤任務,與在單個下游數據集上獨立訓練的跟蹤算法,如[62], [64], [66], [74]相比,我們的目標是同時聯合訓練多個跟蹤任務(即 RGB-T 跟蹤、RGB-D 跟蹤和 RGB-E 跟蹤)。我們在聯合的熱紅外(即 LasHeR,對齊了 RGB 和紅外數據)、深度(即 DepthTrack,對齊了 RGB 和深度數據)和事件(即 VisEvent,對齊了 RGB 和事件數據)數據集上,以一次性訓練的方式訓練我們的通用模態感知跟蹤模型,并使用相同的損失函數監督其預測的邊界框。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

通用推理。 算法1總結了我們模型的推理過程。對于 RGB 跟蹤,我們遵循與其他transformer跟蹤器相同的跟蹤流程。得益于我們的一次性訓練方案和門控模態可擴展感知器模塊,對于 RGB-D、RGB-T 和 RGB-E 跟蹤任務,我們使用同一套模型參數無縫地執行任何跟蹤任務的推理,而無需額外的多次微調技術。在輸入數據方面,為了與訓練設置保持一致,我們在推理階段將三個等間隔的參考幀納入我們的跟蹤器。同時,搜索幀和時序令牌向量被逐幀輸入。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

實驗

A. 實現細節

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

B. 與 SOTA 的比較

在七個可見光基準(包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100)和五個多模態跟蹤基準(包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent)上將我們的 ODTrack 和 UM-ODTrack 與最先進的跟蹤器進行了比較。我們的 ODTrack 和 UM-ODTrack 在這些數據集上展示了卓越的性能。


GOT10K。GOT10K 是一個大規模跟蹤數據集,包含超過 10,000 個視頻序列。GOT10K 基準提出了一個協議,要求跟蹤器僅使用其訓練集進行訓練。我們遵循該協議來訓練我們的框架。結果記錄在表 I 中。在先前的方法中,未采用視頻級采樣策略的 ARTrack384 在 AO(平均重疊率)、SR0.5 和 SR0.75(閾值為 0.5 和 0.75 時的成功率)指標上分別達到了 SOTA 性能。受益于提出的新視頻級采樣策略,我們的 ODTrack384 取得了新的最先進水平,在 AO、SR0.5 和 SR0.75 指標上分別達到了 77.0%、87.9% 和 75.1%。結果表明,我們 ODTrack 的一個優勢來自于旨在釋放模型潛力的視頻級采樣策略。


LaSOT。LaSOT 是一個大規模長期跟蹤基準,包含 1120 個訓練序列和 280 個測試序列。如表 I 所示,可以看到我們的 ODTrack384 通過有趣的時序令牌注意力機制取得了良好的跟蹤結果。與最新的 ARTrack 性能相比,我們的 ODTrack384 在 AUC、P Norm 和 P 分數方面分別實現了 0.6%、1.5% 和 1.5% 的提升。結果表明,跟蹤器學習到的具有目標關聯依賴關系的時空特征可以提供可靠的目標定位。此外,由于我們的時序令牌旨在關聯目標實例以提高在多種跟蹤挑戰(即快速運動、背景干擾、視角變化和尺度變化等)下的魯棒性和準確性。因此,如圖 5 所示,展示了 LaSOT 數據集的屬性評估,以說明我們的令牌關聯機制如何幫助跟蹤器學習關于目標實例的時空軌跡信息,顯著增強長期跟蹤場景中的目標定位。


TrackingNet。TrackingNet 是一個大規模短期數據集,提供了一個包含 511 個視頻序列的測試集。如下表 I 報告,通過實現目標實例的跨幀關聯,ODTrack384 取得了 85.1% 的成功分數(AUC)、90.1% 的歸一化精度分數(P Norm)和 84.9% 的精度分數(P),分別優于先前沒有令牌關聯的高性能跟蹤器 SeqTrack 1.2%、1.3% 和 1.3%。同時,與最近沒有時序令牌關聯的視頻級跟蹤器 VideoTrack 相比,ODTrack 在 AUC、P Norm 和 P 指標上分別優于 1.3%、1.4% 和 1.8%。這表明我們的時序令牌可以有效地跨搜索幀關聯目標對象,并且這種新穎的關聯方式可以增強我們 ODTrack 在多個跟蹤場景中的泛化能力。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

LaSOText。LaSOText 是 LaSOT 的擴展版本,包含 150 個長期視頻序列。如表 I 報告,我們的方法取得了良好的跟蹤結果,優于大多數比較的跟蹤器。例如,我們的跟蹤器取得了 52.4% 的 AUC、63.9% 的 P Norm 分數和 60.1% 的 P 分數,分別優于 ARTrack 0.5%、1.9% 和 1.6%。此外,我們的 ODTrack 在成功分數上也優于基于圖像對匹配的先進跟蹤器 OSTrack 1.9%。結果符合我們的預期,即視頻級建模在復雜的長期跟蹤場景中具有更穩定的目標定位能力。


VOT2020。VOT2020 包含 60 個具有挑戰性的序列,并使用二進制分割掩碼作為真實標簽。我們使用 Alpha-Refine作為 ODTrack 的后處理網絡來預測分割掩碼。期望平均重疊率(EAO)指標用于評估所提出的跟蹤器和其他先進跟蹤器。如表 III 所示,我們的 ODTrack384 和 -L384 在掩碼評估上取得了最佳結果,EAO 分別為 58.1% 和 60.5%。在 EAO 指標上,與未探索時序關系的跟蹤器(即 SBT  和 Ocean+)相比,ODTrack 分別優于 6.6% 和 9%。這些結果表明,通過注入時序令牌注意力,我們的 ODTrack 在復雜跟蹤場景中具有魯棒性。


TNL2K 和 OTB100。在 TNL2K 和 OTB100 基準上評估了我們的跟蹤器。它們分別包含 700 和 100 個視頻序列。表 II 中的結果顯示,ODTrack384 和 -L384 在 TNL2K 和 OTB100 基準上取得了最佳性能。例如,我們的 ODTrack384 在 TNL2K 和 OTB100 數據集上分別獲得了 60.9% 和 72.3% 的 AUC 分數。在 TNL2K 數據集上,與 ARTrack 相比,ODTrack 優于其 1.1%。同時,與非自回歸跟蹤器 Mixformer 相比,我們的 ODTrack 在 OTB100 數據集上的 AUC 分數高出 2.3%。可以觀察到,通過采用有趣的自回歸建模方法來捕獲時序上下文,我們的 ODTrack 能夠降低模型復雜性并提高性能。


DepthTrack。DepthTrack包含 150 個訓練和 50 個測試 RGB-D 長期視頻序列。如下表 IV 所示,我們在其上將我們的模型與現有的 SOTA RGB-D 跟蹤器進行了比較。在相同的圖像分辨率設置下,我們的 UM-ODTrack256 在跟蹤精度(Pr)、召回率(Re)和 F-score 上分別優于 ViPT 1.1%、2.6% 和 1.8%。此外,由于提出的高效門控注意力機制,我們的 UM-ODTrack384 在 RGB-D 跟蹤領域取得了 SOTA 性能。值得注意的是,當輸入尺寸從 256 增加到 384 時,UM-ODTrack 在性能上取得了大幅提升。這表明我們結合大輸入分辨率的時序關聯方法在多模態長期跟蹤場景中尤為重要。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

VOT-RGBD2022。VOT-RGBD2022是一個短期跟蹤數據集,包含 127 個 RGB-D 視頻序列。如下表 V 報告,與大多數其他跟蹤算法相比,我們的跟蹤器取得了新的最先進結果。具體來說,我們的 UM-ODTrack256 在 EAO、準確性和魯棒性指標上分別獲得了 78.0%、81.4% 和 94.8% 的分數。與最新的統一跟蹤器 Un-Track 相比,我們的 UM-ODTrack256 在期望平均重疊率(EAO)和魯棒性分數上分別實現了 5.9% 和 7.9% 的提升。這表明我們的統一建模技術對于通用特征學習更有效,并且可以為每種模態(即深度模態)提供合適且穩定的特征空間。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

LasHeR。LasHeR  是一個大規模 RGB-T 跟蹤數據集,包含 245 個短期測試視頻序列。結果報告在下圖 7 中,我們的 UM-ODTrack 取得了令人驚訝的結果,顯著優于先前的 SOTA RGB-T 跟蹤算法,在成功圖和精度圖上分別超過第二名 4.5% 和 6.3%。這些結果符合我們的預期,即基于門控注意力機制的特征學習可以自適應地提取和融合不同模態的特征,以提高多模態跟蹤性能。同時,為了驗證我們的門控感知器能夠有效解決包括遮擋(NO)、部分遮擋(PO)、完全遮擋(TO)、低光照(LI)、低分辨率(LR)、形變(DEF)、背景干擾(BC)、運動模糊(MB)、熱交叉(TC)、相機移動(CM)、快速運動(FM)、尺度變化(SV)、透明遮擋(HO)、高光照(HI)、突然光照變化(AIV)、相似外觀(SA)、縱橫比變化(ARC)、出視野(OV)和幀丟失(FL)在內的多種挑戰,我們展示了 LasHeR 數據集的屬性評估結果。如圖 6 所示,我們的 UM-ODTrack 在每個屬性上都表現良好。因此,可以表明我們帶有門控感知器的視頻級多模態建模方案能夠有效地統一和融合多模態特征,從而使我們的跟蹤器能夠很好地解決復雜的跟蹤場景。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

RGBT234。RGBT234 包含 234 個 RGB-T 跟蹤視頻,約 116.6K 個圖像對。如下圖6 所示,UM-ODTrack256 在 SR 和 PR 指標上分別獲得了 69.2% 和 91.5% 的分數。與高性能 RGB-T 專家跟蹤器 BAT 相比,我們的方法取得了良好的跟蹤結果,在成功圖和精度圖上分別優于 5.1% 和 4.7%。這意味著我們的 GMP 模塊可以有效地聚合來自熱紅外模態的目標信息,實現魯棒的多模態跟蹤。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

VisEvent。VisEvent 是最大的 RGB-E 跟蹤基準,包含 320 個測試視頻。比較結果如圖 8 所示。我們的 UM-ODTrack384 取得了新的 SOTA 跟蹤結果,成功分數和精度分數分別為 62.4% 和 81.3%。可以看出,我們配備門控模態可擴展感知器(GMP)模塊的 UM-ODTrack 在事件場景中也實現了精確跟蹤。這與我們的直覺一致,即 GMP 模塊可以輕松擴展到不同的模態跟蹤場景,并有效改善多模態特征的表示。

C. 消融研究

令牌關聯的有效性。為了研究等式 11 中令牌關聯的效果,我們在表 VII 中進行了是否傳播時序令牌的實驗。w/o Token 表示采用視頻級采樣策略但沒有令牌關聯的實驗。從第二行和第三行可以觀察到,缺少令牌關聯機制導致 AUC 分數下降 1.2%。這一結果表明令牌關聯在跨幀目標關聯中起著至關重要的作用。此外,我們在表 VII 中進行實驗,以驗證視頻級跟蹤框架中提出的兩種令牌關聯方法的有效性。我們可以觀察到,分離和拼接方法都實現了顯著的性能提升,其中拼接方法顯示出稍好的結果。這證明了兩種注意力機制的有效性。


搜索視頻片段的長度。如下表 VIII 所示,消融了搜索視頻序列長度對跟蹤性能的影響。當視頻片段長度從 2 增加到 3 時,AUC 指標提高了 0.3%。然而,序列長度的持續增加并未帶來性能提升,表明過長的搜索視頻片段會給模型帶來學習負擔。因此,我們應選擇適當的搜索視頻片段長度。此外,為了評估序列長度對多模態跟蹤性能的影響,在 LasHeR, DepthTrack和 VisEvent 基準上進行了對比實驗,如表 XVI 所示。視頻序列長度的選擇對于利用時序信息至關重要。當序列長度從 2 增加到 3 時,我們的跟蹤器在 LasHeR, DepthTrack 和 VisEvent 基準上的 SR 和 F-score 分別提高了 0.7%, 0.2% 和 1.6%。這些增益來自于通過多幀信息有效建模目標外觀變化和運動軌跡。然而,當序列長度超過 3 時,由于跨模態時序噪聲的積累,性能趨于穩定或略有下降。這證實了適當選擇的序列長度可以提供互補信息,而過長的序列更可能引入冗余或有噪聲的上下文信號。因此,我們的 UM-ODTrack 采用序列長度 3 作為最佳設置,以在合適的時間跨度內捕獲上下文信息。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

采樣范圍。為了驗證采樣范圍對算法性能的影響,在下表 IX 中對視頻幀的采樣范圍進行了實驗。當采樣范圍從 200 擴大到 1200 時,AUC 指標的性能有顯著提高,表明視頻級框架能夠從更大的采樣范圍學習目標軌跡信息。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

門控感知器和門控激活函數的有效性。我們進行實驗以驗證在通用模態感知跟蹤框架下提出的兩個組件,即條件門控和門控模態可擴展感知器(GMP)的有效性,如下表 X 所示。基線方法指的是 ODTrack 的雙流版本。通過將條件門控模塊添加到基線中,我們的跟蹤器在三個下游跟蹤數據集上的性能得到了改善。例如,配備條件門控的跟蹤器在 DepthTrack 基準上的 F-score 指標實現了 1.3% 的提升。此外,通過將 GMP 納入我們的模型,其性能得到進一步改善。這證明了我們提出的兩個門控模塊的有效性。此外,為了研究門控激活函數的效果,在表 XIII 中使用了不同的門控激活函數進行實驗。與 ReLU 和 sigmoid 相比,tanh 激活函數表現最佳。這一結果表明,在我們的門控感知器中,tanh 門控函數更適合學習和表示通用的多模態跟蹤任務,可能提供更好的泛化能力。

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世-AI.x社區

條件門控和 GMP 的層數。分別比較了條件門控和 GMP 的層數對模型的影響。實驗結果記錄在表 XI 和表 XII 中。對于條件門控,隨著層數的增加,我們跟蹤器的性能相應提高。這意味著在通用模態編碼器中集成更多層有助于學習多模態表示。另一方面,當在 GMP 模塊中使用三層或六層時,我們的 UM-ODTrack 取得了良好的跟蹤結果。為了平衡速度和性能,我們選擇使用三層配置。


多模態線索的重要性。為了驗證在視覺跟蹤中融合 RGB 幀與其他模態幀的有效性,我們報告了 UM-ODTrack 上僅使用 RGB 數據和雙模態數據的跟蹤結果。如表 XIV (#1 和 #5) 所示,當僅使用 RGB 幀時,我們的跟蹤器在三個下游基準上表現出顯著的性能下降。例如,在 LasHeR 數據集中,SR 和 PR 指標分別下降了 6.3% 和 7.2%,表明多模態線索的注入(或多模態融合)對于多模態跟蹤是顯著有效且至關重要的。


共享模態標記器的重要性。我們比較了共享和非共享標記器對多模態跟蹤性能的影響。在實驗中,我們使用共享和非共享標記器對多模態數據進行編碼,并將編碼后的數據輸入跟蹤模型進行訓練和推理。共享標記器是指使用統一的標記器對所有模態的數據進行編碼,而非共享標記器則涉及對每種模態使用不同的標記器。如表 XIV (#2 和 #5) 所示,我們發現共享標記器的跟蹤性能更優。這表明共享標記器可以更有效地捕捉多模態數據之間的相關性,從而提升我們跟蹤器的整體性能。


完全微調 vs. 適配器/提示微調。如圖 12 所示,探索了使用不同訓練策略(例如適配器微調和完全微調)來訓練我們模型的實驗。實驗結果記錄在表 XIV (#3 和 #5) 中。可以觀察到,適配器微調和完全微調策略都取得了良好的性能提升,其中完全微調顯示出稍好的結果。理論上,具有較少學習參數的適配器微調可以節省更多 GPU 資源。然而,在實踐中,由于其他模型參數在訓練期間保留了梯度,其訓練資源并未顯著減少,這與完全微調方案相當。因此,我們選擇具有更多學習參數的完全微調作為我們的訓練策略。


多任務一次性訓練 vs. 單任務獨立訓練。為了評估多任務統一(一次性)訓練對我們最終模型的好處,我們為三個子跟蹤任務獨立訓練了專家模型,如表 XIV 所示。#4 和 #5 的比較結果表明,我們的一次性訓練方案帶來了顯著的性能提升。例如,僅在 DepthTrack 數據集上訓練的模型達到了 67.8% 的 F-score,而在 DepthTrack, LasHeR 和 VisEvent 上聯合訓練的模型則達到了 69.3% 的更高 F-score,提升了 1.5%。將此改進歸因于每個模態跟蹤任務可用訓練數據數量和多樣性的增加,以及設計的門控感知器在聚合多模態特征方面的有效性。這些因素共同增強了我們統一多模態跟蹤模型在各種跟蹤場景中的魯棒性和泛化能力。


模態權重比率。我們進行了一項比較研究,如表 XV 所示,以評估不同模態權重對模型性能的影響。如結果所示,跟蹤器的變體在不同權重方案下表現一致良好。例如,在權重配置為 depth: infrared: event = 2:1:1 時,我們的模型在 DepthTrack, LasHeR 和 VisEvent 數據集上分別實現了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。這些發現表明,我們的方法對模態的具體權重不高度敏感。因此,等權重方案(depth: infrared: event = 1:1:1)可以有效地平衡每個模態的貢獻,并作為我們模型的一個魯棒的默認配置。

D. 定性分析

速度、FLOPs 和參數量分析。在模型參數量、FLOPs 和推理速度方面進行了對比實驗,如表 XVII 所示。在相同的測試機器(即 2080Ti)上,ODTrack 與最新的跟蹤器 SeqTrack 相比獲得了更快的推理速度。我們的跟蹤器運行速度為 32 fps。


可視化。對于 RGB 跟蹤任務,為了直觀展示我們方法的有效性,特別是在包含相似干擾物的復雜場景中,在 LaSOT 上可視化了ODTrack 和三個先進跟蹤器的跟蹤結果。如圖 9 所示,由于其能夠密集傳播目標的軌跡信息,我們的跟蹤器在這些序列上遠遠優于最新的跟蹤器 SeqTrack。


對于多模態跟蹤任務,我們分別在 LasHeR, DepthTrack 和 VisEvent 數據集上可視化了我們的 UM-ODTrack 和其他 SOTA 跟蹤器的多模態跟蹤結果,如圖 11 所示。受益于門控感知器對任意模態的通用感知能力,與其他多模態跟蹤器相比,我們的 UM-ODTrack 能夠在復雜序列中準確定位目標。同時,我們比較了帶有和不帶門控模態可擴展感知器(GMP)的特征表示。如圖 13 所示,在沒有 GMP 模塊的情況下,模型缺乏捕捉模態間相關性的能力,導致學習到的表示常常關注與目標相似的干擾物。相比之下,當配備包含基于注意力的門控機制的 GMP 模塊時,本文的跟蹤器在復雜的多模態跟蹤場景中有效抑制了此類干擾,使模型能夠更準確地聚焦于目標對象。


此外,可視化了時序令牌注意力操作的注意力圖,如圖 10 所示。我們可以觀察到時序令牌持續傳播并關注物體的運動軌跡信息,這有助于我們的跟蹤器準確定位目標實例。

結論

本工作探索了一個有趣的視頻級視覺目標跟蹤框架,稱為 ODTrack。將視覺跟蹤重新定義為一個令牌傳播任務,以自回歸的方式密集關聯跨視頻幀的上下文關系。此外,為了從單模態感知擴展到多模態感知,提出了 UM-ODTrack,一個通用的視頻級模態感知視覺跟蹤框架,通過設計門控注意力機制有效聚合目標實例的多模態時序信息。具體來說,設計了一種視頻序列采樣策略和兩種時序令牌傳播注意力機制,使得所提出的框架能夠簡化視頻級時空建模并避免復雜的在線更新策略。此外,提出了兩個門控模態可擴展感知器來聚合來自各種模態的目標時空信息。最后,本模型可以通過一次性訓練方案,使用同一套模型參數同時推理不同的多模態跟蹤任務。大量實驗表明,UM-ODTrack 在七個可見光跟蹤和五個多模態跟蹤基準上取得了優異的結果。期望 ODTrack 和 UM-ODTrack 能成為通用視頻級模態感知跟蹤的強大基線,激發可見光跟蹤和多模態跟蹤領域的進一步研究。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/-93wVFwaPsPfk0wX21zydA??


收藏
回復
舉報
回復
相關推薦
一区二区三区精品在线观看| 黄色成人av网站| 色婷婷亚洲婷婷| 伊人久久大香线蕉精品 | 亚洲一区二区三区四区中文字幕| 国产99在线播放| 亚洲欧美日韩激情| 99精品美女| 亚洲国模精品一区| 污片在线免费看| 好看的中文字幕在线播放| 99久久免费精品高清特色大片| 国产精品91免费在线| 丁香花五月激情| 亚洲免费成人av在线| 欧美日本韩国一区| 日韩精品xxxx| 好吊日视频在线观看| 久久综合九色综合久久久精品综合| 国产精品一区久久| 亚洲 欧美 日韩 综合| 成人羞羞网站入口| 亚洲国产另类久久精品 | 日产精品久久久久久久| 成人精品视频| 日韩高清中文字幕| 青娱乐国产精品视频| 欧美特大特白屁股xxxx| 亚洲黄色性网站| 亚洲精品一品区二品区三品区| 人妻少妇一区二区三区| 久久成人18免费观看| 欧洲日本亚洲国产区| 麻豆国产尤物av尤物在线观看| 欧美精选视频在线观看| 日韩成人av一区| 国产女主播在线播放| 欧美黑粗硬大| 欧美亚日韩国产aⅴ精品中极品| 极品美女扒开粉嫩小泬| 欧美另类tv| 亚洲视频在线观看三级| 亚洲.欧美.日本.国产综合在线| 天天操天天干天天爱| 国产精品亚洲第一| 国产女精品视频网站免费| 日韩中文字幕高清| 视频在线观看国产精品| 欧美极品在线视频| 免费中文字幕在线观看| 亚洲乱码免费伦视频| 波霸ol色综合久久| 五月天免费网站| 日本不卡二三区| 精品一区二区三区四区| 久久偷拍免费视频| 成人午夜网址| 在线免费观看一区| 性刺激的欧美三级视频| 精品亚洲美女网站| 日韩欧美中文免费| 国产无套内射久久久国产| 亚洲精品一区| 日本高清视频一区二区| www.xxx亚洲| 成人h在线观看| 欧美乱熟臀69xxxxxx| www.成年人| 日本一区二区三区播放| 日韩精品一区二区三区四区视频 | 粉嫩欧美一区二区三区高清影视| 3d动漫啪啪精品一区二区免费| av小说天堂网| 成人激情免费电影网址| 久久久影院一区二区三区| 免费观看成年在线视频网站| 久久精品视频一区| 一区二区三区四区视频在线| 成人在线观看免费网站| 亚洲国产美国国产综合一区二区| 和岳每晚弄的高潮嗷嗷叫视频| 亚洲天堂免费电影| 精品1区2区3区| 中文字幕亚洲日本| 欧美人与动xxxxz0oz| 亚洲天堂av综合网| 国产高清视频免费在线观看| 欧美体内she精视频在线观看| 97在线免费观看| 中文字幕一区二区三区波野结| 国产在线精品国自产拍免费| 国产午夜精品在线| 二区在线观看| 夜夜爽夜夜爽精品视频| 国产成人无码av在线播放dvd| 成人四虎影院| 337p日本欧洲亚洲大胆精品| 舐め犯し波多野结衣在线观看| 亚洲国产一区二区三区在线播放| 久久久久久久久久国产| 国产一级片一区二区| 国产高清不卡一区| 日本在线一区| 国产美女福利在线观看| 欧美色倩网站大全免费| 性感美女一区二区三区| 成人羞羞动漫| 91精品国产高清久久久久久| 91精品国产乱码久久| 97国产一区二区| 99精品一级欧美片免费播放| 涩涩视频在线| 日韩免费电影一区| 香蕉久久久久久久| 国产视频亚洲| 成人xxxxx色| 欧洲美女少妇精品| 欧美视频二区36p| 99免费观看视频| 久久综合99| 国产精品福利小视频| 日韩一级免费毛片| 一区二区三区在线免费观看| 国产又黄又猛又粗又爽的视频| 成人直播在线观看| 美女av一区二区三区| 国产精华7777777| 91浏览器在线视频| 久久精品xxx| 久久免费精品| 久久久精品在线观看| 国产无遮挡又黄又爽又色视频| 成人18视频在线播放| 在线观看17c| 高清不卡一区| 久久精品视频在线观看| 国产精品成人无码| 久久久精品影视| 亚洲色欲综合一区二区三区| 日本免费一区二区三区视频| 亚洲性线免费观看视频成熟| 国产成人精品一区二三区| 成人免费视频播放| 久草免费福利在线| 97青娱国产盛宴精品视频| 久久中文字幕一区| 国产日本精品视频| 成人欧美一区二区三区黑人麻豆| 在线观看国产一级片| 欧美限制电影| 国产精品男女猛烈高潮激情| 久久久pmvav| 日本韩国欧美一区| 特级西西人体高清大胆| 另类人妖一区二区av| 一区二区视频国产| 亚洲一区导航| 欧美另类在线观看| 粉嫩av一区二区夜夜嗨| 午夜精品福利视频网站| 中国av免费看| 玖玖精品视频| 在线视频一区观看| 久久国产精品美女| 欧美激情一级二级| 性感美女福利视频| 在线亚洲免费视频| 国产精品国产三级国产传播| 国产精品综合二区| 精品视频免费在线播放| 蜜桃成人av| 国产精品日韩专区| √天堂8在线网| 亚洲成人亚洲激情| 中文字幕在线天堂| 亚洲天堂av老司机| 性活交片大全免费看| 亚洲永久免费| 一区二区三区四区视频在线观看| 亚洲综合网狠久久| 青青草成人在线| 秋霞影院午夜丰满少妇在线视频| 日韩视频免费观看高清完整版| 日本最新中文字幕| 欧美激情一区二区三区| 国产日韩一区二区三免费高清| 欧美天天综合色影久久精品| 色一情一交一乱一区二区三区| 日本三级在线观看网站| 日韩欧美成人午夜| 在线观看国产亚洲| 国产精品毛片大码女人| 欧美图片自拍偷拍| 日本大胆欧美人术艺术动态| 992tv快乐视频| 亚洲另类av| 亚洲a中文字幕| 色综合亚洲图丝熟| 久久久999精品免费| 天天操天天操天天操| 欧美日韩精品是欧美日韩精品| 久久久久久久国产视频| 国产日韩精品视频一区| 欧美熟妇精品一区二区| 强制捆绑调教一区二区| 欧美成人高潮一二区在线看| 日韩欧美在线中字| 精品久久sese| 日韩成人久久| 国产精品久久久久久久久久免费| 俄罗斯一级**毛片在线播放| 中文字幕欧美日韩va免费视频| 日本波多野结衣在线| 欧美老年两性高潮| 精品久久久久久久久久久国产字幕| 一个色妞综合视频在线观看| 无码人妻精品中文字幕| 国产三级精品视频| 亚洲の无码国产の无码步美| 国产一区二区在线看| 中文字幕国内自拍| 亚久久调教视频| 成人性免费视频| 午夜电影亚洲| 中文字幕av久久| 成人综合专区| 日韩一区二区三区高清| 中国av一区| 黄色小网站91| 国产精品欧美大片| yellow视频在线观看一区二区| 欧美成人黄色| 成人h视频在线| 欧美一级网址| 国产欧美日韩高清| 欧美日韩女优| 国产精品成人播放| 日本欧美一区| 国产精品久久久久久久久男| 人人鲁人人莫人人爱精品| 欧美亚洲另类视频| 中文字幕在线直播| 国产91精品久久久久| 热色播在线视频| 2019中文字幕全在线观看| а√天堂中文在线资源8| 欧美激情一区二区三区久久久| 午夜av在线免费观看| 欧美麻豆久久久久久中文| 日本aa在线| 欧美丰满老妇厨房牲生活| 免费男女羞羞的视频网站在线观看| 欧美老少做受xxxx高潮| 欧美卡一卡二| 97人人模人人爽人人喊中文字| 国产激情在线播放| 欧美最猛性xxxxx亚洲精品| 丝袜老师在线| 国产999精品视频| 成人午夜亚洲| 91精品一区二区| 亚洲一二av| 久精品国产欧美| 欧美最新另类人妖| 一区二区精品在线| 女生裸体视频一区二区三区| 日韩美女爱爱视频| 国产精品呻吟| www.涩涩涩| 国产高清亚洲一区| 91精品国产自产| 日本一区二区成人在线| 日韩在线不卡av| 亚洲国产中文字幕在线视频综合| 国产成人无码精品久久久久| 一本大道综合伊人精品热热 | 成人h视频在线| 免费精品一区| 美女一区视频| 99免费精品| 国产精品999视频| 久久久人人人| 亚洲综合20p| 99久久综合色| 少妇愉情理伦三级| 一区二区三区不卡视频| 久久久久久久久久久久久av| 欧美日韩不卡一区| 手机看片国产1024| 色悠悠国产精品| 成人免费网站观看| 国产精品免费看久久久香蕉| 免费一级欧美在线大片| 青娱乐一区二区| 欧美va亚洲va日韩∨a综合色| 国产精品宾馆在线精品酒店| 久久国产日韩欧美精品| 天天躁日日躁狠狠躁免费麻豆| 国产性色一区二区| 久久精品99国产精| 精品污污网站免费看| 韩国av永久免费| 色系列之999| 周于希免费高清在线观看| 91嫩草在线视频| 加勒比久久综合| 国产九色porny| 九九精品视频在线看| 精品人妻一区二区三区香蕉| 亚洲精品日韩综合观看成人91| 亚洲熟女综合色一区二区三区| 欧美一区二区视频在线观看2020| 国产系列电影在线播放网址| 欧美激情videoshd| 日韩成人在线电影| 日本不卡二区| 最新亚洲一区| 三级网站免费看| 国产精品久久影院| 精品人妻一区二区三区潮喷在线| 日韩精品专区在线影院重磅| 伦xxxx在线| 国产精品入口福利| 极品美女一区二区三区| 日本精品www| av成人免费在线观看| 欧美精品入口蜜桃| 欧美一级免费大片| 日本免费中文字幕在线| 国产精品电影网| 青青草成人影院| 看欧美ab黄色大片视频免费| 99在线精品观看| 日本少妇激情舌吻| 精品久久久久久久久久久久包黑料| 麻豆视频在线观看免费网站| 成人黄色免费在线观看| 日本欧美视频| 超碰在线公开97| 国产精品乱码人人做人人爱 | 日韩小视频在线观看专区| 日本在线观看视频| 国产精品日韩精品| 第一社区sis001原创亚洲| 日韩av在线中文| 国产精品久久久久久久浪潮网站| 免费av中文字幕| 尤物九九久久国产精品的特点| 三级成人在线| 性欧美大战久久久久久久免费观看| 日韩成人免费电影| 免费黄在线观看| 欧美日韩一区二区三区四区五区| 最近高清中文在线字幕在线观看| 国产精品久久综合av爱欲tv| 精品黄色一级片| 中文字幕视频三区| 亚洲精品视频观看| 人妻精品一区一区三区蜜桃91| 97久久精品视频| 国产99精品| 潘金莲激情呻吟欲求不满视频| 中文字幕一区二区三区四区 | 国产精品资源在线看| 五月天av网站| 精品国产乱码久久| 九九精品调教| 久久久精品动漫| 日本中文字幕一区二区有限公司| 成人18视频免费69| 日韩免费在线观看| 国产精品av一区二区三区| 视频一区视频二区视频三区高 | 中文字幕a在线观看| 欧美日韩国产中文字幕| 国产h在线观看| 亚洲专区中文字幕| 国产亚洲在线观看| 林心如三级全黄裸体| 日韩精品专区在线影院重磅| 在线天堂资源| 亚洲国产一区二区三区在线播| 国产在线精品免费av| 天天操天天操天天操天天| 在线观看久久av| 一区二区日韩| 别急慢慢来1978如如2| 亚洲人午夜精品天堂一二香蕉| 免费av一级片| 国产精品一区专区欧美日韩| 黄色日韩在线| 成人激情五月天| 精品久久久久久亚洲综合网 | 国产亚洲精品bv在线观看| 精品视频第一页| 日韩激情在线视频| 91国产精品| 女性隐私黄www网站视频| 亚洲精品自拍动漫在线| 裸体xxxx视频在线|