精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述 精華

發布于 2024-10-10 09:45
瀏覽
0收藏

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

文章鏈接:https://arxiv.org/pdf/2409.18938

亮點直擊

  • 追蹤并總結從圖像理解到長視頻理解的MM-LLMs的進展;
  • 回顧了各種視覺理解任務之間的差異,并強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件和長期依賴性;
  • 詳細總結了MM-LLMs在理解長視頻方面的模型設計和訓練方法的進展;
  • 比較了現有MM-LLMs在不同長度視頻理解基準上的表現,并討論了MM-LLMs在長視頻理解中的潛在未來方向。


將大語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中顯示出良好的性能,利用它們理解和生成類人文本的固有能力進行視覺推理。考慮到視覺數據的多樣性,多模態大語言模型(MM-LLMs)在圖像、短視頻和長視頻理解的模型設計和訓練上存在差異。本論文集中討論長視頻理解與靜態圖像和短視頻理解之間的顯著差異和獨特挑戰。與靜態圖像不同,短視頻包含具有空間和事件內時間信息的連續幀,而長視頻則由多個事件組成,涉及事件之間和長期的時間信息。在本次調研中,旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs的進展。回顧了各種視覺理解任務之間的差異,并強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件和長期依賴性。然后,詳細總結了MM-LLMs在理解長視頻方面的模型設計和訓練方法的進展。最后,比較了現有MM-LLMs在不同長度視頻理解基準上的表現,并討論了MM-LLMs在長視頻理解中的潛在未來方向。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

引言

大語言模型(LLMs)通過擴大模型規模和訓練數據,展現了在理解和生成類人文本方面的卓越多功能性和能力。為了將這些能力擴展到視覺理解任務,提出了多種方法將LLMs與特定視覺模態編碼器集成,從而賦予LLMs視覺感知能力。單張圖像或多幀圖像被編碼為視覺tokens,并與文本tokens結合,以幫助多模態大語言模型(MM-LLMs)實現視覺理解。針對長視頻理解,MM-LLMs被設計為處理更多的視覺幀和多樣的事件,使其能夠應用于廣泛的現實場景,例如自動分析體育視頻、電影、監控錄像和在具身AI中的自我中心視頻的精彩片段。例如,一臺機器人可以通過長時間的自我中心視頻學習如何制作咖啡。它需要分析長視頻中的關鍵事件,包括:1)每6盎司水測量1到2湯匙的咖啡粉;2)將水加入咖啡機的水箱;3)將咖啡粉放入濾網;4)啟動咖啡機并等待沖泡。建模具有復雜時空細節和依賴關系的長格式視頻仍然是一個挑戰性問題。


長視頻理解與其他視覺理解任務之間存在顯著差異。與僅關注靜態圖像空間內容的靜態圖像理解相比,短視頻理解還必須考慮連續幀變化中的事件內時間信息。此外,超過一分鐘的長視頻通常包含多個場景和視覺內容不同的事件, necessitating捕捉顯著的事件間和長期變化以實現有效理解。有效平衡有限數量的視覺tokens中的空間和時間細節,對長視頻大語言模型(LV-LLMs)構成了相當大的挑戰。此外,不同于僅持續幾秒并包含數十個視覺幀的短視頻,長視頻往往涵蓋數千幀。因此,LV-LLMs必須能夠記憶并持續學習跨越數分鐘甚至數小時的視頻中的長期關聯。MM-LLMs在全面長視頻理解方面的進展,特別是在模型設計和訓練上,值得特別關注。


我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解方面的比較。除了上述討論的長視頻理解與其他視覺理解任務之間的繼承和發展關系外,LV-LLMs還建立在多圖像和短視頻MM-LLMs的進展之上,具有相似的視覺編碼器結構、LLM主干和跨模態連接器。為有效應對長視頻理解任務中新引入的挑戰,LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅橋接跨模態表示,還將視覺tokens壓縮到可管理的數量。此外,通常還會結合時間感知模塊,以增強LV-LLMs中時間信息的捕獲。在預訓練和指令調優中,視頻-文本對和視頻-指令數據對MM-LLMs處理圖像和視頻具有重要意義,因其共享空間感知和推理能力。長視頻訓練數據集對于時間跨模態語義對齊和捕獲長期相關性尤其有益,這對于LV-LLMs至關重要。本文調查將全面總結最近在模型設計和訓練方法上的進展,追蹤MM-LLMs從圖像到長視頻的演變。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

近期關于視覺理解任務的調查通常采用單一視角,或從全局視角回顧MM-LLMs,或從局部視角關注圖像或視頻理解任務。雖然這些研究對研究主題進行了廣泛的回顧,但未討論不同任務和方法之間的開發和繼承關系。此外,現有關于視頻理解任務的評述往往更側重于一般視頻理解,而不是更具挑戰性的長視頻理解任務。超過一分鐘的長視頻被廣泛應用于教育、娛樂、交通等領域,迫切需要強大的模型進行全面的自動理解。我們的工作是較早從發展視角總結和討論長視頻理解任務的研究之一。

長視頻理解

由于長視頻理解與圖像或短視頻理解之間的固有差異,包括存在多個事件、更多幀以及動態場景,長視頻理解任務為視覺理解帶來了額外的挑戰。

視覺推理與理解

視覺推理要求模型理解和解釋視覺信息,并將多模態感知與常識理解相結合。主要有三種類型的視覺推理任務:視覺問答(VQA)、視覺描述(VC)或說明(VD)、以及視覺對話(VDia)。VQA涉及基于輸入的視覺數據和相關問題生成自然語言答案。VC和VD系統通常生成簡潔的自然語言句子,總結視覺數據的主要內容,或者對相應視覺數據進行詳細而全面的描述。VDia涉及多輪對話,由圍繞視覺內容的一系列問答對組成。


圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像用于各種視覺推理任務,如圖像標注和以圖像為中心的問題回答。這些任務僅關注空間信息,包括對全球視覺上下文的粗略理解和對局部視覺細節的細致理解。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

短視頻理解。與僅涉及靜態視覺數據的圖像理解任務不同,短視頻理解還結合了來自多個視覺幀的時間信息。除了空間推理,事件內的時間推理和跨幀的時空推理在短視頻理解中發揮著至關重要的作用。


長視頻理解。長視頻通常持續數分鐘甚至數小時,通常由多個事件組成,與短視頻相比,包含更豐富的空間內容和時間變化。如圖3(c)所總結,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間推理和來自不同視頻事件的長期推理。

長視頻理解的挑戰

與圖像和短視頻相比,長格式視頻為全面的視覺理解帶來了新的挑戰,具體如下:

豐富的細粒度時空細節。長視頻涵蓋了廣泛的話題、場景和活動,包含了多樣的細節,如物體、事件和屬性。與靜態圖像和具有多個相似幀的短視頻相比,這些細節更加豐富,使得長視頻理解更加具有挑戰性。例如,細粒度的空間問答可以在任何幀中引入,而時間問答可以在幀之間或幀內引入,以進行長視頻推理任務。用于長視頻理解的多模態大語言模型(MM-LLMs)必須從持續數分鐘甚至數小時的視頻幀中捕捉所有相關的細粒度時空細節,同時使用有限數量的視覺tokens。


動態事件與場景轉換和內容變化。長視頻通常包含各種動態事件,場景和內容存在顯著差異。這些事件可能在語義上相關并且按照出現的順序進行時間協調,或者由于情節轉折而表現出顯著的語義差異。涉及多事件的事件間推理,對于準確理解內容至關重要。對于MM-LLMs來說,區分語義差異并在不同事件之間保持語義一致性是長視頻理解的關鍵。


長期關聯與依賴關系。長視頻通常包含跨越較長時間段的動作和事件。捕捉長期依賴關系并理解視頻不同部分之間在長期內的關聯是一個挑戰。針對圖像或短視頻設計的視頻大語言模型通常無法將當前事件與遠離當前時刻的過去或未來事件進行上下文化,也難以進行長期決策。

模型架構的進展

在本節中,我們討論了多模態大語言模型(MM-LLMs)從針對圖像的模型到針對長視頻的模型的進展,重點在于模型架構。正如圖4所示,針對圖像、短視頻和長視頻的MM-LLMs共享一個相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像級連接器不同,視頻級連接器對于整合跨幀視覺信息至關重要。在長視頻大語言模型(LV-LLMs)中,連接器的設計更具挑戰性,需要高效壓縮大量視覺信息并融入時間知識以管理長期關聯。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

視覺編碼器和LLM主干

MM-LLMs通常使用相似的視覺編碼器來提取視覺信息。早期MM-LLM方法中的LLM主干通常是通用的,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。


視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕獲視覺知識。總結于表1中,像CLIP-ViT-L/14、EVA-CLIP-ViT-G/14、OpenCLIP-ViT-bigG/14和SigLIP-SO400M等圖像編碼器被廣泛用于圖像和視頻目標LLMs。最近的研究表明,視覺表示(包括圖像分辨率、視覺tokens的大小和預訓練的視覺資源)在性能上比視覺編碼器的大小更為重要。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

LLM主干。LLM是視覺理解系統的核心模塊,繼承了推理和決策能力的屬性。與封閉源的LLMs(如GPT-3/和Gemini-1.5)相比,各種開源LLMs在實現視覺LLMs中更為常見。這些包括Flan-T5、LLaMA、Vicuna、QWen、Mistral、Openflamingo、Yi和InternLM。

LLM的強度通常與視覺LLMs中的多模態能力優越性相關。這意味著,對于相同規模的LLMs,語言能力更強的模型表現更好,而對于相同的LLMs,不同模型大小的情況,較大的模型往往產生更好的多模態性能。此外,長上下文LLMs將上下文長度擴展到數十萬個tokens,支持更廣泛的數據學習。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態中。

模態接口

視覺編碼器與LLM之間的連接器充當模態接口,將視覺特征映射到語言特征空間。鑒于視覺數據源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。

圖像級連接器

圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺tokens,廣泛用于圖像目標和視頻目標的MM-LLMs。這些連接器可以分為三類:第一類直接使用單一線性層或多層感知器(MLP)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺tokens的方法不適合涉及多個圖像的視覺理解任務。為了解決保留所有視覺tokens的局限性,第二類采用各種基于池化的方法。這些方法包括空間池化、自適應池化、語義相似tokens合并和相鄰tokens平均。第三類利用跨注意力或基于transformer的結構,如Q-Former和Perceiver Resampler,用于圖像特征壓縮。Q-Former是一種輕量級transformer結構,采用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai et al., 2023;Li et al., 2023b;Ma et al., 2023a;Liu et al., 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma et al., 2023b;Jiang et al., 2024)則選擇Perceiver Resampler,通過提取補丁特征來降低計算負擔。

視頻級連接器

視頻級連接器用于提取順序視覺數據并進一步壓縮視覺特征。與圖像目標MM-LLMs中的圖像級連接器相比,視頻級連接器對于視頻目標MM-LLMs(包括LV-LLMs)至關重要。一些方法直接在輸入LLMs之前連接圖像tokens,使其對幀圖像數量敏感。用于圖像級連接器中的tokens壓縮的類似結構可以適應視頻級接口,如基于池化和基于transformer的結構。沿時間序列維度的池化是一種減少時間信息冗余的簡單方法。基于transformer的方法,如Video Q-Former和Video Perceiver,在提取視頻特征的同時減少數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取和壓縮視覺數據。

長視頻級連接器

專為長視頻LLMs設計的連接器考慮了兩個特殊因素:高效的視覺信息壓縮以處理長格式視覺數據,以及時間感知設計以保留時間信息。高效壓縮視覺信息不僅需要減少輸入視覺tokens到可接受數量,還需保留長視頻中包含的完整時空細節。視頻中包含兩種數據冗余:幀內的空間數據冗余和幀間的時空數據冗余。一方面,空間數據冗余是在幀內區域級像素相同時產生的,這導致通過完整的視覺tokens表示冗余視覺幀時效率低下。為減少空間視頻數據冗余,LLaVA-Next系列方法合并相鄰幀的補丁tokens,而Chat-UniVi則合并相似幀的補丁tokens。另一方面,時空數據冗余包括跨幀像素冗余和運動冗余,其中這些冗余視頻幀之間的語義信息相似。為減少時空視頻冗余,MovieChat和MALMM在輸入LLMs之前合并幀特征,以提高幀相似性。除了減少冗余信息外,保留更多視頻時空細節對于準確的長視頻推理至關重要。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA采用慢通道以低幀率提取特征,同時保留更多視覺tokens,并以較高幀率和較大空間池化步幅的快通道關注運動線索。

時間相關視覺數據

此外,時間相關的視覺數據高效管理長格式視頻中固有的時間和空間信息。時間感知設計可以增強視頻相關LLM的時間捕獲能力,這對于長視頻理解尤其有利。VTimeLLM和InternLM-XComposer-2.5(IXC-2.5)使用幀索引來增強時間關系。兩者的區別在于方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat和Momentor將時間信息直接注入幀特征中,以實現細粒度的時間信息捕獲。具體來說,TimeChat設計了一種時間感知幀編碼器,以提取與幀級別相應時間戳描述的視覺特征,而Momentor則利用時間感知模塊進行連續的時間編碼和解碼,將時間信息注入幀特征中。

模型訓練的進展

用于視覺理解的多模態LLMs由兩個主要階段組成:預訓練(PT)用于視覺與語言特征對齊,指令微調(IT)用于響應指令。

預訓練

MM-LLMs的視覺語言預訓練旨在使用文本配對數據將視覺特征與語言空間對齊。這包括對圖像、短視頻和長視頻文本數據集的預訓練。最初為專注于圖像的視覺LLMs引入的圖像文本預訓練,也廣泛應用于與視頻相關的理解任務。粗粒度的圖像文本對數據集,如COCO Captions和CC-3M,用于全球視覺語言對齊。細粒度的圖像文本數據集,如ShareGPT4V-PT,則用于局部空間語義對齊。考慮到短視頻語義內容的變化有限,短視頻文本配對數據集,如Webvid-2M,也可以類似地用于短視頻文本預訓練。類似地,長視頻文本預訓練對于捕獲長視頻的時間語義對齊非常重要。由于圖像文本和短視頻文本對中缺乏長期跨模態關聯,因此需要長視頻文本預訓練數據集,其中包含長視頻及其對應的文本描述。此外,如圖5(a)所示,長視頻中的場景和事件在幀之間變化顯著,因此需要事件級視覺語言對齊來進行長視頻文本預訓練,這與圖像文本和短視頻文本預訓練顯著不同。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

指令微調

使用視覺語言源進行的指令微調使LLMs能夠遵循指令并生成類人文本。多模態視覺語言指令跟隨數據,包括圖像文本和視頻文本對,用于將多模態LLMs與人類意圖對齊,從而增強其完成現實任務的能力。


與預訓練階段類似,圖像文本指令微調也被應用于各種視覺理解任務,包括圖像、短視頻和長視頻理解任務。基本的基于圖像的指令跟隨數據集,如ShareGPT4V-Instruct和LLaVA-Instruct,為基本的空間推理和聊天能力提供高質量的指令微調數據。對于視頻相關的LLM,短視頻文本指令微調是必要的,以使多模態LLM能夠理解時間序列,這在Video-ChatGPT和VideoChat等模型中得以體現。短視頻LLM需要同時進行空間和事件內推理的指令,以理解短視頻的空間和小規模時間內容。然而,短視頻中有限的內容和語義變化不足以支持長視頻理解任務,因為長視頻的幀數更多且變化顯著。長視頻文本指令微調的引入旨在更好地捕獲和理解長視頻。除了空間和事件內推理指令外,事件間和長期推理指令對于全面理解長視頻也是必要的,如圖5(b)所示。在引入的長視頻指令格式數據集中,Long-VideoQA和Video-ChatGPT不具備時間意識,僅包含長視頻及其對應數據。VTimeLLM、TimeIT和Moment-10M具備時間意識,加入額外的時間信息以增強時間相關性。

評估、性能與分析

在本節中,我們將對不同長度視頻的流行評估數據集進行性能比較,并提供分析。比較從兩個角度進行:首先,我們評估視頻理解方法在視頻長度從秒到分鐘的任務上的表現;其次,我們特別比較超長視頻數據集(視頻長度從分鐘到小時)的性能。

視頻理解:秒到分鐘

如表2所示,我們總結了各種視覺LLM在開放式視頻問答基準測試上的一般視頻理解性能,包括TGIF-QA、MSVD-QA、MSRVTT-QA、NEXT-QA和ActivityNet-QA。此外,我們還考慮了VideoChatGPT引入的視頻生成性能基準,該基準評估視頻文本生成的五個方面:信息正確性(CI)、細節導向(DO)、上下文理解(CU)、時間理解(TU)和一致性(CO)。


視頻基準測試中長度少于1分鐘的,如TGIF-QA、MSVD-QA、MSRVTT-QA和NEXT-QA,通常用于短視頻理解。相比之下,長度超過一分鐘的基準測試,如ActivityNet-QA和基于ActivityNet-200的生成性能基準,則用于長視頻理解。


通過比較表2中的性能,我們可以得出以下結論:長視頻理解具有挑戰性,主要發現如下:(1)包含更多幀的視頻推理引入了更復雜的視覺信息,挑戰性更大。旨在支持長視頻的方法,如LongVA(Zhang et al., 2024d),在同一視頻數據集上與更少幀相比表現更好。然而,對于沒有專門設計用于長視頻的方法,如VideoLLaMA2,當輸入更多幀時,性能則下降。(2)在秒級視頻理解上表現良好的短視頻理解方法,往往在分鐘級中等長視頻理解上表現不佳,例如RED-VILLM和MiniGPT4-Video。長視頻理解方法在短視頻和中等長視頻基準測試上通常表現一致良好,例如ST-LLM、SlowFast-LLaVA、PLLaVA和

MovieChat。這種改善可能源于專門設計的長視頻理解方法更好地捕獲了時空信息。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

視頻理解:分鐘到小時

為了解決長視頻的獨特特征,近年來引入了多個長視頻基準測試,視頻長度從幾百秒到幾千秒不等。EgoSchema和QVHighlights是為多選問答和高亮檢測而設計的長視頻理解數據集,要求訪問所有幀。VideoVista、MMBench-Video和MLVU涵蓋各種主題,并旨在進行細粒度能力評估。LongVideoBench引入了指稱推理問題,以解決長視頻中的單幀偏差問題。Video-MME和LVBench包含大量小時級視頻。Video-MME進一步將視頻分類為短、中、長三類,而LVBench旨在挑戰模型展示長期記憶和擴展理解能力。


如表3所示,我們進一步比較和分析長視頻理解方法的性能,特別總結它們在長度從幾百秒到幾千秒的長視頻基準測試上的表現。與第5.1節的發現不同,長視頻理解方法通常優于短視頻理解方法。這表明,專門設計的強大視頻級連接器對于長視頻理解至關重要。此外,視頻長度較長的基準測試上的性能通常較差。例如,使用相同評估指標的VideoVista和MLVU、Video-MME和LVBench之間的方法性能隨著視頻長度的增加而下降。這表明,長視頻理解仍然是一個具有挑戰性的研究主題。

從秒級到小時級:TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述-AI.x社區

未來方向

如上所述,現有的長視頻理解方法的效果不如圖像或短視頻理解方法。為了滿足一個日益依賴AI的社會對越來越多和更長的多模態數據的需求,開發更強大的視覺大語言模型(LLM)以實現長視頻理解至關重要。以下考慮事項應予以重視。

更多長視頻訓練資源

現有的兩階段訓練流程——跨模態對齊預訓練和視覺語言格式指令調優——廣泛用于訓練多模態LLM。然而,與常用的圖像-語言和短視頻-語言對比,缺乏細粒度的長視頻-語言訓練對。依賴圖像-語言和短視頻-語言資源的方法無法在預訓練階段捕捉長期關聯。此外,新引入的長視頻指令數據的視頻長度僅限于分鐘級,顯著限制了長視頻理解的有效推理應用場景。因此,需要創建具有更長(小時級)視頻和高質量注釋的長視頻-語言配對預訓練數據集和長視頻指令數據集。

更具挑戰性的長視頻理解基準測試

在前面的部分中總結了各種視頻理解基準測試,其中大多數是最近引入的。然而,這些基準主要集中在長視頻理解的一個或多個方面,例如,LongVideoBench用于長上下文交錯視頻理解,QVHighlights用于基于語言的視頻高亮理解,以及VideoVista和MLVU用于細粒度視頻理解。需要全面的長視頻基準測試,以覆蓋具有時間和語言的幀級和片段級推理,但目前尚未探索以全面評估通用的長視頻理解方法。此外,現有基準通常處于分鐘級,無法充分測試方法的長期能力。長視頻理解方法在處理大量連續視覺信息(例如小時級視頻)時,常常會遭遇災難性遺忘和時空細節的損失。最后,大多數現有的長視頻理解基準僅關注視覺模態。結合額外的音頻和語言等多模態數據,無疑會使長視頻理解任務受益。

強大而高效的框架

視頻的視覺大語言模型(LLM)需要支持更多的視覺幀,并在固定數量的視覺tokens下保留更多的視覺細節。在實現長視頻LLM時,有四個主要考慮因素:


  1. 選擇長上下文LLM作為基礎模型。以往的方法受到LLM上下文容量的限制,必須特別微調LLM以支持更多的tokens。最近的長上下文LLM,如QWen2、LLaMA-3.1和DeepSeek-V2(DeepSeek-AI, 2024),具有128K的上下文窗口長度,可用于長視頻LLM的設計。


  1. 更高效地壓縮視覺tokens,減少信息損失。一些現有方法面臨壓縮不足的問題,例如Chat-UniVi采用多尺度tokens合并,而LongVA僅合并相鄰tokens。其他方法則壓縮過多視覺信息,例如LLaMA-VID使用上下文和內容tokens,MA-LMM合并相似幀tokens,導致幀細節顯著損失。針對長視頻的新框架必須高效壓縮視覺tokens,以支持更多時間幀,并在全面的長視頻理解任務中保留更多時空細節。


  1. 結合額外的時間感知設計(Ren et al., 2024; Qian et al., 2024),通過整合時間信息增強視頻推理,從而提高長視頻理解性能中的時間信息提取能力。


  1. 利用能夠支持內存密集型長上下文訓練的基礎設施(Xue et al., 2024),提供在配備大量GPU設備時能夠輸入更多視覺數據的能力。

更多應用場景

使用大型模型的長視頻理解面臨多個關鍵挑戰,以滿足更多長視頻應用的需求。上下文理解至關重要,因為長視頻需要模型在較長時間內保持時間一致性和上下文意識。實時處理對監控、實時事件分析和具身AI等應用至關重要,需要開發能夠實時處理視頻流的低延遲模型。多模態整合是另一個前沿領域,因為長視頻通常包含音頻、文本和視覺信息。未來的模型應更好地整合這些模態,以增強理解并提供對視頻內容的更全面分析。

結論

本文總結了視覺LLM從圖像到長視頻的進展。基于對圖像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰。這些挑戰包括捕捉動態序列事件中的更細粒度時空細節和長期依賴關系,同時壓縮視覺信息,涉及場景轉換和內容變化。接著,我們介紹了從圖像LLM到長視頻LLM的模型架構和模型訓練的進展,旨在改善長視頻理解和推理。隨后,回顧了多種不同長度的視頻基準測試,并比較了各種方法在視頻理解上的表現。這一比較為長視頻理解的未來研究方向提供了洞見。本論文首次聚焦于長視頻LLM的發展與改進,以實現更好的長視頻理解。我們希望我們的工作能夠推動長視頻理解和推理的進步。

限制

本文回顧了關于綜合長視頻理解的文獻,包括方法、訓練數據集和基準測試。由于篇幅限制,省略了實時處理和多模態任務等詳細應用場景。我們將維護一個開源庫,并添加這些內容以補充我們的調查。性能比較基于先前論文和官方基準的最終結果,這些結果在訓練資源、策略和模型架構上存在差異,使得分析具體模型和訓練差異變得困難。計劃在公共基準上進行詳細的消融研究,以便對模型設計、訓練資源和方法進行更直接的分析。


本文轉自 AI生成未來 ,作者:Heqing Zou等  


原文鏈接:??https://mp.weixin.qq.com/s/4wZcw5IR-iDevB5AGCXKDA??

收藏
回復
舉報
回復
相關推薦
少妇大叫太粗太大爽一区二区| 95av在线视频| 黄色在线观看av| 97精品国产综合久久久动漫日韩| 国产香蕉久久精品综合网| 国产精品视频区| 久久精品久久国产| 精品一区av| 欧美不卡一二三| 妺妺窝人体色www在线小说| 国产亚洲依依| 狠狠色丁香九九婷婷综合五月| 欧美高清videos高潮hd| 无码人妻aⅴ一区二区三区69岛| 国产aa精品| 欧美视频中文在线看| 男女啪啪的视频| 精品影院一区| 99精品欧美一区二区蜜桃免费| 国产欧美韩国高清| 欧美 日韩 精品| 激情久久五月| 久久精品国产v日韩v亚洲| 亚洲精品视频大全| 99亚洲乱人伦aⅴ精品| 欧美日韩精品一区二区| 男女av免费观看| h片精品在线观看| 亚洲色图欧洲色图| 午夜精品一区二区在线观看| 色屁屁草草影院ccyycom| 国产主播一区二区| 国产精品在线看| 国产午夜精品久久久久| 91久久黄色| 久久91亚洲精品中文字幕奶水| 成人小视频免费看| 国内亚洲精品| 亚洲欧美中文日韩在线| 麻豆精品国产传媒av| 中文字幕一区二区三区四区久久 | 91精品国产综合久久精品app| 国产伦精品一区二区三区四区视频_| 好了av在线| 中文字幕欧美一| 在线视频不卡国产| 日本精品在线| 亚洲人成精品久久久久| 在线日韩av永久免费观看| 麻豆传媒视频在线| 亚洲日穴在线视频| 男人j进女人j| 亚洲丝袜一区| 亚洲国产成人91porn| 亚洲天堂第一区| 色操视频在线| 午夜久久久久久| 男人日女人下面视频| www.51av欧美视频| 精品人伦一区二区三区蜜桃免费| 男女视频网站在线观看| 日韩欧美精品一区二区三区| 欧美日韩中文在线观看| 欧美成人免费高清视频| 色香欲www7777综合网| 欧美亚洲高清一区| 亚洲欧美手机在线| 国产欧美日韩电影| 日韩精品一区二区三区蜜臀 | 无码日韩精品一区二区| 丝袜美腿亚洲一区| 国产欧美日韩中文字幕| 国产欧美日韩成人| 不卡欧美aaaaa| 久久久久久精| 91吃瓜网在线观看| 亚洲精品国产无套在线观| 99色这里只有精品| 性欧美videohd高精| 欧美日韩一本到| 精品无码av一区二区三区| 欧美午夜寂寞| 日韩中文字幕亚洲| 日本五十熟hd丰满| 男男视频亚洲欧美| 99国内精品久久久久久久软件| 四虎在线视频免费观看| 国产欧美综合色| 妺妺窝人体色www看人体| 亚洲黄色网址| 欧美一区二区在线不卡| 中文在线观看免费视频| 国产亚洲一区| 欧美国产日韩精品| 手机看片久久久| 黑人精品欧美一区二区蜜桃| 国产一区在线免费观看| av在线播放免费| 亚洲www啪成人一区二区麻豆| 成人免费无码av| 一区二区三区四区精品视频| 亚洲一区二区久久| 精品少妇一二三区| 美女视频网站久久| 九9re精品视频在线观看re6| 男人资源在线播放| 精品日本美女福利在线观看| 特级西西444www| 国内精品久久久久久99蜜桃| 久久久久久欧美| 无码人妻aⅴ一区二区三区有奶水| 国产在线看一区| 欧美在线视频二区| 91视频欧美| 欧美一级精品在线| 亚洲欧美日韩第一页| 99精品国产99久久久久久福利| 国产日韩欧美在线视频观看| 免费在线超碰| 午夜不卡av免费| 亚洲自拍第三页| 欧美色图五月天| 欧美激情综合色综合啪啪五月| 中文字幕视频网站| 99久久精品免费看| 青青草原国产免费| 国产精品高清乱码在线观看| 亚洲精品久久久久中文字幕欢迎你| www日韩在线| 秋霞影院一区二区| 日韩精品久久久| 另类专区亚洲| 亚洲美女激情视频| 日日摸天天添天天添破| 国产九色精品成人porny| 日韩高清av电影| 伊人久久国产| 亚洲老头同性xxxxx| 成人免费精品动漫网站| 久久电影国产免费久久电影 | 国产精品观看| 亚洲一区二区三区四区视频| 欧美极品另类| 欧美日韩成人一区二区| 99久久久无码国产精品不卡| 日本在线不卡一区| 台湾成人av| 久久精品 人人爱| 色婷婷av一区二区三区久久| 亚洲综合免费视频| 成人欧美一区二区三区| 久久久精品高清| 亚洲国产精品91| 99www免费人成精品| 动漫一区在线| 色猫猫国产区一区二在线视频| 少妇毛片一区二区三区| 免费视频久久| 色婷婷精品国产一区二区三区| 日本在线中文字幕一区二区三区| 国产一区二区三区直播精品电影 | 国产成人综合在线| 欧美乱做爰xxxⅹ久久久| 成人精品毛片| 26uuu亚洲伊人春色| 极品美乳网红视频免费在线观看| 欧美日韩亚洲一区二区三区| 国产精品三级在线观看无码| 久久在线精品| av不卡在线免费观看| 久久国产精品免费一区二区三区| 欧美国产日韩精品| 日韩a级作爱片一二三区免费观看| 欧美性黄网官网| 欧美自拍偷拍网| 国产成人久久精品77777最新版本| 香蕉视频在线网址| 国产成人在线中文字幕| 日本精品视频在线观看| 黄网站免费在线观看| 欧美一个色资源| 国产成人无码av| 亚洲视频一二三区| 中国免费黄色片| 日本成人超碰在线观看| 伊人久久青草| 鲁大师精品99久久久| 国产精品大陆在线观看| 成人欧美在线| 亚洲国产精品久久精品怡红院| 黄色污污视频软件| 一区二区三区日韩欧美| 免费一级做a爰片久久毛片潮| 日韩中文字幕麻豆| 免费网站在线观看视频| 亲子伦视频一区二区三区| 国产精品视频免费在线| 92久久精品| 久久久精品免费| 天天操天天射天天| 3d成人动漫网站| 日韩精品一区二区亚洲av| 国产女同互慰高潮91漫画| 欧美熟妇另类久久久久久多毛| 国产欧美日韩综合一区在线播放| 欧美 另类 交| 日韩av二区| 欧美激情专区| 韩国女主播一区二区三区| 成人高清视频观看www| 涩涩在线视频| 欧美理论片在线观看| av一本在线| 日韩精品视频中文在线观看| 国产欧美日韩成人| 欧美日本国产视频| 久久影院一区二区| 亚洲视频一区二区在线| 91无套直看片红桃在线观看| av不卡一区二区三区| 久久久久亚洲av片无码v| 精品影视av免费| 亚洲老女人av| 日日摸夜夜添夜夜添精品视频| 免费观看美女裸体网站| 欧美日本二区| 日韩亚洲欧美一区二区| 久久精品影视| 中文字幕一区二区三区最新| 成人av国产| 无遮挡亚洲一区| 精品毛片免费观看| 日本不卡在线播放| 欧美热在线视频精品999| 久久99精品久久久久久秒播放器 | 亚洲毛片在线观看| 天天综合天天色| 亚洲成人精品在线| 黄片毛片在线看| 精品国产乱码久久| 亚洲免费成人在线| 亚洲成人精品视频在线观看| 你懂的网站在线| 精品久久一二三区| 人妻妺妺窝人体色www聚色窝 | 日本精品一二三区| 国产精品影音先锋| 日本黄色一级网站| 高清在线不卡av| 26uuu国产| 国产精品一区专区| 少妇高潮一69aⅹ| 风流少妇一区二区| 日本性生活一级片| 91啦中文在线观看| 蜜桃传媒一区二区亚洲| 中文字幕二三区不卡| 激情五月深爱五月| 综合久久综合久久| 免费人成视频在线| 天天av天天翘天天综合网 | 精品乱人伦小说| 手机在线不卡av| 亚洲人成电影在线播放| 在线视频婷婷| 欧美成人激情视频| 国产无遮挡裸体视频在线观看| 国产91对白在线播放| 欧美日韩尤物久久| 91夜夜未满十八勿入爽爽影院| 亚洲精品a区| 麻豆精品视频| 91一区在线| av在线观看地址| 日韩国产一区二| 无人码人妻一区二区三区免费| 成人黄色一级视频| 永久免费成人代码| 亚洲欧美综合色| 亚欧视频在线观看| 欧美性猛交一区二区三区精品| av中文字幕免费在线观看| 亚洲精品国产成人| av大全在线免费看| www国产精品视频| 污视频网站免费在线观看| 日本久久久久久久久| 国产亚洲观看| 国内精品久久国产| 视频在线不卡免费观看| 欧美亚洲日本一区二区三区| 日韩精品亚洲专区| 国产麻豆剧传媒精品国产| 国产不卡在线视频| 免费黄在线观看| 五月婷婷另类国产| 国产精品一区二区人人爽| 亚洲黄色有码视频| 国产精品刘玥久久一区| 日本伊人精品一区二区三区介绍| 国产精品一区二区三区av| 欧美三级电影在线播放| 欧美三区不卡| 国产三级生活片| 国产无一区二区| 国产无遮挡又黄又爽| 欧美嫩在线观看| 黄色大片在线看| 久久久久亚洲精品| 高清不卡一区| 一卡二卡3卡四卡高清精品视频| 日韩视频在线一区二区三区| 99中文字幕在线| 中文av字幕一区| 精品人妻无码一区二区性色| 亚洲精品一区在线观看| 永久免费av片在线观看全网站| 97成人超碰免| 亚洲无线观看| 视色,视色影院,视色影库,视色网| 男男成人高潮片免费网站| 美女脱光内衣内裤| 亚洲午夜国产一区99re久久| 国产免费av电影| 日韩中文字幕在线| 51一区二区三区| 日韩高清专区| 视频一区在线播放| 精品人妻一区二区三区视频| 五月激情综合婷婷| 手机看片一区二区三区| 国内精品一区二区三区| 超碰成人97| 日韩国产小视频| 国产成人免费在线观看不卡| 美女视频久久久| 91精品免费在线观看| 日本高清在线观看wwwww色| 国产精品视频区1| 久久精品国产www456c0m| 免费黄色一级网站| 欧美国产日产图区| 中文在线资源天堂| 国产一区二区三区在线观看视频 | 久久精品久久国产| 欧美大肚乱孕交hd孕妇| 日韩激情av| 国产精品免费一区二区| 国产精品红桃| 天天插天天射天天干| 色婷婷精品久久二区二区蜜臀av | 激情婷婷综合| 精品999在线| 中文字幕视频一区二区三区久| 亚洲一区二区天堂| www.亚洲免费视频| 日韩精品一区二区三区中文在线| 国产精品无码电影在线观看| 成人午夜电影小说| 日韩av在线播| 亚洲美女动态图120秒| 久久天天久久| 300部国产真实乱| 99久久久久久99| 秋霞av一区二区三区| 中文字幕视频在线免费欧美日韩综合在线看 | 精品国产凹凸成av人网站| 大桥未久在线视频| 秋霞久久久久久一区二区| 蜜桃视频免费观看一区| 三上悠亚作品在线观看| 精品国产自在久精品国产| 小草在线视频免费播放| 神马影院我不卡午夜| 国产一区二区精品在线观看| 中文在线观看免费网站| 国产一区二区三区精品久久久| 999精品嫩草久久久久久99| 国产精品videossex国产高清 | 国产精品23p| 国产亚洲精品久久久| 精品国产三级| 免费高清在线观看免费| 日韩毛片视频在线看| 天天干天天舔天天射| 国产伦精品免费视频| 亚洲三级免费| 黄色裸体一级片| 亚洲国产婷婷香蕉久久久久久| 亚洲成人短视频| 中文字幕人妻熟女人妻洋洋| 国产欧美日韩精品a在线观看| 99精品视频免费看| 日本精品在线视频| 国产精品hd| 能直接看的av| 日韩成人久久久| 日韩一区二区三区色| 青青草精品视频在线观看| 一区二区三区四区av|