精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架

發(fā)布于 2025-10-22 09:16
瀏覽
0收藏

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2510.09608
Git鏈接:https://github.com/mit-han-lab/streaming-vlm 
Demo鏈接:https://streamingvlm.hanlab.ai/

亮點(diǎn)直擊

  • 訓(xùn)練與推理統(tǒng)一的流式架構(gòu): 通過(guò)重疊窗口全注意力SFT,將有限長(zhǎng)度訓(xùn)練與無(wú)限長(zhǎng)度推理自然對(duì)齊。
  • 高效KV緩存復(fù)用機(jī)制: 結(jié)合 attention sink、短窗口視覺(jué)緩存與長(zhǎng)窗口文本緩存,實(shí)現(xiàn)低延遲、高穩(wěn)定的實(shí)時(shí)視頻理解。
  • 真實(shí)長(zhǎng)時(shí)評(píng)測(cè)基準(zhǔn)構(gòu)建: 構(gòu)建了首個(gè)平均時(shí)長(zhǎng)超2小時(shí)的實(shí)時(shí)視頻評(píng)測(cè)集Inf-Streams-Eval,推動(dòng)長(zhǎng)時(shí)視頻理解領(lǐng)域標(biāo)準(zhǔn)化評(píng)測(cè)。

總結(jié)速覽

解決的問(wèn)題

  • 具體困境
  • 無(wú)重疊時(shí)打斷上下文連貫性;
  • 有重疊時(shí)重復(fù)計(jì)算過(guò)多,延遲高。
  1. 全注意力(Full Attention)→ 計(jì)算與內(nèi)存成本呈二次增長(zhǎng),無(wú)法處理長(zhǎng)視頻。
  2. 滑動(dòng)窗口(Sliding Window)
  3. 訓(xùn)練與推理不對(duì)齊→ 模型無(wú)法在短視頻訓(xùn)練下泛化到無(wú)限視頻流。

提出的方案

StreamingVLM —— 一個(gè)統(tǒng)一的實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架,核心思路是讓訓(xùn)練過(guò)程與流式推理機(jī)制對(duì)齊。

  • 訓(xùn)練階段(Streaming-aligned SFT): 使用短視頻片段的全注意力訓(xùn)練,片段間存在重疊,以此模擬推理時(shí)的注意力模式,無(wú)需在超長(zhǎng)視頻上訓(xùn)練。
  • 推理階段(Streaming Inference): 采用輕量、可擴(kuò)展的 KV 緩存策略,包括:
  1. Attention Sink:長(zhǎng)期保留關(guān)鍵狀態(tài);
  2. 短窗口視覺(jué)Token緩存:保持最新畫(huà)面信息;
  3. 長(zhǎng)窗口文本Token緩存:維持語(yǔ)言連續(xù)性;
  4. 連續(xù)位置編碼(Contiguous Position IDs):確保推理穩(wěn)定性。

應(yīng)用的技術(shù)

  • 模型基座:Qwen2.5-VL-7B-Instruct
  • 訓(xùn)練數(shù)據(jù)集
  • Inf-Streams-Train(超過(guò)4000小時(shí)體育解說(shuō)SFT數(shù)據(jù)集)
  • Inf-Streams-Eval(平均時(shí)長(zhǎng)2小時(shí)的視頻評(píng)測(cè)集,要求逐秒幀-文本對(duì)齊)
  • 訓(xùn)練策略:全注意力SFT + 重疊窗口,模擬流式推理
  • 推理優(yōu)化:KV狀態(tài)復(fù)用 + 分層緩存機(jī)制,實(shí)現(xiàn)低延遲持續(xù)理解

達(dá)到的效果

  • 性能表現(xiàn)
  • Inf-Streams-Eval上對(duì)比 GPT-4O mini,勝率 66.18%
  • LongVideoBench上提升+4.30OVOBench Realtime上提升+5.96
  • 實(shí)時(shí)性能:在單張 NVIDIA H100 上實(shí)現(xiàn)8 FPS 穩(wěn)定流式推理
  • 泛化能力:即使未針對(duì)VQA微調(diào),也顯著提升視頻問(wèn)答能力

方法

模型和數(shù)據(jù)的方法部分包含三個(gè)組成部分: (1) 用于視覺(jué)-語(yǔ)言處理的推理方案,支持在無(wú)限視頻上的低延遲更新; (2) 賦予 StreamingVLM 流式推理能力的訓(xùn)練策略;(3) 提供長(zhǎng)時(shí)、實(shí)時(shí)訓(xùn)練數(shù)據(jù)和新基準(zhǔn) Inf-Streams 的數(shù)據(jù)處理流程。

STREAMINGVLM 的推理方案

如下圖 3 所示,StreamingVLM 推理結(jié)構(gòu)。這些設(shè)計(jì)選擇在保持與下圖 1(c) 相當(dāng)性能的同時(shí),降低了計(jì)算量。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

通過(guò)這種結(jié)構(gòu),較舊的視覺(jué) token 會(huì)首先被移除;早期文本僅在超出預(yù)算時(shí)才被移除。與重新計(jì)算先前 token 不同,這種非對(duì)稱保留策略在保持生成連貫性的同時(shí),保持了最低的計(jì)算量,其性能與帶重疊的滑動(dòng)窗口(圖 1(c))相當(dāng)。


連續(xù) RoPE為了防止在移除后出現(xiàn)位置漂移,應(yīng)用了連續(xù)旋轉(zhuǎn)位置嵌入(RoPE)。當(dāng)較早的 token 被移除時(shí),后續(xù)和新進(jìn)入的 token 的 RoPE 索引會(huì)被平移,以便其位置在數(shù)值上與最后保留的 token 連續(xù)。 一旦視頻長(zhǎng)度超過(guò)總窗口大小,有效的 RoPE 索引將停止增長(zhǎng)并保持在一個(gè)有界范圍內(nèi)。這使得位置值保持在分布內(nèi),從而穩(wěn)定長(zhǎng)時(shí)流式推理。


當(dāng)應(yīng)用于使用三維位置嵌入的 Qwen-VL 系列時(shí),我們使用連續(xù)的三維 RoPE。RoPE 索引仍然左移以保持連續(xù);對(duì)于視覺(jué) token,我們構(gòu)建三維索引(時(shí)間、高度、寬度),并按三維規(guī)則組裝,匹配交錯(cuò)的視覺(jué)-文本布局。

訓(xùn)練策略

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

如圖 4 右側(cè)面板所示,這種重疊的全注意力監(jiān)督與推理時(shí)的有效注意力模式——即注意力匯聚(sink)、最近文本的較長(zhǎng)窗口以及最近視覺(jué)的較短窗口——高度近似。訓(xùn)練監(jiān)督與測(cè)試時(shí)上下文的對(duì)齊,使模型學(xué)習(xí)到預(yù)期的時(shí)間新近偏好(recency bias),并在無(wú)需在計(jì)算量呈二次增長(zhǎng)的超長(zhǎng)上下文上訓(xùn)練的情況下實(shí)現(xiàn)穩(wěn)定的流式行為。


重要的是,為了與推理時(shí)的調(diào)度保持一致,在每個(gè)訓(xùn)練片段中交錯(cuò)視覺(jué)和文本 token——而不是采用常見(jiàn)的“先視覺(jué)、后文本”的 VLM 結(jié)構(gòu)。我們僅在與逐秒解說(shuō)對(duì)齊的文本位置上計(jì)算損失;當(dāng)某一秒沒(méi)有解說(shuō)時(shí),我們?cè)谠撐恢貌迦胝嘉环?token “...”,同時(shí)保持交錯(cuò)的 V/T 布局。 這種監(jiān)督方式教會(huì)模型與流同步生成——學(xué)會(huì)何時(shí)說(shuō)話、何時(shí)保持沉默——從而在推理時(shí)賦予 StreamingVLM 可靠的流式解說(shuō)行為。

數(shù)據(jù)處理流程

視頻收集與語(yǔ)音識(shí)別

如下圖 5 所示,從五種運(yùn)動(dòng)項(xiàng)目中收集了比賽視頻:籃球、足球、冰球、棒球和美式橄欖球,包括 712 場(chǎng)籃球比賽、544 場(chǎng)足球比賽、402 場(chǎng)冰球比賽、399 場(chǎng)棒球比賽和 392 場(chǎng)美式橄欖球比賽。解說(shuō)語(yǔ)言為英語(yǔ)。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

為了保證視頻質(zhì)量與讀取速度,將視頻分辨率限制在 360P–720P,幀率為 24 FPS。首先,使用 WhisperX 模型從這些比賽中提取實(shí)時(shí)語(yǔ)音(ASR),獲得了一個(gè)包含超過(guò) 6000 小時(shí)視頻及其實(shí)時(shí)解說(shuō)的初始語(yǔ)料庫(kù)。

數(shù)據(jù)清洗

在完整的解說(shuō)視頻中,通常包含許多無(wú)用片段,如廣告和主持人獨(dú)白。這些片段的視覺(jué)內(nèi)容與 ASR 語(yǔ)義之間聯(lián)系較弱,使模型無(wú)法從畫(huà)面中推斷內(nèi)容。此外,ASR 模型有時(shí)會(huì)錯(cuò)誤識(shí)別球員或球隊(duì)名稱。


因此,制定規(guī)則并使用 GPT 清洗這些數(shù)據(jù)。首先將一場(chǎng)比賽劃分為 120 秒的片段,并將每個(gè)片段內(nèi)的解說(shuō)內(nèi)容拼接起來(lái),然后拆分為句子。使用該片段及視頻標(biāo)題(包括比賽時(shí)間和雙方隊(duì)伍)作為上下文,要求 GPT-5 模型根據(jù)規(guī)則作出決策,選項(xiàng)包括 “keep”(保留)、“delete”(刪除)和 “edit”(編輯)每個(gè)句子。

  • “keep” 表示內(nèi)容為比賽解說(shuō)且正確;
  • “edit” 表示為解說(shuō)內(nèi)容但需要修改細(xì)節(jié)(如錯(cuò)誤的名字),并返回修改后的完整句子;
  • “delete” 表示不符合要求的內(nèi)容,不應(yīng)出現(xiàn)在訓(xùn)練數(shù)據(jù)中。


對(duì)于保留的句子,時(shí)間戳與 ASR 結(jié)果一致;對(duì)于編輯的句子,將原句持續(xù)時(shí)間均勻分配給編輯后句子的每個(gè)詞(由于一個(gè)句子通常持續(xù)約 3–5 秒,誤差在可接受范圍內(nèi))。在原始 ASR 數(shù)據(jù)中,46.32% 被保留,37.89% 被編輯,15.79% 被刪除,最終形成了我們數(shù)據(jù)的原始視頻-解說(shuō)對(duì)。

SFT 與評(píng)測(cè)數(shù)據(jù)分段

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

在評(píng)測(cè)中,創(chuàng)建了一個(gè)新基準(zhǔn) Inf-Streams-Eval。它包含 20 場(chǎng)完整比賽,平均長(zhǎng)度為 2.12 小時(shí)。將每場(chǎng)比賽劃分為 100 秒的片段,并選擇其中至少包含 200 個(gè)詞的片段。這些片段的解說(shuō)被視為真實(shí)標(biāo)簽。為了評(píng)分,使用更大的模型(此處為 gpt-5)在兩個(gè)模型輸出之間進(jìn)行投票,并可訪問(wèn)真實(shí)參考。獲得更多投票(更高勝率)的模型被判定為提供更好的解說(shuō)。


Inf-Streams-Eval 有兩種設(shè)置:chunk 和 infinite,分別在后續(xù)表格中用 ? 和 ∞ 表示。在前圖 1 中,chunk 模式對(duì)應(yīng)面板 (b),infinite 模式對(duì)應(yīng)面板 (d)。對(duì)于無(wú)法進(jìn)行無(wú)限推理的模型,我們將視頻切分為多個(gè) chunk;模型接收前文文本和當(dāng)前 chunk 來(lái)生成字幕。對(duì)于支持無(wú)限推理的模型,模型在整個(gè)流上運(yùn)行;我們保留其先前輸出作為前文文本,并持續(xù)生成字幕直到視頻結(jié)束。

高質(zhì)量退火數(shù)據(jù)

上述數(shù)據(jù)集可以微調(diào)模型的實(shí)時(shí)視頻理解能力。然而,它包含大量關(guān)于球隊(duì)信息和賽季歷史的內(nèi)容;對(duì)于解說(shuō)任務(wù)的人類體驗(yàn)而言,我們更希望模型提供對(duì)場(chǎng)上事件的實(shí)時(shí)解說(shuō)。因此,我們創(chuàng)建了高質(zhì)量退火數(shù)據(jù)。


首先在無(wú)重疊的情況下切分所有數(shù)據(jù),要求每個(gè)片段長(zhǎng)度為 16–64 秒,內(nèi)部靜音時(shí)間不超過(guò) 3 秒;每個(gè)片段還必須包含至少 2XD(以秒為單位的持續(xù)時(shí)間)個(gè)詞。跨所有比賽,我們共獲得了 52,530 個(gè)新樣本。隨后,我們定義“實(shí)時(shí)解說(shuō)”的標(biāo)準(zhǔn)。對(duì)于每個(gè)樣本,我們使用 GPT-5 判斷“實(shí)時(shí)解說(shuō)”比例是否超過(guò) 80%,以決定是否保留。最終,僅保留了 14,786 個(gè)樣本。后續(xù)實(shí)驗(yàn)(表 6)表明,在使用這部分?jǐn)?shù)據(jù)進(jìn)行微調(diào)后,模型的能力和解說(shuō)質(zhì)量得到了進(jìn)一步提升。

實(shí)驗(yàn)

首先描述實(shí)現(xiàn)細(xì)節(jié),然后在視頻字幕生成和 VQA 任務(wù)上與強(qiáng)基線進(jìn)行比較。接下來(lái)測(cè)試 StreamingVLM 的效率。最后,進(jìn)行消融實(shí)驗(yàn)以更好地理解其行為。

實(shí)驗(yàn)設(shè)置

訓(xùn)練 

從 Qwen2.5-VL-Instruct-7B 微調(diào) StreamingVLM。


步驟 1:訓(xùn)練模型以學(xué)習(xí)無(wú)限流式推理模式。我們?cè)谧詷?gòu)建的 SFT 數(shù)據(jù)集(525K 個(gè)流式樣本)以及 LiveCC 的 Live-WhisperX-526K(526K 個(gè)流式樣本)上訓(xùn)練。步驟 2:使用我們高質(zhì)量的退火數(shù)據(jù)(14K 個(gè)流式樣本,每個(gè) 16–64 秒,包含詳細(xì)動(dòng)作)來(lái)增強(qiáng)實(shí)時(shí)動(dòng)作解說(shuō)能力并提升人類體驗(yàn)。經(jīng)過(guò)這兩個(gè)階段后,我們得到 StreamingVLM。總計(jì)算量約為 128 張 H100 天。

基線模型

本文選擇強(qiáng)基線與 StreamingVLM 進(jìn)行比較。


在字幕生成任務(wù)中,使用 GPT-4o mini 展示解說(shuō)能力,并使用 Livecc-7B-Instruct,它在 550 萬(wàn)個(gè) YouTube 視頻片段(30–240 秒)和 178K 個(gè)視頻問(wèn)答樣本上訓(xùn)練,表現(xiàn)出良好的短視頻解說(shuō)性能。包括 ReKV,這是一種無(wú)需訓(xùn)練的強(qiáng)流式推理方法。


由于設(shè)計(jì)限制,GPT-4o mini 在 Inf-Streams-Eval 上僅在 chunk 設(shè)置下評(píng)測(cè),而 StreamingVLM 使用 infinite 模式。LiveCC-7B-Instruct 在 chunk 和 infinite 兩種設(shè)置下均進(jìn)行測(cè)試。 在 VQA 任務(wù)中,我們使用 Qwen2.5-VL-7B-Instruct(StreamingVLM SFT 前的基礎(chǔ)模型)來(lái)展示我們的 SFT 流程如何提升基礎(chǔ)能力。

基準(zhǔn)

在多個(gè)任務(wù)上評(píng)估實(shí)時(shí)字幕生成與視頻理解性能。


對(duì)于字幕生成,使用 Inf-Streams-Eval(平均長(zhǎng)度 2.12 小時(shí)),測(cè)試長(zhǎng)時(shí)解說(shuō)能力;以及 LiveSports3K-CC 基準(zhǔn)(49 種運(yùn)動(dòng),416 個(gè)片段,每個(gè)≥10 秒)。

對(duì)于視頻理解,在四個(gè)公開(kāi)套件上評(píng)估 StreamingVLM:

  • VideoMME:多任務(wù)集合(問(wèn)答、字幕、定位),涵蓋短視頻和長(zhǎng)視頻的一般理解;
  • MVBench:針對(duì)短片的細(xì)粒度能力測(cè)試(動(dòng)作、物體、計(jì)數(shù)、時(shí)間順序);
  • LongVideoBench:需要長(zhǎng)時(shí)記憶和跨片段推理的長(zhǎng)視頻問(wèn)答;
  • OVOBench:測(cè)試實(shí)時(shí)理解與流式感知的視頻問(wèn)答集。

準(zhǔn)確率結(jié)果

字幕生成

首先在字幕生成任務(wù)上將我們的推理策略與 ReKV 進(jìn)行比較。我們觀察到一個(gè)無(wú)訓(xùn)練的 ReKV 悖論:未經(jīng)過(guò)任務(wù)特定微調(diào)的模型表現(xiàn)較差,而經(jīng)過(guò)特殊微調(diào)的模型(例如 StreamingVLM)依賴于固定的上下文格式,而 ReKV 的淘汰策略會(huì)破壞這種格式,常常導(dǎo)致沒(méi)有輸出。相比之下,StreamingVLM 的訓(xùn)練–推理一致性設(shè)計(jì)解決了這個(gè)問(wèn)題。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

然后,在 LiveCC-3K-Sports-CC 和 Inf-Streams-Eval 上評(píng)估了 StreamingVLM、Qwen-2.5-VL-7B-Instruct 和 LiveCC-7B-Instruct。如下表1 所示,在 Inf-Streams-Eval 上,Qwen-2.5-VL-7B-Instruct 無(wú)法保持連續(xù)解說(shuō),因此表現(xiàn)較差。LiveCC-7B-Instruct 在分塊推理下表現(xiàn)更好。下圖6 進(jìn)一步顯示,短塊會(huì)破壞連貫性;這些設(shè)計(jì)不支持無(wú)限推理,而使用長(zhǎng)塊時(shí),很快會(huì)超出訓(xùn)練長(zhǎng)度并導(dǎo)致退化。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

相比之下,StreamingVLM 以無(wú)限模式運(yùn)行;其長(zhǎng)期記憶和流式視頻感知能力使其具有明顯優(yōu)勢(shì),在解說(shuō)質(zhì)量上超過(guò)了 GPT-4o mini。下圖2(所示圖)展示了一個(gè)真實(shí)案例,其中 StreamingVLM 保持連貫輸出、實(shí)時(shí)延遲和長(zhǎng)期記憶,解決了無(wú)限視頻流實(shí)時(shí)感知的核心挑戰(zhàn)。在 LiveCC-3K-Sports-CC 上,StreamingVLM 也優(yōu)于基線,展示了在不同長(zhǎng)度視頻上的穩(wěn)定流式字幕生成能力。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

VQA

在四個(gè) VQA 任務(wù)上評(píng)估了 StreamingVLM 及其基礎(chǔ)模型 Qwen-2.5-VL-7B-Instruct。如下表3 所示,即使沒(méi)有任何 VQA SFT,StreamingVLM 在所有任務(wù)上都優(yōu)于基礎(chǔ)模型,表明我們的 SFT 改善了通用視覺(jué)能力。OVOBench Realtime 測(cè)試模型對(duì)即時(shí)流式場(chǎng)景的理解。在這個(gè)流式感知任務(wù)上,StreamingVLM 提升了 5.96%。這突出了 Inf-Streams-Train 及我們訓(xùn)練策略的優(yōu)勢(shì),增強(qiáng)了模型的核心能力。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

效率測(cè)試

如下圖 7 所示,報(bào)告了圖 1 中三種方法在無(wú)限解說(shuō)下的每 token 延遲:分別是具有全注意力的 VLM、滑動(dòng)窗口注意力(無(wú)重疊)、滑動(dòng)窗口注意力(有重疊)以及 StreamingVLM 的推理策略,它們分別對(duì)應(yīng)圖 1 的面板 (a)、(b)、(c) 和 (d)。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

實(shí)時(shí)響應(yīng)要求延遲低于虛線所示的固定閾值。全注意力很快超過(guò)限制并導(dǎo)致顯存溢出(OOM)。滑動(dòng)窗口(無(wú)重疊)需要較大的塊以保持連貫性,因此顯示出周期性延遲模式:在每個(gè)塊的開(kāi)始階段,模型重建上下文,導(dǎo)致解說(shuō)與過(guò)去內(nèi)容不連貫;在塊的后期,延遲急劇上升,無(wú)法滿足實(shí)時(shí)需求。滑動(dòng)窗口(有重疊)由于計(jì)算冗余,效率仍然較低。StreamingVLM 保持固定上下文長(zhǎng)度并重用 KV,維持較低且穩(wěn)定的延遲,并能在單個(gè) NVIDIA H100 上以 8 FPS 支持實(shí)時(shí)解說(shuō)。

消融研究

連續(xù) RoPE

本文研究了連續(xù) RoPE 索引的效果。由于訓(xùn)練時(shí)使用全注意力,訓(xùn)練中僅使用原生 RoPE。在推理時(shí),比較了連續(xù) RoPE 與原生版本。如下表 4 所示,原生 RoPE 在無(wú)限流上性能急劇下降,因?yàn)槠渌饕鲩L(zhǎng)過(guò)快并超出訓(xùn)練范圍。將視頻分割為 100 秒的塊可以部分恢復(fù)準(zhǔn)確率,但會(huì)損害長(zhǎng)期連貫性。使用連續(xù) RoPE 時(shí),位置索引保持有界,因此模型能夠在無(wú)限推理下保持性能不損失。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

滑動(dòng)窗口與 Sink

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

接下來(lái),研究不同的  選擇。表 5 右表顯示,16 秒的視覺(jué)窗口是一個(gè)不錯(cuò)的選擇:它足夠長(zhǎng)以覆蓋最近的動(dòng)作,同時(shí)又足夠短以保持高效。相反,將視覺(jué)上下文設(shè)為 0 秒會(huì)導(dǎo)致明顯的性能下降,這驗(yàn)證了保留最近的視覺(jué) token 對(duì)連續(xù)動(dòng)作理解至關(guān)重要。

訓(xùn)練策略與數(shù)據(jù)集

本文研究了 SFT 數(shù)據(jù)和高質(zhì)量退火數(shù)據(jù)的效果。SFT 數(shù)據(jù)集教會(huì)模型無(wú)限流式推理模式,而高質(zhì)量退火數(shù)據(jù)進(jìn)一步提升了解說(shuō)質(zhì)量。

SFT 策略 

如下表 6 所示,采用重疊訓(xùn)練策略后,SFT 子集幫助模型適應(yīng)交錯(cuò)的視覺(jué)–文本模式,并理解超長(zhǎng)視頻。與僅在 Live-WhisperX-526K 上訓(xùn)練的模型相比,在重疊 SFT 數(shù)據(jù)上訓(xùn)練的模型增強(qiáng)了對(duì)無(wú)限視頻的感知,在 Inf-Streams-Eval 上相較 GPT-4o-mini 的勝率提升 +31.29,在 Livecc-Sports-3K cc 上相較 LLaVA-Video-72B-Qwen2 的勝率提升 +3.68。

破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

高質(zhì)量退火數(shù)據(jù) 

高質(zhì)量退火數(shù)據(jù)專注于實(shí)時(shí)內(nèi)容,并進(jìn)一步提升了模型能力。如表 6 所示,我們比較了使用和不使用高質(zhì)量退火數(shù)據(jù)進(jìn)行訓(xùn)練的情況。可以觀察到,在字幕生成和 VQA 基準(zhǔn)測(cè)試上均有顯著提升。

結(jié)論

StreamingVLM,一個(gè)統(tǒng)一的訓(xùn)練–推理框架,為現(xiàn)有 VLM 帶來(lái)了實(shí)時(shí)流式感知能力。首先提出了一種高效的流式 VLM 訓(xùn)練策略和數(shù)據(jù)構(gòu)建流程,兩者共同提升了在流式任務(wù)和 VQA 上的性能。接著,在真實(shí)場(chǎng)景中展示了我們的推理設(shè)計(jì)如何實(shí)現(xiàn)實(shí)時(shí)視頻理解,能夠在單個(gè) NVIDIA H100 上以最高 8 FPS 穩(wěn)定解說(shuō)超過(guò) 3 小時(shí)的視頻。最后,發(fā)布了 Inf-Streams,一個(gè)新的 SFT 數(shù)據(jù)集和基準(zhǔn),用于測(cè)試平均時(shí)長(zhǎng)超過(guò) 2 小時(shí)視頻的秒級(jí)實(shí)時(shí)理解。總體而言,這項(xiàng)工作為實(shí)際場(chǎng)景中的部署鋪平了道路。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/agGaqaM_pJVp37IHdJ6D4Q??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
91偷拍精品一区二区三区| 另类色图亚洲色图| 国产喷水theporn| 日本成人网址| 高清不卡一区二区| 人体精品一二三区| 亚洲二区在线播放| 老司机成人在线| 欧美亚洲一区二区三区四区| 91嫩草国产丨精品入口麻豆| 亚洲色图狠狠干| 经典一区二区三区| 91精品国产高清久久久久久| 国精产品视频一二二区| 国产精品一线| 欧美色图一区二区三区| 欧美一区二区中文字幕| 97在线观看免费观看高清 | 成 人 黄 色 片 在线播放 | 国产永久免费网站| 蜜桃麻豆影像在线观看| 亚洲女与黑人做爰| 精品久久久久久一区二区里番| 97精品人妻一区二区三区| 欧美一区国产在线| 国产一区二区三区四区福利| 国产乱淫av麻豆国产免费| 国产69精品久久久久9999人| 午夜在线成人av| 伊人再见免费在线观看高清版| аⅴ资源新版在线天堂| 26uuu成人网一区二区三区| 99精品国产高清在线观看| 中文字幕无线码一区| 翔田千里一区二区| 97在线视频免费播放| 免费一级suv好看的国产网站| 亚洲黄色录像| 亚洲韩国日本中文字幕| 免费啪视频在线观看| 国产午夜久久av| 欧美区一区二区三区| 波多结衣在线观看| yiren22亚洲综合| 一本色道久久综合精品竹菊| 国产又黄又大又粗视频| 九色porny视频在线观看| 亚洲一区二区在线视频| www.一区二区.com| 国产日产一区二区| 亚洲桃色在线一区| 欧美性视频在线播放| 日本在线播放| 亚洲男同1069视频| 成人在线观看毛片| 国产蜜臀在线| 欧美日韩国产一中文字不卡 | 日韩国产在线观看一区| 日韩美女视频免费在线观看| 天码人妻一区二区三区在线看| 99热免费精品| 欧美一区二区视频97| 99久在线精品99re8热| 99香蕉国产精品偷在线观看| 17婷婷久久www| 国产一级免费视频| 免费在线观看一区二区三区| 国产欧美久久久久久| 一区二区三区亚洲视频| 国产乱子轮精品视频| 国产66精品久久久久999小说| 亚洲国产一二三区| 91视频精品在这里| 色999五月色| 日韩伦理在线观看| 亚洲一区免费视频| 男人透女人免费视频| 99欧美精品| 日韩视频免费直播| 国产精品久久久久久久无码| 狠狠做深爱婷婷综合一区| 日韩视频在线一区| 久久久99999| 亚洲高清激情| 国产精品第一区| 99精品免费观看| aaa亚洲精品一二三区| 欧洲精品一区色| 免费黄色在线看| 性欧美疯狂xxxxbbbb| 亚洲精品视频导航| 超碰97成人| 国产一区二区欧美日韩| 日韩女优一区二区| 老司机精品视频网站| 亚洲精品欧美日韩专区| 深夜福利视频在线免费观看| 中文字幕一区二区三区不卡在线| www.夜夜爱| 成人精品一区二区三区电影| 精品久久久久一区| 1024在线看片| 亚洲另类黄色| 91香蕉亚洲精品| 国产日产精品久久久久久婷婷| 亚洲欧美国产三级| 日本新janpanese乱熟| 亚洲一区二区三区免费| 在线视频日本亚洲性| xxxxxx国产| 国产一区二区免费看| 青青草成人网| 福利影院在线看| 91精品福利在线一区二区三区| 88久久精品无码一区二区毛片| 欧美精品不卡| 成人欧美一区二区三区黑人孕妇 | 最新黄色网址在线观看| proumb性欧美在线观看| 熟妇熟女乱妇乱女网站| 日韩欧美精品电影| 日韩av综合网站| 九九精品在线观看视频 | 中国男女全黄大片| 久久精品播放| 国产精品草莓在线免费观看| 天堂在线观看免费视频| 一区二区视频免费在线观看| 在线黄色免费看| 欧洲激情视频| 日本成人免费在线| 欧美午夜黄色| 欧美午夜无遮挡| 人妻av一区二区| 黄色另类av| 国产精品jizz视频| 久久99亚洲网美利坚合众国| 欧美不卡一二三| 欧美日韩免费一区二区| 国产精品一区二区三区乱码| 国产盗摄视频在线观看| 国产95亚洲| 萌白酱国产一区二区| 99热在线只有精品| 亚洲免费观看高清| 天天干天天曰天天操| 午夜国产欧美理论在线播放| 成人xxxxx色| 成全电影大全在线观看| 亚洲激情久久久| 五月婷婷开心网| wwwwww.欧美系列| 99久久久无码国产精品6| 久久91麻豆精品一区| 国产精品草莓在线免费观看| 青青影院在线观看| 欧美一区二区三区在线视频| 妺妺窝人体色www在线下载| 国产不卡视频在线观看| 青青草视频在线免费播放 | 亚洲精品丝袜日韩| 欧美一级淫片免费视频黄| 欧美激情中文不卡| 日本在线播放一区二区| 欧美三级乱码| 久久青青草原| 日本在线精品| 另类视频在线观看| 国产自产一区二区| 日韩欧美大尺度| 免费看91的网站| 精品无码三级在线观看视频| 青青草视频国产| 欧美wwwsss9999| 国产精品一区二区三区免费视频| 久操视频在线| 日韩av网站在线| 在线视频 中文字幕| 亚洲一区二区三区在线看| 欧美性xxxx图片| 精品亚洲国产成人av制服丝袜| 国产免费裸体视频| 国产一区二区精品久| 亚洲精品欧美日韩| 韩日成人影院| 美日韩在线视频| 国产污视频在线| 日韩欧美二区三区| 波多野结衣电影在线播放| 亚洲理论在线观看| 男女做爰猛烈刺激| 国产成人av资源| 国产又猛又黄的视频| 尹人成人综合网| 亚洲三区在线观看| 久久porn| 成人情趣片在线观看免费| 国产在线美女| 欧美日韩国产成人在线| 第三区美女视频在线| 亚洲成人网在线| 国产一区二区三区三州| 色综合久久中文综合久久牛| 中文字幕av免费在线观看| 国产视频一区二区在线| 日本国产在线视频| 九色综合狠狠综合久久| 成年人网站大全| 亚洲精品欧洲| 久久国产精品免费观看| 欧美日韩色图| 欧美日韩高清在线一区| silk一区二区三区精品视频| 国产精品久久久久久久7电影 | 国产精品69久久| 国产在线拍揄自揄拍视频| 久久精品国产91精品亚洲| 九色视频网站在线观看| 亚洲国产中文字幕久久网| www.久久久久久| 欧美精品九九99久久| 久久人人爽人人爽人人片av免费| 精品久久久中文| 久久老司机精品视频| 亚洲男人电影天堂| 呻吟揉丰满对白91乃国产区| 久久久久久久av麻豆果冻| 国产精品无码一区二区三| 懂色av一区二区三区免费观看 | 亚洲综合网狠久久| 国产成人精品免高潮在线观看 | 日韩欧美在线一区| 中文字幕在线字幕中文| 亚洲一区二区成人在线观看| 永久看片925tv| 亚洲人成精品久久久久久| 国产一区第一页| 国产精品国产a| www.99re6| 亚洲欧美在线aaa| 在线看的片片片免费| 1024成人网| 91视频免费在线看| 一区二区在线观看不卡| 欧美黄片一区二区三区| 亚洲综合另类小说| 免费一级特黄特色大片| 亚洲成a人片在线观看中文| 色网站在线播放| 欧美视频精品一区| 波多野结衣黄色| 欧美日韩高清在线播放| 国产精品嫩草影院精东| 日韩免费在线观看| 韩国av永久免费| 日韩福利视频在线观看| 国产三级在线免费观看| 日韩中文字幕在线看| av网站导航在线观看免费| 欧美高清视频在线| 涩涩涩视频在线观看| 国产精品88a∨| 亚洲影视资源| 国产精品二区三区| 日韩欧美国产大片| 亚洲成人一区二区三区| 久久久久久美女精品| 我的公把我弄高潮了视频| 日韩电影在线一区| www.污污视频| 99久久精品国产一区二区三区| theav精尽人亡av| 国产精品免费aⅴ片在线观看| 国产精品国产精品88| 五月婷婷综合网| 伊人网中文字幕| 精品国产乱码久久久久久久久| 色播色播色播色播色播在线 | 嗯啊主人调教在线播放视频 | 99视频在线视频| 国产激情一区二区三区桃花岛亚洲| 青青草视频网站| 国产精品无人区| 精品无码久久久久| 欧美一a一片一级一片| 亚洲成人精品女人久久久| 亚洲欧美日韩另类| 成人免费观看视频大全| 欧洲亚洲女同hd| av在线精品| 欧美男人的天堂| 中文字幕一区二区三区久久网站| 色欲av无码一区二区人妻| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲av综合一区二区| 一区二区在线免费| 中文字幕a级片| 亚洲精品videossex少妇| 麻豆网站在线看| 欧美一二三视频| 一区中文字幕| 中文字幕日韩一区二区三区不卡 | 成人同人动漫免费观看 | 亚洲欧美日韩精品在线| 国产亚洲网站| 久久久久久久久久久影视| 久久久精品人体av艺术| 国产午夜精品一区二区理论影院| 欧美日韩国产乱码电影| 国产免费av高清在线| 91极品视频在线| 免费看日产一区二区三区| 亚洲精品久久区二区三区蜜桃臀 | 污污视频在线免费| 欧美激情综合在线| 天堂а√在线中文在线新版| 亚洲аv电影天堂网| 1区2区在线观看| 成人网址在线观看| 日韩片欧美片| 九九热在线免费| 国产午夜精品一区二区三区视频| 国产成人一区二区三区影院在线| 欧美成人一区二区三区片免费| 色的视频在线免费看| 国产精品久久久久久久久久ktv | 白白色 亚洲乱淫| 久操视频免费在线观看| 日韩一级视频免费观看在线| 在线免费观看黄色av| 国产精品丝袜白浆摸在线| 精品日韩免费| 亚洲视频在线观看一区二区三区| 26uuu国产在线精品一区二区| 成人毛片18女人毛片| 日韩精品一区二区三区第95| 一区二区精品伦理...| 久久99热狠狠色一区二区| 国产一区亚洲二区三区| 91蜜桃传媒精品久久久一区二区| 久久婷婷国产麻豆91| 精品日韩欧美一区二区| 欧美高清另类hdvideosexjaⅴ| 91九色偷拍| 亚洲天堂激情| 在线免费观看a级片| 欧美日韩国产一中文字不卡| 亚洲av成人无码网天堂| 26uuu久久噜噜噜噜| 在线亚洲a色| 色婷婷狠狠18| 国产精品久久久久久久久免费丝袜 | h视频在线观看免费| 国产精品欧美久久久| 日韩免费高清| 欧美精品 - 色网| 亚洲自拍与偷拍| 四虎影院在线播放| 国产精品69久久久久| 性xxxx欧美老肥妇牲乱| 国产裸体视频网站| 精品国产91久久久久久老师| 可以免费看污视频的网站在线| 国产精品入口夜色视频大尺度 | 99久久精品免费看国产交换| 色综合久久悠悠| 欧美人妖在线观看| 欧美伦理视频在线观看| 亚洲人成人一区二区在线观看 | 久久久91麻豆精品国产一区| bt天堂新版中文在线地址| 久久蜜桃一区二区| 一区二区不卡视频在线观看| 欧美裸体xxxx极品少妇| 欧美人与动xxxxz0oz| 波多野结衣天堂| 亚洲一区二区三区不卡国产欧美| 免费在线稳定资源站| 92裸体在线视频网站| 亚洲精品社区| 久久一级免费视频| 亚洲国产黄色片| 欧美成人高清视频在线观看| 久久久久久久久久久综合| 久久久久久久久久久久久久久99| 国产又粗又猛又黄又爽无遮挡| 88xx成人精品| 99精品电影| 女~淫辱の触手3d动漫| 宅男噜噜噜66一区二区66| 天堂√8在线中文| 久久视频免费在线| 国产欧美在线观看一区| 亚洲国产成人精品一区二区三区| 日韩av片永久免费网站| 欧美精品国产| 91成人精品一区二区| 日韩av网址在线| 亚洲国产高清在线观看| 一区二区三区入口|