破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架

發(fā)布于 2025-10-22 09:16

瀏覽

0收藏

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2510.09608
Git鏈接：https://github.com/mit-han-lab/streaming-vlm
Demo鏈接：https://streamingvlm.hanlab.ai/

亮點(diǎn)直擊

訓(xùn)練與推理統(tǒng)一的流式架構(gòu)：通過(guò)重疊窗口全注意力SFT，將有限長(zhǎng)度訓(xùn)練與無(wú)限長(zhǎng)度推理自然對(duì)齊。
高效KV緩存復(fù)用機(jī)制：結(jié)合 attention sink、短窗口視覺(jué)緩存與長(zhǎng)窗口文本緩存，實(shí)現(xiàn)低延遲、高穩(wěn)定的實(shí)時(shí)視頻理解。
真實(shí)長(zhǎng)時(shí)評(píng)測(cè)基準(zhǔn)構(gòu)建：構(gòu)建了首個(gè)平均時(shí)長(zhǎng)超2小時(shí)的實(shí)時(shí)視頻評(píng)測(cè)集Inf-Streams-Eval，推動(dòng)長(zhǎng)時(shí)視頻理解領(lǐng)域標(biāo)準(zhǔn)化評(píng)測(cè)。

總結(jié)速覽

解決的問(wèn)題

具體困境：

無(wú)重疊時(shí)打斷上下文連貫性；
有重疊時(shí)重復(fù)計(jì)算過(guò)多，延遲高。

全注意力（Full Attention）→ 計(jì)算與內(nèi)存成本呈二次增長(zhǎng)，無(wú)法處理長(zhǎng)視頻。
滑動(dòng)窗口（Sliding Window）→
訓(xùn)練與推理不對(duì)齊→ 模型無(wú)法在短視頻訓(xùn)練下泛化到無(wú)限視頻流。

提出的方案

StreamingVLM —— 一個(gè)統(tǒng)一的實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架，核心思路是讓訓(xùn)練過(guò)程與流式推理機(jī)制對(duì)齊。

訓(xùn)練階段（Streaming-aligned SFT）：使用短視頻片段的全注意力訓(xùn)練，片段間存在重疊，以此模擬推理時(shí)的注意力模式，無(wú)需在超長(zhǎng)視頻上訓(xùn)練。
推理階段（Streaming Inference）：采用輕量、可擴(kuò)展的 KV 緩存策略，包括：

Attention Sink：長(zhǎng)期保留關(guān)鍵狀態(tài)；
短窗口視覺(jué)Token緩存：保持最新畫(huà)面信息；
長(zhǎng)窗口文本Token緩存：維持語(yǔ)言連續(xù)性；
連續(xù)位置編碼（Contiguous Position IDs）：確保推理穩(wěn)定性。

應(yīng)用的技術(shù)

模型基座：Qwen2.5-VL-7B-Instruct
訓(xùn)練數(shù)據(jù)集：

Inf-Streams-Train（超過(guò)4000小時(shí)體育解說(shuō)SFT數(shù)據(jù)集）
Inf-Streams-Eval（平均時(shí)長(zhǎng)2小時(shí)的視頻評(píng)測(cè)集，要求逐秒幀-文本對(duì)齊）

訓(xùn)練策略：全注意力SFT + 重疊窗口，模擬流式推理
推理優(yōu)化：KV狀態(tài)復(fù)用 + 分層緩存機(jī)制，實(shí)現(xiàn)低延遲持續(xù)理解

達(dá)到的效果

性能表現(xiàn)：

在Inf-Streams-Eval上對(duì)比 GPT-4O mini，勝率 66.18%
在LongVideoBench上提升+4.30，OVOBench Realtime上提升+5.96

實(shí)時(shí)性能：在單張 NVIDIA H100 上實(shí)現(xiàn)8 FPS 穩(wěn)定流式推理
泛化能力：即使未針對(duì)VQA微調(diào)，也顯著提升視頻問(wèn)答能力

方法

模型和數(shù)據(jù)的方法部分包含三個(gè)組成部分： (1) 用于視覺(jué)-語(yǔ)言處理的推理方案，支持在無(wú)限視頻上的低延遲更新； (2) 賦予 StreamingVLM 流式推理能力的訓(xùn)練策略；(3) 提供長(zhǎng)時(shí)、實(shí)時(shí)訓(xùn)練數(shù)據(jù)和新基準(zhǔn) Inf-Streams 的數(shù)據(jù)處理流程。

STREAMINGVLM 的推理方案

如下圖 3 所示，StreamingVLM 推理結(jié)構(gòu)。這些設(shè)計(jì)選擇在保持與下圖 1(c) 相當(dāng)性能的同時(shí)，降低了計(jì)算量。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

通過(guò)這種結(jié)構(gòu)，較舊的視覺(jué) token 會(huì)首先被移除；早期文本僅在超出預(yù)算時(shí)才被移除。與重新計(jì)算先前 token 不同，這種非對(duì)稱保留策略在保持生成連貫性的同時(shí)，保持了最低的計(jì)算量，其性能與帶重疊的滑動(dòng)窗口（圖 1(c)）相當(dāng)。

連續(xù) RoPE為了防止在移除后出現(xiàn)位置漂移，應(yīng)用了連續(xù)旋轉(zhuǎn)位置嵌入（RoPE）。當(dāng)較早的 token 被移除時(shí)，后續(xù)和新進(jìn)入的 token 的 RoPE 索引會(huì)被平移，以便其位置在數(shù)值上與最后保留的 token 連續(xù)。一旦視頻長(zhǎng)度超過(guò)總窗口大小，有效的 RoPE 索引將停止增長(zhǎng)并保持在一個(gè)有界范圍內(nèi)。這使得位置值保持在分布內(nèi)，從而穩(wěn)定長(zhǎng)時(shí)流式推理。

當(dāng)應(yīng)用于使用三維位置嵌入的 Qwen-VL 系列時(shí)，我們使用連續(xù)的三維 RoPE。RoPE 索引仍然左移以保持連續(xù)；對(duì)于視覺(jué) token，我們構(gòu)建三維索引（時(shí)間、高度、寬度），并按三維規(guī)則組裝，匹配交錯(cuò)的視覺(jué)-文本布局。

訓(xùn)練策略

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

如圖 4 右側(cè)面板所示，這種重疊的全注意力監(jiān)督與推理時(shí)的有效注意力模式——即注意力匯聚（sink）、最近文本的較長(zhǎng)窗口以及最近視覺(jué)的較短窗口——高度近似。訓(xùn)練監(jiān)督與測(cè)試時(shí)上下文的對(duì)齊，使模型學(xué)習(xí)到預(yù)期的時(shí)間新近偏好（recency bias），并在無(wú)需在計(jì)算量呈二次增長(zhǎng)的超長(zhǎng)上下文上訓(xùn)練的情況下實(shí)現(xiàn)穩(wěn)定的流式行為。

重要的是，為了與推理時(shí)的調(diào)度保持一致，在每個(gè)訓(xùn)練片段中交錯(cuò)視覺(jué)和文本 token——而不是采用常見(jiàn)的“先視覺(jué)、后文本”的 VLM 結(jié)構(gòu)。我們僅在與逐秒解說(shuō)對(duì)齊的文本位置上計(jì)算損失；當(dāng)某一秒沒(méi)有解說(shuō)時(shí)，我們?cè)谠撐恢貌迦胝嘉环?token “...”，同時(shí)保持交錯(cuò)的 V/T 布局。這種監(jiān)督方式教會(huì)模型與流同步生成——學(xué)會(huì)何時(shí)說(shuō)話、何時(shí)保持沉默——從而在推理時(shí)賦予 StreamingVLM 可靠的流式解說(shuō)行為。

數(shù)據(jù)處理流程

視頻收集與語(yǔ)音識(shí)別

如下圖 5 所示，從五種運(yùn)動(dòng)項(xiàng)目中收集了比賽視頻：籃球、足球、冰球、棒球和美式橄欖球，包括 712 場(chǎng)籃球比賽、544 場(chǎng)足球比賽、402 場(chǎng)冰球比賽、399 場(chǎng)棒球比賽和 392 場(chǎng)美式橄欖球比賽。解說(shuō)語(yǔ)言為英語(yǔ)。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

為了保證視頻質(zhì)量與讀取速度，將視頻分辨率限制在 360P–720P，幀率為 24 FPS。首先，使用 WhisperX 模型從這些比賽中提取實(shí)時(shí)語(yǔ)音（ASR），獲得了一個(gè)包含超過(guò) 6000 小時(shí)視頻及其實(shí)時(shí)解說(shuō)的初始語(yǔ)料庫(kù)。

數(shù)據(jù)清洗

在完整的解說(shuō)視頻中，通常包含許多無(wú)用片段，如廣告和主持人獨(dú)白。這些片段的視覺(jué)內(nèi)容與 ASR 語(yǔ)義之間聯(lián)系較弱，使模型無(wú)法從畫(huà)面中推斷內(nèi)容。此外，ASR 模型有時(shí)會(huì)錯(cuò)誤識(shí)別球員或球隊(duì)名稱。

因此，制定規(guī)則并使用 GPT 清洗這些數(shù)據(jù)。首先將一場(chǎng)比賽劃分為 120 秒的片段，并將每個(gè)片段內(nèi)的解說(shuō)內(nèi)容拼接起來(lái)，然后拆分為句子。使用該片段及視頻標(biāo)題（包括比賽時(shí)間和雙方隊(duì)伍）作為上下文，要求 GPT-5 模型根據(jù)規(guī)則作出決策，選項(xiàng)包括 “keep”（保留）、“delete”（刪除）和 “edit”（編輯）每個(gè)句子。

“keep” 表示內(nèi)容為比賽解說(shuō)且正確；
“edit” 表示為解說(shuō)內(nèi)容但需要修改細(xì)節(jié)（如錯(cuò)誤的名字），并返回修改后的完整句子；
“delete” 表示不符合要求的內(nèi)容，不應(yīng)出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

對(duì)于保留的句子，時(shí)間戳與 ASR 結(jié)果一致；對(duì)于編輯的句子，將原句持續(xù)時(shí)間均勻分配給編輯后句子的每個(gè)詞（由于一個(gè)句子通常持續(xù)約 3–5 秒，誤差在可接受范圍內(nèi)）。在原始 ASR 數(shù)據(jù)中，46.32% 被保留，37.89% 被編輯，15.79% 被刪除，最終形成了我們數(shù)據(jù)的原始視頻-解說(shuō)對(duì)。

SFT 與評(píng)測(cè)數(shù)據(jù)分段

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

在評(píng)測(cè)中，創(chuàng)建了一個(gè)新基準(zhǔn) Inf-Streams-Eval。它包含 20 場(chǎng)完整比賽，平均長(zhǎng)度為 2.12 小時(shí)。將每場(chǎng)比賽劃分為 100 秒的片段，并選擇其中至少包含 200 個(gè)詞的片段。這些片段的解說(shuō)被視為真實(shí)標(biāo)簽。為了評(píng)分，使用更大的模型（此處為 gpt-5）在兩個(gè)模型輸出之間進(jìn)行投票，并可訪問(wèn)真實(shí)參考。獲得更多投票（更高勝率）的模型被判定為提供更好的解說(shuō)。

Inf-Streams-Eval 有兩種設(shè)置：chunk 和 infinite，分別在后續(xù)表格中用 ? 和 ∞ 表示。在前圖 1 中，chunk 模式對(duì)應(yīng)面板 (b)，infinite 模式對(duì)應(yīng)面板 (d)。對(duì)于無(wú)法進(jìn)行無(wú)限推理的模型，我們將視頻切分為多個(gè) chunk；模型接收前文文本和當(dāng)前 chunk 來(lái)生成字幕。對(duì)于支持無(wú)限推理的模型，模型在整個(gè)流上運(yùn)行；我們保留其先前輸出作為前文文本，并持續(xù)生成字幕直到視頻結(jié)束。

高質(zhì)量退火數(shù)據(jù)

上述數(shù)據(jù)集可以微調(diào)模型的實(shí)時(shí)視頻理解能力。然而，它包含大量關(guān)于球隊(duì)信息和賽季歷史的內(nèi)容；對(duì)于解說(shuō)任務(wù)的人類體驗(yàn)而言，我們更希望模型提供對(duì)場(chǎng)上事件的實(shí)時(shí)解說(shuō)。因此，我們創(chuàng)建了高質(zhì)量退火數(shù)據(jù)。

首先在無(wú)重疊的情況下切分所有數(shù)據(jù)，要求每個(gè)片段長(zhǎng)度為 16–64 秒，內(nèi)部靜音時(shí)間不超過(guò) 3 秒；每個(gè)片段還必須包含至少 2XD（以秒為單位的持續(xù)時(shí)間）個(gè)詞。跨所有比賽，我們共獲得了 52,530 個(gè)新樣本。隨后，我們定義“實(shí)時(shí)解說(shuō)”的標(biāo)準(zhǔn)。對(duì)于每個(gè)樣本，我們使用 GPT-5 判斷“實(shí)時(shí)解說(shuō)”比例是否超過(guò) 80%，以決定是否保留。最終，僅保留了 14,786 個(gè)樣本。后續(xù)實(shí)驗(yàn)（表 6）表明，在使用這部分?jǐn)?shù)據(jù)進(jìn)行微調(diào)后，模型的能力和解說(shuō)質(zhì)量得到了進(jìn)一步提升。

實(shí)驗(yàn)

首先描述實(shí)現(xiàn)細(xì)節(jié)，然后在視頻字幕生成和 VQA 任務(wù)上與強(qiáng)基線進(jìn)行比較。接下來(lái)測(cè)試 StreamingVLM 的效率。最后，進(jìn)行消融實(shí)驗(yàn)以更好地理解其行為。

實(shí)驗(yàn)設(shè)置

訓(xùn)練

從 Qwen2.5-VL-Instruct-7B 微調(diào) StreamingVLM。

步驟 1：訓(xùn)練模型以學(xué)習(xí)無(wú)限流式推理模式。我們?cè)谧詷?gòu)建的 SFT 數(shù)據(jù)集（525K 個(gè)流式樣本）以及 LiveCC 的 Live-WhisperX-526K（526K 個(gè)流式樣本）上訓(xùn)練。步驟 2：使用我們高質(zhì)量的退火數(shù)據(jù)（14K 個(gè)流式樣本，每個(gè) 16–64 秒，包含詳細(xì)動(dòng)作）來(lái)增強(qiáng)實(shí)時(shí)動(dòng)作解說(shuō)能力并提升人類體驗(yàn)。經(jīng)過(guò)這兩個(gè)階段后，我們得到 StreamingVLM。總計(jì)算量約為 128 張 H100 天。

基線模型

本文選擇強(qiáng)基線與 StreamingVLM 進(jìn)行比較。

在字幕生成任務(wù)中，使用 GPT-4o mini 展示解說(shuō)能力，并使用 Livecc-7B-Instruct，它在 550 萬(wàn)個(gè) YouTube 視頻片段（30–240 秒）和 178K 個(gè)視頻問(wèn)答樣本上訓(xùn)練，表現(xiàn)出良好的短視頻解說(shuō)性能。包括 ReKV，這是一種無(wú)需訓(xùn)練的強(qiáng)流式推理方法。

由于設(shè)計(jì)限制，GPT-4o mini 在 Inf-Streams-Eval 上僅在 chunk 設(shè)置下評(píng)測(cè)，而 StreamingVLM 使用 infinite 模式。LiveCC-7B-Instruct 在 chunk 和 infinite 兩種設(shè)置下均進(jìn)行測(cè)試。在 VQA 任務(wù)中，我們使用 Qwen2.5-VL-7B-Instruct（StreamingVLM SFT 前的基礎(chǔ)模型）來(lái)展示我們的 SFT 流程如何提升基礎(chǔ)能力。

基準(zhǔn)

在多個(gè)任務(wù)上評(píng)估實(shí)時(shí)字幕生成與視頻理解性能。

對(duì)于字幕生成，使用 Inf-Streams-Eval（平均長(zhǎng)度 2.12 小時(shí)），測(cè)試長(zhǎng)時(shí)解說(shuō)能力；以及 LiveSports3K-CC 基準(zhǔn)（49 種運(yùn)動(dòng)，416 個(gè)片段，每個(gè)≥10 秒）。

對(duì)于視頻理解，在四個(gè)公開(kāi)套件上評(píng)估 StreamingVLM：

VideoMME：多任務(wù)集合（問(wèn)答、字幕、定位），涵蓋短視頻和長(zhǎng)視頻的一般理解；
MVBench：針對(duì)短片的細(xì)粒度能力測(cè)試（動(dòng)作、物體、計(jì)數(shù)、時(shí)間順序）；
LongVideoBench：需要長(zhǎng)時(shí)記憶和跨片段推理的長(zhǎng)視頻問(wèn)答；
OVOBench：測(cè)試實(shí)時(shí)理解與流式感知的視頻問(wèn)答集。

準(zhǔn)確率結(jié)果

字幕生成

首先在字幕生成任務(wù)上將我們的推理策略與 ReKV 進(jìn)行比較。我們觀察到一個(gè)無(wú)訓(xùn)練的 ReKV 悖論：未經(jīng)過(guò)任務(wù)特定微調(diào)的模型表現(xiàn)較差，而經(jīng)過(guò)特殊微調(diào)的模型（例如 StreamingVLM）依賴于固定的上下文格式，而 ReKV 的淘汰策略會(huì)破壞這種格式，常常導(dǎo)致沒(méi)有輸出。相比之下，StreamingVLM 的訓(xùn)練–推理一致性設(shè)計(jì)解決了這個(gè)問(wèn)題。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

然后，在 LiveCC-3K-Sports-CC 和 Inf-Streams-Eval 上評(píng)估了 StreamingVLM、Qwen-2.5-VL-7B-Instruct 和 LiveCC-7B-Instruct。如下表1 所示，在 Inf-Streams-Eval 上，Qwen-2.5-VL-7B-Instruct 無(wú)法保持連續(xù)解說(shuō)，因此表現(xiàn)較差。LiveCC-7B-Instruct 在分塊推理下表現(xiàn)更好。下圖6 進(jìn)一步顯示，短塊會(huì)破壞連貫性；這些設(shè)計(jì)不支持無(wú)限推理，而使用長(zhǎng)塊時(shí)，很快會(huì)超出訓(xùn)練長(zhǎng)度并導(dǎo)致退化。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

相比之下，StreamingVLM 以無(wú)限模式運(yùn)行；其長(zhǎng)期記憶和流式視頻感知能力使其具有明顯優(yōu)勢(shì)，在解說(shuō)質(zhì)量上超過(guò)了 GPT-4o mini。下圖2（所示圖）展示了一個(gè)真實(shí)案例，其中 StreamingVLM 保持連貫輸出、實(shí)時(shí)延遲和長(zhǎng)期記憶，解決了無(wú)限視頻流實(shí)時(shí)感知的核心挑戰(zhàn)。在 LiveCC-3K-Sports-CC 上，StreamingVLM 也優(yōu)于基線，展示了在不同長(zhǎng)度視頻上的穩(wěn)定流式字幕生成能力。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

VQA

在四個(gè) VQA 任務(wù)上評(píng)估了 StreamingVLM 及其基礎(chǔ)模型 Qwen-2.5-VL-7B-Instruct。如下表3 所示，即使沒(méi)有任何 VQA SFT，StreamingVLM 在所有任務(wù)上都優(yōu)于基礎(chǔ)模型，表明我們的 SFT 改善了通用視覺(jué)能力。OVOBench Realtime 測(cè)試模型對(duì)即時(shí)流式場(chǎng)景的理解。在這個(gè)流式感知任務(wù)上，StreamingVLM 提升了 5.96%。這突出了 Inf-Streams-Train 及我們訓(xùn)練策略的優(yōu)勢(shì)，增強(qiáng)了模型的核心能力。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

效率測(cè)試

如下圖 7 所示，報(bào)告了圖 1 中三種方法在無(wú)限解說(shuō)下的每 token 延遲：分別是具有全注意力的 VLM、滑動(dòng)窗口注意力（無(wú)重疊）、滑動(dòng)窗口注意力（有重疊）以及 StreamingVLM 的推理策略，它們分別對(duì)應(yīng)圖 1 的面板 (a)、(b)、(c) 和 (d)。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

實(shí)時(shí)響應(yīng)要求延遲低于虛線所示的固定閾值。全注意力很快超過(guò)限制并導(dǎo)致顯存溢出（OOM）。滑動(dòng)窗口（無(wú)重疊）需要較大的塊以保持連貫性，因此顯示出周期性延遲模式：在每個(gè)塊的開(kāi)始階段，模型重建上下文，導(dǎo)致解說(shuō)與過(guò)去內(nèi)容不連貫；在塊的后期，延遲急劇上升，無(wú)法滿足實(shí)時(shí)需求。滑動(dòng)窗口（有重疊）由于計(jì)算冗余，效率仍然較低。StreamingVLM 保持固定上下文長(zhǎng)度并重用 KV，維持較低且穩(wěn)定的延遲，并能在單個(gè) NVIDIA H100 上以 8 FPS 支持實(shí)時(shí)解說(shuō)。

消融研究

連續(xù) RoPE

本文研究了連續(xù) RoPE 索引的效果。由于訓(xùn)練時(shí)使用全注意力，訓(xùn)練中僅使用原生 RoPE。在推理時(shí)，比較了連續(xù) RoPE 與原生版本。如下表 4 所示，原生 RoPE 在無(wú)限流上性能急劇下降，因?yàn)槠渌饕鲩L(zhǎng)過(guò)快并超出訓(xùn)練范圍。將視頻分割為 100 秒的塊可以部分恢復(fù)準(zhǔn)確率，但會(huì)損害長(zhǎng)期連貫性。使用連續(xù) RoPE 時(shí)，位置索引保持有界，因此模型能夠在無(wú)限推理下保持性能不損失。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

滑動(dòng)窗口與 Sink

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

接下來(lái)，研究不同的選擇。表 5 右表顯示，16 秒的視覺(jué)窗口是一個(gè)不錯(cuò)的選擇：它足夠長(zhǎng)以覆蓋最近的動(dòng)作，同時(shí)又足夠短以保持高效。相反，將視覺(jué)上下文設(shè)為 0 秒會(huì)導(dǎo)致明顯的性能下降，這驗(yàn)證了保留最近的視覺(jué) token 對(duì)連續(xù)動(dòng)作理解至關(guān)重要。

訓(xùn)練策略與數(shù)據(jù)集

本文研究了 SFT 數(shù)據(jù)和高質(zhì)量退火數(shù)據(jù)的效果。SFT 數(shù)據(jù)集教會(huì)模型無(wú)限流式推理模式，而高質(zhì)量退火數(shù)據(jù)進(jìn)一步提升了解說(shuō)質(zhì)量。

SFT 策略

如下表 6 所示，采用重疊訓(xùn)練策略后，SFT 子集幫助模型適應(yīng)交錯(cuò)的視覺(jué)–文本模式，并理解超長(zhǎng)視頻。與僅在 Live-WhisperX-526K 上訓(xùn)練的模型相比，在重疊 SFT 數(shù)據(jù)上訓(xùn)練的模型增強(qiáng)了對(duì)無(wú)限視頻的感知，在 Inf-Streams-Eval 上相較 GPT-4o-mini 的勝率提升 +31.29，在 Livecc-Sports-3K cc 上相較 LLaVA-Video-72B-Qwen2 的勝率提升 +3.68。

破解長(zhǎng)視頻理解困局！MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架-AI.x社區(qū)

高質(zhì)量退火數(shù)據(jù)

高質(zhì)量退火數(shù)據(jù)專注于實(shí)時(shí)內(nèi)容，并進(jìn)一步提升了模型能力。如表 6 所示，我們比較了使用和不使用高質(zhì)量退火數(shù)據(jù)進(jìn)行訓(xùn)練的情況。可以觀察到，在字幕生成和 VQA 基準(zhǔn)測(cè)試上均有顯著提升。

結(jié)論

StreamingVLM，一個(gè)統(tǒng)一的訓(xùn)練–推理框架，為現(xiàn)有 VLM 帶來(lái)了實(shí)時(shí)流式感知能力。首先提出了一種高效的流式 VLM 訓(xùn)練策略和數(shù)據(jù)構(gòu)建流程，兩者共同提升了在流式任務(wù)和 VQA 上的性能。接著，在真實(shí)場(chǎng)景中展示了我們的推理設(shè)計(jì)如何實(shí)現(xiàn)實(shí)時(shí)視頻理解，能夠在單個(gè) NVIDIA H100 上以最高 8 FPS 穩(wěn)定解說(shuō)超過(guò) 3 小時(shí)的視頻。最后，發(fā)布了 Inf-Streams，一個(gè)新的 SFT 數(shù)據(jù)集和基準(zhǔn)，用于測(cè)試平均時(shí)長(zhǎng)超過(guò) 2 小時(shí)視頻的秒級(jí)實(shí)時(shí)理解。總體而言，這項(xiàng)工作為實(shí)際場(chǎng)景中的部署鋪平了道路。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/agGaqaM_pJVp37IHdJ6D4Q??

標(biāo)簽

訓(xùn)練

視頻生成

贊

回復(fù)