破解長(zhǎng)視頻理解困局!MIT&英偉達(dá)最新開(kāi)源StreamingVLM:統(tǒng)一實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架

文章鏈接:https://arxiv.org/pdf/2510.09608
Git鏈接:https://github.com/mit-han-lab/streaming-vlm
Demo鏈接:https://streamingvlm.hanlab.ai/
亮點(diǎn)直擊
- 訓(xùn)練與推理統(tǒng)一的流式架構(gòu): 通過(guò)重疊窗口全注意力SFT,將有限長(zhǎng)度訓(xùn)練與無(wú)限長(zhǎng)度推理自然對(duì)齊。
- 高效KV緩存復(fù)用機(jī)制: 結(jié)合 attention sink、短窗口視覺(jué)緩存與長(zhǎng)窗口文本緩存,實(shí)現(xiàn)低延遲、高穩(wěn)定的實(shí)時(shí)視頻理解。
- 真實(shí)長(zhǎng)時(shí)評(píng)測(cè)基準(zhǔn)構(gòu)建: 構(gòu)建了首個(gè)平均時(shí)長(zhǎng)超2小時(shí)的實(shí)時(shí)視頻評(píng)測(cè)集Inf-Streams-Eval,推動(dòng)長(zhǎng)時(shí)視頻理解領(lǐng)域標(biāo)準(zhǔn)化評(píng)測(cè)。
總結(jié)速覽
解決的問(wèn)題
- 具體困境:
- 無(wú)重疊時(shí)打斷上下文連貫性;
- 有重疊時(shí)重復(fù)計(jì)算過(guò)多,延遲高。
- 全注意力(Full Attention)→ 計(jì)算與內(nèi)存成本呈二次增長(zhǎng),無(wú)法處理長(zhǎng)視頻。
- 滑動(dòng)窗口(Sliding Window)→
- 訓(xùn)練與推理不對(duì)齊→ 模型無(wú)法在短視頻訓(xùn)練下泛化到無(wú)限視頻流。
提出的方案
StreamingVLM —— 一個(gè)統(tǒng)一的實(shí)時(shí)流式視覺(jué)語(yǔ)言理解框架,核心思路是讓訓(xùn)練過(guò)程與流式推理機(jī)制對(duì)齊。
- 訓(xùn)練階段(Streaming-aligned SFT): 使用短視頻片段的全注意力訓(xùn)練,片段間存在重疊,以此模擬推理時(shí)的注意力模式,無(wú)需在超長(zhǎng)視頻上訓(xùn)練。
- 推理階段(Streaming Inference): 采用輕量、可擴(kuò)展的 KV 緩存策略,包括:
- Attention Sink:長(zhǎng)期保留關(guān)鍵狀態(tài);
- 短窗口視覺(jué)Token緩存:保持最新畫(huà)面信息;
- 長(zhǎng)窗口文本Token緩存:維持語(yǔ)言連續(xù)性;
- 連續(xù)位置編碼(Contiguous Position IDs):確保推理穩(wěn)定性。
應(yīng)用的技術(shù)
- 模型基座:Qwen2.5-VL-7B-Instruct
- 訓(xùn)練數(shù)據(jù)集:
- Inf-Streams-Train(超過(guò)4000小時(shí)體育解說(shuō)SFT數(shù)據(jù)集)
- Inf-Streams-Eval(平均時(shí)長(zhǎng)2小時(shí)的視頻評(píng)測(cè)集,要求逐秒幀-文本對(duì)齊)
- 訓(xùn)練策略:全注意力SFT + 重疊窗口,模擬流式推理
- 推理優(yōu)化:KV狀態(tài)復(fù)用 + 分層緩存機(jī)制,實(shí)現(xiàn)低延遲持續(xù)理解
達(dá)到的效果
- 性能表現(xiàn):
- 在Inf-Streams-Eval上對(duì)比 GPT-4O mini,勝率 66.18%
- 在LongVideoBench上提升+4.30,OVOBench Realtime上提升+5.96
- 實(shí)時(shí)性能:在單張 NVIDIA H100 上實(shí)現(xiàn)8 FPS 穩(wěn)定流式推理
- 泛化能力:即使未針對(duì)VQA微調(diào),也顯著提升視頻問(wèn)答能力
方法
模型和數(shù)據(jù)的方法部分包含三個(gè)組成部分: (1) 用于視覺(jué)-語(yǔ)言處理的推理方案,支持在無(wú)限視頻上的低延遲更新; (2) 賦予 StreamingVLM 流式推理能力的訓(xùn)練策略;(3) 提供長(zhǎng)時(shí)、實(shí)時(shí)訓(xùn)練數(shù)據(jù)和新基準(zhǔn) Inf-Streams 的數(shù)據(jù)處理流程。
STREAMINGVLM 的推理方案
如下圖 3 所示,StreamingVLM 推理結(jié)構(gòu)。這些設(shè)計(jì)選擇在保持與下圖 1(c) 相當(dāng)性能的同時(shí),降低了計(jì)算量。



通過(guò)這種結(jié)構(gòu),較舊的視覺(jué) token 會(huì)首先被移除;早期文本僅在超出預(yù)算時(shí)才被移除。與重新計(jì)算先前 token 不同,這種非對(duì)稱保留策略在保持生成連貫性的同時(shí),保持了最低的計(jì)算量,其性能與帶重疊的滑動(dòng)窗口(圖 1(c))相當(dāng)。
連續(xù) RoPE為了防止在移除后出現(xiàn)位置漂移,應(yīng)用了連續(xù)旋轉(zhuǎn)位置嵌入(RoPE)。當(dāng)較早的 token 被移除時(shí),后續(xù)和新進(jìn)入的 token 的 RoPE 索引會(huì)被平移,以便其位置在數(shù)值上與最后保留的 token 連續(xù)。 一旦視頻長(zhǎng)度超過(guò)總窗口大小,有效的 RoPE 索引將停止增長(zhǎng)并保持在一個(gè)有界范圍內(nèi)。這使得位置值保持在分布內(nèi),從而穩(wěn)定長(zhǎng)時(shí)流式推理。
當(dāng)應(yīng)用于使用三維位置嵌入的 Qwen-VL 系列時(shí),我們使用連續(xù)的三維 RoPE。RoPE 索引仍然左移以保持連續(xù);對(duì)于視覺(jué) token,我們構(gòu)建三維索引(時(shí)間、高度、寬度),并按三維規(guī)則組裝,匹配交錯(cuò)的視覺(jué)-文本布局。
訓(xùn)練策略



如圖 4 右側(cè)面板所示,這種重疊的全注意力監(jiān)督與推理時(shí)的有效注意力模式——即注意力匯聚(sink)、最近文本的較長(zhǎng)窗口以及最近視覺(jué)的較短窗口——高度近似。訓(xùn)練監(jiān)督與測(cè)試時(shí)上下文的對(duì)齊,使模型學(xué)習(xí)到預(yù)期的時(shí)間新近偏好(recency bias),并在無(wú)需在計(jì)算量呈二次增長(zhǎng)的超長(zhǎng)上下文上訓(xùn)練的情況下實(shí)現(xiàn)穩(wěn)定的流式行為。
重要的是,為了與推理時(shí)的調(diào)度保持一致,在每個(gè)訓(xùn)練片段中交錯(cuò)視覺(jué)和文本 token——而不是采用常見(jiàn)的“先視覺(jué)、后文本”的 VLM 結(jié)構(gòu)。我們僅在與逐秒解說(shuō)對(duì)齊的文本位置上計(jì)算損失;當(dāng)某一秒沒(méi)有解說(shuō)時(shí),我們?cè)谠撐恢貌迦胝嘉环?token “...”,同時(shí)保持交錯(cuò)的 V/T 布局。 這種監(jiān)督方式教會(huì)模型與流同步生成——學(xué)會(huì)何時(shí)說(shuō)話、何時(shí)保持沉默——從而在推理時(shí)賦予 StreamingVLM 可靠的流式解說(shuō)行為。
數(shù)據(jù)處理流程
視頻收集與語(yǔ)音識(shí)別
如下圖 5 所示,從五種運(yùn)動(dòng)項(xiàng)目中收集了比賽視頻:籃球、足球、冰球、棒球和美式橄欖球,包括 712 場(chǎng)籃球比賽、544 場(chǎng)足球比賽、402 場(chǎng)冰球比賽、399 場(chǎng)棒球比賽和 392 場(chǎng)美式橄欖球比賽。解說(shuō)語(yǔ)言為英語(yǔ)。

為了保證視頻質(zhì)量與讀取速度,將視頻分辨率限制在 360P–720P,幀率為 24 FPS。首先,使用 WhisperX 模型從這些比賽中提取實(shí)時(shí)語(yǔ)音(ASR),獲得了一個(gè)包含超過(guò) 6000 小時(shí)視頻及其實(shí)時(shí)解說(shuō)的初始語(yǔ)料庫(kù)。
數(shù)據(jù)清洗
在完整的解說(shuō)視頻中,通常包含許多無(wú)用片段,如廣告和主持人獨(dú)白。這些片段的視覺(jué)內(nèi)容與 ASR 語(yǔ)義之間聯(lián)系較弱,使模型無(wú)法從畫(huà)面中推斷內(nèi)容。此外,ASR 模型有時(shí)會(huì)錯(cuò)誤識(shí)別球員或球隊(duì)名稱。
因此,制定規(guī)則并使用 GPT 清洗這些數(shù)據(jù)。首先將一場(chǎng)比賽劃分為 120 秒的片段,并將每個(gè)片段內(nèi)的解說(shuō)內(nèi)容拼接起來(lái),然后拆分為句子。使用該片段及視頻標(biāo)題(包括比賽時(shí)間和雙方隊(duì)伍)作為上下文,要求 GPT-5 模型根據(jù)規(guī)則作出決策,選項(xiàng)包括 “keep”(保留)、“delete”(刪除)和 “edit”(編輯)每個(gè)句子。
- “keep” 表示內(nèi)容為比賽解說(shuō)且正確;
- “edit” 表示為解說(shuō)內(nèi)容但需要修改細(xì)節(jié)(如錯(cuò)誤的名字),并返回修改后的完整句子;
- “delete” 表示不符合要求的內(nèi)容,不應(yīng)出現(xiàn)在訓(xùn)練數(shù)據(jù)中。
對(duì)于保留的句子,時(shí)間戳與 ASR 結(jié)果一致;對(duì)于編輯的句子,將原句持續(xù)時(shí)間均勻分配給編輯后句子的每個(gè)詞(由于一個(gè)句子通常持續(xù)約 3–5 秒,誤差在可接受范圍內(nèi))。在原始 ASR 數(shù)據(jù)中,46.32% 被保留,37.89% 被編輯,15.79% 被刪除,最終形成了我們數(shù)據(jù)的原始視頻-解說(shuō)對(duì)。
SFT 與評(píng)測(cè)數(shù)據(jù)分段

在評(píng)測(cè)中,創(chuàng)建了一個(gè)新基準(zhǔn) Inf-Streams-Eval。它包含 20 場(chǎng)完整比賽,平均長(zhǎng)度為 2.12 小時(shí)。將每場(chǎng)比賽劃分為 100 秒的片段,并選擇其中至少包含 200 個(gè)詞的片段。這些片段的解說(shuō)被視為真實(shí)標(biāo)簽。為了評(píng)分,使用更大的模型(此處為 gpt-5)在兩個(gè)模型輸出之間進(jìn)行投票,并可訪問(wèn)真實(shí)參考。獲得更多投票(更高勝率)的模型被判定為提供更好的解說(shuō)。
Inf-Streams-Eval 有兩種設(shè)置:chunk 和 infinite,分別在后續(xù)表格中用 ? 和 ∞ 表示。在前圖 1 中,chunk 模式對(duì)應(yīng)面板 (b),infinite 模式對(duì)應(yīng)面板 (d)。對(duì)于無(wú)法進(jìn)行無(wú)限推理的模型,我們將視頻切分為多個(gè) chunk;模型接收前文文本和當(dāng)前 chunk 來(lái)生成字幕。對(duì)于支持無(wú)限推理的模型,模型在整個(gè)流上運(yùn)行;我們保留其先前輸出作為前文文本,并持續(xù)生成字幕直到視頻結(jié)束。
高質(zhì)量退火數(shù)據(jù)
上述數(shù)據(jù)集可以微調(diào)模型的實(shí)時(shí)視頻理解能力。然而,它包含大量關(guān)于球隊(duì)信息和賽季歷史的內(nèi)容;對(duì)于解說(shuō)任務(wù)的人類體驗(yàn)而言,我們更希望模型提供對(duì)場(chǎng)上事件的實(shí)時(shí)解說(shuō)。因此,我們創(chuàng)建了高質(zhì)量退火數(shù)據(jù)。
首先在無(wú)重疊的情況下切分所有數(shù)據(jù),要求每個(gè)片段長(zhǎng)度為 16–64 秒,內(nèi)部靜音時(shí)間不超過(guò) 3 秒;每個(gè)片段還必須包含至少 2XD(以秒為單位的持續(xù)時(shí)間)個(gè)詞。跨所有比賽,我們共獲得了 52,530 個(gè)新樣本。隨后,我們定義“實(shí)時(shí)解說(shuō)”的標(biāo)準(zhǔn)。對(duì)于每個(gè)樣本,我們使用 GPT-5 判斷“實(shí)時(shí)解說(shuō)”比例是否超過(guò) 80%,以決定是否保留。最終,僅保留了 14,786 個(gè)樣本。后續(xù)實(shí)驗(yàn)(表 6)表明,在使用這部分?jǐn)?shù)據(jù)進(jìn)行微調(diào)后,模型的能力和解說(shuō)質(zhì)量得到了進(jìn)一步提升。
實(shí)驗(yàn)
首先描述實(shí)現(xiàn)細(xì)節(jié),然后在視頻字幕生成和 VQA 任務(wù)上與強(qiáng)基線進(jìn)行比較。接下來(lái)測(cè)試 StreamingVLM 的效率。最后,進(jìn)行消融實(shí)驗(yàn)以更好地理解其行為。
實(shí)驗(yàn)設(shè)置
訓(xùn)練
從 Qwen2.5-VL-Instruct-7B 微調(diào) StreamingVLM。
步驟 1:訓(xùn)練模型以學(xué)習(xí)無(wú)限流式推理模式。我們?cè)谧詷?gòu)建的 SFT 數(shù)據(jù)集(525K 個(gè)流式樣本)以及 LiveCC 的 Live-WhisperX-526K(526K 個(gè)流式樣本)上訓(xùn)練。步驟 2:使用我們高質(zhì)量的退火數(shù)據(jù)(14K 個(gè)流式樣本,每個(gè) 16–64 秒,包含詳細(xì)動(dòng)作)來(lái)增強(qiáng)實(shí)時(shí)動(dòng)作解說(shuō)能力并提升人類體驗(yàn)。經(jīng)過(guò)這兩個(gè)階段后,我們得到 StreamingVLM。總計(jì)算量約為 128 張 H100 天。
基線模型
本文選擇強(qiáng)基線與 StreamingVLM 進(jìn)行比較。
在字幕生成任務(wù)中,使用 GPT-4o mini 展示解說(shuō)能力,并使用 Livecc-7B-Instruct,它在 550 萬(wàn)個(gè) YouTube 視頻片段(30–240 秒)和 178K 個(gè)視頻問(wèn)答樣本上訓(xùn)練,表現(xiàn)出良好的短視頻解說(shuō)性能。包括 ReKV,這是一種無(wú)需訓(xùn)練的強(qiáng)流式推理方法。
由于設(shè)計(jì)限制,GPT-4o mini 在 Inf-Streams-Eval 上僅在 chunk 設(shè)置下評(píng)測(cè),而 StreamingVLM 使用 infinite 模式。LiveCC-7B-Instruct 在 chunk 和 infinite 兩種設(shè)置下均進(jìn)行測(cè)試。 在 VQA 任務(wù)中,我們使用 Qwen2.5-VL-7B-Instruct(StreamingVLM SFT 前的基礎(chǔ)模型)來(lái)展示我們的 SFT 流程如何提升基礎(chǔ)能力。
基準(zhǔn)
在多個(gè)任務(wù)上評(píng)估實(shí)時(shí)字幕生成與視頻理解性能。
對(duì)于字幕生成,使用 Inf-Streams-Eval(平均長(zhǎng)度 2.12 小時(shí)),測(cè)試長(zhǎng)時(shí)解說(shuō)能力;以及 LiveSports3K-CC 基準(zhǔn)(49 種運(yùn)動(dòng),416 個(gè)片段,每個(gè)≥10 秒)。
對(duì)于視頻理解,在四個(gè)公開(kāi)套件上評(píng)估 StreamingVLM:
- VideoMME:多任務(wù)集合(問(wèn)答、字幕、定位),涵蓋短視頻和長(zhǎng)視頻的一般理解;
- MVBench:針對(duì)短片的細(xì)粒度能力測(cè)試(動(dòng)作、物體、計(jì)數(shù)、時(shí)間順序);
- LongVideoBench:需要長(zhǎng)時(shí)記憶和跨片段推理的長(zhǎng)視頻問(wèn)答;
- OVOBench:測(cè)試實(shí)時(shí)理解與流式感知的視頻問(wèn)答集。
準(zhǔn)確率結(jié)果
字幕生成
首先在字幕生成任務(wù)上將我們的推理策略與 ReKV 進(jìn)行比較。我們觀察到一個(gè)無(wú)訓(xùn)練的 ReKV 悖論:未經(jīng)過(guò)任務(wù)特定微調(diào)的模型表現(xiàn)較差,而經(jīng)過(guò)特殊微調(diào)的模型(例如 StreamingVLM)依賴于固定的上下文格式,而 ReKV 的淘汰策略會(huì)破壞這種格式,常常導(dǎo)致沒(méi)有輸出。相比之下,StreamingVLM 的訓(xùn)練–推理一致性設(shè)計(jì)解決了這個(gè)問(wèn)題。

然后,在 LiveCC-3K-Sports-CC 和 Inf-Streams-Eval 上評(píng)估了 StreamingVLM、Qwen-2.5-VL-7B-Instruct 和 LiveCC-7B-Instruct。如下表1 所示,在 Inf-Streams-Eval 上,Qwen-2.5-VL-7B-Instruct 無(wú)法保持連續(xù)解說(shuō),因此表現(xiàn)較差。LiveCC-7B-Instruct 在分塊推理下表現(xiàn)更好。下圖6 進(jìn)一步顯示,短塊會(huì)破壞連貫性;這些設(shè)計(jì)不支持無(wú)限推理,而使用長(zhǎng)塊時(shí),很快會(huì)超出訓(xùn)練長(zhǎng)度并導(dǎo)致退化。


相比之下,StreamingVLM 以無(wú)限模式運(yùn)行;其長(zhǎng)期記憶和流式視頻感知能力使其具有明顯優(yōu)勢(shì),在解說(shuō)質(zhì)量上超過(guò)了 GPT-4o mini。下圖2(所示圖)展示了一個(gè)真實(shí)案例,其中 StreamingVLM 保持連貫輸出、實(shí)時(shí)延遲和長(zhǎng)期記憶,解決了無(wú)限視頻流實(shí)時(shí)感知的核心挑戰(zhàn)。在 LiveCC-3K-Sports-CC 上,StreamingVLM 也優(yōu)于基線,展示了在不同長(zhǎng)度視頻上的穩(wěn)定流式字幕生成能力。

VQA
在四個(gè) VQA 任務(wù)上評(píng)估了 StreamingVLM 及其基礎(chǔ)模型 Qwen-2.5-VL-7B-Instruct。如下表3 所示,即使沒(méi)有任何 VQA SFT,StreamingVLM 在所有任務(wù)上都優(yōu)于基礎(chǔ)模型,表明我們的 SFT 改善了通用視覺(jué)能力。OVOBench Realtime 測(cè)試模型對(duì)即時(shí)流式場(chǎng)景的理解。在這個(gè)流式感知任務(wù)上,StreamingVLM 提升了 5.96%。這突出了 Inf-Streams-Train 及我們訓(xùn)練策略的優(yōu)勢(shì),增強(qiáng)了模型的核心能力。

效率測(cè)試
如下圖 7 所示,報(bào)告了圖 1 中三種方法在無(wú)限解說(shuō)下的每 token 延遲:分別是具有全注意力的 VLM、滑動(dòng)窗口注意力(無(wú)重疊)、滑動(dòng)窗口注意力(有重疊)以及 StreamingVLM 的推理策略,它們分別對(duì)應(yīng)圖 1 的面板 (a)、(b)、(c) 和 (d)。

實(shí)時(shí)響應(yīng)要求延遲低于虛線所示的固定閾值。全注意力很快超過(guò)限制并導(dǎo)致顯存溢出(OOM)。滑動(dòng)窗口(無(wú)重疊)需要較大的塊以保持連貫性,因此顯示出周期性延遲模式:在每個(gè)塊的開(kāi)始階段,模型重建上下文,導(dǎo)致解說(shuō)與過(guò)去內(nèi)容不連貫;在塊的后期,延遲急劇上升,無(wú)法滿足實(shí)時(shí)需求。滑動(dòng)窗口(有重疊)由于計(jì)算冗余,效率仍然較低。StreamingVLM 保持固定上下文長(zhǎng)度并重用 KV,維持較低且穩(wěn)定的延遲,并能在單個(gè) NVIDIA H100 上以 8 FPS 支持實(shí)時(shí)解說(shuō)。
消融研究
連續(xù) RoPE
本文研究了連續(xù) RoPE 索引的效果。由于訓(xùn)練時(shí)使用全注意力,訓(xùn)練中僅使用原生 RoPE。在推理時(shí),比較了連續(xù) RoPE 與原生版本。如下表 4 所示,原生 RoPE 在無(wú)限流上性能急劇下降,因?yàn)槠渌饕鲩L(zhǎng)過(guò)快并超出訓(xùn)練范圍。將視頻分割為 100 秒的塊可以部分恢復(fù)準(zhǔn)確率,但會(huì)損害長(zhǎng)期連貫性。使用連續(xù) RoPE 時(shí),位置索引保持有界,因此模型能夠在無(wú)限推理下保持性能不損失。

滑動(dòng)窗口與 Sink


接下來(lái),研究不同的 選擇。表 5 右表顯示,16 秒的視覺(jué)窗口是一個(gè)不錯(cuò)的選擇:它足夠長(zhǎng)以覆蓋最近的動(dòng)作,同時(shí)又足夠短以保持高效。相反,將視覺(jué)上下文設(shè)為 0 秒會(huì)導(dǎo)致明顯的性能下降,這驗(yàn)證了保留最近的視覺(jué) token 對(duì)連續(xù)動(dòng)作理解至關(guān)重要。
訓(xùn)練策略與數(shù)據(jù)集
本文研究了 SFT 數(shù)據(jù)和高質(zhì)量退火數(shù)據(jù)的效果。SFT 數(shù)據(jù)集教會(huì)模型無(wú)限流式推理模式,而高質(zhì)量退火數(shù)據(jù)進(jìn)一步提升了解說(shuō)質(zhì)量。
SFT 策略
如下表 6 所示,采用重疊訓(xùn)練策略后,SFT 子集幫助模型適應(yīng)交錯(cuò)的視覺(jué)–文本模式,并理解超長(zhǎng)視頻。與僅在 Live-WhisperX-526K 上訓(xùn)練的模型相比,在重疊 SFT 數(shù)據(jù)上訓(xùn)練的模型增強(qiáng)了對(duì)無(wú)限視頻的感知,在 Inf-Streams-Eval 上相較 GPT-4o-mini 的勝率提升 +31.29,在 Livecc-Sports-3K cc 上相較 LLaVA-Video-72B-Qwen2 的勝率提升 +3.68。

高質(zhì)量退火數(shù)據(jù)
高質(zhì)量退火數(shù)據(jù)專注于實(shí)時(shí)內(nèi)容,并進(jìn)一步提升了模型能力。如表 6 所示,我們比較了使用和不使用高質(zhì)量退火數(shù)據(jù)進(jìn)行訓(xùn)練的情況。可以觀察到,在字幕生成和 VQA 基準(zhǔn)測(cè)試上均有顯著提升。
結(jié)論
StreamingVLM,一個(gè)統(tǒng)一的訓(xùn)練–推理框架,為現(xiàn)有 VLM 帶來(lái)了實(shí)時(shí)流式感知能力。首先提出了一種高效的流式 VLM 訓(xùn)練策略和數(shù)據(jù)構(gòu)建流程,兩者共同提升了在流式任務(wù)和 VQA 上的性能。接著,在真實(shí)場(chǎng)景中展示了我們的推理設(shè)計(jì)如何實(shí)現(xiàn)實(shí)時(shí)視頻理解,能夠在單個(gè) NVIDIA H100 上以最高 8 FPS 穩(wěn)定解說(shuō)超過(guò) 3 小時(shí)的視頻。最后,發(fā)布了 Inf-Streams,一個(gè)新的 SFT 數(shù)據(jù)集和基準(zhǔn),用于測(cè)試平均時(shí)長(zhǎng)超過(guò) 2 小時(shí)視頻的秒級(jí)實(shí)時(shí)理解。總體而言,這項(xiàng)工作為實(shí)際場(chǎng)景中的部署鋪平了道路。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)

















