ICML 2025 | 長視頻理解新SOTA!螞蟻&人大開源ViLAMP-7B,單卡可處理3小時視頻
該工作第一作者為中國人民大學(xué)高瓴人工智能學(xué)院碩士生程傳奇,目前于螞蟻技術(shù)研究院實習(xí),其主要研究領(lǐng)域為多模態(tài)大模型,螞蟻技術(shù)研究院副研究員關(guān)健為共同第一作者。
在視覺語言模型(Vision-Language Models,VLMs)取得突破性進(jìn)展的當(dāng)下,長視頻理解的挑戰(zhàn)顯得愈發(fā)重要。以標(biāo)準(zhǔn) 24 幀率的標(biāo)清視頻為例,僅需數(shù)分鐘即可產(chǎn)生逾百萬的視覺 token,這已遠(yuǎn)超主流大語言模型 4K-128K 的上下文處理極限。當(dāng)面對影視級的長視頻內(nèi)容時,傳統(tǒng)解決方案的不足愈加凸顯:粗放式的幀采樣策略往往造成關(guān)鍵幀信息遺漏,而特征融合方法雖能降低數(shù)據(jù)維度,卻不可避免地導(dǎo)致語義完整性受損。
近日,螞蟻和人大的研究團(tuán)隊帶來了一個創(chuàng)新性的解決方案。他們提出視覺語言大模型 ViLAMP(Video-Language Model with Mixed Precision),實現(xiàn)了對超長視頻的高效處理。這個方法的核心在于其獨特的 “混合精度” 策略:對視頻中的關(guān)鍵內(nèi)容保持高精度分析,而對次要內(nèi)容進(jìn)行強(qiáng)力壓縮,就像人類在觀看視頻時會重點關(guān)注關(guān)鍵場景,而對過渡時空信息只做快速掃描一樣。

- 論文標(biāo)題:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- 論文地址:https://arxiv.org/abs/2504.02438
- Github:https://github.com/steven-ccq/ViLAMP
實驗結(jié)果令人振奮:ViLAMP 在 Video-MME 等五個主流視頻理解基準(zhǔn)上全面超越現(xiàn)有方案,特別是在處理長視頻時展現(xiàn)出顯著優(yōu)勢。更重要的是,它可以在單張 A100 GPU 上連續(xù)處理長達(dá) 1 萬幀(按每秒 1 幀計算約 3 小時)的視頻內(nèi)容,同時保持穩(wěn)定的理解準(zhǔn)確率。這一突破不僅大大提升了視頻處理效率,更為在線教育、視頻監(jiān)控、直播分析等實際應(yīng)用場景帶來了新的可能。相關(guān)論文已被 ICML 2025 接收。

橫軸:處理的視頻幀數(shù)(從 0 到 10,000 幀),縱軸: GPU 內(nèi)存使用量(MB)。測試在單塊 NVIDIA A100 GPU 上進(jìn)行。

VideoNIAH(視頻版本大海撈針任務(wù))測試結(jié)果。橫軸:視頻總長度(2K-10K 幀);縱軸:表示目標(biāo)視頻在完整視頻中的相對位置(0% 表示在開頭,100% 表示在結(jié)尾)。
視頻信息在時空維度均呈現(xiàn)稀疏性與冗余性
為解決長視頻處理的效率問題,研究團(tuán)隊首先對主流視覺語言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)進(jìn)行了系統(tǒng)性分析,發(fā)現(xiàn)了視頻信息在時間和空間上均存在顯著的稀疏性和冗余性:
- 幀間注意力分析:在現(xiàn)有模型中,用戶 Query 對相應(yīng)視頻的注意力高度集中 ——90% 的注意力僅分布在不到 5% 的視頻幀上(稱為關(guān)鍵幀)。更重要的是,這 5% 的關(guān)鍵幀之間往往存在很強(qiáng)的視覺相似度。
- 幀內(nèi)注意力分析:在每一幀的內(nèi)部,模型的注意力也展現(xiàn)出相似的稀疏性質(zhì) ——50% 的 patch(幀劃分的最小單位)就承載了 80% 的模型注意力,但這些受關(guān)注的 patch 與關(guān)鍵幀中的對應(yīng) patch 具有遠(yuǎn)超隨機(jī)基線水平的相似度。
這一發(fā)現(xiàn)表明現(xiàn)有模型在處理視頻時存在大量計算資源的浪費。實際上,處理長視頻不需要對每一幀、每個 patch 都投入同樣的計算量?;诖?,研究團(tuán)隊提出 “差分蒸餾原則”(Differential Distill Principle):識別并保留重要的視頻信息,同時壓縮那些雖然相關(guān)但高度冗余的信息。其中,重要信息應(yīng)該同時滿足兩個條件:(1)高查詢相關(guān)性:與當(dāng)前用戶 Query 高度相關(guān);(2)低信息冗余性:包含獨特的視頻信息。這一原則為后續(xù)設(shè)計高效的視頻處理算法奠定了理論基礎(chǔ)。
ViLAMP: 基于差分蒸餾的雙層混合精度架構(gòu)
前文的注意力分析揭示了一個關(guān)鍵問題:現(xiàn)有視覺語言模型對視頻中所有幀和 patch 都采用相同的處理方式,導(dǎo)致大量計算資源的浪費?;谶@一認(rèn)識,研究團(tuán)隊提出了專門面向長視頻處理的高效架構(gòu) ViLAMP,它能夠根據(jù)信息的重要程度自適應(yīng)地分配計算資源。

ViLAMP 模型結(jié)構(gòu)圖
ViLAMP 通過層次化的壓縮框架實現(xiàn)這一策略:在幀級別,對重要的關(guān)鍵幀保留完整的視覺 token 表示,以捕獲關(guān)鍵信息;而對于非關(guān)鍵幀,則采用強(qiáng)力壓縮策略;在 patch 級別,通過差分機(jī)制增大重要 patch 的權(quán)重。
模型具體包含兩個核心機(jī)制:
1. 差分關(guān)鍵幀選擇(Differential Keyframe Selection,DKS)
為實現(xiàn)關(guān)鍵幀的高效識別,ViLAMP 采用了基于貪心策略的選擇算法。該算法在最大化與用戶 Query 的相關(guān)性的同時,通過差分機(jī)制降低幀間冗余,確保選中的關(guān)鍵幀既重要又多樣化。
2. 差分特征合并(Differential Feature Merging,DFM)
針對非關(guān)鍵幀的處理,ViLAMP 創(chuàng)新性地通過差分加權(quán)池化,將每個非關(guān)鍵幀壓縮為單個信息量最大化的 token。在壓縮過程中,模型賦予那些與用戶 Query 相關(guān)且具有獨特性的 patch 較高的權(quán)重,同時降低與相鄰的關(guān)鍵幀有顯著重復(fù)的 patch 的權(quán)重,從而在大幅降低計算量的同時保留關(guān)鍵信息。
這種雙層混合精度架構(gòu)既確保了模型能夠準(zhǔn)確捕獲視頻中的關(guān)鍵信息,又顯著降低了計算開銷。
突破性性能:全面超越現(xiàn)有方案
在五個主流視頻理解基準(zhǔn)上的實驗表明:
1.ViLAMP 以 7B 參數(shù)量達(dá)到或超越了部分 70B 量級模型的表現(xiàn),特別是在 Video-MME 長視頻子集上比現(xiàn)有最優(yōu)模型提升 4.8%。
2. 針對當(dāng)前視頻理解基準(zhǔn)中視頻長度不足的問題,本文提出了面向視頻理解場景的 “大海撈針” 任務(wù) ——VideoNIAH。該任務(wù)將一段目標(biāo)短視頻(1 分鐘以內(nèi))插入到小時級別的長視頻中,要求模型在不依賴先驗信息的情況下,從超長視頻上下文中定位并理解該片段,進(jìn)而回答相關(guān)問題。與傳統(tǒng)基于文本的 NIAH 任務(wù)不同,VideoNIAH 中的答案無法直接從視頻對應(yīng)的文本描述中提取。因此,該任務(wù)本質(zhì)上更具挑戰(zhàn)性,難以達(dá)到語言模型在文本 NIAH 任務(wù)中所表現(xiàn)出的近乎完美的準(zhǔn)確率(例如 99%)。VideoNIAH 任務(wù)的性能上限受限于模型對目標(biāo)短視頻原始 QA 的理解水平,進(jìn)一步凸顯了該任務(wù)對視頻內(nèi)容深層次理解能力的嚴(yán)格要求。在這一新提出的超長視頻理解基準(zhǔn)上,ViLAMP 在處理包含 10K 幀(約 3 小時)的視頻時仍能保持 58.15% 的準(zhǔn)確率(原始 QA 數(shù)據(jù)集準(zhǔn)確率 78.9%),超越 VideoChat-Flash 基線模型 12.82%,展現(xiàn)出較強(qiáng)的長視頻建模能力。
3. 計算效率顯著提升:內(nèi)存消耗相比 LLaMA-VID 基線降低約 50%,在 8,192 幀情況下計算量減少 80% 以上。
4. 深入的消融實驗表明:與已有的關(guān)鍵幀選擇方案相比,DKS 在長視頻場景下表現(xiàn)出明顯優(yōu)勢;與 Q-former 和平均池化等特征融合方案相比,DFM 在所有數(shù)據(jù)集上都展現(xiàn)出 3 個百分點以上的性能優(yōu)勢。

模型表現(xiàn)

Video-MME 排行榜

計算效率對比
結(jié)語
ViLAMP 通過創(chuàng)新的差分蒸餾框架成功突破了長視頻處理的計算瓶頸,不僅在性能上實現(xiàn)了飛躍,更為視頻理解領(lǐng)域提供了新的研究思路。該工作的原理性貢獻(xiàn)和實用價值將推動視頻理解技術(shù)在更多實際場景中的落地應(yīng)用。期待未來看到更多基于此框架的創(chuàng)新發(fā)展。



































