圖像、視頻、音頻多模態大模型中長上下文token壓縮方法綜述 原創
多模態大模型MLLMs 能夠處理高分辨率圖像、長視頻序列和冗長音頻輸入等復雜上下文,但自注意力機制的二次復雜度使得大量輸入 token 帶來了巨大的計算和內存需求。 如下圖,上:圖像、視頻和音頻數據類型可以在其表示維度上進行擴展,從 而導致 token 數量的相應增加。下:表現最佳的多模態大模型無法滿足 現實世界的需求,因為多模態輸入(尤其是視頻)的 token 數量遠遠超 過文本,并且大多數視覺 token 是冗余的。

因此 token 壓縮對于解決這一限制至關重要。
一些概念
1、多模態結構

MLLMs通常框架由三個組件構成:
- 特定模態編碼器((g)):負責處理圖像、音頻等原始輸入,將高維數據壓縮為緊湊的語義嵌入序列(如圖像通過視覺編碼器轉化為視覺token,音頻通過音頻編碼器轉化為音頻token)。常用的視覺編碼器包括CLIP、SigLIP等,音頻編碼器包括Whisper、Audio-CLIP等。
- 投影器(連接器)模塊((P)):將編碼器輸出的嵌入映射到與語言模型(LLM)文本嵌入相同的潛在空間,使多模態數據能與文本指令融合。
- 大語言模型(LLM):接收投影后的多模態嵌入與文本提示嵌入的拼接序列,通過自回歸解碼生成響應。
2、大模型的token壓縮
MLLMs的核心通常基于文本大型語言模型(LLMs)微調而來,因此文本LLMs的token壓縮技術(常稱為“prompt壓縮”)是重要基礎。這些技術旨在處理長文本上下文(如整本書、代碼庫),方法包括:
- 自編碼器與摘要壓縮:如AutoCompressor將上下文壓縮為摘要向量,SentenceVAE用單個token表示句子。
- 選擇性修剪:如Selective Context通過自信息度量移除低信息token,LLMLingua系列通過層級修剪和語義密度排序減少token。
- 查詢引導過濾:如QUITO利用注意力分數篩選與查詢相關的token,AdaComp根據查詢復雜度動態提取關鍵信息。
- 概念蒸餾與遞歸框架:如Concept Distillation通過抽象意義表示(AMR)圖提煉核心概念,RCC通過遞歸融合生成分段摘要。
然而,文本壓縮技術難以直接應用于MLLMs,因為多模態數據(圖像、視頻、音頻)存在獨特的冗余模式(如空間相關性、時空連續性),需要專門的壓縮策略。
3、視覺Transformer的token壓縮
視覺Transformer(ViTs)的token壓縮技術為MLLMs的視覺token壓縮提供了借鑒,其核心是解決圖像的空間冗余(如相鄰patch的相似性、前景與背景的語義不平衡):
- 動態修剪:如DynamicViT、EViT通過注意力分數量化token相關性,修剪低顯著性token。
- token合并與學習:如ToMe通過相似性度量合并語義相近的token,TokenLearner通過學習的空間注意力生成緊湊token集。
- 蒸餾與跨模態過濾:如DeiT用輕量級“學生頭”從壓縮token子集預測標簽,MADTP利用跨模態對齊過濾token。
與MLLMs的差異:MLLMs不僅包含視覺token,還需處理文本token和更長的序列,因此其token壓縮面臨更復雜的挑戰,但ViTs的技術思路(如注意力引導修剪、相似性合并)更具參考價值。
下面來看下具體的token壓縮方法。
多模態token壓縮方法

多模態token壓縮分類:分視頻、圖像、音頻
1、 以圖像為中心的Token壓縮

四類方法:圖示、總結及優缺點

以圖像 為中心的代表性 token 壓縮方法總結
總結:
圖像中心的 token 壓縮方法針對空間冗余,從變換、相似性、注意力、查詢四個維度提出解決方案:
- 變換方法通過下采樣直接減少 token 數量,適合保留空間結構;
- 相似性方法合并語義重復 token,適合去除冗余;
- 注意力方法動態篩選高重要性 token,可解釋性強;
- 查詢方法聚焦任務相關信息,適合交互式場景。
下面具體看看。
1.1 基于Transformer的圖像中心壓縮
這類方法通過對圖像特征進行空間變換(如下采樣)來減少token數量,核心是利用圖像的空間結構特性,在保留關鍵信息的同時降低維度。主要包括以下四類操作:

對比總結:
- 像素重排、池化、插值均為無參數操作,不增加權重開銷;卷積引入可學習參數,能更精細地抽象局部信息。
- 像素重排會改變通道維度,需后續MLP對齊文本維度;池化和插值可直接作用于對齊后的維度,無需額外處理。
- 壓縮率通常有限(常見為25%),受限于二維下采樣的特性。
1.2、基于相似性的圖像中心壓縮
這類方法通過度量token在隱空間中的相似性(如距離或相似度),合并相似token,保留代表性的“簇中心”token,從而減少冗余。核心思路是通過聚類或匹配算法識別語義相近的token,將其合并為單個代表性token,降低序列長度。
代表性工作:
- ToMe:在ViT的注意力和MLP模塊間插入token合并模塊,通過二分軟匹配合并相似token。
- FOLDER:在視覺編碼器的最后一個注意力塊中插入合并模塊,減少傳入LLM的token。
- DivPrune:將壓縮問題轉化為“最大-最小多樣性”問題,篩選內部差異最大的token子集。
- TopV:在LLM層中綜合特征的相似性和距離函數,直接在多模態表示空間中壓縮token。
優勢:能有效去除語義重復的token,保留關鍵信息。
局限性:過度合并可能丟失細粒度信息;聚類算法的復雜度可能引入額外計算開銷。
1.3、基于注意力的圖像中心壓縮
這類方法利用注意力機制的稀疏性,通過注意力分數篩選高重要性token,修剪低關注度token,分為編碼器內和解碼器內兩種策略。

優勢:基于注意力的動態篩選能自適應保留任務相關token, interpretability(可解釋性)強。
局限性:需顯式計算注意力分數,與優化加速庫(如FlashAttention)不兼容,可能引入額外計算開銷。
1.4 基于查詢的圖像中心壓縮
這類方法利用文本查詢(prompt)引導視覺token壓縮,分為token蒸餾和跨模態選擇兩類,聚焦于保留與查詢相關的信息。
- Token Distillation(token蒸餾)將視覺token蒸餾為少量與文本相關的token,同時實現模態對齊。代表性工作:
a.Q-Former系列:通過可學習查詢和交叉注意力提取與文本相關的視覺線索,壓縮為固定數量token。
b.LLaMA-VID:用文本查詢聚合視覺嵌入中的文本相關線索,將整幅圖像表示為2個token。
c.LLaVA-Mini:將視覺信息預融合到文本token中,僅需1個視覺token即可保持性能。
d.Victor:引入少量可學習“寄存器token”,通過大模型淺層將視覺信息蒸餾到寄存器中,丟棄原始視覺token。
- Cross-Modal Selection(跨模態選擇)利用模態間的對齊關系,通過一種模態的token篩選另一種模態的關鍵token。代表性工作:
a.SparseVLM:用視覺token預篩選相關文本token,縮小文本搜索空間。
b.AdaFV:結合文本-圖像相似度和視覺顯著性,選擇語義對齊且視覺突出的token。
c.TRIM:先通過文本-視覺相似度識別“離群token”(視為重要),再聚類合并剩余token。
優勢:壓縮后的token與查詢高度相關,適合任務驅動場景(如視覺問答)。
局限性:依賴文本查詢的質量;多輪對話中需重新計算壓縮,可能增加開銷。
2、以視頻為中心的Token壓縮
視頻數據因包含空間和時間維度的雙重信息,其token數量遠超靜態圖像(如90分鐘視頻可生成5400萬token),成為多模態大型語言模型(MLLMs)處理的主要瓶頸。視頻中心的token壓縮需同時解決空間冗余(同幀內相鄰區域的相似性)和時間冗余(連續幀間的重復性),該部分按底層機制分為四類方法,因為視頻的每一幀是圖像,因此圖像部分和前面是一樣的,重點看下針對時間維度的優化策略。

以視頻為中心的 token 壓縮方法
總結:
視頻中心的token壓縮需同時應對空間和時間冗余,核心策略包括:
- 變換方法通過時空池化/卷積直接減少token,適合保留全局結構;
- 相似性方法通過幀聚類合并時間冗余,效率高但需避免丟失動態信息;
- 注意力方法動態篩選關鍵token,可解釋性強但受限于加速庫兼容問題;
- 查詢方法聚焦任務相關幀,適合交互式場景。
2.1、基于Transformer的視頻中心壓縮
這類方法延續圖像壓縮中的變換思路,結合視頻的時間維度特性,通過池化或卷積操作減少token數量,核心是在空間壓縮基礎上增加時間維度下采樣。
- 2D/3D池化(2D/3D Pooling)
a.PLLaVA、Video-ChatGPT、LongVLM等采用 temporal pooling(時間池化),實驗表明模型性能對時間池化更敏感。
b.LLaMA-VID對單圖像保留原始分辨率,對視頻幀則壓縮為單個token,大幅減少數據量。
c.空間池化:對單幀圖像進行下采樣(如LLaVA-Video用平均池化減少單幀token),但對長視頻效果有限。
d.時間池化:針對視頻幀序列進行下采樣,降低幀率以減少時間維度的token。例如:
e.混合策略:SlowFast-LLaVA-1.5采用雙路徑架構——“慢路徑”采樣少量高分辨率幀,“快路徑”采樣更多低分辨率幀,拼接后輸入LLM,在減少token的同時保留時空細節。
- 2D/3D卷積(2D/3D Convolution)與池化的簡單聚合不同,卷積通過學習濾波器捕捉時空特征并壓縮維度。例如: VideoLLaMA 2對比2D和3D卷積后發現,3D卷積能更好地學習復雜的時空關系,在性能和效率間取得平衡。
特點:
- 空間變換(池化/卷積)與圖像壓縮方法類似,時間變換是視頻特有的優化。
- 需平衡幀率/分辨率與信息保留(如24 FPS是捕捉完整動作的最低幀率,但實際常采用1 FPS采樣)。
2.2、基于相似性的視頻中心壓縮
針對視頻的時間冗余(相鄰幀高度相似),通過聚類或相似度匹配合并冗余幀或token,優先壓縮時間維度。核心思路主要包括:
- 對視頻幀進行聚類(基于幀級表示的相似度),合并非關鍵幀;
- 在聚類后的幀內進一步合并空間冗余token,最終保留“時空緊湊表示”。
- 代表性工作:
a.Chat-UniVi:先將每幀池化為單個幀級token,再用DPC-KNN(基于K近鄰的密度峰值聚類)合并相似幀,最后在簇內對多幀token二次聚類,得到時空緊湊表示。
b.PruneVid:與Chat-UniVi類似,但先合并時間上靜態的token(如靜止背景),再進行時空token合并,減少冗余。
c.HoliTom:將時間冗余壓縮視為優化問題,最大化聚類幀內的可壓縮冗余特征,更全面地處理時間維度冗余。
d.FrameFusion:針對流式視頻,在模型淺層直接合并超過相似度閾值的時間冗余token,適合實時處理。
優勢:通過聚類針對性減少時間冗余,壓縮效率高于單純空間壓縮。
局限性:過度合并可能丟失關鍵動態信息(如快速動作幀)。
2.3、基于注意力的視頻中心壓縮
利用注意力機制的稀疏性篩選重要token,與圖像壓縮思路類似,但需結合視頻的時序特性。
- 編碼器內注意力將視頻視為獨立幀的序列輸入圖像編碼器,通過幀內注意力分數篩選高重要性空間token(如PruMerge、VisionZip)。但此類方法忽略幀間關系,本質仍是“圖像級壓縮”的擴展。
- 解碼器內注意力在LLM解碼器中處理幀序列的拼接token,通過跨幀注意力捕捉時間關聯,并篩選關鍵時空token。例如:
a.FastV、ZipVL等延續圖像解碼器的注意力篩選策略,計算視頻token與文本查詢的交叉注意力,保留高相關token。
b.對長視頻采用窗口注意力(windowed attention),僅關注局部時間窗口內的幀,降低計算復雜度。
2.4、基于查詢的視頻中心壓縮
以文本查詢為引導,篩選與任務相關的關鍵幀或token,減少無關時序信息的冗余。
- token蒸餾通過專用適配器模塊(如Q-former、Token Turing Machines)將長視頻token蒸餾為少量緊湊表示:
a.Token Turing Machines(TTMs):維護外部“摘要token內存”,通過Transformer的讀寫機制逐幀壓縮輸入token與內存,支持長視頻的高效處理。
b.BLIP-3-Video:用時間編碼器將數百幀的視覺token抽象為16–32個時空token,平衡效率與信息保留。
c.LinVT:通過線性視頻tokenizer,結合時空評分和文本條件聚合,將幀級token壓縮為緊湊視頻token,使圖像LLM可直接處理視頻。
- 跨模態選擇基于查詢與視頻幀的相關性動態調整壓縮率,保留關鍵幀的更多信息:LongVU:計算每幀與查詢的相關性分數,對高相關幀采用低壓縮率(保留更多token),低相關幀采用高壓縮率,確保總token數在模型上下文窗口內。
優勢:聚焦查詢相關的時空信息,適合視頻問答、行為識別等任務。
局限性:依賴查詢質量,對無明確任務的場景(如視頻摘要)適用性有限。
3、以音頻為中心的Token壓縮
音頻數據作為多模態輸入的重要組成部分,其token數量隨采樣率和時長增加而顯著增長,給MLLMs的高效處理帶來挑戰。音頻信號本質是時間維度上的振幅變化(1D信號),通常通過頻譜圖(如梅爾頻譜圖)轉換為類圖像的2D表示,以便復用視覺處理技術。音頻中心的token壓縮需解決時間冗余(如長靜音段)和頻譜冗余(如特定頻率的重復信號),該部分也分為四類方法。
3.1、基于Transformer的音頻中心壓縮
這類方法通過下采樣操作直接減少音頻token數量,借鑒圖像壓縮中的變換思路,針對音頻的時間或頻譜維度進行壓縮。
- token堆疊類似圖像的“像素重排”操作,將連續的多個音頻token沿隱藏維度堆疊,減少總token數。例如:
a.HTS-AT最早將梅爾頻譜圖的2D特征通過像素重排減少音頻token;
b.SLAM-ASR、LLaMA-Omni等采用該技術,通過堆疊調整隱藏維度后,需用MLP對齊其他模態的維度。
- Pooling(池化)直接對音頻序列進行時間維度下采樣,無額外參數。例如:
a.Qwen2-audio、Qwen2.5-Omni使用步長為2的池化層,直接縮短音頻表示長度;
b.Llama-MTSK采用“套娃式(matryoshka)”訓練,通過多尺度平均池化或堆疊,實現推理時動態調整token數量,平衡壓縮率與性能。
- 時間卷積用1D卷積在時間維度上壓縮token,同時調整隱藏維度以適配后續LLM。例如: SpeechVerse、Baichuan-Audio等采用該技術,下采樣后音頻表示的有效采樣率通常為12.5 Hz,在減少token的同時保留關鍵時序特征。
特點:Transformer的方法均通過降低時間或頻譜維度減少token,其中池化和堆疊為無參數操作,卷積通過學習權重捕捉更復雜的局部特征。
3.2、基于相似性的音頻中心壓縮
通過度量音頻token的相似度,合并冗余token,保留獨特信息。核心思路類似視覺領域的ToMe方法,在音頻Transformer的層間插入token合并模塊,合并高相似度的相鄰token(如通過余弦相似度度量)。
- 代表性工作:A-ToMe:在多頭自注意力(MHSA)和前饋網絡(FFN)之間插入模塊,合并余弦相似度高的相鄰音頻token,減少冗余。
優勢:針對性去除時間或頻譜上的重復信息,適合處理包含長靜音或固定背景噪聲的音頻。
局限性:過度合并可能丟失短時關鍵信號(如突發聲音)。
3.3、基于注意力的音頻中心壓縮
利用注意力機制的稀疏性,通過注意力分數篩選高重要性token,修剪低關注度token。
- 編碼器內注意力在音頻Transformer塊中,基于自注意力分數保留top-K token。例如:Top-K:直接保留音頻頻譜圖Transformer中注意力分數最高的K個token,聚焦關鍵頻譜特征。
- 解碼器內注意力在LLM解碼器中,基于音頻token與文本token的交叉注意力分數篩選關鍵token。例如:SpeechPrune:利用LLM第一層的注意力分數,在處理早期修剪低重要性音頻token,減少后續計算量。
優勢:動態適配音頻內容的重要性,保留與任務相關的關鍵信號(如語音中的關鍵詞)。局限性:需顯式計算注意力分數,與優化加速庫(如FlashAttention)兼容性差,可能增加額外開銷。
3.4、基于查詢的音頻中心壓縮
以文本查詢或其他模態信息為引導,壓縮與任務無關的音頻token,分為token蒸餾和跨模態選擇兩類。
- token蒸餾用可學習查詢token提取音頻的關鍵信息,壓縮為固定長度的緊湊表示。例如:
a.Video-LLaMA、SALMONN系列:通過音頻Q-former將變長音頻輸入轉換為固定長度的可學習查詢序列,供LLM處理;
b.MMCE-Qformer:結合全局聲學上下文(通過可學習查詢提取)和局部文本相關聲學特征(通過文本引導的交叉注意力),蒸餾出緊湊的音頻表示;
c.MMS-LLaMA:先通過“早期音視頻融合模塊”減半序列長度,再用AV Q-Former進一步壓縮為固定數量的查詢token,捕捉完整語音上下文。
- 跨模態選擇利用音頻與其他模態(如文本)的相關性篩選關鍵token。例如:SpeechPrune:計算音頻-文本的余弦相似度矩陣,基于跨模態相關性修剪無關音頻token,保留語義重要的片段。
優勢:壓縮后的token與查詢高度相關,適合語音識別、音頻問答等任務。局限性:依賴查詢質量,對無明確任務的場景(如音頻摘要)適用性有限。
總結:音頻中心的token壓縮針對時間和頻譜冗余,核心策略包括:
- 變換方法通過堆疊、池化或卷積直接減少token,適合保留全局時序結構;
- 相似性方法合并高相似度token,有效去除重復信號;
- 注意力方法動態篩選關鍵token,可解釋性強但受限于加速庫兼容性;
- 查詢方法聚焦任務相關音頻信息,適合交互式場景。
參考文獻:When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios,https://arxiv.org/pdf/2507.20198
本文轉載自???大模型自然語言處理??? 作者:llmnlp

















