多模態文檔理解視覺token剪枝思路 原創
多模態大模型VLMs視覺token數量多會影響推理的計算性能,也有相關工作在token壓縮上進行了研究,token剪枝是與token壓縮不同的提高計算性能的另一種方法,下面來看一個專為文檔理解設計的剪枝思路,在多模態文檔理解場景的視覺token的剪枝工作,目標是在VLMs處理文檔圖像前,提前過濾無信息背景區域,以降低計算成本同時保持文檔理解性能。

如上圖框架三個組件:二值文本-區域分類器(綠色)、保持索引的 token 剪枝(藍色)以及一個凍結的現成視覺語言模型(灰色)。文本區域被檢測并輸入到視覺語言模型中。
1. 組件1:輕量級文本區域二分類器
預測每個圖像塊是否包含文本(前景)或可被丟棄(背景)。
思路:將輸入文檔圖像分割為固定大小的正方形Patch(最終選28×28),二分類器逐Patch預測“1(文本前景)”或“0(背景)”;

28×28準確率最高
數據集構建:AI-Hub采樣800張OCR文檔圖像(覆蓋掃描件、照片、收據等),用PSENet(文本檢測模型)提取文本 bounding box,若一個Patch與任意文本框重疊,則標記為“前景”,否則為“背景”。
2. 組件2:保留索引的 Token 剪枝
文檔理解的核心需求是文本的空間語義(如段落順序、表格布局、公式位置),而現有剪枝方法(如ToMe、DynamicViT)會打亂Token的原始空間索引(如合并時重排Token),導致VLM無法理解文本的空間關系,進而性能崩潰。


索引保留邏輯:
- 每個Patch在分割時都綁定一個“原始空間索引”(對應其在原圖中的行列位置,如第i行第j列的Patch索引為(i,j));
- 剪枝時僅保留分類器預測為“前景”的Patch,且不改變其原始索引,將“Patch特征+原始索引”一同傳入VLM的視覺編碼器和語言解碼器;
為什么要保留索引?:
- 語言解碼器依賴索引判斷文本順序(如“第1行標題→第2行正文”),若索引丟失,輸入VLM的Patch會變成“無序拼接”,導致生成無意義文本;
- 消融實驗:常數索引(所有Patch索引為0)、隨機索引、有序索引(0到L-1遞增)的性能均遠低于“保留原始索引”,其中保留索引的Scan文檔ANLS達61.8,而常數索引僅9.1,證明空間索引對文檔理解的決定性作用;

索引策略在 token 剪枝中的消融研究
3. 組件3:最大池化前景修復
Patch級二分類器存在固有缺陷:易誤判文本邊緣的Patch為背景,導致前景區域碎片化(如一句話中間缺幾個Patch),進而影響VLM對完整文本的理解(如下表)。


因此引入“3×3最大池化”操作,修復碎片化的前景區域,增強文本的空間連貫性。
細節:分類器輸出的二值Mask(1=前景,0=背景);修復:對二值Mask執行3×3最大池化——若一個“被誤判為背景的Patch”其3×3鄰域內有“前景Patch”,則將該Patch修正為前景,從而恢復相鄰的丟失文本區域;
實驗性能

參考文獻:INDEX-PRESERVING LIGHTWEIGHT TOKEN PRUNING FOR EFFICIENT DOCUMENT UNDERSTANDING IN VISION-LANGUAGE MODELS,https://arxiv.org/pdf/2509.06415v1
本文轉載自???大模型自然語言處理?? 作者:llmnlp

















