多模態大模型中不同分辨率策略研究與原生分辨率的有效性評估 原創
目前多模態在圖像分辨率輸入上的方法主要有以下幾種:
1.上采樣方法:通過提升位置編碼的分辨率,整合多尺度圖像表征。代表:Qwen-VL、S2 extension,通過擴展視覺特征的分辨率范圍適配高分辨率輸入。
2.基于裁剪的方法
圍繞圖像的預處理,包括歸一化、縮放、裁剪、根據寬高比動態處理等操作如下圖:預設一個默認分辨率,稱之為tile,隨后將圖片切分成子圖,每個子圖的shape與tile一致,再在batch維度做拼接。tiling還會將原圖也resize到tile的shape,和子圖拼接在一起,以保留全局信息。代表:LLaVA-NeXT、InternVL、DeepseekVL2,通過分塊處理平衡分辨率與計算成本。

動態分辨率
3.混合視覺編碼器:結合高分辨率和低分辨率編碼器,對圖像進行多分辨率編碼。代表:Cambrian-1、Eagle 2,通過融合不同分辨率特征提升細節捕捉能力。
4.原生分辨率編碼:使用原生分辨率ViT直接處理動態分辨率圖像,保留原始分辨率和寬高比。代表:Qwen-2VL、Kimi-VL、OceanOCR、Seed1.5-VL、NaViT等,是近年新興的策略,更貼近真實世界圖像的多樣性。

NaViT
如下圖,目前,缺乏一個針對分辨率的評估,因此通過提出 RC-Bench 基準和 NativeRes-LLaVA 框架探索VLMs分辨率敏感性問題。有一些結論可以看看,供參考。

方法
一、RC-Bench

RC-Bench 的生成流水線
針對現有基準的兩大缺陷(分辨率分布失衡、忽視任務敏感性),RC-Bench的設計目標是:
- 模擬真實世界的視覺多樣性:覆蓋極端分辨率(從<100×100到>8K)和寬高比(極寬16:1、極高1:8);
- 通過細粒度任務和指標,揭示分辨率/寬高比對模型精度的具體作用;
- 為原生分辨率編碼等策略提供公平的評估工具(如對比裁剪、混合編碼器)。
RC-Bench聚焦分辨率中心任務:
- 答案必須通過高分辨率圖像細節獲取,如:
a.文檔場景:提取手寫文字、表格數據(圖4左下:“GST ID”需識別模糊字體);
b.圖表場景:解析坐標軸標簽、折線交點數值;
- 包含寬高比變形導致的信息扭曲(如豎版文檔壓縮為低分辨率后文字重疊);
- 結合文本、圖表、符號等混合元素(如圖A.5示例:化學方程式需識別酶名稱)。
二、模型方法、策略
1、模型架構

NativeRes-LLaVA架構如上圖,“視覺編碼→特征壓縮→模態橋接→語言生成”的端到端框架:
- 原生分辨率視覺編碼器:直接處理任意分辨率和寬高比的圖像,輸出動態長度的視覺特征to'k'ne(visual tokens)。基于原生分辨率ViT(視覺Transformer),采用2D Rotary Position Embedding(2D RoPE)進行位置編碼。2D RoPE通過將圖像的寬高維度分別映射到旋轉矩陣中,使位置編碼能自適應不同尺寸的圖像(如100×2000的豎版文檔或2000×100的寬幅全景圖),解決了傳統固定位置編碼無法適配動態分辨率的問題。
- 壓縮模塊:減少視覺編碼器輸出的token數量,平衡細節保留與計算效率。通過2×2鄰域平均池化(patch merging)對視覺特征進行壓縮。例如,若視覺編碼器將336×336圖像分割為14×14的patch(生成576個token),壓縮模塊會將相鄰2×2的patch合并為1個,最終輸出144個token(576÷4=144),大幅降低后續LLM的輸入負擔。
- 兩層MLP:鏈接視覺-語言模態。
- LLM:Qwen2-7B-Instruct
2、原生分辨率視覺編碼機制
- 動態分辨率適配:視覺編碼器原生支持任意分辨率輸入(如224×28、260×56、700×1260等),無需裁剪或縮放,完整保留圖像的原始寬高比和細節。 對比傳統方法(如裁剪會破壞全局結構,上采樣會引入冗余信息),原生編碼避免了預處理導致的信息丟失。
- 2D RoPE位置編碼:傳統ViT使用1D位置編碼,無法區分圖像的寬高維度,導致不同尺寸圖像的位置信息混淆。2D RoPE通過將位置(i,j)映射到二維旋轉矩陣(其中i為寬度方向坐標,j為高度方向坐標),使位置編碼能隨圖像尺寸動態調整,確保視覺特征的空間關系被準確保留(如豎版文檔中文字的上下順序)。
- 特征壓縮與token控制:為避免高分辨率圖像生成過多token(導致LLM輸入長度超限),通過“patch分割→平均池化”兩步壓縮:
a.第一步:將圖像按14×14的patch分割(如336×336圖像生成(336/14)×(336/14)=24×24=576個patch);
b.第二步:對相鄰2×2的patch進行平均池化,合并為1個token(576→144個token),既減少計算量,又保留局部特征的聚合信息。
3、多模態序列打包策略
原生分辨率編碼會導致視覺token長度隨圖像尺寸動態變化(如小圖標生成少量token,8K圖像生成大量token),傳統固定長度處理(如填充至最長序列)會引入冗余計算。NativeRes-LLaVA通過以下策略解決這一問題:
- Patch n’ Pack序列拼接:借鑒NaViT的方法,將一個批次(batch)中不同圖像的視覺token序列直接拼接為一個連續序列(packed sequence),而非每個圖像單獨填充至固定長度。例如,批次中包含圖像I?(生成N?個token)和I?(生成N?個token),拼接后總長度為N?+N?,避免了(N_max - N?)+(N_max - N?)的冗余填充(N_max為批次中最長序列長度)。
- 可變長度閃電注意力:拼接后的序列包含多個圖像的token,需確保每個圖像的注意力計算獨立(避免跨圖像干擾)。通過記錄每個圖像的token長度累積值(如I?的token范圍為[0,N?),I?為[N?,N?+N?)),Flash Attention在計算時僅在每個圖像的范圍內進行自注意力操作,既保證并行計算效率,又維持了單圖像特征的完整性。
實驗性能



高分辨率消融實驗

基于裁剪和原生分辨率策略在 RC-Bench 上的消融研究

視覺編碼策略在 RC-Bench 上的比較。該圖展示了在 728 × 728 分辨率下,原生分辨 率方法(b)與基于裁剪的方法(a)在準確率上的變化。(c)部分,準確率差異,展示了每個單元中通過從原生分辨率方法的準確率中減去基于裁剪方法的準確率所得到的值(即,(b) –(a))。
- 特定情況下的性能下降:原生分辨率方法在特定配置(NM, B)下表現出顯著的性能下降(準確率差異為-0.29)。這表明在此特定任務中,基于裁剪的方法表現明顯更優。
- 常見場景下的性能相當:在大多數其他常見分辨率和寬高比組合中,原生分辨率方法與基于裁剪的方法性能基本相當,準確率差異接近于零,如圖 6(c) 中眾多淺色單元所示。
- 極端場景下的卓越魯棒性:關鍵的是,原生分辨率方法在處理具有極端寬高比(例如,BH 行)或極端區域(例如,G 列)的圖像時表現出明顯優勢。圖 6(c) 中的深綠色單元(例如,(AH, A) 處的 +0.24 和 (AW, E) 處的 +0.26)為此提供了強有力的證據。這表明,原生分辨率方法在面對多樣化和非傳統的視覺數據時具有更強的魯棒性。
參考文獻:
- Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models,https://arxiv.org/pdf/2506.12776
- Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution,https://arxiv.org/pdf/2307.06304
本文轉載自????大模型自然語言處理???? 作者:llmnlp

















