精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架

發(fā)布于 2025-4-27 23:54
瀏覽
0收藏

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

2025-04-24|USYD, Deep Glint, Alibaba Group, ICL(Imperial)|??28

??http://arxiv.org/abs/2504.17432v1???
???https://huggingface.co/papers/2504.17432???
???https://garygutc.github.io/UniME??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  • 背景概述:當(dāng)前多模態(tài)表示學(xué)習(xí)領(lǐng)域,CLIP框架因其跨模態(tài)對(duì)比學(xué)習(xí)能力被廣泛采用,尤其在圖文檢索和聚類任務(wù)中表現(xiàn)突出。然而,CLIP存在文本長(zhǎng)度限制、圖文編碼解耦以及組合性不足等瓶頸,限制了其在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。
  • 挑戰(zhàn)點(diǎn):現(xiàn)有模型難以有效捕捉細(xì)粒度語(yǔ)義和復(fù)雜指令,且在區(qū)分難負(fù)樣本時(shí)表現(xiàn)不佳,影響了多模態(tài)表示的判別能力和泛化性能。
  • 研究目標(biāo):本文提出UniME框架,旨在突破模態(tài)壁壘,利用多模態(tài)大語(yǔ)言模型(MLLMs)學(xué)習(xí)通用且具備強(qiáng)判別能力的多模態(tài)嵌入,提升跨任務(wù)的表現(xiàn)力和組合理解能力。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

技術(shù)框架:UniME采用兩階段訓(xùn)練策略:

  • 文本判別知識(shí)蒸餾:從強(qiáng)大的LLM教師模型遷移判別知識(shí),增強(qiáng)MLLM語(yǔ)言組件的嵌入能力。該階段通過(guò)文本輸入訓(xùn)練,利用KL散度對(duì)齊學(xué)生模型與教師模型的嵌入分布,有效克服因自回歸結(jié)構(gòu)導(dǎo)致的判別力不足。
  • 難負(fù)樣本增強(qiáng)指令調(diào)優(yōu):通過(guò)過(guò)濾偽負(fù)樣本和采樣多樣化的難負(fù)樣本,強(qiáng)化模型對(duì)細(xì)粒度差異的敏感性,提升跨模態(tài)對(duì)齊和指令執(zhí)行能力。該階段結(jié)合多模態(tài)輸入和任務(wù)特定指令,進(jìn)一步優(yōu)化嵌入判別力。

創(chuàng)新點(diǎn)

  • 引入基于教師模型的判別知識(shí)蒸餾,顯著提升語(yǔ)言組件嵌入的判別力。
  • 設(shè)計(jì)偽負(fù)樣本過(guò)濾機(jī)制和多難負(fù)樣本采樣策略,有效解決難負(fù)樣本辨識(shí)難題,增強(qiáng)模型泛化能力。
  • 結(jié)合任務(wù)指令調(diào)優(yōu),提升復(fù)雜檢索和視覺(jué)問(wèn)答等任務(wù)的執(zhí)行效果。

理論基礎(chǔ):結(jié)合信息論中的KL散度優(yōu)化和對(duì)比學(xué)習(xí)中的InfoNCE損失,理論上保證了模型在判別性和對(duì)齊能力上的提升。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

實(shí)驗(yàn)設(shè)計(jì)

  • 訓(xùn)練數(shù)據(jù)涵蓋273k自然語(yǔ)言推理文本對(duì)和MMEB基準(zhǔn)中的20個(gè)多模態(tài)任務(wù)數(shù)據(jù),保證多樣性和任務(wù)覆蓋。
  • 評(píng)估指標(biāo)主要為Precision@1和Recall@1,覆蓋分類、視覺(jué)問(wèn)答、檢索和視覺(jué)定位等多種任務(wù)。
  • 對(duì)比基線包括CLIP、EVA-CLIP、E5-V、VLM2Vec等多模態(tài)模型,涵蓋不同規(guī)模和結(jié)構(gòu)。

主要結(jié)果

  • UniME在MMEB基準(zhǔn)上平均提升4.1%-4.2%的性能,尤其在視覺(jué)問(wèn)答和檢索任務(wù)中表現(xiàn)突出。
  • 在短文本和長(zhǎng)文本圖文檢索任務(wù)中,UniME通過(guò)兩階段訓(xùn)練分別帶來(lái)顯著提升,最終性能超過(guò)VLM2Vec和EVA-CLIP。
  • 組合性檢索任務(wù)中,UniME展示了更強(qiáng)的語(yǔ)義理解和判別能力,部分指標(biāo)提升幅度達(dá)15.9%以上。
  • 統(tǒng)計(jì)顯著性:訓(xùn)練過(guò)程中,硬負(fù)樣本帶來(lái)的梯度顯著高于易負(fù)樣本,訓(xùn)練損失穩(wěn)定且收斂良好,表明模型有效學(xué)習(xí)了更具挑戰(zhàn)性的判別信息。
  • 多場(chǎng)景表現(xiàn):UniME在跨模態(tài)多任務(wù)、不同數(shù)據(jù)分布(內(nèi)外部分布)下均表現(xiàn)出穩(wěn)健性和優(yōu)越性,驗(yàn)證了其通用嵌入的有效性。

結(jié)論與展望

研究貢獻(xiàn)總結(jié)

  • 提出了一種創(chuàng)新的兩階段訓(xùn)練框架,成功提升了MLLM的多模態(tài)判別嵌入能力。
  • 通過(guò)知識(shí)蒸餾與難負(fù)樣本增強(qiáng),顯著改善了模型在細(xì)粒度語(yǔ)義理解和復(fù)雜指令執(zhí)行上的表現(xiàn)。
  • 實(shí)驗(yàn)驗(yàn)證了UniME在多任務(wù)、多數(shù)據(jù)集上的優(yōu)越性能,推動(dòng)了多模態(tài)大語(yǔ)言模型在通用嵌入學(xué)習(xí)領(lǐng)域的應(yīng)用。

局限性分析

  • 訓(xùn)練過(guò)程對(duì)計(jì)算資源需求較高,尤其是在大規(guī)模硬負(fù)樣本采樣階段。
  • 目前模型在極長(zhǎng)文本處理和極端復(fù)雜組合任務(wù)上仍有提升空間。

未來(lái)展望

  • 探索更高效的硬負(fù)樣本采樣與過(guò)濾機(jī)制,降低訓(xùn)練成本。
  • 結(jié)合更先進(jìn)的視覺(jué)編碼器和更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),進(jìn)一步提升模型泛化能力。
  • 拓展模型在跨模態(tài)生成、交互式多模態(tài)理解等更廣泛應(yīng)用場(chǎng)景中的表現(xiàn)。

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

2025-04-24|KAIST, Stanford U, NVIDIA|??18

??http://arxiv.org/abs/2504.17207v1???
???https://huggingface.co/papers/2504.17207???
???https://apc-vlm.github.io/??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  • 問(wèn)題定義與挑戰(zhàn)視覺(jué)語(yǔ)言模型(VLMs)在空間推理方面取得了顯著進(jìn)展,但仍存在嚴(yán)重的視角偏見(jiàn),主要局限于攝像頭視角的自我中心(egocentric)空間理解,難以實(shí)現(xiàn)從任意參考視角(allocentric)進(jìn)行空間推理。該缺陷限制了VLMs在導(dǎo)航、環(huán)境交互和協(xié)作等高階智能任務(wù)中的應(yīng)用能力。
  • 現(xiàn)狀概述現(xiàn)有研究多聚焦提升VLMs的自我中心空間推理能力,盡管通過(guò)深度學(xué)習(xí)和視覺(jué)適配器等技術(shù)增強(qiáng)了模型對(duì)空間關(guān)系的感知,但對(duì)視角轉(zhuǎn)換的支持仍極其有限。即使有指令調(diào)優(yōu)嘗試,模型仍傾向于回歸攝像頭視角,缺乏真正的多視角空間理解能力。
  • 研究意義該論文提出通過(guò)模擬人類“心理意象”(mental imagery)機(jī)制,構(gòu)建抽象的場(chǎng)景表示,使VLMs能夠從任意視角進(jìn)行空間推理,突破了傳統(tǒng)VLMs的視角限制。這不僅提升了模型的空間認(rèn)知能力,也為實(shí)現(xiàn)更接近人類的視覺(jué)理解和智能交互奠定了基礎(chǔ)。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

核心方法框架——APC(Abstract Perspective Change)APC框架由三個(gè)關(guān)鍵階段構(gòu)成:

  • 數(shù)值文本提示,直接提供3D坐標(biāo)和方向信息;
  • 抽象視覺(jué)提示,將對(duì)象以彩色立方體形式渲染,形成簡(jiǎn)化視覺(jué)場(chǎng)景,輔以對(duì)應(yīng)的文本映射,強(qiáng)化模型的空間感知。
  1. 場(chǎng)景抽象構(gòu)建:利用現(xiàn)成的視覺(jué)基礎(chǔ)模型(如目標(biāo)檢測(cè)、圖像分割、方向估計(jì))從輸入圖像中提取對(duì)象,構(gòu)建包含對(duì)象3D位置和朝向的粗略三維抽象表示。
  2. 視角轉(zhuǎn)換:選定參考視角(參考觀察者),將抽象場(chǎng)景從攝像頭坐標(biāo)系轉(zhuǎn)換到該視角的自我中心坐標(biāo)系,實(shí)現(xiàn)視角的“重新定位”。
  3. 視角提示生成:將轉(zhuǎn)換后的抽象場(chǎng)景以兩種形式輸入VLM:

創(chuàng)新點(diǎn)

  • 模擬人類心理意象,通過(guò)構(gòu)建抽象的三維場(chǎng)景表示,使VLMs擺脫對(duì)原始攝像頭視角的依賴,實(shí)現(xiàn)多視角空間推理。
  • 視角轉(zhuǎn)換機(jī)制,將復(fù)雜的allocentric問(wèn)題轉(zhuǎn)化為VLM擅長(zhǎng)處理的egocentric問(wèn)題,巧妙利用現(xiàn)有模型的能力。
  • 多模態(tài)提示設(shè)計(jì),數(shù)值與視覺(jué)提示的結(jié)合,既提供精確的空間信息,又保留視覺(jué)直觀性,提升推理準(zhǔn)確性和魯棒性。
  • 通用性強(qiáng),框架適用于多種空間推理任務(wù)和數(shù)據(jù)集,無(wú)需專門針對(duì)特定任務(wù)或視角進(jìn)行微調(diào)。

理論基礎(chǔ)

     研究借鑒認(rèn)知科學(xué)中關(guān)于心理意象的理論,強(qiáng)調(diào)人類通過(guò)抽象視覺(jué)和空間表征實(shí)現(xiàn)視角切換的能力,為計(jì)算機(jī)視覺(jué)提供了新的啟發(fā)。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

實(shí)驗(yàn)設(shè)計(jì)

  • 采用兩個(gè)主流空間推理基準(zhǔn):
  • 對(duì)比對(duì)象包括多款開(kāi)源和專有VLM(如Qwen2.5-VL、LLaVA、GPT-4o等)、專門針對(duì)空間推理設(shè)計(jì)的模型(SpatialVLM、SpatialRGPT、SpatialPIN)以及基于密集重建的視角合成方法(SpatialPIN*、ViewCrafter)。
  • 評(píng)估指標(biāo)為空間推理準(zhǔn)確率,特別關(guān)注模型在不同視角偏差(角度θ)下的表現(xiàn),以測(cè)試視角感知能力的魯棒性。
  1. **COMFORT++**(合成場(chǎng)景,評(píng)估左/右、遠(yuǎn)近、可見(jiàn)性和朝向等多種空間關(guān)系);
  2. 3DSRBench(真實(shí)圖像,涉及多視角空間推理)。

結(jié)果分析

  • APC顯著超越所有基線,視覺(jué)提示版本(APC-Vis)在COMFORT++左/右任務(wù)中達(dá)到近90%準(zhǔn)確率,較最佳基線提升約40個(gè)百分點(diǎn)。
  • 在更復(fù)雜的可見(jiàn)性和朝向任務(wù)中,APC依然保持60%以上準(zhǔn)確率,表現(xiàn)優(yōu)于多數(shù)基線。
  • 數(shù)值提示版本雖稍遜于視覺(jué)提示,但也大幅領(lǐng)先傳統(tǒng)方法。
  • 在3DSRBench真實(shí)圖像任務(wù)中,APC同樣展示出強(qiáng)勁性能,表明框架對(duì)現(xiàn)實(shí)場(chǎng)景具備良好適應(yīng)性。
  • 視角偏差實(shí)驗(yàn)顯示,傳統(tǒng)模型準(zhǔn)確率隨視角偏移顯著下降,而APC在整個(gè)角度范圍內(nèi)均保持高準(zhǔn)確率,驗(yàn)證了其強(qiáng)大的視角轉(zhuǎn)換和多視角推理能力。
  • 視覺(jué)提示能夠有效緩解數(shù)值提示中模型出現(xiàn)的邏輯錯(cuò)誤,提升推理的準(zhǔn)確性和穩(wěn)定性。

結(jié)論與展望

總結(jié)貢獻(xiàn)

  • 本文提出的APC框架通過(guò)模擬人類心理意象機(jī)制,實(shí)現(xiàn)了VLM的視角感知能力突破,支持任意參考視角的空間推理。該方法有效結(jié)合視覺(jué)基礎(chǔ)模型和VLM的優(yōu)勢(shì),通過(guò)抽象場(chǎng)景構(gòu)建和視角轉(zhuǎn)換,將allocentric推理轉(zhuǎn)化為egocentric推理,顯著提升多項(xiàng)空間推理任務(wù)的性能。實(shí)驗(yàn)驗(yàn)證了APC在合成及真實(shí)數(shù)據(jù)集上的優(yōu)越性和魯棒性,展示了其廣泛的應(yīng)用潛力。

局限性分析

  • 場(chǎng)景抽象依賴于視覺(jué)基礎(chǔ)模型的準(zhǔn)確性,深度估計(jì)、對(duì)象定位和方向估計(jì)的誤差會(huì)影響最終推理效果。
  • 當(dāng)前方法對(duì)復(fù)雜動(dòng)態(tài)場(chǎng)景和大規(guī)模對(duì)象環(huán)境的適應(yīng)性尚需進(jìn)一步驗(yàn)證。
  • 數(shù)值提示存在邏輯推理錯(cuò)誤的風(fēng)險(xiǎn),視覺(jué)提示雖有效緩解但仍有提升空間。

方法展望

  • 未來(lái)可探索更精細(xì)的場(chǎng)景抽象技術(shù),結(jié)合多模態(tài)傳感器數(shù)據(jù)提升三維重建精度。
  • 結(jié)合強(qiáng)化學(xué)習(xí)或自監(jiān)督學(xué)習(xí),增強(qiáng)模型對(duì)視角轉(zhuǎn)換的內(nèi)在理解和泛化能力。
  • 擴(kuò)展至動(dòng)態(tài)場(chǎng)景和視頻數(shù)據(jù),實(shí)現(xiàn)連續(xù)視角切換和時(shí)空推理。
  • 探索與機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等實(shí)際應(yīng)用的深度融合,推動(dòng)VLM在真實(shí)環(huán)境中的智能交互能力。

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

2025-04-23|UIUC, Salesforce Research|??8

??http://arxiv.org/abs/2504.17040v1???
???https://huggingface.co/papers/2504.17040???
???https://mikewangwzhl.github.io/dymu??

研究背景與意義

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 問(wèn)題定義與現(xiàn)狀概述視覺(jué)-語(yǔ)言模型(Vision-Language Models,VLMs)通過(guò)視覺(jué)編碼器將圖像轉(zhuǎn)換為固定長(zhǎng)度的視覺(jué)token序列,再與文本token結(jié)合進(jìn)行多模態(tài)理解。然而,當(dāng)前主流的視覺(jué)編碼器(如ViT架構(gòu))為固定分辨率的圖像生成固定數(shù)量的視覺(jué)token,不論圖像內(nèi)容復(fù)雜度如何,token數(shù)量均不變,導(dǎo)致計(jì)算資源浪費(fèi),尤其在處理簡(jiǎn)單圖像時(shí)效率低下。
  2. 挑戰(zhàn)點(diǎn)
  • 固定長(zhǎng)度的視覺(jué)token導(dǎo)致計(jì)算資源與圖像內(nèi)容不匹配,簡(jiǎn)單圖像無(wú)法減少計(jì)算負(fù)擔(dān)。
  • 現(xiàn)有減少token數(shù)量的方法多為固定壓縮比例,缺乏對(duì)圖像復(fù)雜度的動(dòng)態(tài)適應(yīng)。
  • 訓(xùn)練自由(training-free)方法多忽視視覺(jué)編碼器本身的token冗余,且在減少token時(shí),保持下游任務(wù)性能是一大難題。
  1. 研究目標(biāo)本文旨在提出一種訓(xùn)練自由的動(dòng)態(tài)視覺(jué)token壓縮框架DYMU(Dynamic Merging and Virtual Unmerging),根據(jù)圖像復(fù)雜度動(dòng)態(tài)調(diào)整視覺(jué)token數(shù),既減少計(jì)算開(kāi)銷,又保持VLM性能,且適用于多種主流視覺(jué)編碼器和語(yǔ)言模型架構(gòu)。

研究方法與創(chuàng)新

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 核心技術(shù)描述
  • 動(dòng)態(tài)token合并(Dynamic Token Merging,DToMe)通過(guò)基于視覺(jué)token的相似度,采用層級(jí)雙邊匹配算法,動(dòng)態(tài)合并冗余的視覺(jué)token。閾值由大規(guī)模圖像數(shù)據(jù)統(tǒng)計(jì)獲得,支持根據(jù)圖像復(fù)雜度自適應(yīng)調(diào)整token數(shù)量,避免固定壓縮比例帶來(lái)的性能損失。
  • 虛擬token解合(Virtual Token Unmerging,VTU)解決語(yǔ)言模型對(duì)固定長(zhǎng)度視覺(jué)token序列的依賴。VTU通過(guò)稀疏矩陣映射和旋轉(zhuǎn)位置編碼(RoPE)線性特性,重構(gòu)完整的視覺(jué)token序列的注意力矩陣,從而在不增加訓(xùn)練的前提下,保持語(yǔ)言模型對(duì)視覺(jué)信息的完整感知。
  1. 創(chuàng)新點(diǎn)詳解
  • 內(nèi)容感知的動(dòng)態(tài)token壓縮不同于傳統(tǒng)固定長(zhǎng)度token,DToMe根據(jù)圖像內(nèi)容復(fù)雜度動(dòng)態(tài)調(diào)整token數(shù),提升資源利用率。
  • 訓(xùn)練自由且兼容主流模型DYMU無(wú)需額外訓(xùn)練,直接應(yīng)用于現(xiàn)有ViT視覺(jué)編碼器和RoPE-based語(yǔ)言模型,方便快速部署。
  • 高效的虛擬token重構(gòu)機(jī)制VTU利用矩陣稀疏性和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)性質(zhì),實(shí)現(xiàn)在減少token數(shù)的同時(shí),準(zhǔn)確模擬完整token序列的注意力機(jī)制,兼顧效率與性能。
  • 層級(jí)閾值統(tǒng)計(jì)方法采用大規(guī)模圖像集統(tǒng)計(jì),針對(duì)每個(gè)Transformer層計(jì)算合并閾值,確保動(dòng)態(tài)合并的穩(wěn)定性和泛化能力。
  1. 方法優(yōu)勢(shì)與理論基礎(chǔ)
  • 計(jì)算復(fù)雜度降低通過(guò)減少視覺(jué)token數(shù)量,顯著降低視覺(jué)編碼器及后續(xù)自注意力層的計(jì)算開(kāi)銷,理論上計(jì)算量與token數(shù)線性相關(guān),實(shí)踐中實(shí)現(xiàn)近線性加速。
  • 性能保持與提升結(jié)合DToMe和VTU,DYMU在多種視覺(jué)任務(wù)中保持甚至超越固定長(zhǎng)度token方法的性能,尤其在復(fù)雜圖像上表現(xiàn)更優(yōu)。
  • 理論嚴(yán)謹(jǐn)充分利用Transformer注意力機(jī)制的線性代數(shù)性質(zhì)和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)結(jié)構(gòu),保證重構(gòu)注意力矩陣的準(zhǔn)確性和效率。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動(dòng)態(tài)視覺(jué)token壓縮框架-AI.x社區(qū)

  1. 實(shí)驗(yàn)設(shè)置
  • 視覺(jué)編碼器采用CLIP和SigLIP等主流ViT架構(gòu),語(yǔ)言模型包括Vicuna-7B和Qwen2。
  • 評(píng)測(cè)基準(zhǔn)涵蓋多模態(tài)理解和推理任務(wù),如GQA、MMBench、MME、POPE、TextVQA、ScienceQA等,以及視頻理解任務(wù)。
  • 采用大規(guī)模多樣化圖像數(shù)據(jù)集(如LLaVA指令調(diào)優(yōu)數(shù)據(jù)集)統(tǒng)計(jì)合并閾值,保證方法泛化。
  • 對(duì)比對(duì)象涵蓋固定長(zhǎng)度壓縮(如ToMe)和其他訓(xùn)練自由壓縮方法。
  1. 結(jié)果表現(xiàn)
  • DYMU在減少視覺(jué)token數(shù)達(dá)32%-85%的同時(shí),保持了97.7%-100.4%的平均性能,相較于固定長(zhǎng)度壓縮方法在復(fù)雜圖像上有明顯優(yōu)勢(shì)。
  • VTU顯著提升了語(yǔ)言模型處理動(dòng)態(tài)token序列的性能穩(wěn)定性,消除了token數(shù)變化帶來(lái)的性能波動(dòng)。
  • 通過(guò)圖像復(fù)雜度與token數(shù)的強(qiáng)相關(guān)性驗(yàn)證,DYMU能夠根據(jù)圖像內(nèi)容智能分配token預(yù)算。
  • 在Any-Resolution模型(LLaVA-OneVision)和視頻任務(wù)中,DYMU同樣展現(xiàn)出良好的適配性和性能保持能力。
  • 不同閾值設(shè)定(低、中、高)實(shí)現(xiàn)了性能與計(jì)算資源的靈活權(quán)衡,滿足多場(chǎng)景需求。
  1. 統(tǒng)計(jì)顯著性與多場(chǎng)景表現(xiàn)
  • 通過(guò)多任務(wù)、多數(shù)據(jù)集驗(yàn)證,DYMU表現(xiàn)穩(wěn)定,且對(duì)閾值估計(jì)數(shù)據(jù)集的選擇不敏感,體現(xiàn)了方法的魯棒性。
  • 結(jié)合背景移除、OCR、目標(biāo)檢測(cè)等視覺(jué)預(yù)處理工具,DYMU進(jìn)一步降低token數(shù),展示了良好的擴(kuò)展性和靈活性。

結(jié)論與展望

  1. 研究貢獻(xiàn)總結(jié)
  • 提出了首個(gè)訓(xùn)練自由、動(dòng)態(tài)視覺(jué)token壓縮框架DYMU,解決了視覺(jué)token固定長(zhǎng)度帶來(lái)的計(jì)算資源浪費(fèi)問(wèn)題。
  • 創(chuàng)新設(shè)計(jì)了動(dòng)態(tài)token合并與虛擬token解合兩大模塊,實(shí)現(xiàn)了內(nèi)容感知的token壓縮與語(yǔ)言模型對(duì)變長(zhǎng)token序列的高效處理。
  • 在多種視覺(jué)語(yǔ)言模型和任務(wù)上驗(yàn)證了DYMU的有效性和泛化能力,顯著提升了計(jì)算效率且保持甚至提升了性能。
  • 通過(guò)大規(guī)模圖像統(tǒng)計(jì)方法確定合并閾值,保證了動(dòng)態(tài)合并的穩(wěn)定性和實(shí)用性。
  1. 局限性分析
  • 對(duì)空間敏感的任務(wù)(如TextVQA和空間推理)性能仍有一定下降,提示token合并可能破壞部分細(xì)粒度空間信息。
  • 虛擬token解合雖然有效,但仍存在輕微的性能折損,未來(lái)可進(jìn)一步優(yōu)化重構(gòu)精度。
  • 目前主要針對(duì)視覺(jué)token壓縮,視頻時(shí)間維度冗余尚未充分利用。
  1. 未來(lái)工作展望
  • 探索針對(duì)空間敏感任務(wù)的自適應(yīng)token合并策略,提升細(xì)粒度空間信息保留能力。
  • 優(yōu)化虛擬token解合算法,減少重構(gòu)誤差,進(jìn)一步提升下游任務(wù)性能。
  • 擴(kuò)展DYMU至視頻時(shí)序token壓縮,結(jié)合時(shí)空冗余,提升視頻理解效率。
  • 結(jié)合更多視覺(jué)預(yù)處理和任務(wù)特定模塊,實(shí)現(xiàn)更靈活的計(jì)算資源分配和性能優(yōu)化。

綜上,DYMU以其創(chuàng)新的動(dòng)態(tài)視覺(jué)token合并與虛擬token解合技術(shù),為視覺(jué)語(yǔ)言模型的高效推理提供了全新思路和實(shí)用方案,具有廣泛的應(yīng)用前景和研究?jī)r(jià)值。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇

已于2025-4-28 09:41:51修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    欧美日韩在线精品一区二区三区激情| 久久免费视频观看| 8x国产一区二区三区精品推荐| av电影一区二区三区| 久久久国产精品午夜一区ai换脸| av无码精品一区二区三区宅噜噜| 国产精品美乳一区二区免费 | 麻豆成人久久精品二区三区红| 好吊视频一区二区三区| 国产经典一区二区三区 | 一区av在线播放| 蜜桃在线一区二区| 国产欧美综合精品一区二区| 精品久久久久久国产| 乱人伦视频在线| 欧美网站免费观看| 欧美日韩中文字幕在线视频| 噜噜噜噜噜在线视频| 国产综合第一页| 久久综合久久久久88| 91亚洲欧美| 中文字幕日韩精品久久| 亚洲图片欧美综合| 欧美亚洲人成在线| 伊人网综合视频| 日韩欧美一区中文| 久久国产生活片100| 国产精品v亚洲精品v日韩精品 | 国产一区二区三区黄| 中国女人真人一级毛片| 日韩一级不卡| 久久久精品视频成人| 日韩欧美国产高清91| 精品久久久久久久久久久下田 | 亚洲免费网站| 在线播放国产精品| 视频免费在线观看| 国产一区 二区| 在线观看成人小视频| 奇米精品一区二区三区| 蜜臀av在线播放| 国产精品久久久久7777按摩| 欧美一区二区视频17c| 少妇高潮一区二区三区69| 国产一区亚洲一区| 成人久久精品视频| 91精品人妻一区二区三区果冻| 久久精品女人| 欧美亚洲一级片| 一区二区三区视频免费看| 欧美在线黄色| 久久久999精品| 国产成人免费在线观看视频| 国产亚洲欧美日韩在线观看一区二区| 日韩精品在线免费播放| 538国产视频| 国偷自产视频一区二区久| 日韩精品中文字幕一区| 成年人性生活视频| 亚洲码欧美码一区二区三区| 日韩免费福利电影在线观看| 亚洲熟妇一区二区| 在线观看视频一区二区三区| 日韩欧美美女一区二区三区| 亚洲欧洲日韩综合| 91亚洲精品视频在线观看| 精品精品国产高清一毛片一天堂| a级大片免费看| 亚洲日本va午夜在线电影| 欧美不卡一区二区三区四区| 国产一级免费片| 欧美重口另类| 亚洲天堂av高清| av最新在线观看| 一个色综合网| 久久久爽爽爽美女图片| 日日摸天天添天天添破| 日韩av中文在线观看| 国产日韩在线观看av| av网站免费大全| 99久久99久久精品免费观看| 欧美日韩亚洲综合一区二区三区激情在线| 国产亚洲依依| 亚洲欧美日韩电影| 国内自拍在线观看| 国产资源一区| 日韩精品一区二区三区视频在线观看 | 亚洲人体影院| 欧美午夜电影在线播放| 91精产国品一二三产区别沈先生| 中文一区二区三区四区| 亚洲欧美精品一区| 小早川怜子一区二区的演员表| 欧美成人精品| 国产99久久久欧美黑人| 99精品免费观看| wwww国产精品欧美| 午夜精品区一区二区三| 三级资源在线| 在线观看精品一区| 久久精品无码专区| 欧美顶级大胆免费视频| 97在线看福利| 国产美女自慰在线观看| 久久综合色8888| 欧美性猛交内射兽交老熟妇| 国产精品高清乱码在线观看| 日韩欧美第一区| 欧美黄色一级生活片| 欧美另类亚洲| 国产精品无码专区在线观看| 婷婷av一区二区三区| 国产精品电影院| 欧美日韩中文在线视频| 亚洲国产视频二区| 久久精品91久久香蕉加勒比| 国产一级片毛片| 国产乱码精品一品二品| 午夜精品美女久久久久av福利 | 国产精品pans私拍| 黄色片一区二区| 亚洲欧美在线高清| 激情婷婷综合网| 美国成人xxx| 欧美国产视频日韩| 国产丝袜视频在线观看| 亚洲国产精品二十页| 国模吧无码一区二区三区| 中文在线综合| 久久综合伊人77777蜜臀| 少妇又紧又色又爽又刺激视频 | 欧美一二三区在线| 男人的天堂官网| 亚洲欧美日韩国产一区二区| 国产精品二区二区三区| av在线网址观看| 在线91免费看| 日韩一卡二卡在线观看| 美日韩一级片在线观看| 色就是色欧美| 国产精品高潮久久| 国产一区二区三区在线视频 | 91麻豆精品国产91久久久资源速度 | 国产极品尤物在线| 成人精品动漫一区二区三区| 欧美人成在线视频| 亚洲国产精品suv| 亚洲一区二区中文在线| xxxx视频在线观看| 欧美1区2区| 国产精品久久波多野结衣| 91在线中文| 日韩美女天天操| 国产一级片免费观看| 成人丝袜18视频在线观看| 国产亚洲黄色片| 秋霞蜜臀av久久电影网免费| 欧美在线视频一区| 黄色av网站在线| 欧美日韩视频专区在线播放| 亚洲精品国产精品乱码在线观看| 精品一二线国产| 精品人妻人人做人人爽| 精品国产导航| 国产成人拍精品视频午夜网站| 精品亚洲成a人片在线观看| 91国偷自产一区二区开放时间 | 最新黄网在线观看| 精品少妇一区二区三区免费观看| 五月天综合在线| 久久久国产综合精品女国产盗摄| 最新天堂中文在线| 永久91嫩草亚洲精品人人| 国产精品v欧美精品∨日韩| 三级中文字幕在线观看| 一个人看的www久久| 国产精品综合在线| 午夜天堂影视香蕉久久| 老头老太做爰xxx视频| 国内精品不卡在线| 玩弄中年熟妇正在播放| 蜜桃精品wwwmitaows| 国产精品日韩在线一区| 丝袜在线视频| 亚洲日韩欧美视频| 国产三级自拍视频| 精品福利免费观看| 在线观看天堂av| 成人毛片在线观看| 香蕉视频网站入口| 国产精品mv在线观看| 日本不卡在线播放| 日韩第一区第二区| 国产99久久精品一区二区 夜夜躁日日躁 | 99久久精品国产一区色| 五月天欧美精品| 中文字幕美女视频| 91网站最新网址| 亚洲精品乱码久久久久久动漫| 99精品国产一区二区青青牛奶| 亚洲国产成人不卡| 国产精品任我爽爆在线播放| 国产精品日韩av| 碰碰在线视频| 美女视频久久黄| 成人免费在线观看| 亚洲激情在线视频| 国产露脸国语对白在线| 色综合久久综合| 久久久久成人精品无码| 中文字幕电影一区| 免费的av网站| 国产精品一区二区久激情瑜伽| 91av在线免费播放| 亚洲国产日韩在线| 2021狠狠干| 日产精品一区二区| 欧美精品一区二区三区四区五区| 超碰97成人| 91在线观看免费观看| 国产在线|日韩| 91av在线看| av有码在线观看| 欧美麻豆久久久久久中文| 成年人视频在线看| 亚洲日韩欧美视频一区| 色综合888| 亚洲第一男人av| 精品毛片一区二区三区| 欧美高清视频不卡网| 在线精品免费视| 欧美日韩国产综合新一区 | 久久婷婷丁香| 精品人妻一区二区三区四区在线| 黄色一区二区三区四区| 欧美黄网在线观看| 亚洲精品a级片| 成人手机视频在线| 日韩视频在线观看| 亚洲人成网站在线播放2019| 欧美少妇性xxxx| 日本高清久久一区二区三区| 美女毛片一区二区三区四区| 久久精品中文字幕一区二区三区| 成人av地址| 国产一区不卡在线观看| 久久中文资源| 久久久久久精| 岳的好大精品一区二区三区| 欧美精品与人动性物交免费看| 欧美人妖在线观看| 久久人人爽爽人人爽人人片av| 欧美亚视频在线中文字幕免费| 精品伦精品一区二区三区视频| 九九热hot精品视频在线播放| 精品国产乱码久久久久久蜜柚| 亚洲+变态+欧美+另类+精品| 免费观看国产成人| 欧美精品一二| 在线看视频不卡| 欧美在线资源| 国内少妇毛片视频| 国产精品一国产精品k频道56| 黄色影院一级片| 丝袜美腿亚洲一区二区图片| 性欧美极品xxxx欧美一区二区| 另类综合日韩欧美亚洲| 在线视频日韩欧美| 成人avav影音| 性欧美一区二区| 亚洲欧洲日产国码二区| 九九久久免费视频| 天天综合日日夜夜精品| 91porny九色| 91精品在线免费观看| 黑人精品一区二区| 亚洲一级一级97网| 超碰个人在线| 欧美在线视频在线播放完整版免费观看 | 三区四区电影在线观看| 色综合久久悠悠| 三妻四妾的电影电视剧在线观看| 国产精品视频白浆免费视频| 亚洲超碰在线观看| 欧美日本韩国在线| 一个色综合网| 国产视频一区二区视频| 国产乱国产乱300精品| 久久久久国产精品区片区无码| 国产精品毛片无遮挡高清| 国产精久久久久久| 在线观看视频一区二区欧美日韩| 国产人妻精品一区二区三| 日韩精品极品视频| 国产最新在线| 热re91久久精品国99热蜜臀| 欧美中文高清| 日韩午夜视频在线观看| 影音国产精品| 亚洲欧美日韩三级| 久久一夜天堂av一区二区三区| 麻豆一区在线观看| 精品久久久久久久久中文字幕| 91精品国产色综合久久不8| 精品无人国产偷自产在线| 高清全集视频免费在线| 国产97在线播放| 久久这里只有精品一区二区| 中国一级黄色录像| 久色成人在线| www.男人天堂| 亚洲男人的天堂在线aⅴ视频| 亚洲国产成人精品女人久久| 日韩欧美一二三| 男人和女人做事情在线视频网站免费观看 | 美女爽到高潮91| 精品无码一区二区三区| 亚洲国产一区二区视频| 国产乱色精品成人免费视频| 亚洲美女av黄| 高清视频在线观看三级| 99视频国产精品免费观看| 97国产成人高清在线观看| 无码人妻丰满熟妇区毛片| 99九九99九九九视频精品| 久久久久亚洲av片无码下载蜜桃| 欧美日本在线观看| 电影av一区| 日韩美女福利视频| 日韩成人一级| 日日摸日日碰夜夜爽无码| 粉嫩欧美一区二区三区高清影视| 成人在线观看免费完整| 欧美日韩在线播放| av二区在线| 国产精品久久久久久久久久新婚 | 九九九九免费视频| 91丨porny丨在线| 日韩毛片在线播放| 亚洲国产另类 国产精品国产免费| 一区二区三区伦理| 91传媒视频在线观看| 影音先锋成人在线电影| 男插女视频网站| 一区二区三区欧美亚洲| av在线免费在线观看| 欧美成人在线影院| 天堂久久av| 男的插女的下面视频| 成人国产精品免费观看视频| 国产午夜精品无码一区二区| 亚洲第一中文字幕| 麻豆mv在线看| 日本精品免费| 久久99国产精品免费| 日韩成人短视频| 日韩精品中午字幕| 性欧美18xxxhd| 日韩精品另类天天更新| 久久精品国产免费| 全程偷拍露脸中年夫妇| 日韩午夜电影av| 99久久精品免费看国产小宝寻花| 韩国精品一区二区三区六区色诱| 国产一区二区三区成人欧美日韩在线观看| 玖草视频在线观看| 欧美综合视频在线观看| 婷婷在线视频| 成人综合色站| 久久成人一区| 中文字幕资源站| 欧美变态tickle挠乳网站| 偷拍自拍在线看| 亚洲一二三区在线| 国产不卡免费视频| 天天干天天干天天干天天| 少妇久久久久久| 91蝌蚪精品视频| 欧美三级午夜理伦三级| 国产精品久久久久久久久快鸭 | 久久视频在线播放| 国内精品国产成人国产三级粉色| 在线观看av日韩| 亚洲一级片在线观看| xxxxx日韩| av激情久久| 日韩在线卡一卡二| 亚洲欧美一区二区三区四区五区| 亚洲精品国产精品久久清纯直播| yiren22亚洲综合| 免费特级黄色片| 国产精品视频yy9299一区| 亚洲av无码乱码国产精品| 日韩美女主播视频| 欧美日本久久| 快灬快灬一下爽蜜桃在线观看| 欧美成人一级视频| 成人精品动漫| 欧美 日韩 国产在线观看| 中文字幕制服丝袜成人av|