ETT：打破原生多模態(tài)學習視覺瓶頸，重塑視覺tokenizer優(yōu)化范式

2025-05-28 09:17:00

我們提出了 ETT（End-to-End Vision Tokenizer Tuning），一種全新的端到端視覺 tokenizer 調(diào)優(yōu)方法。

本文由北京智源研究院多模態(tài)大模型研究中心（團隊負責人王鑫龍，團隊代表作 EMU 系列、EVA 系列、Painter & SegGPT）、中科院自動化所和大連理工大學聯(lián)合完成。

在多模態(tài)學習蓬勃發(fā)展的當下，視覺 tokenizer 作為連接視覺信息與下游任務的關鍵橋梁，其性能優(yōu)劣直接決定了多模態(tài)模型的表現(xiàn)。然而，傳統(tǒng)的視覺 tokenization 方法存在一個致命缺陷：視覺 tokenizer 的優(yōu)化與下游任務的訓練是相互割裂的。

這種分離式的訓練范式假設視覺 tokens 能夠在不同任務間無縫通用，但現(xiàn)實情況是，為低級重建任務優(yōu)化的視覺 tokenizer 往往難以滿足諸如圖像生成、視覺問答等需要豐富語義表示的下游任務需求，導致下游任務的性能受限。

針對這一亟待解決的問題，我們提出了 ETT（End-to-End Vision Tokenizer Tuning），一種全新的端到端視覺 tokenizer 調(diào)優(yōu)方法。

論文標題：End-to-End Vision Tokenizer Tuning
arXiv 鏈接：https://arxiv.org/abs/2505.10562

ETT 創(chuàng)新性地實現(xiàn)了視覺 tokenization 與目標自回歸任務的聯(lián)合優(yōu)化，打破了傳統(tǒng)方法中視覺 tokenizer 一旦訓練完成便固定的常規(guī)，充分釋放了視覺 tokenizer 在多模態(tài)學習中的潛力，為多模態(tài)任務帶來了顯著的性能提升。

傳統(tǒng)方法的局限與 ETT 的突破

在現(xiàn)有的多模態(tài)預訓練框架中，如 Emu3 等工作，雖然通過將圖像、文本等多模態(tài)數(shù)據(jù)編碼為離散 tokens 實現(xiàn)了統(tǒng)一的序列建模，但在實際操作中，這些方法僅僅利用了凍結(jié)的視覺 tokenizer 的離散索引，這不僅極大地浪費了視覺 tokenizer 的豐富特征表示能力，還阻礙了端到端訓練的實現(xiàn)，使得視覺 tokenizer 無法根據(jù)下游任務的具體需求進行針對性優(yōu)化。

ETT 的出現(xiàn)徹底改變了這一局面。我們巧妙地引入視覺 tokenizer 的碼本嵌入，取代了以往僅使用離散索引的方式，并結(jié)合 token 級別的字幕損失函數(shù)，對視覺 tokenizer 和下游任務進行聯(lián)合優(yōu)化。這樣一來，ETT 不僅能夠充分利用視覺 tokenizer 內(nèi)部的豐富特征表示，還能讓視覺 tokenizer 根據(jù)下游任務的反饋不斷調(diào)整自身參數(shù)，從而更好地適應多模態(tài)理解與生成任務的需求。

ETT 的核心架構(gòu)與訓練策略

ETT 的核心架構(gòu)基于改進的 IBQ 框架。我們通過精心調(diào)整碼本大小至 131,072 并將特征維度設置為 256，成功構(gòu)建了一個高效的視覺 tokenizer。

在訓練初期，我們利用編碼器將輸入圖像映射到特征空間，經(jīng)量化器將特征映射到離散碼本后，再由解碼器重建圖像，這一過程奠定了視覺 tokenizer 的基礎重構(gòu)能力。我們還引入了多層感知機作為投影層，將視覺嵌入與預訓練大型語言模型的隱藏層維度相匹配，從而實現(xiàn)視覺信息到語言模型的有效映射。

ETT 的訓練策略層次分明且重點突出。前期對齊學習階段，我們在保持預訓練的大型語言模型和視覺 tokenizer 參數(shù)凍結(jié)的狀態(tài)下，僅訓練視覺投影層，利用圖像到文本的 caption 損失函數(shù)，使語言模型能夠從視覺 tokenizer 中直接獲取視覺概念和實體，從而建立起視覺與語言模態(tài)之間的初步聯(lián)系。

緊接著，在語義學習階段，我們解凍大型語言模型、投影層以及視覺 tokenizer 的權(quán)重，通過聯(lián)合優(yōu)化 caption 損失函數(shù)和重建損失函數(shù)，對它們進行端到端的訓練，使視覺 tokenizer 能夠在保持圖像重建能力的同時，學習到更強大的感知能力，以支持多模態(tài)理解和重建任務。

第二階段是 ETT 方法的核心創(chuàng)新，讓視覺 tokenizer 得以根據(jù)下游任務需求深度調(diào)優(yōu)，大幅提升其感知和表征能力。最后是后訓練階段，我們進一步對兩個專業(yè)模型進行微調(diào)，以增強其在特定多模態(tài)任務中的表現(xiàn)。

ETT 的卓越性能表現(xiàn)

多模態(tài)理解

ETT 在多模態(tài)理解任務中展現(xiàn)出了卓越的性能。在 GQA、TextVQA 等特定任務評估，以及 POPE、MME、MMBench、SEED-Bench、MMVet 等廣泛基準測試中均取得了優(yōu)異成績，與現(xiàn)有最先進的視覺語言模型相比，在模型參數(shù)和數(shù)據(jù)規(guī)模更小的情況下，依然能夠取得更好的或具有競爭力的結(jié)果。

例如，在 MMBench 多模態(tài)理解基準測試中，ETT 的性能表現(xiàn)與連續(xù)編碼器基礎的視覺語言模型相當，甚至在某些子任務上更勝一籌，而無需額外的復雜視覺編碼器。這表明 ETT 通過端到端的視覺 tokenization 訓練方法，在減少計算開銷的同時，簡化了模型架構(gòu)，并有效提升了多模態(tài)理解能力。

多模態(tài)生成

在視覺生成任務中，ETT 同樣表現(xiàn)出色。在 GenEval 和 T2I-CompBench 等廣泛使用的文本到圖像生成基準數(shù)據(jù)集上，ETT 實現(xiàn)了與其他最先進的基于擴散模型和自回歸模型的方法相媲美的性能，同時在模型參數(shù)和訓練數(shù)據(jù)規(guī)模上更具優(yōu)勢。特別是在 T2I-CompBench 數(shù)據(jù)集的顏色、形狀和紋理模式等子任務上，ETT 取得了令人滿意的成績，充分證明了其在文本到圖像生成任務中的強大能力。

此外，ETT 在定性結(jié)果方面也展現(xiàn)出了其優(yōu)勢。通過生成的圖像樣本可以看出，ETT 能夠準確地遵循文本提示，生成風格多樣、細節(jié)豐富的視覺內(nèi)容，涵蓋了不同的藝術(shù)風格、主題和背景，并能夠適應不同的構(gòu)圖結(jié)構(gòu)和審美偏好。

視覺重構(gòu)

ETT 在視覺重構(gòu)任務中的表現(xiàn)同樣令人矚目。通過對比引入 ETT 前后的視覺重構(gòu)結(jié)果，我們可以看到，ETT 不僅保留了原始視覺 tokenizer 的豐富低級細節(jié)表示，還有效提升了高級語義表示能力。

如上圖所示，經(jīng)過 ETT 調(diào)優(yōu)后的視覺 tokenizer 在保留原始視覺細節(jié)的同時，顯著提升了特定方面的表現(xiàn)，例如文本渲染效果更好。這表明 ETT 能夠在保持圖像重建質(zhì)量的同時，增強視覺 tokenizer 的語義表達能力，為進一步的多模態(tài)任務提供更優(yōu)質(zhì)的視覺表示。

ETT 的潛在局限與未來發(fā)展

盡管 ETT 在多模態(tài)任務中取得了顯著的性能提升，但我們也意識到當前方法存在一定的局限性。

首先，ETT 的端到端微調(diào)所使用的數(shù)據(jù)規(guī)模和模型容量仍有進一步擴大的潛力，以進一步提升視覺表示質(zhì)量和下游任務性能。其次，ETT 主要側(cè)重于利用大型語言模型的語義能力優(yōu)化現(xiàn)有視覺 tokenizer 的視覺特征，而非從頭開始設計一個同時適用于理解和生成的視覺 tokenizer。

未來，我們計劃探索從頭開始端到端訓練視覺 tokenizer，以創(chuàng)建一個更全面、更適應多模態(tài)任務的表示方法。此外，將 ETT 的方法擴展到圖像和文本之外的其他模態(tài)，如視頻和音頻，也是一個令人興奮的研究方向。

總的來說，ETT 作為一種簡單而有效的端到端視覺 tokenizer 調(diào)優(yōu)方法，易于實現(xiàn)和集成，為原生多模態(tài)學習領域帶來了新的突破。通過優(yōu)化視覺 tokenizer 的特征表示，ETT 為提升多模態(tài)模型的性能提供了新的思路和方法，有望推動多模態(tài)基礎模型在更廣泛的領域的應用和發(fā)展。我們期待 ETT 的出現(xiàn)能夠激發(fā)更多關于視覺 tokenization 和多模態(tài)學習的研究，共同探索這一充滿潛力的領域。

作者介紹

王文軒，中科院自動化所-北京智源研究院聯(lián)培博士，研究方向為視覺語言模型、多模態(tài)理解生成等，在 ICLR、CVPR、ECCV、ACL 等頂級會議上發(fā)表過多篇論文；

張帆、崔玉峰，智源研究院研究員，研究方向為原生多模態(tài)模型、視覺生成等，Emu 系列工作核心作者；

刁海文，大連理工大學博士，研究方向包括大模型高效遷移、多模態(tài)基座大模型等，在 NeurIPS、ICLR、CVPR、ECCV 等頂級會議上發(fā)表過多篇論文；

羅卓彥，清華大學碩士，研究方向為視覺生成等，在 NeurIPS、CVPR 等頂級會議上發(fā)表過論文。

責任編輯：張燕妮來源：機器之心

端到端模型視覺