Seed1.5-VL技術(shù)報告解讀 原創(chuàng)
字節(jié)最新發(fā)布了一個強悍的閉源多模態(tài)大語言模型Seed1.5-VL,其技術(shù)報告內(nèi)容簡非常坦誠,值得一讀。筆者將在本文帶大家按文章的寫作順序,一步步精讀這篇技術(shù)報告。
概述

??https://arxiv.org/abs/2505.07062??
Seed1.5-VL由一個擁有532M參數(shù)的視覺編碼器和一個擁有20B活躍參數(shù)的MoE LLM構(gòu)成,在60個多模態(tài)視覺語言模型的Benchmark中有38個達到了SOTA。在GUI、視頻理解、視覺推理中表現(xiàn)出了極強的性能。目前Seed1.5-VL是一個商用模型,已經(jīng)開放收費API使用,但并不開源。
模型結(jié)構(gòu)

首先Seed1.5-VL的模型結(jié)構(gòu)依然是典型的VLM構(gòu)造,一個原生動態(tài)分辨率的Seed-ViT作為圖像編碼器,與Qwen2-VL類似,使用2D RoPE位置編碼,接著是一個MLP Adapter,最后連接到一個自回歸的LLM。(關(guān)于視覺編碼器的輸入分辨率問題,可參考本號的高分辨率MLLM系列:???通向高分辨率VLM (11): VILA-HD??)

固定的分辨率在實際應(yīng)用中面臨諸多問題,尤其是OCR等需要圖像細節(jié)的任務(wù)性能會受到巨大影響,為應(yīng)對圖像輸入分辨率的挑戰(zhàn),本文開發(fā)了原生分辨率的視覺編碼器Seed-ViT。

Seed-ViT預訓練流程分為三個階段:(1)帶有2D RoPE的掩碼圖像建模(Masked Image Modeling,MIM),(2)原生分辨率對比學習,以及(3)全模態(tài)預訓練(Omni-modal Pre-training)
在第一階段,訓練目標是通過MIM增強對視覺幾何和結(jié)構(gòu)意識的視覺感知能力。我們利用EVA02-CLIP-E作為教師模型,學生模型則按照表1中定義的架構(gòu)隨機初始化。在訓練過程中,隨機掩蓋75%的圖像塊以及相應(yīng)的RoPE位置編碼,并使用教師產(chǎn)生的CLIP特征作為重建目標。這一過程通過學生和教師輸出的余弦相似性損失進行優(yōu)化。作者發(fā)現(xiàn),學生和教師模型之間在視覺位置嵌入上的差異并不會損害性能,因為教師使用可學習的位置嵌入,而學生使用2D RoPE。相反,2D RoPE賦予學生強大的原生動態(tài)分辨率識別能力。隨著我們擴大這一MIM過程的規(guī)模,VLM在圖表/文檔理解和OCR方面的能力得到了顯著提升。
在對比學習階段,視覺編碼器使用我們經(jīng)過MIM訓練的學生模型進行初始化,而文本編碼器則使用EVA-02-CLIP-E中的文本編碼器進行初始化。對于每一對給定的圖像-文本對,我們使用注意力池化將視覺編碼器提取的塊特征pooling成一個1280d的圖像embedding。然后通過聯(lián)合優(yōu)化SigLIP Loss和SuperClass Loss來實現(xiàn)圖像和文本嵌入之間的對齊。
最后一個全模態(tài)預訓練階段,采用了MiCo框架,從視頻數(shù)據(jù)中構(gòu)建包含視頻幀、音頻、視覺字幕和音頻字幕的對齊元組。ViT對視頻幀和音頻進行編碼,而一個單獨的文本編碼器處理字幕。通過對這些嵌入進行對齊,ViT學習統(tǒng)一的全模態(tài)表示。盡管這一階段僅消耗了整個ViT預訓練過程中訓練數(shù)據(jù)token量的4.8%,但它顯著提高了ViT在圖像和視頻理解任務(wù)上的性能。
在對視頻輸入的處理中,Seed1.5-VL引入了動態(tài)采樣分辨率,來高效處理不同長度和信息密度的視頻,最大預算為每段視頻81920個token,可以靈活使用更高分辨率處理較少的幀,或者使用更低分辨率以容納更長視頻中的更多幀。
預訓練數(shù)據(jù)工程
我們都知道,除了Infra之外,大模型算法的核心在于“數(shù)據(jù)工程”,雖然常被貶低為“洗數(shù)據(jù)”,被精通公式推導和電路圖繪制的學者們看不起。但不可否認的是,數(shù)據(jù)工程直接決定了模型的能力上下限。讓我們先看一下Seed1.5-VL在預訓練階段是如何做數(shù)據(jù)工程的。
Seed1.5-VL的預訓練語料庫用到了3萬億(3T)token數(shù),要知道,頂尖的大語言模型的預訓練一般也才10-30T的token數(shù)目,對于下游多模態(tài)預訓練而言,3T的token數(shù)非常的驚人。
通用任務(wù)的圖像文本對,用于注入視覺知識,通過對知識長尾分布進行一定的平衡,確保稀有視覺概念有足夠的訓練迭代。這個重平衡策略在預訓練中非常關(guān)鍵。
為驗證這一觀察,研究者使用Biotrove數(shù)據(jù)集進行了沙盒實驗
- Random-46M:從訓練集中隨機選擇4600萬樣本。
- Max1k-46M:選擇4600萬樣本,每個物種最多1000個樣本,確保包含稀有物種。
- Max100-15M:選擇1500萬樣本,每個物種最多100個樣本,增加稀有物種的相對曝光。

實驗結(jié)果表明,Random-46M配置在稀有物種識別上表現(xiàn)不佳。相比之下,限制常見物種的最大樣本數(shù)(Max1k-46M)顯著提高了稀有物種的性能。進一步限制常見物種的代表性(Max100-15M)增強了對稀有物種
的記憶,但對常見物種的識別產(chǎn)生了不利影響。因此,有效地獲取視覺知識需要在保持常見視覺概念的多樣化示例的同時,確保稀有視覺概念有足夠的訓練迭代。
OCR數(shù)據(jù)。OCR任務(wù)已經(jīng)成為了多模態(tài)大模型的兵家必爭之地,能極大擴展MLLM的應(yīng)用場景。在訓練Seed1.5-VL時采用了大量的OCR標注數(shù)據(jù)和合成數(shù)據(jù)。

作者構(gòu)建了一個包含超過10億樣本的OCR訓練數(shù)據(jù)集,涵蓋文檔、場景文本、表格、圖表和流程圖,如上圖所示。
Grounding(定位)和計數(shù)任務(wù)數(shù)據(jù)。主要利用了三種數(shù)據(jù)類型:邊界框標注、點標注和計數(shù)數(shù)據(jù)。
3D空間稀疏理解類的數(shù)據(jù)。為了使模型能夠從單張圖像中理解三維空間,構(gòu)建了針對以下三個任務(wù)的數(shù)據(jù):相對深度排序、絕對深度估計和三維定位。
視頻數(shù)據(jù)。包含通用視頻理解數(shù)據(jù)、時間定位和檢索數(shù)據(jù)、視頻流數(shù)據(jù)(交錯問答和實時評論等)
STEM數(shù)據(jù)(科學、技術(shù)、工程、數(shù)學)。收集了320萬高質(zhì)量教育定位樣本,涵蓋數(shù)學、物理、化學、生物等300個類別。合成1000萬張不同格式的結(jié)構(gòu)化表格,生成450萬張化學結(jié)構(gòu)圖,制作150萬張合成坐標系圖(包括函數(shù)圖和位置圖)。特定子集K12描述數(shù)據(jù):10萬張教育圖像的人工標注描述,100萬對視覺問答(VQA)對,100萬張機器生成描述,數(shù)十萬張幾何描述。處理了超過1億的K12水平練習題。補充了數(shù)千萬中國成人教育問題和數(shù)百萬圖像相關(guān)問題。采用混合采集策略:人工標注、自動化合成、嚴格質(zhì)量控制。確保多模態(tài)覆蓋(文本、視覺、圖表),涵蓋數(shù)學、物理、化學等核心STEM領(lǐng)域。
GUI數(shù)據(jù)。也是MLLM最常見的應(yīng)用場景,即GUI操控。為了支持強大的GUI感知、基礎(chǔ)和推理,作者制作了一個跨web、應(yīng)用程序和桌面環(huán)境的大規(guī)模數(shù)據(jù)集。每個截圖都與通過自動解析和人工輔助探索收集的結(jié)構(gòu)化元數(shù)據(jù)元素類型、邊界框、文本和深度配對。
預訓練配方
模型包含三個主要模塊:視覺編碼器、MLP適配器和語言模型。在視覺語言模型(VLM)預訓練階段之前,視覺編碼器會進行獨立訓練。語言模型初始化自一個內(nèi)部預訓練模型,該模型擁有大約200億活躍參數(shù)。該語言模型采用僅解碼器的MoE架構(gòu),并已在包含數(shù)萬億高質(zhì)量純文本標記的大型語料庫上進行訓練。我們的VLM預訓練方法分為三個不同的階段
- 階段0:通過僅訓練MLP適配器,同時凍結(jié)視覺編碼器和語言模型,來使視覺編碼器與語言模型對齊。跳過這一階段會導致?lián)p失略高,性能稍差。
- 階段1:所有模型參數(shù)均可訓練。這一階段專注于知識積累,通過在包含3萬億標記的多模態(tài)語料庫上進行訓練,掌握模型的視覺定位和OCR能力,該語料庫主要由標題、交錯的圖像-文本、視覺定位和OCR數(shù)據(jù)組成。經(jīng)實證發(fā)現(xiàn),添加少量純文本標記(例如5%)可以保持模型的語言能力。此外,添加少量指令跟隨數(shù)據(jù)可獲得更可靠的評估結(jié)果,從而將預訓練開發(fā)與后訓練分開。
- 階段2:我們在不同任務(wù)之間創(chuàng)建更平衡的數(shù)據(jù)混合,并添加來自新領(lǐng)域(如視頻理解、編程和3D空間理解)的數(shù)據(jù)。此外,我們將序列長度從32,768增加到131,072,以便更好地適應(yīng)視頻中的長依賴關(guān)系和復雜推理問題的建模。與階段1一樣,所有模型參數(shù)均可訓練。
后訓練
后訓練階段通過監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)和強化學習(Reinforcement Learning, RL)的結(jié)合,為Seed1.5-VL賦予了強大的指令跟隨和推理能力。這一過程從一個在冷啟動數(shù)據(jù)上訓練的SFT模型開始。一個關(guān)鍵組成部分是數(shù)據(jù)管道,它持續(xù)收集困難且多樣化的提示,這些提示通過拒絕采樣改善SFT數(shù)據(jù)并輸入到RL中。后訓練以迭代的方式進行:SFT模型通過提煉RL模型在多樣化提示上的學習成果而逐步得到增強。這種迭代改進持續(xù)進行,直到提示池耗盡且性能指標收斂為止。最終,這一過程產(chǎn)生了Seed1.5-VL,它既能生成快速簡潔的回復,也能生成具有長鏈推理(Long Chain-of-Thought, LongCoT)的深入回答。

監(jiān)督微調(diào)(SFT)階段是為Seed1.5-VL在強化學習之前配備基礎(chǔ)的指令跟隨和推理能力的關(guān)鍵。SFT數(shù)據(jù)集包含兩個主要部分,分別針對不同的能力。第一部分是通用指令數(shù)據(jù),訓練Seed1.5-VL處理多樣化和復雜的指令,重點是生成簡潔準確的回復。第二部分是長鏈推理(LongCoT)數(shù)據(jù),專注于生成詳細、逐步的推理過程。這些數(shù)據(jù)通過提示工程和拒絕采樣生成。
在SFT數(shù)據(jù)構(gòu)建的初始階段,我們的目標是使模型能夠應(yīng)對廣泛的應(yīng)用場景。為此,我們根據(jù)傳統(tǒng)視覺任務(wù)的分類和視覺語言模型的實際應(yīng)用需求,開發(fā)了一個模型能力分類體系。基于這個分類體系,我們通過眾包從互聯(lián)網(wǎng)收集圖像,并生成約1.3萬條高質(zhì)量的指令調(diào)整數(shù)據(jù),每條數(shù)據(jù)包括一個提示和相應(yīng)的回復。這些初始回復旨在與人類偏好高度一致。
為了進一步提升模型的性能,我們還納入了額外的3萬條高質(zhì)量數(shù)據(jù)樣本,這些樣本來自研究社區(qū)。這些樣本是從我們精心收集的包含約150萬條條目的開源庫中篩選出來的。最初,我們使用專有的圖像-文本嵌入模型將圖像-文本對聚類到特定任務(wù)的類別中。這種聚類使得數(shù)據(jù)集能夠在各種任務(wù)中保持高度的多樣性。隨后,我們利用與人類偏好對齊的訓練有素的SFT模型,在這個采樣子集上進行多次模擬。生成的回復通過LLM作為評判進行過濾,以原始真實值為參考,判斷模型生成的回復的正確性。在此基礎(chǔ)上,我們進一步采用獎勵模型從保留的結(jié)果中篩選出最符合人類偏好的回復,從而獲得最終的拒絕采樣微調(diào)數(shù)據(jù)。最終,我們將SFT數(shù)據(jù)中的開源數(shù)據(jù)量從150萬壓縮到大約3萬條高質(zhì)量數(shù)據(jù)。其余的開源數(shù)據(jù)則在預訓練階段提前使用。
對于RLHF階段,為訓練獎勵模型,收集了人類標注的偏好數(shù)據(jù),使用5級評分系統(tǒng)比較候選模型響應(yīng),并使用偏好強度細化合成數(shù)據(jù)。
我們的在線強化學習實現(xiàn)采用PPO算法變體,獎勵信號來自獎勵模型對生成答案token的概率。在PPO訓練期間,獎勵模型參考真實答案或SFT模型的最佳N個答案。
評測
Seed-VIT是一個體積小且性能優(yōu)異的視覺編碼器

Seed1.5-VL最終取得了非常多VQA榜單的SOTA

本文轉(zhuǎn)載自??思源數(shù)據(jù)科學?? 作者:思源Source

















