字節(jié)發(fā)布 Seed1.5-VL 視覺-語言多模態(tài)大模型,20B 參數(shù)狂攬 60 項公開評測基準中 38 項 SOTA!
5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創(chuàng)新巡展,一股腦發(fā)布了 5 款模型和產(chǎn)品,包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型,以及新版豆包?音樂模型。同時,Data Agent 和 Trae 等產(chǎn)品也有了新進展。

今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強的通用多模態(tài)理解和推理能力,不僅視覺定位和推理更快更準,還新增了視頻理解、多模態(tài)智能體能力。舉個例子。僅需一張圖,再來個提示詞,Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類并給出坐標。

示例展示
基礎(chǔ)感知能力

視覺定位

視覺謎題

相關(guān)鏈接
- 官網(wǎng):https://seed.bytedance.com/tech/seed1_5_vl
- 代碼:https://github.com/ByteDance-Seed/Seed1.5-VL
- API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

模型架構(gòu)
Seed1.5-VL 包含一個 5.32 億參數(shù)的視覺編碼器,以及一個激活參數(shù)規(guī)模達 200 億的混合專家(MoE)大語言模型。
Seed1.5-VL 模型結(jié)構(gòu)圖
模型由以下三個核心組件組成:
- SeedViT:用于對圖像和視頻進行編碼;
- MLP 適配器:將視覺特征投射為多模態(tài) token;
- 大語言模型:用于處理多模態(tài)輸入并執(zhí)行推理。
Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節(jié)。在視頻處理方面,提出了一種動態(tài)幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據(jù)需要動態(tài)調(diào)整采樣幀率和分辨率。此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記(timestamp token)。
預(yù)訓(xùn)練數(shù)據(jù)與 Scaling Law
Seed1.5-VL 的預(yù)訓(xùn)練語料庫包含 3 萬億個多樣化且高質(zhì)量的源標記(source tokens)。這些數(shù)據(jù)根據(jù)模型目標能力的需求進行了分類。
在預(yù)訓(xùn)練階段觀察到大多數(shù)子類別的數(shù)據(jù)訓(xùn)練損失與訓(xùn)練標記數(shù)量之間遵循冪律關(guān)系。此外,某一子類別的訓(xùn)練損失與該類別對應(yīng)的下游任務(wù)評估指標之間呈現(xiàn)對數(shù)線性關(guān)系(例如:評估指標 ~ log(訓(xùn)練損失))的趨勢,尤其在局部區(qū)域內(nèi)尤為顯著。
后訓(xùn)練
Seed1.5-VL 的后訓(xùn)練過程采用了結(jié)合拒絕采樣(rejection sampling)和在線強化學(xué)習(xí)(online reinforcement learning)的迭代更新方法。我們構(gòu)建了一條完整的數(shù)據(jù) pipeline,用于收集和篩選復(fù)雜提示,以增強后訓(xùn)練階段的數(shù)據(jù)質(zhì)量。
強化學(xué)習(xí)實現(xiàn)的一個關(guān)鍵特點是,監(jiān)督信號通過獎勵模型(reward models)和規(guī)則驗證器(rule verifiers)僅作用于模型生成的最終輸出結(jié)果。我們特意避免對模型的詳細鏈式思維推理(chain-of-thought reasoning)過程進行監(jiān)督。這一區(qū)別在插圖的右側(cè)部分得到了重點說明。
基準測試
Seed1.5-VL 在 60 項公開基準測試中取得了 38 項的最新最優(yōu)性能(state-of-the-art performance),其中包括 19 項視頻基準測試中的 14 項,以及 7 項 GUI 代理任務(wù)中的 3 項。



局限性
盡管 Seed1.5-VL 展現(xiàn)了出色能力,但仍存在一些局限性,尤其是在細粒度視覺感知、三維空間推理以及復(fù)雜組合搜索任務(wù)方面。解決這些挑戰(zhàn)是我們持續(xù)研究的核心部分,研究方向包括統(tǒng)一現(xiàn)有模型能力與圖像生成,以及引入更健全的工具使用機制。



































