打破數(shù)據(jù)質(zhì)量鴻溝!清華騰訊Bee項(xiàng)目發(fā)布1500萬(wàn)高質(zhì)量數(shù)據(jù)集,刷新MLLM全棧開(kāi)源SOTA
全開(kāi)源多模態(tài)大模型(MLLM)的性能,長(zhǎng)期被閉源和半開(kāi)源模型“卡脖子”。
原來(lái)核心瓶頸不在模型結(jié)構(gòu),而在于“數(shù)據(jù)質(zhì)量鴻溝”。
為了解決這一痛點(diǎn),清華大學(xué)與騰訊混元團(tuán)隊(duì)聯(lián)手推出了Bee項(xiàng)目。Bee不只是一個(gè)模型,它是一套全棧式、完全開(kāi)放的解決方案 ,旨在從根本上拉近開(kāi)源社區(qū)與頂尖模型之間的差距。

Bee項(xiàng)目的三大核心貢獻(xiàn):
- Honey-Data-15M:一個(gè)1500萬(wàn)規(guī)模、經(jīng)過(guò)多重精細(xì)清洗和創(chuàng)新的雙層CoT(思維鏈)擴(kuò)充的高質(zhì)量SFT數(shù)據(jù)集。
- HoneyPipe & DataStudio:開(kāi)源了從數(shù)據(jù)清洗到CoT增強(qiáng)的“全棧數(shù)據(jù)增強(qiáng)管線”,提供了一套透明、可復(fù)現(xiàn)的方法論。
- Bee-8B:基于Honey-Data-15M訓(xùn)練的全新8B模型,在多項(xiàng)基準(zhǔn)上刷新了全開(kāi)源MLLM的SOTA紀(jì)錄,性能匹敵甚至超越了主流半開(kāi)源模型。
下面詳細(xì)來(lái)看。
背景與動(dòng)機(jī):打破“三層結(jié)構(gòu)”的數(shù)據(jù)壁壘
當(dāng)前的MLLM領(lǐng)域呈現(xiàn)出明顯的三層結(jié)構(gòu):(1) 頂尖的閉源模型(如Gemini 2.5、GPT-5),(2) 權(quán)重開(kāi)放但數(shù)據(jù)私有的半開(kāi)源模型(如Qwen2.5-VL、InternVL),以及 (3) 性能遠(yuǎn)遠(yuǎn)落后的全開(kāi)源模型。

如上圖所示(分?jǐn)?shù)為MMMU、Mathvista等五個(gè)數(shù)據(jù)集平均的結(jié)果),在Bee項(xiàng)目之前,全開(kāi)源(Fully Open)模型在性能上與閉源(Closed Source)和半開(kāi)源(Semi-Open)模型存在巨大鴻溝。
Bee團(tuán)隊(duì)認(rèn)為,這種差距的根源在于SFT階段的數(shù)據(jù)質(zhì)量。
現(xiàn)有開(kāi)源數(shù)據(jù)集普遍存在兩大頑疾:
- 普遍的噪聲:充斥著事實(shí)錯(cuò)誤、圖文不匹配、格式混亂和低質(zhì)量圖像。
- 復(fù)雜推理數(shù)據(jù)匱乏:極度缺乏高級(jí)能力(如長(zhǎng)鏈條思維鏈CoT)所需的數(shù)據(jù)。
因此,Bee項(xiàng)目明確指出,全開(kāi)源社區(qū)最可行的路徑不是盲目追求數(shù)據(jù)“數(shù)量”,而是聚焦于“數(shù)據(jù)質(zhì)量”。
HoneyPipe:授人以漁的全棧數(shù)據(jù)增強(qiáng)管線
為了系統(tǒng)性地解決上述數(shù)據(jù)問(wèn)題,團(tuán)隊(duì)構(gòu)建了HoneyPipe,一個(gè)基于DataStudio框架的、自動(dòng)化的數(shù)據(jù)增強(qiáng)流程。

HoneyPipe的核心價(jià)值在于其透明可復(fù)現(xiàn)的三階段增強(qiáng)過(guò)程:
- 噪聲與無(wú)關(guān)性過(guò)濾 (Stage 1):結(jié)合規(guī)則過(guò)濾(如剔除小尺寸/極端寬高比圖像 )和模型過(guò)濾(使用Qwen2.5-VL-72B等強(qiáng)模型 ),確保圖文的語(yǔ)義一致性(例如,過(guò)濾掉“在只有橘子的圖像上提問(wèn)函數(shù)問(wèn)題”的樣本 )。
- 短CoT增強(qiáng)與驗(yàn)證 (Stage 2):此階段是雙層CoT策略的基礎(chǔ)層。使用Qwen2.5-VL等模型將原始的簡(jiǎn)短回答,擴(kuò)充為包含明確步驟的“短CoT”響應(yīng)。隨后,引入“LLM-as-a-Judge”進(jìn)行保真度驗(yàn)證,檢查新CoT的最終結(jié)論是否與原始答案一致(事實(shí)性問(wèn)題需精確匹配,開(kāi)放性問(wèn)題需語(yǔ)義一致 )。
- 長(zhǎng)CoT增強(qiáng)循環(huán) (Stage 3):對(duì)于(1) 在上一階段保真度驗(yàn)證失敗的樣本(通常意味著問(wèn)題更復(fù)雜),或(2) 天生復(fù)雜的數(shù)據(jù)源(如VisualWebInstruct),將它們路由到此循環(huán)。團(tuán)隊(duì)使用頂尖的專(zhuān)有MLLM來(lái)生成深度、多步驟的“長(zhǎng)CoT”解題過(guò)程。
這一套“過(guò)濾-循環(huán)增強(qiáng)-驗(yàn)證”的精細(xì)流程,最終產(chǎn)出了高質(zhì)量的數(shù)據(jù)集。
Honey-Data-15M:雙層CoT賦能的高質(zhì)量基石
HoneyPipe流程的最終產(chǎn)物是Honey-Data-15M,一個(gè)包含1500萬(wàn)精心策劃樣本的大型多模態(tài)SFT數(shù)據(jù)集。

該數(shù)據(jù)集的核心特征是其雙層CoT推理結(jié)構(gòu):
- 約1220萬(wàn) 短CoT樣本:用于培養(yǎng)模型扎實(shí)的基礎(chǔ)邏輯和分步推理能力。
- 約270萬(wàn) 長(zhǎng)CoT樣本:專(zhuān)為復(fù)雜問(wèn)題設(shè)計(jì),要求模型進(jìn)行更深層次的綜合分析和推理。如上圖所示,數(shù)據(jù)集的來(lái)源多樣化,策略性地覆蓋了7大領(lǐng)域,確保了模型的全面發(fā)展:

Bee-8B:全開(kāi)源MLLM的新標(biāo)桿
為了驗(yàn)證Honey-Data-15M的卓越效果,團(tuán)隊(duì)開(kāi)發(fā)了Bee-8B模型。
模型架構(gòu):
- LLM基礎(chǔ):Qwen3-8B
- 視覺(jué)編碼器:SigLIP2-so400m-patch14-384
- 投影器:一個(gè)簡(jiǎn)單的兩層MLP
五階段訓(xùn)練配方 (Recipe) :

- MLP預(yù)熱 (Stage 1):僅訓(xùn)練投影器,凍結(jié)LLM和視覺(jué)編碼器,使用1M圖像-字幕對(duì)。
- 視覺(jué)-語(yǔ)言對(duì)齊 (Stage 2):全參數(shù)訓(xùn)練,混合12.6M圖文對(duì)和1.43M純文本數(shù)據(jù),以保留LLM的固有能力。
- 多模態(tài)SFT (Stage 3):關(guān)鍵階段。在完整的Honey-Data-15M上進(jìn)行訓(xùn)練,全面注入雙層CoT所帶來(lái)的復(fù)雜推理能力。
- 高效精煉SFT (Stage 4):在精心挑選的1M高質(zhì)量子集 (Honey-Data-1M)上進(jìn)行精調(diào),該子集具有更合理的主題分布。
- 策略?xún)?yōu)化RL (Stage 5):使用GRPO算法 ,在50K數(shù)據(jù)上進(jìn)行RL訓(xùn)練 ,以解決SFT階段常見(jiàn)的文本重復(fù)等問(wèn)題,提升輸出可靠性。
Bee-8B的表現(xiàn)在全開(kāi)源模型中全面領(lǐng)先,并在多個(gè)關(guān)鍵基準(zhǔn)上匹敵或超越了Qwen2.5-VL-7B和InternVL3.5-8B等強(qiáng)大的半開(kāi)源模型。
其最顯著的優(yōu)勢(shì)完美印證了CoT數(shù)據(jù)的有效性:
- 數(shù)學(xué)與推理任務(wù) (Math & Reasoning):
- 在MathVerse基準(zhǔn)上,Bee-8B-RL達(dá)到67.0分,顯著超越InternVL3.5-8B (61.5分) 。
- 在LogicVista上,Bee-8B-RL以61.3分登頂 。
- 在DynaMath上,Bee-8B-SFT以41.3分奪魁 。
- 圖表與文檔任務(wù) (Table & Chart & OCR):
- 在最具挑戰(zhàn)性的CharXiv-RQ(圖表推理)上,Bee-8B-RL獲得57.3分,以近12%的優(yōu)勢(shì)超越所有對(duì)手(第二名45.4分) 。
- 通用VQA任務(wù) (General VQA):
- Bee-8B-RL在MMStar (71.4), MMMU-Pro (50.7), MMVet (83.9), 和 CountBench (93.0) 等多個(gè)綜合基準(zhǔn)上均取得了優(yōu)秀的SOTA分?jǐn)?shù) 。
Bee項(xiàng)目的工作直面并解決了阻礙全開(kāi)源MLLM發(fā)展的核心數(shù)據(jù)質(zhì)量問(wèn)題。它有力地證明了一個(gè)核心論點(diǎn):通過(guò)透明、可復(fù)現(xiàn)的方法論優(yōu)先保證數(shù)據(jù)質(zhì)量,是比盲目堆砌數(shù)據(jù)量更有效的策略。
Bee向社區(qū)提供的全棧式開(kāi)源套件,包括Honey-Data-15M數(shù)據(jù)集(已開(kāi)源)、HoneyPipe策管方法論(即將開(kāi)源)、以及SOTA的Bee-8B模型,希望為開(kāi)源社區(qū)提供一個(gè)全新的、高質(zhì)量的基石。
論文地址:https://arxiv.org/abs/2510.13795
項(xiàng)目主頁(yè):https://open-bee.github.io
數(shù)據(jù)集地址:https://huggingface.co/datasets/Open-Bee/Honey-Data-15M





























