打破數(shù)據(jù)質(zhì)量鴻溝！清華騰訊Bee項(xiàng)目發(fā)布1500萬(wàn)高質(zhì)量數(shù)據(jù)集，刷新MLLM全棧開(kāi)源SOTA

2025-11-12 08:40:00

清華大學(xué)與騰訊混元團(tuán)隊(duì)聯(lián)手推出了Bee項(xiàng)目。Bee不只是一個(gè)模型，它是一套全棧式、完全開(kāi)放的解決方案，旨在從根本上拉近開(kāi)源社區(qū)與頂尖模型之間的差距。

全開(kāi)源多模態(tài)大模型（MLLM）的性能，長(zhǎng)期被閉源和半開(kāi)源模型“卡脖子”。

原來(lái)核心瓶頸不在模型結(jié)構(gòu)，而在于“數(shù)據(jù)質(zhì)量鴻溝”。

為了解決這一痛點(diǎn)，清華大學(xué)與騰訊混元團(tuán)隊(duì)聯(lián)手推出了Bee項(xiàng)目。Bee不只是一個(gè)模型，它是一套全棧式、完全開(kāi)放的解決方案，旨在從根本上拉近開(kāi)源社區(qū)與頂尖模型之間的差距。

Bee項(xiàng)目的三大核心貢獻(xiàn)：

Honey-Data-15M：一個(gè)1500萬(wàn)規(guī)模、經(jīng)過(guò)多重精細(xì)清洗和創(chuàng)新的雙層CoT（思維鏈）擴(kuò)充的高質(zhì)量SFT數(shù)據(jù)集。
HoneyPipe & DataStudio：開(kāi)源了從數(shù)據(jù)清洗到CoT增強(qiáng)的“全棧數(shù)據(jù)增強(qiáng)管線”，提供了一套透明、可復(fù)現(xiàn)的方法論。
Bee-8B：基于Honey-Data-15M訓(xùn)練的全新8B模型，在多項(xiàng)基準(zhǔn)上刷新了全開(kāi)源MLLM的SOTA紀(jì)錄，性能匹敵甚至超越了主流半開(kāi)源模型。

下面詳細(xì)來(lái)看。

背景與動(dòng)機(jī)：打破“三層結(jié)構(gòu)”的數(shù)據(jù)壁壘

當(dāng)前的MLLM領(lǐng)域呈現(xiàn)出明顯的三層結(jié)構(gòu)：(1) 頂尖的閉源模型（如Gemini 2.5、GPT-5），(2) 權(quán)重開(kāi)放但數(shù)據(jù)私有的半開(kāi)源模型（如Qwen2.5-VL、InternVL），以及 (3) 性能遠(yuǎn)遠(yuǎn)落后的全開(kāi)源模型。

如上圖所示（分?jǐn)?shù)為MMMU、Mathvista等五個(gè)數(shù)據(jù)集平均的結(jié)果），在Bee項(xiàng)目之前，全開(kāi)源（Fully Open）模型在性能上與閉源（Closed Source）和半開(kāi)源（Semi-Open）模型存在巨大鴻溝。

Bee團(tuán)隊(duì)認(rèn)為，這種差距的根源在于SFT階段的數(shù)據(jù)質(zhì)量。

現(xiàn)有開(kāi)源數(shù)據(jù)集普遍存在兩大頑疾：

普遍的噪聲：充斥著事實(shí)錯(cuò)誤、圖文不匹配、格式混亂和低質(zhì)量圖像。
復(fù)雜推理數(shù)據(jù)匱乏：極度缺乏高級(jí)能力（如長(zhǎng)鏈條思維鏈CoT）所需的數(shù)據(jù)。

因此，Bee項(xiàng)目明確指出，全開(kāi)源社區(qū)最可行的路徑不是盲目追求數(shù)據(jù)“數(shù)量”，而是聚焦于“數(shù)據(jù)質(zhì)量”。

HoneyPipe：授人以漁的全棧數(shù)據(jù)增強(qiáng)管線

為了系統(tǒng)性地解決上述數(shù)據(jù)問(wèn)題，團(tuán)隊(duì)構(gòu)建了HoneyPipe，一個(gè)基于DataStudio框架的、自動(dòng)化的數(shù)據(jù)增強(qiáng)流程。

HoneyPipe的核心價(jià)值在于其透明可復(fù)現(xiàn)的三階段增強(qiáng)過(guò)程：

噪聲與無(wú)關(guān)性過(guò)濾 (Stage 1)：結(jié)合規(guī)則過(guò)濾（如剔除小尺寸/極端寬高比圖像）和模型過(guò)濾（使用Qwen2.5-VL-72B等強(qiáng)模型），確保圖文的語(yǔ)義一致性（例如，過(guò)濾掉“在只有橘子的圖像上提問(wèn)函數(shù)問(wèn)題”的樣本）。
短CoT增強(qiáng)與驗(yàn)證 (Stage 2)：此階段是雙層CoT策略的基礎(chǔ)層。使用Qwen2.5-VL等模型將原始的簡(jiǎn)短回答，擴(kuò)充為包含明確步驟的“短CoT”響應(yīng)。隨后，引入“LLM-as-a-Judge”進(jìn)行保真度驗(yàn)證，檢查新CoT的最終結(jié)論是否與原始答案一致（事實(shí)性問(wèn)題需精確匹配，開(kāi)放性問(wèn)題需語(yǔ)義一致）。
長(zhǎng)CoT增強(qiáng)循環(huán) (Stage 3)：對(duì)于(1) 在上一階段保真度驗(yàn)證失敗的樣本（通常意味著問(wèn)題更復(fù)雜），或(2) 天生復(fù)雜的數(shù)據(jù)源（如VisualWebInstruct），將它們路由到此循環(huán)。團(tuán)隊(duì)使用頂尖的專(zhuān)有MLLM來(lái)生成深度、多步驟的“長(zhǎng)CoT”解題過(guò)程。

這一套“過(guò)濾-循環(huán)增強(qiáng)-驗(yàn)證”的精細(xì)流程，最終產(chǎn)出了高質(zhì)量的數(shù)據(jù)集。

Honey-Data-15M：雙層CoT賦能的高質(zhì)量基石

HoneyPipe流程的最終產(chǎn)物是Honey-Data-15M，一個(gè)包含1500萬(wàn)精心策劃樣本的大型多模態(tài)SFT數(shù)據(jù)集。

該數(shù)據(jù)集的核心特征是其雙層CoT推理結(jié)構(gòu)：

約1220萬(wàn) 短CoT樣本：用于培養(yǎng)模型扎實(shí)的基礎(chǔ)邏輯和分步推理能力。
約270萬(wàn) 長(zhǎng)CoT樣本：專(zhuān)為復(fù)雜問(wèn)題設(shè)計(jì)，要求模型進(jìn)行更深層次的綜合分析和推理。如上圖所示，數(shù)據(jù)集的來(lái)源多樣化，策略性地覆蓋了7大領(lǐng)域，確保了模型的全面發(fā)展：

Bee-8B：全開(kāi)源MLLM的新標(biāo)桿

為了驗(yàn)證Honey-Data-15M的卓越效果，團(tuán)隊(duì)開(kāi)發(fā)了Bee-8B模型。

模型架構(gòu)：

LLM基礎(chǔ)：Qwen3-8B
視覺(jué)編碼器：SigLIP2-so400m-patch14-384
投影器：一個(gè)簡(jiǎn)單的兩層MLP

五階段訓(xùn)練配方 (Recipe) ：

MLP預(yù)熱 (Stage 1)：僅訓(xùn)練投影器，凍結(jié)LLM和視覺(jué)編碼器，使用1M圖像-字幕對(duì)。
視覺(jué)-語(yǔ)言對(duì)齊 (Stage 2)：全參數(shù)訓(xùn)練，混合12.6M圖文對(duì)和1.43M純文本數(shù)據(jù)，以保留LLM的固有能力。
多模態(tài)SFT (Stage 3)：關(guān)鍵階段。在完整的Honey-Data-15M上進(jìn)行訓(xùn)練，全面注入雙層CoT所帶來(lái)的復(fù)雜推理能力。
高效精煉SFT (Stage 4)：在精心挑選的1M高質(zhì)量子集 (Honey-Data-1M)上進(jìn)行精調(diào)，該子集具有更合理的主題分布。
策略?xún)?yōu)化RL (Stage 5)：使用GRPO算法，在50K數(shù)據(jù)上進(jìn)行RL訓(xùn)練，以解決SFT階段常見(jiàn)的文本重復(fù)等問(wèn)題，提升輸出可靠性。

Bee-8B的表現(xiàn)在全開(kāi)源模型中全面領(lǐng)先，并在多個(gè)關(guān)鍵基準(zhǔn)上匹敵或超越了Qwen2.5-VL-7B和InternVL3.5-8B等強(qiáng)大的半開(kāi)源模型。

其最顯著的優(yōu)勢(shì)完美印證了CoT數(shù)據(jù)的有效性：

數(shù)學(xué)與推理任務(wù) (Math & Reasoning)：

在MathVerse基準(zhǔn)上，Bee-8B-RL達(dá)到67.0分，顯著超越InternVL3.5-8B (61.5分) 。
在LogicVista上，Bee-8B-RL以61.3分登頂。
在DynaMath上，Bee-8B-SFT以41.3分奪魁。

圖表與文檔任務(wù) (Table & Chart & OCR)：

在最具挑戰(zhàn)性的CharXiv-RQ（圖表推理）上，Bee-8B-RL獲得57.3分，以近12%的優(yōu)勢(shì)超越所有對(duì)手（第二名45.4分）。

通用VQA任務(wù) (General VQA)：

Bee-8B-RL在MMStar (71.4), MMMU-Pro (50.7), MMVet (83.9), 和 CountBench (93.0) 等多個(gè)綜合基準(zhǔn)上均取得了優(yōu)秀的SOTA分?jǐn)?shù) 。

Bee項(xiàng)目的工作直面并解決了阻礙全開(kāi)源MLLM發(fā)展的核心數(shù)據(jù)質(zhì)量問(wèn)題。它有力地證明了一個(gè)核心論點(diǎn)：通過(guò)透明、可復(fù)現(xiàn)的方法論優(yōu)先保證數(shù)據(jù)質(zhì)量，是比盲目堆砌數(shù)據(jù)量更有效的策略。

Bee向社區(qū)提供的全棧式開(kāi)源套件，包括Honey-Data-15M數(shù)據(jù)集（已開(kāi)源）、HoneyPipe策管方法論（即將開(kāi)源）、以及SOTA的Bee-8B模型，希望為開(kāi)源社區(qū)提供一個(gè)全新的、高質(zhì)量的基石。

論文地址：https://arxiv.org/abs/2510.13795

項(xiàng)目主頁(yè)：https://open-bee.github.io

數(shù)據(jù)集地址：https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

責(zé)任編輯：張燕妮來(lái)源：量子位