精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

打破數(shù)據(jù)質(zhì)量鴻溝!清華騰訊Bee項(xiàng)目發(fā)布1500萬(wàn)高質(zhì)量數(shù)據(jù)集,刷新MLLM全棧開(kāi)源SOTA

人工智能 新聞
清華大學(xué)與騰訊混元團(tuán)隊(duì)聯(lián)手推出了Bee項(xiàng)目。Bee不只是一個(gè)模型,它是一套全棧式、完全開(kāi)放的解決方案 ,旨在從根本上拉近開(kāi)源社區(qū)與頂尖模型之間的差距。

全開(kāi)源多模態(tài)大模型(MLLM)的性能,長(zhǎng)期被閉源和半開(kāi)源模型“卡脖子”。

原來(lái)核心瓶頸不在模型結(jié)構(gòu),而在于“數(shù)據(jù)質(zhì)量鴻溝”。

為了解決這一痛點(diǎn),清華大學(xué)與騰訊混元團(tuán)隊(duì)聯(lián)手推出了Bee項(xiàng)目。Bee不只是一個(gè)模型,它是一套全棧式、完全開(kāi)放的解決方案 ,旨在從根本上拉近開(kāi)源社區(qū)與頂尖模型之間的差距。

Bee項(xiàng)目的三大核心貢獻(xiàn):

  1. Honey-Data-15M:一個(gè)1500萬(wàn)規(guī)模、經(jīng)過(guò)多重精細(xì)清洗和創(chuàng)新的雙層CoT(思維鏈)擴(kuò)充的高質(zhì)量SFT數(shù)據(jù)集。
  2. HoneyPipe & DataStudio:開(kāi)源了從數(shù)據(jù)清洗到CoT增強(qiáng)的“全棧數(shù)據(jù)增強(qiáng)管線”,提供了一套透明、可復(fù)現(xiàn)的方法論。
  3. Bee-8B:基于Honey-Data-15M訓(xùn)練的全新8B模型,在多項(xiàng)基準(zhǔn)上刷新了全開(kāi)源MLLM的SOTA紀(jì)錄,性能匹敵甚至超越了主流半開(kāi)源模型。

下面詳細(xì)來(lái)看。

背景與動(dòng)機(jī):打破“三層結(jié)構(gòu)”的數(shù)據(jù)壁壘

當(dāng)前的MLLM領(lǐng)域呈現(xiàn)出明顯的三層結(jié)構(gòu):(1) 頂尖的閉源模型(如Gemini 2.5、GPT-5),(2) 權(quán)重開(kāi)放但數(shù)據(jù)私有的半開(kāi)源模型(如Qwen2.5-VL、InternVL),以及 (3) 性能遠(yuǎn)遠(yuǎn)落后的全開(kāi)源模型。

如上圖所示(分?jǐn)?shù)為MMMU、Mathvista等五個(gè)數(shù)據(jù)集平均的結(jié)果),在Bee項(xiàng)目之前,全開(kāi)源(Fully Open)模型在性能上與閉源(Closed Source)和半開(kāi)源(Semi-Open)模型存在巨大鴻溝。

Bee團(tuán)隊(duì)認(rèn)為,這種差距的根源在于SFT階段的數(shù)據(jù)質(zhì)量

現(xiàn)有開(kāi)源數(shù)據(jù)集普遍存在兩大頑疾:

  1. 普遍的噪聲:充斥著事實(shí)錯(cuò)誤、圖文不匹配、格式混亂和低質(zhì)量圖像。
  2. 復(fù)雜推理數(shù)據(jù)匱乏:極度缺乏高級(jí)能力(如長(zhǎng)鏈條思維鏈CoT)所需的數(shù)據(jù)。

因此,Bee項(xiàng)目明確指出,全開(kāi)源社區(qū)最可行的路徑不是盲目追求數(shù)據(jù)“數(shù)量”,而是聚焦于“數(shù)據(jù)質(zhì)量”

HoneyPipe:授人以漁的全棧數(shù)據(jù)增強(qiáng)管線

為了系統(tǒng)性地解決上述數(shù)據(jù)問(wèn)題,團(tuán)隊(duì)構(gòu)建了HoneyPipe,一個(gè)基于DataStudio框架的、自動(dòng)化的數(shù)據(jù)增強(qiáng)流程。

HoneyPipe的核心價(jià)值在于其透明可復(fù)現(xiàn)的三階段增強(qiáng)過(guò)程

  1. 噪聲與無(wú)關(guān)性過(guò)濾 (Stage 1):結(jié)合規(guī)則過(guò)濾(如剔除小尺寸/極端寬高比圖像 )和模型過(guò)濾(使用Qwen2.5-VL-72B等強(qiáng)模型 ),確保圖文的語(yǔ)義一致性(例如,過(guò)濾掉“在只有橘子的圖像上提問(wèn)函數(shù)問(wèn)題”的樣本 )。
  2. 短CoT增強(qiáng)與驗(yàn)證 (Stage 2):此階段是雙層CoT策略的基礎(chǔ)層。使用Qwen2.5-VL等模型將原始的簡(jiǎn)短回答,擴(kuò)充為包含明確步驟的“短CoT”響應(yīng)。隨后,引入“LLM-as-a-Judge”進(jìn)行保真度驗(yàn)證,檢查新CoT的最終結(jié)論是否與原始答案一致(事實(shí)性問(wèn)題需精確匹配,開(kāi)放性問(wèn)題需語(yǔ)義一致 )。
  3. 長(zhǎng)CoT增強(qiáng)循環(huán) (Stage 3):對(duì)于(1) 在上一階段保真度驗(yàn)證失敗的樣本(通常意味著問(wèn)題更復(fù)雜),或(2) 天生復(fù)雜的數(shù)據(jù)源(如VisualWebInstruct),將它們路由到此循環(huán)。團(tuán)隊(duì)使用頂尖的專(zhuān)有MLLM來(lái)生成深度、多步驟的“長(zhǎng)CoT”解題過(guò)程。

這一套“過(guò)濾-循環(huán)增強(qiáng)-驗(yàn)證”的精細(xì)流程,最終產(chǎn)出了高質(zhì)量的數(shù)據(jù)集。

Honey-Data-15M:雙層CoT賦能的高質(zhì)量基石

HoneyPipe流程的最終產(chǎn)物是Honey-Data-15M,一個(gè)包含1500萬(wàn)精心策劃樣本的大型多模態(tài)SFT數(shù)據(jù)集。

該數(shù)據(jù)集的核心特征是其雙層CoT推理結(jié)構(gòu)

  • 約1220萬(wàn) 短CoT樣本:用于培養(yǎng)模型扎實(shí)的基礎(chǔ)邏輯和分步推理能力。
  • 約270萬(wàn) 長(zhǎng)CoT樣本:專(zhuān)為復(fù)雜問(wèn)題設(shè)計(jì),要求模型進(jìn)行更深層次的綜合分析和推理。如上圖所示,數(shù)據(jù)集的來(lái)源多樣化,策略性地覆蓋了7大領(lǐng)域,確保了模型的全面發(fā)展:

Bee-8B:全開(kāi)源MLLM的新標(biāo)桿

為了驗(yàn)證Honey-Data-15M的卓越效果,團(tuán)隊(duì)開(kāi)發(fā)了Bee-8B模型。

模型架構(gòu):

  • LLM基礎(chǔ):Qwen3-8B
  • 視覺(jué)編碼器:SigLIP2-so400m-patch14-384
  • 投影器:一個(gè)簡(jiǎn)單的兩層MLP

五階段訓(xùn)練配方 (Recipe) :

  1. MLP預(yù)熱 (Stage 1):僅訓(xùn)練投影器,凍結(jié)LLM和視覺(jué)編碼器,使用1M圖像-字幕對(duì)。
  2. 視覺(jué)-語(yǔ)言對(duì)齊 (Stage 2):全參數(shù)訓(xùn)練,混合12.6M圖文對(duì)和1.43M純文本數(shù)據(jù),以保留LLM的固有能力。
  3. 多模態(tài)SFT (Stage 3):關(guān)鍵階段。在完整的Honey-Data-15M上進(jìn)行訓(xùn)練,全面注入雙層CoT所帶來(lái)的復(fù)雜推理能力。
  4. 高效精煉SFT (Stage 4):在精心挑選的1M高質(zhì)量子集 (Honey-Data-1M)上進(jìn)行精調(diào),該子集具有更合理的主題分布。
  5. 策略?xún)?yōu)化RL (Stage 5):使用GRPO算法 ,在50K數(shù)據(jù)上進(jìn)行RL訓(xùn)練 ,以解決SFT階段常見(jiàn)的文本重復(fù)等問(wèn)題,提升輸出可靠性。

Bee-8B的表現(xiàn)在全開(kāi)源模型中全面領(lǐng)先,并在多個(gè)關(guān)鍵基準(zhǔn)上匹敵或超越了Qwen2.5-VL-7B和InternVL3.5-8B等強(qiáng)大的半開(kāi)源模型。

其最顯著的優(yōu)勢(shì)完美印證了CoT數(shù)據(jù)的有效性:

  1. 數(shù)學(xué)與推理任務(wù) (Math & Reasoning):
  • 在MathVerse基準(zhǔn)上,Bee-8B-RL達(dá)到67.0分,顯著超越InternVL3.5-8B (61.5分) 。
  • 在LogicVista上,Bee-8B-RL以61.3分登頂 。
  • 在DynaMath上,Bee-8B-SFT以41.3分奪魁 。
  1. 圖表與文檔任務(wù) (Table & Chart & OCR):
  • 在最具挑戰(zhàn)性的CharXiv-RQ(圖表推理)上,Bee-8B-RL獲得57.3分,以近12%的優(yōu)勢(shì)超越所有對(duì)手(第二名45.4分) 。
  1. 通用VQA任務(wù) (General VQA):
  • Bee-8B-RL在MMStar (71.4), MMMU-Pro (50.7), MMVet (83.9), 和 CountBench (93.0) 等多個(gè)綜合基準(zhǔn)上均取得了優(yōu)秀的SOTA分?jǐn)?shù) 。

Bee項(xiàng)目的工作直面并解決了阻礙全開(kāi)源MLLM發(fā)展的核心數(shù)據(jù)質(zhì)量問(wèn)題。它有力地證明了一個(gè)核心論點(diǎn):通過(guò)透明、可復(fù)現(xiàn)的方法論優(yōu)先保證數(shù)據(jù)質(zhì)量,是比盲目堆砌數(shù)據(jù)量更有效的策略。

Bee向社區(qū)提供的全棧式開(kāi)源套件,包括Honey-Data-15M數(shù)據(jù)集(已開(kāi)源)、HoneyPipe策管方法論(即將開(kāi)源)、以及SOTA的Bee-8B模型,希望為開(kāi)源社區(qū)提供一個(gè)全新的、高質(zhì)量的基石。

論文地址:https://arxiv.org/abs/2510.13795

項(xiàng)目主頁(yè):https://open-bee.github.io

數(shù)據(jù)集地址:https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-09-01 14:42:39

數(shù)據(jù)研究

2020-01-09 11:30:40

AI 數(shù)據(jù)人工智能

2025-07-23 04:00:00

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2025-08-27 07:17:00

數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)治理大數(shù)據(jù)

2025-08-22 09:05:00

2025-02-18 15:03:58

數(shù)據(jù)AI模型

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2017-06-19 07:58:40

2025-02-11 16:11:12

2010-07-06 11:52:59

數(shù)據(jù)庫(kù)RationalJazz

2024-08-26 15:20:45

2025-09-23 12:39:02

2025-04-14 09:26:00

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2011-05-31 13:43:46

外鏈
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产欧美一区二区三区久久| 欧美群妇大交群中文字幕| 免费国产一区二区| 中文字幕 人妻熟女| 国产精品毛片久久| 亚洲成av人片在线观看香蕉| 北条麻妃69av| 黄色的网站在线观看| 成人av网站免费观看| 国产精品青青在线观看爽香蕉| 农村妇女精品一区二区| 在线视频亚洲专区| 日韩欧美中文一区二区| 欧美一级黄色片视频| 免费的黄网站在线观看| 成人动漫在线一区| 国产在线观看精品| 国产无遮挡呻吟娇喘视频| 68国产成人综合久久精品| 国产午夜精品理论片a级探花| 99草草国产熟女视频在线| caopen在线视频| 国产亚洲精品福利| 成人资源av| 91国在线视频| 日韩高清欧美激情| 91高潮在线观看| 中文字幕av久久爽av| 日韩精品一区二区三区免费观影| 精品国产免费视频| 中文字幕一区二区在线观看视频 | 色www免费视频| 中文字幕高清在线播放| 亚洲最大色网站| 亚洲国产精品激情在线观看| 久久夜精品香蕉| 国产精品免费无码| 亚洲尤物av| 亚洲国产精品久久精品怡红院| 亚洲欧美日韩网站| 亚洲图片小说区| 欧美日韩国产综合一区二区三区 | 欧美va亚洲va在线观看蝴蝶网| 15—17女人毛片| 素人啪啪色综合| 精品女同一区二区三区在线播放| 桥本有菜av在线| av在线电影播放| 国产欧美一区二区精品性| 国产一区二区三区四区五区在线 | 亚洲女成人图区| 久久午夜夜伦鲁鲁片| swag国产精品一区二区| 欧美大片在线观看一区二区| 日韩精品xxx| 欧美9999| 精品国产乱码久久久久久浪潮 | 136福利精品导航| 日韩女优电影在线观看| 久久久久亚洲av无码专区首jn| 免费看日产一区二区三区| 日韩视频免费观看高清完整版| 樱花草www在线| 一区二区三区国产好| 欧美变态tickling挠脚心| 亚洲高清无码久久| 男男gay无套免费视频欧美| 国产亚洲欧洲黄色| 日本激情视频一区二区三区| 综合久久婷婷| 97香蕉超级碰碰久久免费软件| 黑人一级大毛片| 日韩精品乱码免费| 国产日韩欧美综合| 亚洲毛片在线播放| www国产精品av| 精品国产免费视频| 国产综合动作在线观看| 亚洲 国产 欧美 日韩| 久久精品视频免费观看| 亚洲一区三区电影在线观看| 伊人福利在线| 精品久久久久久中文字幕大豆网| 可以免费在线看黄的网站| 先锋影音网一区二区| 精品国产sm最大网站免费看| 丰腴饱满的极品熟妇| 天天色天天射综合网| 欧美极品第一页| 日韩综合在线观看| 国产美女在线观看一区| 久久久99国产精品免费| 欧美人xxx| 精品久久久久久久久中文字幕 | 丁香亚洲综合激情啪啪综合| 噜噜噜噜噜久久久久久91| 波多野结衣一区二区| 一区二区三区精品久久久| 无码无遮挡又大又爽又黄的视频| **日韩最新| 日韩精品一区二区三区第95| 久草手机视频在线观看| 亚洲少妇诱惑| 亚洲综合最新在线| 国产免费视频在线| 亚洲国产日韩综合久久精品| 不卡av免费在线| 成人福利一区| 日韩在线视频导航| 五月婷婷色丁香| 老汉av免费一区二区三区| 久久精品国产理论片免费| 成人影院在线观看| 欧洲一区二区三区在线| 国产黄色三级网站| 欧美在线精品一区| 国产精品视频免费在线观看| 外国精品视频在线观看 | 2019中文在线观看| 国产视频在线观看视频| 国产精品网站在线| 91传媒久久久| 老司机成人在线| 欧美成人精品一区二区| 在线观看免费视频a| 国产三级一区二区| 国产精品欧美激情在线观看| 成人av动漫| 欧美国产日韩二区| 国产男男gay体育生网站| 国产精品网站在线| 亚洲成熟丰满熟妇高潮xxxxx| 高清精品视频| 国语自产精品视频在线看| 色婷婷综合久久久久中文一区二区 | 日本成人三级电影| 日韩精品高清在线| 日本一二三区不卡| 成人免费视频一区| 男人添女荫道口图片| caoporn成人| 欧美肥老妇视频| 精品乱子伦一区二区| 亚洲男人的天堂在线观看| 国产在线观看中文字幕| 欧美 日韩 国产一区二区在线视频| 国产欧美亚洲精品| 欧美一区二区三区| 91麻豆精品国产91久久久更新时间 | 熟妇人妻va精品中文字幕| 色天天色综合| 日韩av电影手机在线观看| 涩爱av在线播放一区二区| 欧美日韩综合视频| 日韩中文字幕电影| 日本不卡视频一二三区| 亚洲精品9999| 国产电影一区二区| 欧美国产乱视频| 无码国产精品一区二区色情男同| 黑人巨大精品欧美一区二区免费| 最新中文字幕视频| 麻豆精品新av中文字幕| 男女激烈动态图| 精品久久ai| 欧美做受高潮电影o| jizz视频在线观看| 91精品在线观看入口| 国产第100页| 久久久99精品久久| 中文字幕亚洲影院| 亚洲手机在线| 麻豆成人av| 美女视频一区| 欧美精品激情在线观看| 日本福利午夜视频在线| 欧美日韩一级片在线观看| 特一级黄色录像| 成人性生交大片免费看中文| 国产成人久久婷婷精品流白浆| 欧美好骚综合网| 国产乱码精品一区二区三区中文| 在线天堂新版最新版在线8| 中文欧美日本在线资源| 国产成人精品毛片| 色综合天天综合| 永久看片925tv| 91视频国产资源| 超碰人人草人人| 日韩图片一区| 自拍偷拍亚洲色图欧美| 欧美尿孔扩张虐视频| 国产精品精品视频一区二区三区| a级网站在线播放| 亚洲色图日韩av| 亚洲av无码乱码在线观看性色| 欧美午夜性色大片在线观看| 91狠狠综合久久久| 久久婷婷一区二区三区| 91精品视频国产| 男女男精品视频| 蜜桃传媒一区二区三区| 欧美一区二区三区另类| 欧美在线日韩精品| 9l视频自拍蝌蚪9l视频成人| 国产精品久久色| 成入视频在线观看| 久久综合免费视频| jyzzz在线观看视频| 日韩av在线免费观看| 国产日产亚洲系列最新| 在线欧美日韩国产| 欧美三日本三级少妇99| 亚洲免费成人av| 国产精品视频在| 久久亚洲精华国产精华液| 欧美丰满熟妇bbb久久久| 久久91精品久久久久久秒播| www.欧美日本| 国产亚洲午夜| 缅甸午夜性猛交xxxx| 欧美午夜电影在线观看| 视频一区二区视频| 日韩专区精品| 神马影院一区二区| 伊人成综合网yiren22| 精品久久一区二区三区蜜桃| 51精品国产| 成人资源视频网站免费| 欧美在线在线| 96pao国产成视频永久免费| 国产亚洲精品精品国产亚洲综合| 国产成人精品电影久久久| 超碰一区二区| 青青久久av北条麻妃黑人| 国产福利片在线观看| 久久免费视频这里只有精品| 欧美色图天堂| 久久久久久国产| 大香伊人中文字幕精品| 欧美激情视频在线观看| av免费在线观| zzijzzij亚洲日本成熟少妇| av午夜在线| 精品国内自产拍在线观看| 看黄网站在线| 欧美黑人xxxx| а√天堂8资源在线| 8090成年在线看片午夜| 亚洲精品福利电影| 国产成人免费av电影| 成人做爰免费视频免费看| 国产精品永久免费观看| 日韩成人精品一区二区三区| 国产一区香蕉久久| 国产精品亚洲一区二区在线观看| 91综合免费在线| 澳门精品久久国产| 久久天天狠狠| 欧美精品乱码| 2021国产视频| 亚洲欧洲日本一区二区三区| 鲁一鲁一鲁一鲁一色| 视频一区视频二区中文| 亚洲va综合va国产va中文| 国产乱人伦偷精品视频免下载| 白丝校花扒腿让我c| 91在线观看一区二区| 中文字幕在线观看免费高清| 国产精品久久免费看| 免费在线一级片| 色综合色综合色综合| 91精品国自产| 亚洲第一精品自拍| 国产在线你懂得| 美女撒尿一区二区三区| 狼人综合视频| 国产精品小说在线| 亚洲精品a区| 欧美亚洲免费在线| 性欧美欧美巨大69| 日本免费不卡一区二区| 老汉av免费一区二区三区| 一级黄色免费视频| 国产精品网站在线播放| 国产一级一级片| 欧美日韩视频在线一区二区| 粉嫩av一区二区夜夜嗨| 中国china体内裑精亚洲片| 91桃色在线| 91性高湖久久久久久久久_久久99| 国产欧美啪啪| 9999在线观看| 免费欧美在线| 制服.丝袜.亚洲.中文.综合懂 | 秋霞在线观看一区二区三区| 亚洲午夜精品一区 二区 三区| 久久久999视频| 国产一区999| 国产精品天天干| 亚洲va韩国va欧美va精品| 亚洲系列在线观看| 国产视频精品在线| 日本无删减在线| 国产专区精品视频| 美日韩中文字幕| 午夜免费福利小电影| 国产精品2024| 老司机精品免费视频| 午夜伊人狠狠久久| 性猛交xxxx乱大交孕妇印度| 色多多国产成人永久免费网站| 欧美三级网站| 国产精品伊人日日| 综合国产精品| 在线视频观看一区二区| 国产喂奶挤奶一区二区三区| 日韩精品视频免费看| 欧美一区二区日韩| 日本高清在线观看wwwww色| 国产91色在线|| 久久影院资源站| 精品久久久久久无码中文野结衣| 精彩视频一区二区| 日韩黄色中文字幕| 欧美综合一区二区三区| 美国一级片在线免费观看视频| 国内成人精品视频| 国产 日韩 欧美 综合 一区| 狠狠精品干练久久久无码中文字幕 | 欧美一区亚洲一区| 久久精品亚洲成在人线av网址| 欧美黄色免费网址| 成人在线视频一区二区| 久久婷婷国产麻豆91| 日韩欧美国产不卡| 最新av在线播放| 69堂成人精品视频免费| 亚洲色图欧美| 992tv人人草| 亚洲一区在线观看视频| 亚洲第一天堂网| 久久久久久亚洲| 久久夜色电影| 成年人视频网站免费观看| 久久美女高清视频| 日本a级c片免费看三区| 夜夜嗨av一区二区三区免费区| 成人免费看视频网站| 日本精品国语自产拍在线观看| 日韩电影一区二区三区| 少妇太紧太爽又黄又硬又爽小说 | 热草久综合在线| 欧美女优在线视频| 三级视频中文字幕| 成人欧美一区二区三区白人 | 亚洲无线码在线一区观看| 午夜日韩成人影院| 亚洲一区二区三区午夜| 国模娜娜一区二区三区| 久久精品www人人爽人人| 精品福利在线导航| 深夜在线视频| 色综合久久av| 国产精品1024| 国产a∨精品一区二区三区仙踪林| 国产丝袜高跟一区| 亚洲爱爱视频| 日本老太婆做爰视频| 不卡一二三区首页| 日本黄色中文字幕| 久久影院资源网| 欧美精品国产白浆久久久久| 亚洲精品乱码久久久久久自慰| 国产精品欧美一区喷水| 亚洲va欧美va| 日韩av电影中文字幕| 91精品久久久久久久久久不卡| 亚洲美女精品视频| 色偷偷成人一区二区三区91| 成人免费观看视频大全| 狠狠干一区二区| 麻豆国产精品一区二区三区 | 在线国产亚洲欧美| a级网站在线播放| 日本欧美精品久久久| 国产精品一级黄| 欧美一级淫片免费视频黄| 美女少妇精品视频| 欧美亚洲激情| 精品一区二区三区四区五区六区| 色又黄又爽网站www久久| www.欧美日本韩国| 日韩精品资源| 成人午夜激情在线| 中文 欧美 日韩| 97超级碰在线看视频免费在线看| 999国产精品| 97人妻精品一区二区免费| 日韩一区二区三区视频在线观看|