精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟開放3.1T token高質(zhì)量數(shù)據(jù)!通用/代碼/數(shù)學(xué)/問答,全領(lǐng)域超越開源

人工智能 新聞
RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,通過優(yōu)化數(shù)據(jù)處理流程,從Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等數(shù)據(jù)集,在多項(xiàng)任務(wù)中超越了現(xiàn)有開源數(shù)據(jù)集,顯著提升了模型性能。

過去幾年,大型語言模型(LLMs)已經(jīng)成為人工智能研究的一個(gè)關(guān)鍵領(lǐng)域,從大規(guī)模的自然語言數(shù)據(jù)中學(xué)習(xí),使其能夠以極高的準(zhǔn)確率執(zhí)行各種與語言相關(guān)的任務(wù)。

得益于模型擴(kuò)展性方面的進(jìn)展,研究人員能夠創(chuàng)建具有前所未有復(fù)雜度的模型。

當(dāng)前的研究趨勢(shì)是致力于構(gòu)建更大、更復(fù)雜的模型,具有數(shù)百/數(shù)千億個(gè)參數(shù),但大型語言模型的訓(xùn)練需要海量的訓(xùn)練數(shù)據(jù),尤其隨著模型參數(shù)量的上升,對(duì)于優(yōu)質(zhì)數(shù)據(jù)數(shù)量的要求也將進(jìn)一步加大,優(yōu)質(zhì)數(shù)據(jù)量的缺乏極大限制了模型能力的進(jìn)一步增長。

RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,結(jié)合了目前主流的數(shù)據(jù)處理工具以及自定義的處理模塊,進(jìn)一步優(yōu)化發(fā)展而來。

通過RedStone,研究人員構(gòu)建了包括RedStone-Web、RedStone-Code、RedStone-Math以及RedStone-QA等多個(gè)數(shù)據(jù)集,均在各類任務(wù)中超越了目前開源的數(shù)據(jù)集,能夠?yàn)榇竽P偷念A(yù)訓(xùn)練以及后訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐。

論文地址:https://arxiv.org/abs/2412.03398

倉庫鏈接:https://github.com/microsoft/RedStone

受限于公司的開源策略,RedStone僅開源了數(shù)據(jù)索引以及所有處理代碼以供社區(qū)復(fù)現(xiàn)。不過隨著受社區(qū)關(guān)注度的逐漸提高,目前已有社區(qū)復(fù)現(xiàn)版本的RedStone,依據(jù)github中項(xiàng)目描述,該復(fù)現(xiàn)的數(shù)據(jù)集在規(guī)模和質(zhì)量上與RedStone內(nèi)部數(shù)據(jù)類似。

圖1 RedStone概覽圖

如圖1所示,RedStone以Common Crawl為原始數(shù)據(jù)源,旨在使用同一的數(shù)據(jù)處理框架清洗各類目標(biāo)數(shù)據(jù)。

RedStone-Web為大規(guī)模通用的預(yù)訓(xùn)練數(shù)據(jù),為模型注入全世界通用知識(shí)。

RedStone-Code和RedStone-Math為網(wǎng)絡(luò)中的各類代碼/數(shù)學(xué)相關(guān)數(shù)據(jù),與其他開源的code、math類型數(shù)據(jù)不同的是,網(wǎng)頁中的code/math天然具有純文本和code/math交錯(cuò)的形式,例如代碼教程、題目講解等等。

因此模型可以像人類一樣借助code/math上下文中的純文本來進(jìn)一步深刻理解code/math。此外RedStone還構(gòu)建了RedStone-QA,這是一個(gè)大規(guī)模的QA數(shù)據(jù)集,最簡單直接的方式為模型注入各類知識(shí)。

對(duì)于RedStone-Web,RedStone認(rèn)為對(duì)于高質(zhì)量數(shù)據(jù)的定義至關(guān)重要,早期社區(qū)認(rèn)為文本的流暢度等指標(biāo)代表了數(shù)據(jù)的質(zhì)量,近期越來越多研究人員認(rèn)為含有教育意義的數(shù)據(jù)代表了高質(zhì)量數(shù)據(jù)。

RedStone則是在其中找了一個(gè)平衡點(diǎn),包含知識(shí)且文本流暢的,被定義為高質(zhì)量數(shù)據(jù)。其中知識(shí)可以是任何形式的,只要其中包含的內(nèi)容可以讓模型對(duì)世界的認(rèn)識(shí)得到進(jìn)一步發(fā)展。

因此在RedStone-web的構(gòu)建上,主要處理框架參考了refinedweb和redpajama,但刪除了原有的過濾模塊,使用新構(gòu)建的過濾系統(tǒng),最終獲得了總共3.1T token的高質(zhì)量通用預(yù)訓(xùn)練數(shù)據(jù)。各個(gè)其各個(gè)步驟以及對(duì)應(yīng)的數(shù)據(jù)量如圖2所示。

圖2 RedStone-Web處理步驟

除了RedStone-Web這一通用領(lǐng)域的高質(zhì)量數(shù)據(jù)集以外,RedStone認(rèn)為網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地,足以挖掘各類在通用領(lǐng)域之外被遺漏的各類數(shù)據(jù)(例如對(duì)于RedStone-Web而言有些頁面整體質(zhì)量不高,但其中的某個(gè)片段在特定領(lǐng)域?qū)儆诟哔|(zhì)量),隨后構(gòu)建了RedStone-Code、RedStone-Math以及RedStone-QA等專有數(shù)據(jù)。

其核心仍然是過濾,RedStone提出了多層過濾系統(tǒng),分別對(duì)應(yīng)不同的數(shù)據(jù)規(guī)模。例如采用fasftext對(duì)所有網(wǎng)頁進(jìn)行統(tǒng)一快速過濾,隨后使用更高性能模型精細(xì)過濾以及片段抽取。論文指出RedStone支持構(gòu)建其他類型的專有數(shù)據(jù),只需自定義好過濾器即可。通用領(lǐng)域和特定領(lǐng)域的數(shù)據(jù)構(gòu)建代碼都已開源。

圖3展示了最終各個(gè)數(shù)據(jù)集的規(guī)模。

圖3 數(shù)據(jù)集規(guī)模

為了驗(yàn)證各個(gè)數(shù)據(jù)集的質(zhì)量,作者分別使用這些數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并與開源數(shù)據(jù)集比較。如圖4所示。RedStone-Web在大部分任務(wù)中都顯著高于其他所有開源數(shù)據(jù)集,并且在平均分指標(biāo)上得到了第一的成績。這說明RedStone-Web可以顯著提升模型性能,并且使得模型的訓(xùn)練更為高效。

圖4 RedStone-Web與開源預(yù)訓(xùn)練數(shù)據(jù)集的比較

圖5 RedStone-Code結(jié)果展示

考慮到RedStone-Code是來源于網(wǎng)頁,數(shù)據(jù)是文本與代碼交錯(cuò)的形式,目前社區(qū)中并無此類數(shù)據(jù)集開源,因此在RedStone-Web基礎(chǔ)上增加RedStone-Code進(jìn)行了實(shí)驗(yàn)。

可以看到在并沒有顯示添加例如github等純代碼的數(shù)據(jù)情況下,所有數(shù)據(jù)均只來自網(wǎng)頁,RedStone-Code同樣可以顯著提升模型在代碼方面的能力,說明RedStone-Code能夠給模型注入足夠的代碼知識(shí),對(duì)于代碼數(shù)據(jù)已經(jīng)被耗盡的社區(qū)來說,這是一個(gè)能顯著進(jìn)一步擴(kuò)展代碼領(lǐng)域數(shù)據(jù)的數(shù)據(jù)集。

圖6 RedStone-Web與開源數(shù)據(jù)比較

圖6展示了RedStone-Math與社區(qū)開源數(shù)據(jù)OpenWebMath的比較,結(jié)果顯示在同樣的設(shè)置和步數(shù)下,RedStone-Math在得分上高于OpenWebMath,盡管OpenWebMath同樣來源于網(wǎng)絡(luò),但得益于構(gòu)建了更好的過濾器,最終能夠得到更高的數(shù)據(jù)質(zhì)量。

圖7 RedStone-QA與開源數(shù)據(jù)比較

在沒有依賴更多的QA數(shù)據(jù)下,只從網(wǎng)絡(luò)中爬取QA對(duì),RedStone-QA就可以讓模型相對(duì)與其他開源QA數(shù)據(jù)集得到顯著的提升(例如MMLU提升了大約10個(gè)點(diǎn)),這更說明了網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地。

除了以上這些領(lǐng)域外,RedStone的使用幾乎不受領(lǐng)域的限制,任何人都可以使用開源代碼對(duì)特定領(lǐng)域進(jìn)行爬取。

通過圖4至圖7的結(jié)果可以看到,RedStone構(gòu)建的數(shù)據(jù)在LLM預(yù)訓(xùn)練以及后訓(xùn)練中展現(xiàn)了有前景的能力,使其成為構(gòu)建LLM各類訓(xùn)練數(shù)據(jù)的多功能、實(shí)用pipeline。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-14 09:26:00

2025-08-27 07:17:00

數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)治理大數(shù)據(jù)

2025-11-12 08:40:00

數(shù)據(jù)AI模型

2017-07-14 09:54:47

代碼函數(shù)程序

2025-04-27 09:16:00

模型AI數(shù)據(jù)

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2011-03-04 10:11:09

JavascriptAPI

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2023-09-01 14:42:39

數(shù)據(jù)研究

2025-09-23 12:39:02

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2015-08-25 08:29:11

編寫高質(zhì)量命名

2015-08-03 10:40:59

程序員代碼質(zhì)量Quora

2011-12-29 15:02:27

JavaScript

2025-02-11 16:11:12

2025-07-23 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩精品一区二区三区在线播放| 福利一区福利二区| 国产亚洲精品91在线| 黄大色黄女片18第一次| free性欧美hd另类精品| 国产成人精品免费网站| 日本欧美黄网站| 成年人视频软件| 国产精品nxnn| 欧美日韩一区二区在线观看| 日本人妻伦在线中文字幕| 美女做暖暖视频免费在线观看全部网址91 | 韩国精品一区二区三区| 亚洲欧洲日产国码av系列天堂| 日韩欧美亚洲另类| 日本不良网站在线观看| 亚洲欧美偷拍三级| 日本一区二区三区精品视频| 精品国产九九九| 天堂精品中文字幕在线| 美日韩在线视频| 真实乱视频国产免费观看| 亚洲一区二区三区免费| 欧美日韩黄色一区二区| 国产极品粉嫩福利姬萌白酱| caoporm免费视频在线| 欧美激情一区二区三区| 久久www免费人成精品| 国产又黄又爽视频| 久久午夜影视| 97精品国产97久久久久久春色| 久草手机视频在线观看| 国产成人调教视频在线观看| 亚洲国产精品va在线观看黑人| 亚洲涩涩在线观看| 日韩精品第一| 欧美性生交大片免费| 分分操这里只有精品| 黄色片网站在线观看| 国产精品美女一区二区三区| 欧美h视频在线| 少妇人妻精品一区二区三区| 国产在线观看免费一区| 91精品国产综合久久香蕉最新版| 无码人妻精品一区二区蜜桃色欲| 亚洲精选91| 九九精品视频在线观看| 国产乱国产乱老熟300| 99久久夜色精品国产亚洲狼| 色播久久人人爽人人爽人人片视av| 波多野结衣av在线免费观看| 日韩成人av在线资源| 日韩成人av网| www.色多多| 亚洲资源网你懂的| 亚洲欧洲免费视频| 老熟妇一区二区| 国产欧美高清视频在线| 亚洲一区av在线播放| 亚洲精品一区二区三区影院忠贞| 久久不见久久见中文字幕免费 | 午夜不卡久久精品无码免费| 日韩精品成人在线观看| 日韩精品综合一本久道在线视频| 亚洲精品一二三四| 中文字幕日韩在线| 精品国产乱码久久久久久影片| 年下总裁被打光屁股sp| 国产精品调教视频| 亚洲精选在线观看| 亚洲一二三四视频| 999久久久国产精品| 欧美成人中文字幕| 国产大片中文字幕| 亚洲综合丁香| 国产精品丝袜久久久久久高清| 艳妇乳肉豪妇荡乳av| 国产一区二区三区黄视频| 97久久天天综合色天天综合色hd| 丰满少妇在线观看bd| 91麻豆国产香蕉久久精品| 欧美亚洲爱爱另类综合| 欧洲不卡视频| 亚洲国产精品久久艾草纯爱 | 99精品中文字幕| 永久亚洲成a人片777777| 欧美高清视频在线播放| 日本视频在线观看免费| 精品一区二区三区视频| 国产精品一区二区三区在线| 国产在线观看网站| 最新中文字幕一区二区三区| 国产欧美日韩小视频| 3d欧美精品动漫xxxx无尽| 91麻豆精品91久久久久同性| 成人午夜精品无码区| 精品国内自产拍在线观看视频| 久久久精品国产网站| 日韩成年人视频| 免费成人性网站| 国产精品久久久一区二区三区| 你懂的好爽在线观看| 日韩久久一区二区| 中文字幕日本最新乱码视频| 不卡一区视频| 亚洲毛片一区二区| 天天干中文字幕| 蜜臀久久99精品久久久久宅男| 丁香五月网久久综合| 福利片在线看| 精品国产乱码久久久久久天美| 国产区二区三区| 欧美激情99| 久久夜色精品国产| 亚洲大尺度在线观看| 成人天堂资源www在线| 亚洲欧美久久久久一区二区三区| 99riav视频在线观看| 欧美二区乱c少妇| 国产全是老熟女太爽了| 亚洲成人tv| 国产精品久久二区| 午夜福利一区二区三区| 一区二区在线观看视频在线观看| 欧美一级裸体视频| 亚洲精品中文字幕99999| 欧美大片在线看| 国产又大又黄的视频| 国产精品女同一区二区三区| 能在线观看的av| 菁菁伊人国产精品| 欧美丰满少妇xxxxx| 91国内精品视频| 国产人伦精品一区二区| 亚洲熟妇av一区二区三区| 91精品入口| 欧美巨乳在线观看| 国产欧美日韩成人| 亚洲人成小说网站色在线| 一区二区xxx| 成人三级视频| 日韩av电影院| 黄色小视频在线免费观看| 精品日韩视频在线观看| 日本少妇xxxx| 伊人久久婷婷| 激情久久av| 欧洲一区精品| 亚洲国产日韩欧美在线图片| 豆国产97在线 | 亚洲| 懂色av一区二区夜夜嗨| 超碰人人爱人人| eeuss鲁片一区二区三区| 高清在线视频日韩欧美| 天天操天天射天天舔| 午夜精品久久久久| 黄色av网址在线观看| 久久不射中文字幕| 欧洲在线视频一区| 国产91精品在线| 俺去亚洲欧洲欧美日韩| 97成人免费视频| 亚洲免费观看视频| 亚洲熟女乱综合一区二区| 好看的av在线不卡观看| 国产原创精品| 欧美黄色网页| 深夜福利一区二区| 国产高中女学生第一次| 午夜一区二区三区在线观看| 特级西西人体wwwww| 肉丝袜脚交视频一区二区| 亚洲春色在线| 亚洲高清在线一区| 欧美怡春院一区二区三区| 黄色视屏网站在线免费观看| 欧美二区乱c少妇| 日本a在线观看| 久久久精品一品道一区| 在线观看岛国av| 亚洲小说区图片区| 日韩精品一线二线三线| 国产精品777777在线播放| 欧美精品www在线观看| 午夜影院免费视频| 欧美乱熟臀69xxxxxx| 久久久久亚洲av无码专区| 91色视频在线| www.51色.com| 久久久久久久高潮| 久久久久久久久久久久久国产| 欧美大胆视频| 91精品在线一区| 国产传媒av在线| www亚洲精品| 国 产 黄 色 大 片| 91黄色免费看| 国产亚洲精品码| 国产精品视频yy9299一区| 亚洲少妇一区二区三区| 欧美96一区二区免费视频| 伊人再见免费在线观看高清版| 亚洲影院天堂中文av色| www.久久爱.cn| 99久久亚洲国产日韩美女| 久久久久这里只有精品| 免费在线观看av| 精品亚洲一区二区三区在线观看 | 成人夜色视频网站在线观看| 久久久久久久久久久久91| 激情五月***国产精品| av动漫免费观看| 国产探花在线精品| 国内外成人免费视频| 国产精品久久免费视频 | 精品国产亚洲一区二区三区在线| 欧美最近摘花xxxx摘花| 蜜臀av在线| 久久精品视频在线播放| 国产中文字幕在线看| 亚洲国产精品资源| 精品人妻少妇AV无码专区| 欧美日韩精品高清| 香蕉污视频在线观看| 精品久久久久久久久久久久| 九九视频在线免费观看| 中文字幕字幕中文在线中不卡视频| 蜜臀久久99精品久久久久久| 久久综合久久鬼色| 大尺度做爰床戏呻吟舒畅| 国产不卡在线一区| 国内av免费观看| 国产一区二区三区在线观看精品 | 粉嫩av一区二区三区| 91免费视频污| 国产一区二区三区免费观看| gogogo高清免费观看在线视频| 久久成人免费| 五十路熟女丰满大屁股 | 成人一级片网站| 亚洲精品九九| 97免费视频观看| 亚洲精品一二三区区别| 一区二区在线不卡| 999国产精品999久久久久久| 国产福利片一区二区| 视频在线不卡免费观看| 亚洲国产精品123| 日本一区二区免费高清| 亚洲在线视频一区二区| 91日韩在线| 国产大尺度在线观看| 亚洲在线久久| 久久福利一区二区| 欧美日韩亚洲一区| 久久99中文字幕| 日韩一级免费| 久草资源站在线观看| 久久视频一区| 日本www.色| 免费不卡在线视频| 久久综合在线观看| 成人免费av在线| 性色av蜜臀av色欲av| 91片黄在线观看| 欧美熟妇一区二区| 欧美国产精品久久| 国产在线观看免费视频软件| 亚洲男人的天堂在线aⅴ视频| 免费网站看av| 欧美日韩国产丝袜美女| 五月婷婷六月婷婷| 欧美日本韩国一区二区三区视频| 国产美女免费看| 精品国产百合女同互慰| 三级国产在线观看| www.日韩系列| heyzo高清国产精品| 国产成人精品久久亚洲高清不卡| 欧美美女福利视频| 国产精品二区在线| 久久91精品| 99久re热视频精品98| 一本色道88久久加勒比精品| 四季av一区二区| 国产成人久久精品77777最新版本| 97人妻天天摸天天爽天天| 国产精品麻豆99久久久久久| 国产第一页第二页| 欧美亚洲高清一区| 丰满熟妇人妻中文字幕| 色偷偷噜噜噜亚洲男人的天堂| 青青草视频在线免费直播| 日韩av高清不卡| 久久免费福利| 色综合666| 狠狠88综合久久久久综合网| 黄色三级视频片| 成人性生交大片免费看中文网站| 国产三级av在线播放| 一区二区三区丝袜| 波多野结衣黄色| 精品久久99ma| 亚洲视频tv| 欧洲亚洲在线视频| 欧美三级一区| 日韩一区二区三区高清| 亚洲久久成人| 在线成人精品视频| 国产精品色眯眯| 亚洲日本韩国在线| 日韩一区二区影院| av基地在线| 日韩av成人在线| 国产伦精品一区二区三区免费优势| 亚洲欧美日韩在线综合| 男人的天堂亚洲在线| 日韩综合第一页| 亚洲精品欧美激情| 夜夜躁狠狠躁日日躁av| 亚洲性日韩精品一区二区| 九九色在线视频| 91精品视频在线免费观看| 日韩成人a**站| 女人另类性混交zo| 91视频.com| 免费观看一区二区三区毛片| 日韩美女一区二区三区四区| 欧美13一16娇小xxxx| 国产精品久久二区| 欧美一区电影| 无码无遮挡又大又爽又黄的视频| av福利精品导航| 国产精品2020| 在线不卡a资源高清| 天堂中文а√在线| 91精品久久久久| 91精品综合久久久久久久久久久| 色噜噜狠狠永久免费| 欧美激情一区在线观看| 青青艹在线观看| 中文字幕日韩av电影| 免费在线观看一区| 五月天国产一区| 免费成人在线影院| 肉色超薄丝袜脚交69xx图片| 欧美美女一区二区| dj大片免费在线观看| 成人xxxxx色| 最新国产拍偷乱拍精品| 欧美深性狂猛ⅹxxx深喉| 午夜国产精品影院在线观看| 午夜国产在线观看| 欧美一级电影久久| 国产欧美日韩精品一区二区三区| 久久婷婷国产91天堂综合精品| 激情小说欧美色图| 婷婷久久综合九色综合绿巨人 | 久久精子c满五个校花| 亚洲精品国产欧美在线观看| 中文字幕国产日韩| 国产精品一站二站| 国产爆乳无码一区二区麻豆| 成人av资源网站| 国产精品免费精品一区| 中文日韩在线观看| 欧美国产亚洲精品| 国产免费黄视频| 国产视频亚洲色图| av片免费播放| 88国产精品欧美一区二区三区| 九一精品国产| 波多野结衣在线免费观看| 亚洲成a人v欧美综合天堂| 青青国产在线| 91精品久久久久久久| 亚洲经典视频在线观看| 国产高清一区二区三区四区| 在线成人av网站| 国产精选在线| 亚洲一区综合| 成人不卡免费av| 亚洲天堂视频网| 久久久久久国产| 精品国产一区二区三区久久久蜜臀| 91丝袜超薄交口足| 福利精品视频在线| 国产精品刘玥久久一区| 久久久久久久久久久久久久一区 | 成人免费av片| 7777女厕盗摄久久久| av日韩电影| 97av中文字幕| 中文字幕av资源一区| 手机在线观看免费av| 91在线网站视频| 日日摸夜夜添夜夜添亚洲女人| 免费中文字幕在线| 亚洲女人初尝黑人巨大| 中文字幕一区日韩精品|