精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

FineWeb技術報告出爐!揭秘HuggingFace規模最大、質量最高預訓練數據集

人工智能 新聞
從大規模網絡爬取、精細過濾到去重技術,通過FineWeb的技術報告探索如何打造高質量數據集,為大型語言模型(LLM)預訓練提供更優質的性能。

大型語言模型(LLMs)的性能在很大程度上取決于它的預訓練數據集的質量和大小。

然而,像Llama 3和Mixtral這樣最先進的LLMs的預訓練數據集并不公開;關于它們是如何創建的,我們知之甚少。

近日,Hugging Face上的一個團隊發布了FineWeb數據集,這是一個用于LLM預訓練的新型大規模(15萬億個tokens,44TB磁盤空間)數據集。

同時,他們還通過技術報告詳細介紹了該數據集的加工決策過程:FineWeb源自96個CommonCrawl快照,它是如何通過縝密的去重和過濾策略,比其他開放預訓練數據集產生了表現更好的LLM的。

創建數據集的準備工作

開始創建數據集的第一步,需要考慮的問題是如何獲取到大規模的數據。

Common Crawl這個非營利組織自2007年以來一直在爬取網絡數據,并且每1到2個月發布一次新的爬取,包含200到400 TiB的文本內容。

于是,Common Crawl就作為了FineWeb數據集的起點。

其次,由于涉及的數據量巨大,需要一個模塊化且可擴展的代碼庫來快速迭代處理決策并適當地并行化工作負載,同時提供對數據的清晰洞察。

為此,該團隊開發了datatrove,這是一個開源數據處理庫,能夠將過濾和去重設置無縫擴展到數千個CPU核心。

在創建數據集時,需要考慮的主要問題是什么是“高質量”的數據。

一種常用的方法是在數據集的一個代表性子集上訓練小型模型,并在一組評估任務上評估它們。

研究者在兩個版本的數據集上訓練了兩個結構相同的模型,一個經過額外處理步驟,另一個沒有,以此來比較數據處理步驟對模型性能的影響。

他們選用了Commonsense QA、HellaSwag、OpenBook QA等基準測試來評估模型,并限制較長基準測試的樣本量以避免過度擬合,確保模型評估結果的可靠性和泛化能力。

數據集是怎么去重和過濾的

下圖概括了FineWeb數據集生成的主要步驟:

URL過濾→文本提取→語言過濾→Gopher過濾→MinHash去重→C4過濾器→自定義過濾器→PII(個人身份信息)移除

圖片

本文主要介紹去重和過濾的部分,因為對于創建高質量數據集來說,這兩個步驟對于提高模型性能、增加數據多樣性和清潔度方面至關重要。

數據去重

網絡中存在許多聚合器、鏡像站點或模板化頁面,這些都可能導致內容在不同域名和網頁上重復出現。

去除這些重復內容(去重)已被證明可以提高模型性能,并減少對預訓練數據的記憶,這有助于模型更好地泛化。

研究者采用了MinHash這種基于模糊哈希的去重技術,因為它可以有效地擴展到許多CPU節點,并可以調整相似性閾值(通過控制bucket的數量和大小)以及考慮的子序列長度(通過控制n-gram大小)。

研究者拆分每個文檔為5-gram,使用112個哈希函數計算minhashes。

112個哈希函數被分成14個bucket,每個bucket有8個哈希,目的是定位至少75%相似的文檔。

在任何bucket中具有相同8個minhashes的文檔被認為是彼此的重復。

需要注意的是,研究者發現一個奇怪的現象:雖然去重后數據量少了很多(比如最舊的數據包,去重后只剩下了原來10%的內容),但用這些去重后的數據去訓練模型的時候,模型的表現并沒有變好,甚至比之前用沒有去重的數據訓練的模型還要差。

圖片

在所有數據包上進行去重并沒有提高性能

這說明,有時候去重去得太狠了,可能把一些有用的內容也給去除了,留下的那些內容反而質量不高。

這也提醒我們,需要找到一個平衡點,既要去除重復、低質量的數據,也要保留足夠的、有價值的信息。

為了改進去重方法,研究者嘗試了一種新策略:對每個單獨的數據包使用MinHash技術進行獨立的去重,而不是將所有數據包合并在一起去重。

通過這種方式,平衡了每個重復次數較多的集群和重復次數較少的集群之間的分布差異,讓去重更加的「溫和」。

數據過濾

首先介紹一下C4數據集,這是一個大型語言模型(LLM)訓練的常用數據子集,它在Hellaswag基準測試中表現十分出色。

FineWeb的研究者首先參照C4的過濾策略,先是匹配它的性能,然后是超越。

通過應用所有過濾規則(去除不以標點符號結尾的行、提及JavaScript和cookie通知,以及去除不在長度閾值內的文檔,包含“lorem ipsum”或花括號{}),他們能夠匹配C4在Hellaswag上的表現。

然后,通過多次的消融研究,研究者確定了三個自定義過濾器在綜合分數上顯示出最顯著的改進:

  • 移除以標點符號結尾的行的比例≤0.12的文檔(移除了10.14%的token)
  • 移除在重復行中字符的比例≥0.1的文檔(移除了12.47%的token)
  • 移除短于30個字符的行的比例≥0.67的文檔(移除了3.73%的token)

圖片

當這三個過濾器一起應用時,大約22%的標記被移除。

這些過濾器使他們能夠進一步提高性能,并顯著地超過了C4數據集的性能,同時提供了一個更大的數據集。

FineWeb數據集的表現

通過與其他通常被認為是最高質量的公開可訪問的網絡規模數據集進行了消融比較,包括RefinedWeb(5000億個標記)、C4(1720億個標記)、Dolma v1.6(3萬億個標記)等, FineWeb(15萬億個標記)在允許訓練數萬億個標記的同時,帶來了目前最高的模型性能。

圖片

除此之外,該團隊還發布了FineWeb-Edu,FineWeb-Edu的開發采用了一種新方法,即利用合成數據來開發用于識別教育內容的分類器。

針對教育領域,通過增加教育質量評分的注釋和增加了單獨的評分系統,研究者創建了一個有效的分類器,可以在大規模數據集上識別和過濾出具有教育價值的內容。

FineWeb-Edu在教育基準測試如MMLU、ARC和OpenBookQA上取得了顯著改進,超過了 FineWeb和其他所有開放的網絡數據集。

圖片

同時,FineWeb-Edu的生成也證明了使用LLM注釋訓練的分類器在大規模數據過濾中的有效性。

在技術報告的最后,研究者表示,希望持續揭示高性能大型語言模型訓練的黑箱,并讓每個模型訓練者都能創建最先進的LLM。

他們也期待將FineWeb的經驗和學習應用到其他的非英文語言,使多語言的高質量網絡數據也能夠更容易地被獲取到。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-14 09:26:00

2013-05-09 10:30:44

開源軟件開源項目

2022-01-06 09:57:02

數據計算機神經網絡

2024-01-03 18:53:13

語言模型LLM

2025-03-18 08:00:00

豆包文生圖技術Seedream

2023-07-27 18:33:08

Go薪資JS

2025-03-13 07:00:00

2020-09-27 16:21:28

AI數據

2025-06-19 08:50:00

模型訓練數據

2024-08-14 14:22:00

2025-08-11 17:58:44

開源技術模型

2019-03-21 16:27:21

數據開發機器學習

2021-04-19 11:02:06

阿里云達摩院AI

2021-11-15 10:00:22

模型人工智能NLP

2023-07-09 15:24:58

2012-02-20 14:49:31

360垃圾短信

2020-03-25 13:51:05

人工智能自動駕駛技術

2023-12-21 13:26:13

谷歌Gemini大模型

2024-07-02 01:09:02

2024-08-28 08:25:25

Python預訓練模型情緒數據集
點贊
收藏

51CTO技術棧公眾號

国产精品电影一区二区三区| 美女视频黄免费的久久| 国产日本欧洲亚洲| 国产精品男女猛烈高潮激情| 你懂得视频在线观看| 电影一区中文字幕| 欧美日韩中文在线| 日本一区二区免费高清视频| 午夜福利一区二区三区| 久久99蜜桃精品| 91精品国产91久久久久久不卡| 亚洲黄色小说视频| 成人av影音| 欧美吻胸吃奶大尺度电影| 国产精品三区www17con| 亚洲欧美日韩一区二区三区四区| 久久久免费毛片| 欧美视频自拍偷拍| 欧美午夜小视频| 91精品专区| 99久久久精品| 亚洲www视频| 无码人妻丰满熟妇区bbbbxxxx| 国产主播性色av福利精品一区| 成人免费小视频| 蜜桃免费一区二区三区| www.97av.com| 美国av一区二区| 日本一区二区三区四区视频| 九九视频免费看| 97视频热人人精品免费| 亚洲欧美国产日韩中文字幕| 欧美性大战久久久久xxx| 欧美高清视频| 欧美国产日本视频| 欧美xxxx黑人又粗又长密月| 国产 欧美 精品| 国产精品一区二区91| 国产精品综合久久久| 日韩手机在线视频| 欧美日韩xxxx| 亚洲激情中文字幕| 日本wwwwwww| 麻豆精品久久| 欧美一区三区二区| www.久久av.com| 亚洲精品一区三区三区在线观看| 日韩欧美999| 欧美日韩在线一| 99riav视频在线观看| 一区二区三区精品视频在线| 一区二区三区四区久久| 91社区在线| 中文字幕乱码久久午夜不卡| 日本高清不卡三区| 国产有码在线| 中文字幕 久热精品 视频在线| 欧美日韩精品久久久免费观看| 无码精品人妻一区二区| 91丨九色丨尤物| 欧美精品中文字幕一区二区| 青草久久伊人| 久久精品国内一区二区三区| 国产精品久久久久91| 无码人妻丰满熟妇区五十路 | 日韩av免费网址| 噜噜噜天天躁狠狠躁夜夜精品 | 91在线第一页| 老司机亚洲精品一区二区| 91精品国产一区二区| xxxxwww一片| 都市激情久久| 国产视频一区在线| 亚洲av毛片基地| 希岛爱理av一区二区三区| 欧美xxxx做受欧美.88| 久久久精品国产sm调教网站| 中文日韩欧美| 国产精品久久久久久久久影视 | 精品无人码麻豆乱码1区2区 | 麻豆91在线播放| 91在线直播亚洲| 手机看片福利在线| 美女任你摸久久| 5566av亚洲| 最新中文字幕免费| 韩国视频一区二区| 狠狠色综合色区| 在线观看免费版| 亚洲午夜国产一区99re久久| 免费在线观看日韩视频| 欧美成a人片免费观看久久五月天| 欧美一区二区三区四区久久| 白嫩情侣偷拍呻吟刺激 | 亚洲欧洲黄色网| 国产免费嫩草影院| 亚洲精品系列| 美女少妇精品视频| 青青青国产在线| 国产一区二区在线影院| 久久久久久久久久久一区| 99国产精品欲| 久久91精品国产91久久小草| 国产精品免费一区二区三区四区 | 欧美激情中文网| 国产污视频网站| 国产成人av影院| 性刺激综合网| 欧亚av在线| 91麻豆精品国产91久久久资源速度 | 成人午夜精品一区二区三区| 日韩欧美三级电影| 天堂网www中文在线| 不卡的av电影| 一区二区三区视频| 日韩欧美精品一区二区三区| 欧美二区三区的天堂| 菠萝菠萝蜜网站| 午夜日韩福利| 国产精品视频大全| 外国精品视频在线观看| 中文字幕视频一区二区三区久| 97国产在线播放| 91蝌蚪精品视频| 另类少妇人与禽zozz0性伦| 无码人妻熟妇av又粗又大| 国产成人a级片| ijzzijzzij亚洲大全| 成人h在线观看| 亚洲人成在线一二| 天堂中文在线网| 成人福利视频在线看| 今天免费高清在线观看国语| 天堂久久一区| 综合久久五月天| 精品无码一区二区三区的天堂| 成人av电影在线网| 欧美一级免费播放| 国产精品自在线拍| 久久久久久久激情视频| 精品人妻午夜一区二区三区四区| 成人免费在线观看入口| 奇米视频888| 色88久久久久高潮综合影院| 日韩美女毛茸茸| 黑人与亚洲人色ⅹvideos| 欧美日韩在线影院| 欧美激情aaa| 肉色丝袜一区二区| 日韩亚洲视频| 色猫猫成人app| 色狠狠av一区二区三区香蕉蜜桃| 老熟妇一区二区三区啪啪| 国产欧美一区二区三区在线老狼| 国产1区2区在线| 精品美女视频| 国产精品视频不卡| 国产一二区在线| 日韩美女视频一区二区在线观看| 欧美黄片一区二区三区| 高清不卡一区二区| 免费无码不卡视频在线观看| 欧美猛男做受videos| 国产精品视频一区二区高潮| 日本高清中文字幕在线| 91精品国产综合久久久久久久久久| 国产亚洲精品精品精品| 久久成人av少妇免费| 男人的天堂视频在线| 精品五月天堂| 国产精品福利在线| 成人午夜在线影视| 亚洲高清久久久久久| 特级西西444www大精品视频免费看| 久久精品一区二区三区av| 好色先生视频污| 亚洲精品高潮| 欧美中文字幕精品| 丰满熟妇乱又伦| 精品久久久久久亚洲精品| 免费黄色在线视频| 国产综合成人久久大片91| 久久艹国产精品| 精品久久久久久久| 成人精品一二区| gogo亚洲高清大胆美女人体| 久久精品91久久香蕉加勒比 | 日韩av在线免费观看一区| 天天干天天操天天操| 亚洲男人电影天堂| 久久无码人妻精品一区二区三区| 欧美aaaaaa午夜精品| 屁屁影院ccyy国产第一页| 亚洲国产国产| 亚洲永久在线观看| 激情都市亚洲| 欧美黑人国产人伦爽爽爽| 久久经典视频| 欧美va亚洲va国产综合| 日韩免费av网站| 亚洲一级二级三级在线免费观看| 中文字幕免费视频| 福利电影一区二区| 中文字幕视频在线免费观看| 欧美午夜a级限制福利片| 视频一区不卡| 神马久久av| 99精品在线直播| 日韩黄色三级| 日本成熟性欧美| gogo高清午夜人体在线| 日韩中文字幕免费视频| 你懂得网站在线| 精品久久久香蕉免费精品视频| 成年人视频软件| 久久超碰97中文字幕| 久久精品免费一区二区| 欧美高清一区| 国产福利片一区二区| 精品成人影院| 久久av一区二区| 国产精品极品在线观看| 亚洲影院色在线观看免费| 精品久久久网| 国产成人拍精品视频午夜网站| ****av在线网毛片| 久久69精品久久久久久国产越南| 一区二区三区视频网站| 亚洲深夜福利网站| 青青免费在线视频| 日韩高清av在线| 内射无码专区久久亚洲| 欧美成人女星排名| www.久久色| 欧美一区二区三区系列电影| 国产精品无码AV| 亚洲黄色免费网站| 人妻av一区二区| 国产jizzjizz一区二区| 国产精品熟女一区二区不卡| 久久精品国产久精国产| 日本激情视频在线播放| 日韩不卡一区二区三区| 成人在线观看a| 日韩精品视频网站| 国内外免费激情视频| 视频在线观看国产精品| 欧美视频第一区| 久久久久国产精品一区三寸| 毛片一区二区三区四区| 日日欢夜夜爽一区| 国产一区二区在线免费播放| 人人超碰91尤物精品国产| 视色视频在线观看| 老色鬼精品视频在线观看播放| 97超碰成人在线| 国产一区在线视频| 久久久久久久久久影视| av中文一区二区三区| 一本色道综合久久欧美日韩精品| 久久伊人中文字幕| 精品无人区无码乱码毛片国产| 国产三区在线成人av| 丰满少妇中文字幕| 高清国产一区二区| aaaaaav| 中文字幕欧美国产| 国产真实乱在线更新| 亚洲一区二区三区国产| 91av在线免费视频| 欧美综合在线视频| 国产绿帽刺激高潮对白| 精品国产乱码久久久久久夜甘婷婷 | 加勒比av在线播放| 精品露脸国产偷人在视频| 中文字幕在线观看视频免费| 欧美男人的天堂一二区| 免费av网站观看| 国产视频一区在线| 国产高清一区二区三区视频| 午夜精品一区二区三区在线 | 91精品久久久久久蜜桃| 欧美黄色网视频| 91成人免费看| 欧美大胆a级| 亚洲欧美成人一区| 欧美先锋影音| 免费看污黄网站| 国产99久久久国产精品潘金网站| 国产伦精品一区二区三区妓女| 欧美激情综合网| 国产主播在线播放| 欧美色图免费看| 日本黄色三级视频| 久久久国产一区| 亚洲性受xxx喷奶水| 91色精品视频在线| 怕怕欧美视频免费大全| 今天免费高清在线观看国语| 肉色丝袜一区二区| 国产一卡二卡三卡四卡| 国产精品色婷婷| 99精品中文字幕| 精品久久久久久国产91| 国产精品无码久久久久成人app| 亚洲精品99999| √天堂8在线网| 国产精品久久久久久久av电影 | 欧美精品一区二区蜜桃| 在线观看亚洲成人| 色哟哟国产精品色哟哟| 麻豆成人在线看| 日韩一级二级| 欧美凹凸一区二区三区视频| 欧美日韩综合| а 天堂 在线| 国产精品美女久久久久高潮| 日本道在线观看| 精品捆绑美女sm三区| 国产在线看片| 国产狼人综合免费视频| 国产精品免费不| 久久网站免费视频| 99久久免费国产| 日本在线视频中文字幕| 日韩欧美的一区| www在线免费观看视频| 国产美女久久精品| 欧美三级美国一级| 成人三级视频在线播放| 26uuu精品一区二区在线观看| 欧美亚洲天堂网| 欧美成人伊人久久综合网| 国产激情在线| 亚洲xxxx3d| 中文在线日韩| 男女视频在线观看网站| 亚洲日本青草视频在线怡红院| 中国精品一区二区| 中文字幕欧美日韩精品| 日本在线中文字幕一区二区三区| 免费看成人午夜电影| 国产精品呻吟| 国产精品久久久久无码av色戒| 精品国产91乱高清在线观看| 日韩性xxxx| 日本91av在线播放| 精品国产日韩欧美| 午夜激情av在线| 亚洲欧美怡红院| 国产高清免费在线观看| 欧美国产第二页| 国产精品高潮呻吟久久久久| 91国视频在线| 国产视频一区在线观看| 一区二区视频播放| 精品国产拍在线观看| 欧美国产中文高清| 欧美一级视频在线播放| 久久亚洲春色中文字幕久久久| 亚洲熟女综合色一区二区三区| 亚洲欧美资源在线| 欧美激情啪啪| 国产尤物av一区二区三区| 99久久综合色| 国产女优在线播放| 久久精品国产2020观看福利| 日韩影片在线观看| 国产最新免费视频| 国产精品免费免费| 精品国产区一区二| 欧美亚洲视频一区二区| 欧美一区二区三| 亚洲熟女乱综合一区二区| 天天影视涩香欲综合网| 国产精品视频一区二区久久| 成人免费自拍视频| 亚洲激情社区| 91社区视频在线观看| 日韩精品中文字幕在线一区| www.精品| 一本—道久久a久久精品蜜桃| 成人97人人超碰人人99| 亚洲中文无码av在线| 九色精品美女在线| 免费视频国产一区| 成人免费播放视频| 好吊成人免视频| 亚洲精品久久久久avwww潮水| 97人人做人人爱| 天天做天天爱天天综合网2021| 久草在在线视频| 一区二区在线看| 国产一二三在线观看| 亚洲综合精品一区二区| 乱码第一页成人| 久久影院一区二区| 日韩有码在线电影| 亚洲精品进入| 无码人妻一区二区三区精品视频|