精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集

發布于 2024-5-6 09:41
瀏覽
0收藏

Meta最近開源的Llama 3模型再次證明了「數據」是提升性能的關鍵,但現狀是,開源的大模型有一堆,可開源的大規模數據卻沒多少,而收集、清洗數據又是一項極其費時費力的工作,也導致了大模型預訓練技術仍然掌握在少數高端機構的手中。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區


最近,Huggingface的機器學習團隊宣布開源了一個迄今為止,規模最大的、質量最高的、即用型(ready-to-use)數據集FineWeb


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

數據集鏈接:??https://huggingface.co/datasets/HuggingFaceFW/fineweb??


FineWeb是在對CommonCrawl數據集(2013年夏天到2024年3月,共95個dump)進行去重、清洗后,得到的一個高質量、包含15T+個tokens(根據GPT-2的分詞器)的Web數據集,也是目前公開可用的、最干凈的語言模型預訓練數據集,其主要用作英語領域的公共數據研究。


在數據處理部分,研究團隊針對LLM應用場景,對整個數據處理pipeline進行了優化,并在大規模數據處理庫datatrove上運行實現。


模型的消融實驗性能結果也顯示,FineWeb比其他開源數據集的質量更高,并且仍有進一步過濾和改進的空間,研究團隊也表示在未來將繼續探索如何提升FineWeb數據集的質量。


數據集性能

為了驗證FineWeb數據的質量,研究人員選擇RefinedWeb、C4、Dolma v1.6、The Pile、SlimPajama數據集作為對比,訓練了一系列「1.8B參數量的小模型」進行數據集性能消融實驗和評估。


選擇的評估指標為commonsense_qa (acc_norm)、hellaswag (acc/acc_norm)、openbookqa (acc/acc_norm)、piqa (acc/acc_norm)、siqa (acc/acc_norm)、winogrande (acc/acc_norm)、sciq (acc/acc_norm)、arc (acc/acc_norm)和mmlu (acc/acc_norm)的平均值,每項指標均具有三個特點:


1. 在同一數據集的不同樣本上的訓練差異很小;


2. 訓練期間,指標單調增加;


3. 在已知高質量的數據集(C4、The Pile、RedPajama)上運行,模型的分離程度(seperation)更高。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

在滾動窗口中平均5k步的平滑繪圖


實驗過程中用到的prompt都已經過格式化,以便計算和對比多項選擇問題中完整答案的對數似然。


從結果來看,使用FineWeb數據集訓練的模型性能在各個階段都是最好的。


下載使用

數據的命名規則為CC-MAIN-(year)-(week number)


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區


使用datatrove


from datatrove.pipeline.readers import ParquetReader
# limit determines how many documents will be streamed (remove for all)
# to fetch a specific dump: hf://datasets/HuggingFaceFW/fineweb/data/CC-MAIN-2024-10
data_reader = ParquetReader("hf://datasets/HuggingFaceFW/fineweb/data", limit=1000) 
for document in data_reader():
    # do something with document
    print(document)
###############################    
# OR for a processing pipeline:
###############################
from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import ParquetReader
from datatrove.pipeline.filters import LambdaFilter
from datatrove.pipeline.writers import JsonlWriter
pipeline_exec = LocalPipelineExecutor(
    pipeline=[
        ParquetReader("hf://datasets/HuggingFaceFW/fineweb/data/CC-MAIN-2024-10", limit=1000),
        LambdaFilter(lambda doc: "hugging" in doc.text),
        JsonlWriter("some-output-path")
    ],
    tasks=10
)
pipeline_exec.run()


使用huggingface_hub


from huggingface_hub import snapshot_download
folder = snapshot_download(
                "HuggingFaceFW/fineweb", 
                repo_type="dataset",
                local_dir="./fineweb/",
                allow_patterns="data/CC-MAIN-2023-50/*")


為了加快下載速度,需要確保安裝 pip install huggingface_hub[hf_transfer] 并設置環境變量 HF_HUB_ENABLE_HF_TRANSFER=1


使用datasets


from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)


FineWeb數據卡


數據實例


下例為CC-MAIN-2021-43 的一部分,于2021-10-15T21:20:12Z進行爬取。


{
   "text": "This is basically a peanut flavoured cream thickened with egg yolks and then set into a ramekin on top of some jam. Tony, one of the Wedgwood chefs, suggested sprinkling on some toasted crushed peanuts at the end to create extra crunch, which I thought was a great idea. The result is excellent.",
   "id": "<urn:uuid:e5a3e79a-13d4-4147-a26e-167536fcac5d>",
   "dump": "CC-MAIN-2021-43",
   "url": "<http://allrecipes.co.uk/recipe/24758/peanut-butter-and-jam-creme-brulee.aspx?o_is=SimilarRecipes&o_ln=SimRecipes_Photo_7>",
   "date": "2021-10-15T21:20:12Z",
   "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2021-43/segments/1634323583083.92/warc/CC-MAIN-20211015192439-20211015222439-00600.warc.gz",
   "language": "en",
   "language_score": 0.948729,
   "token_count": 69
}

數據字段


text (字符串):主要文本內容

id (字符串):源自CommonCrawl樣本的原始唯一標識符

dump (字符串):采樣于CommonCrawl dump

url (字符串):text 所在原始頁面的 url

date (字符串):抓取日期(CommonCrawl提供)

file_path (字符串):包含此示例的單個 CommonCrawl warc 文件的 s3 路徑

language (字符串):數據集中的所有樣本均為en

language_score (float):fastText 語言分類器報告的語言預測分數

token_count (int):使用gpt2分詞器獲得的token數量


數據切分


default 子集包括整個數據集。


如果只想使用特定 CommonCrawl 轉儲中的數據,可以使用dump名稱作為子集。


根據研究人員的實驗結果來看,使用不同dump訓練后的效果有所差異:對于相對較小的訓練(<400B個token),建議使用最近的 CC-MAIN-2023-50 和 CC-MAIN-2024-10


數據創建


雖然最近經常會有大模型對權重進行開源,但這些版本通常不包含模型的訓練數據。


FineWeb的目標是為開源社區提供一個海量的、干凈的預訓練數據集,可用于推動真正開源模型(帶數據的開源模型)的極限。


源數據由 CommonCrawl 基金會在 2013-2024 年期間抓取的網頁組成。


研究人員從每個網頁的 html 中提取主頁文本,仔細過濾樣本并對每個 CommonCrawl dump/crawl進行重復數據刪除。


雖然團隊最初打算對整個數據集進行重復數據刪除,但我們的消融表明,對單獨進行重復數據刪除的轉儲/爬網樣本進行的訓練優于對所有一起進行重復數據刪除的轉儲/爬網樣本進行的訓練。


數據預處理


研究人員使用datatrove 庫來處理數據,腳本已開源。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

腳本鏈接:??https://github.com/huggingface/datatrove/blob/main/examples/fineweb.py???


具體流程包括六步:


1. Url過濾,使用block-list和subword檢測技術對源自惡意和 NSFW 網站的文檔進行過濾;


2. Trafilatura,從CommonCrawl的warc文件中提取原始 HTML 文本;


3. FastText LanguageFilter,刪除en語言評分低于 0.65 的文檔;


4. 質量過濾,使用Gopher Reptition, C4 Quality filters(去除terminal_punct規則)和FineWeb自定義過濾器(刪除列表樣式的文檔、具有重復行的文檔以及可能具有錯誤行格式的啟發式方法)


5. MinHash重復數據去冗余,每次抓取都單獨進行去重,參數為5-gram、14x8哈希函數;


6. PII 格式化,對電子郵件和公共 IP 地址進行匿名化


對于電子郵件,使用正則表達式將其替換為 email@example.com 或 firstname.lastname@example.org


對于IP地址,先采用正則表達式匹配,然后過濾掉以僅匿名分配給公共網絡的 IP 地址,最后將匹配到的IP地址替換為以下隨機生成的 IP 地址之一(22.214.171.124 、126.96.36.199 、 188.8.131.52 、 220.127.116.11 和 18.104.22.168),這些地址在創建數據集時未響應 ping 請求。


由于誤報率過高,研究人員決定不對電話號碼使用正則表達式匹配。


標注


研究人員使用 language、language_score和token_count標注來增強原始樣本;與語言相關的標注由語言過濾器自動生成;token_count通過gpt2分詞器獲得。

使用數據的注意事項

數據集的社會影響


研究人員的目標是,在FineWeb數據集發布后,讓整個機器學習社區更容易進行模型訓練。


雖然過去已經公開發布了多個具有強大性能的開放權重模型,但通常沒有附帶相應的訓練數據集,而預訓練的關鍵就在于數據,不同數據集的特殊性和特征已被證明對模型的性能具有非常大的影響和作用。


由于創建高質量的訓練數據集是訓練能夠出色完成下游任務的 LLM 的基本要求,因此,利用FineWeb,不僅可以使數據集創建過程更加透明,而且借助公開的處理設置,包括所使用的代碼庫,向社區公開發布數據集,可以幫助模型創建者減輕數據集管理的時間和計算成本。


關于偏見的討論


通過在 URL 級別進行過濾,研究人員最大限度地減少數據集中存在的 NSFW 和有毒內容的數量,但最終發布的數據集中仍然存在大量可能被視為有毒或包含有害內容的文檔。


由于FineWeb源自整個網絡,因此其中常見的有害偏見都可能會在該數據集上重現。


研究人員故意避免使用基于與「gold」來源(例如維基百科或毒性分類器)的相似性來定義文本質量的機器學習過濾方法,因為這些方法會不成比例地刪除特定方言中的內容,并將其過度分類為與特定社交身份相關的有毒文本。


其他已知限制


由于應用了一些過濾步驟,代碼內容可能在該數據集中并不普遍。


如果用戶需要訓練一個可執行代碼任務的模型,研究人員建議將FineWeb與代碼數據集一起使用,例如 The Stack v2,或者還應該考慮用專門的精選資源(例如維基百科)來補充 FineWeb,因為其格式可能比FineWeb中包含的維基百科內容更好。


許可證


FineWeb數據集根據開放數據共享歸屬許可證 (ODC-By) v1.0 許可證發布,并且使用過程還須遵守 CommonCrawl 的使用條款。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/eWWa59f0Eu6G1GFMFrHA-A??

收藏
回復
舉報
回復
相關推薦
国产精品大全| 色偷偷偷亚洲综合网另类| 夜夜添无码一区二区三区| 午夜精品一区二区三| 99精品免费网| 亚洲精选中文字幕| 亚欧美在线观看| 91极品在线| 99在线视频精品| 国产精品日韩av| 久草免费在线观看视频| 亚洲精品合集| 欧美电影一区二区三区| 给我免费播放片在线观看| 第一福利在线| 成av人片一区二区| 国产在线观看一区二区三区 | 奇米亚洲欧美| 91精品视频网| 丁香婷婷激情网| 里番在线播放| 亚洲欧洲三级电影| 欧美福利精品| 亚洲va欧美va| 精品一区二区免费| 18性欧美xxxⅹ性满足| 糖心vlog免费在线观看| 久久99青青| 亚洲国产精品网站| 最新中文字幕日本| **国产精品| 欧美在线高清视频| 国产男女无遮挡| 手机电影在线观看| 亚洲私人黄色宅男| 一区二区不卡在线| 韩国三级在线观看久| www.99精品| 97netav| 中文字幕 日韩有码| 99re国产精品| 97国产精品人人爽人人做| 欧洲性xxxx| av一区二区在线播放| 精品成人免费观看| 亚洲国产精品第一页| 精品国产一区二区三区性色av| 精品视频色一区| 国产精品入口免费软件| 免费电影日韩网站| 色综合激情久久| 黄色片视频在线播放| 日韩电影毛片| 欧美日韩免费看| 久久久999视频| 樱花草涩涩www在线播放| 午夜精品久久久久久久99水蜜桃 | 欧美一级二级在线观看| 九九久久久久久| 日韩综合av| 欧美疯狂性受xxxxx喷水图片| 亚洲欧美日韩综合网| 精品九九久久| 欧美精品在线视频| av在线网站免费观看| 日韩在线观看一区二区三区| 日韩一级片在线观看| 女同性αv亚洲女同志| 成人自拍在线| 精品亚洲va在线va天堂资源站| 久久人妻一区二区| 私拍精品福利视频在线一区| 亚洲欧美精品一区二区| x88av在线| 欧美激情电影| 欧美黄色片视频| 91精品国产乱码久久久张津瑜| 翔田千里一区二区| 国产精品久久久久久久天堂| 88av在线视频| 丁香婷婷深情五月亚洲| 国产在线欧美日韩| www.av在线播放| 亚洲男同1069视频| 国产精品无码人妻一区二区在线| 欧美黑人巨大xxxxx| 欧美嫩在线观看| 91精品又粗又猛又爽| 亚洲瘦老头同性70tv| 日韩在线观看免费网站| 毛片aaaaa| 日韩精品久久理论片| 亚洲free性xxxx护士hd| 香蕉视频黄色片| 国产精品久久久久一区二区三区| 国产精品va在线观看无码| **在线精品| 欧美一区中文字幕| 香蕉网在线播放| 午夜欧美在线| 欧美在线精品免播放器视频| 亚洲天堂视频在线| 成年人午夜久久久| 异国色恋浪漫潭| 美女福利一区二区| 精品久久五月天| 刘亦菲国产毛片bd| 亚洲免费网站| av一区二区三区在线观看| 久久久久久青草| 一个色妞综合视频在线观看| 国产免费视频传媒| 老牛影视av一区二区在线观看| 一色桃子一区二区| 影音先锋亚洲天堂| 国产精品一二二区| 亚洲欧美日韩国产yyy | 国产精品久久中文| 天天插天天干天天操| 中文字幕中文在线不卡住| 国产美女无遮挡网站| 亚洲国产高清在线观看| 国产一区二区av| 日韩av一二三区| 国产麻豆欧美日韩一区| 香蕉久久免费影视| 欧美电影免费观看高清完整| 日韩av在线播放资源| 免费一级黄色大片| 精品写真视频在线观看 | 欧美午夜免费影院| 国产欧美一区二区白浆黑人| 国产一级片在线| 狠狠躁天天躁日日躁欧美| 国产a√精品区二区三区四区| 97精品国产福利一区二区三区| 国产成人精品视频在线| 亚洲人午夜射精精品日韩| 亚洲一区二区精品视频| 国产又粗又猛大又黄又爽| 99视频精品全部免费在线视频| 国产成人一区二区三区小说| 日本不卡视频一区二区| 激情久久av一区av二区av三区| 久久久久国产免费| 欧美日韩mv| 不卡视频一区| 欧美hdxxxx| 欧美精品一区视频| 91蜜桃视频在线观看| 成人动漫视频在线| 九一国产精品视频| 五月激激激综合网色播| 欧美最猛性xxxx| 久久精品国产亚洲a∨麻豆| 欧美性xxxxhd| 国产人妻一区二区| 免费av成人在线| 亚洲欧美国产精品桃花| **精品中文字幕一区二区三区| 久久天天躁狠狠躁夜夜躁| av中文字幕播放| 一区二区三区不卡视频在线观看| 无码人妻丰满熟妇区毛片蜜桃精品| 欧美91精品| 国产成人精品日本亚洲11| 91九色porn在线资源| 亚洲国产天堂网精品网站| 免费看日批视频| 国产精品天美传媒沈樵| 久国产精品视频| 亚洲网站啪啪| 欧美另类高清视频在线| 欧美成人app| 欧美成人sm免费视频| 天天插天天干天天操| 欧美性生活久久| 少妇aaaaa| 91免费视频网| 国产精品视频中文字幕| 国产综合欧美| 免费看成人午夜电影| jizz久久久久久| 欧美极品少妇xxxxⅹ裸体艺术| 午夜视频免费看| 欧美日韩一区精品| 国产午夜福利片| 欧美国产日本视频| 国内自拍偷拍视频| 日韩国产高清影视| 欧美一级黄色录像片| 群体交乱之放荡娇妻一区二区| 国产精品一区久久久| 日皮视频在线观看| 国产亚洲视频在线| 国产91免费看| 欧美视频日韩视频在线观看| 毛片a片免费观看| 中文字幕第一区二区| 91麻豆精品久久久久蜜臀| 精品亚洲一区二区三区四区| 欧美日韩一区二区国产| 日本一区二区三区精品视频| 日本精品视频| 国产精品美女网站| 日韩伦理在线| 欧美肥臀大乳一区二区免费视频| 欧美美乳在线| 精品福利一二区| 艳妇乳肉豪妇荡乳av| 欧美日韩午夜视频在线观看| 日韩欧美综合视频| 国产三级一区二区| youjizz.com国产| 国产原创一区二区三区| 国产情侣av自拍| 99热精品在线| 久久亚洲a v| 91视频久久| 欧美日韩在线观看一区| 成人看片黄a免费看视频| 成人精品一区二区三区| 欧美福利在线播放| 性欧美办公室18xxxxhd| 污视频在线看网站| 色爱精品视频一区| 福利成人在线观看| 国产网站欧美日韩免费精品在线观看| 国产精品无码在线播放| 欧美三级日韩三级| 色av性av丰满av| 欧美日韩国产精品一区二区不卡中文| 在线免费看av网站| 中文字幕中文字幕一区| 天堂av网手机版| 国产日韩欧美a| 非洲一级黄色片| 久久久久国色av免费看影院| jizz欧美性20| 久久婷婷国产综合国色天香| 亚洲av无码专区在线播放中文| 国产精品自产自拍| 日本少妇一区二区三区| 国产一区二区视频在线| 亚洲制服在线观看| 狠狠色丁香婷婷综合| 国产探花在线看| 激情文学综合丁香| 欧美激情第一区| 国产传媒欧美日韩成人| 亚洲成人福利视频| 成人午夜在线播放| 国产高清成人久久| 久久综合丝袜日本网| 中国美女乱淫免费看视频| 久久久久久久综合狠狠综合| 一级黄色片大全| 国产日韩欧美综合在线| 中国美女黄色一级片| 亚洲视频在线观看一区| 成人免费视频网站入口::| 一区二区三区在线看| 日本一区二区三区四区五区| 欧美日韩国产一中文字不卡| 五月婷婷激情视频| 精品视频资源站| www.黄色av| 日韩黄色高清视频| 99中文字幕一区| 久久伊人色综合| a毛片不卡免费看片| 欧美最猛性xxxx| 亚洲欧洲专区| 国产精品区一区二区三在线播放 | 久久香蕉综合色| 精品久久久中文字幕| 日本一级淫片演员| 亚洲区一区二| 天堂在线资源视频| 国产精品一区在线| 日韩网站在线播放| 亚洲欧美综合网| 日韩无码精品一区二区三区| 欧美又粗又大又爽| 成人av手机在线| 亚洲四色影视在线观看| 宅男网站在线免费观看| 91精品国产沙发| 自拍偷拍亚洲| 欧洲在线视频一区| 女人香蕉久久**毛片精品| 99色精品视频| 国产麻豆精品95视频| 99久久久久久久久久| 亚洲欧美国产毛片在线| 国产剧情在线视频| 欧美一级二级三级乱码| 毛片免费在线| 欧美寡妇偷汉性猛交| 欧亚一区二区| 国产一区二区三区四区五区加勒比| 欧美精品一二| 精品少妇人妻av免费久久洗澡| 老司机午夜精品| 久久丫精品国产亚洲av不卡| 综合久久久久综合| 无码任你躁久久久久久久| 欧美成人性福生活免费看| 在线看免费av| 清纯唯美亚洲综合| 成人福利一区| 特级毛片在线免费观看| 天堂av在线一区| 日本一级片在线播放| 亚洲精品老司机| 夜夜爽8888| 国产亚洲一区二区在线| 天堂中文av在线资源库| 高清视频在线观看一区| 91九色精品国产一区二区| 国产v亚洲v天堂无码久久久| 国产成人午夜高潮毛片| 99热在线观看精品| 欧洲激情一区二区| 青青国产在线| 欧美在线观看一区二区三区| 国产精品对白久久久久粗| 最近免费观看高清韩国日本大全| 麻豆精品久久精品色综合| 丰腴饱满的极品熟妇| 狠狠色香婷婷久久亚洲精品| 婷婷伊人综合中文字幕| 久久噜噜噜精品国产亚洲综合 | 亚洲欧洲高清| 国产亚洲欧美另类一区二区三区| 欧美精品午夜| 在线观看欧美一区二区| 亚洲另类中文字| 国产乱叫456在线| 色婷婷久久一区二区| 欧美成人一二区| 中文字幕一区二区三区有限公司| 免费久久99精品国产| 肉色超薄丝袜脚交69xx图片| 欧美日韩免费高清一区色橹橹| 粉嫩av一区| 成人性教育视频在线观看| 牛夜精品久久久久久久99黑人| 少妇愉情理伦片bd| 樱花草国产18久久久久| 亚洲精品久久久狠狠狠爱| 久久人人爽人人| 欧美巨大xxxx| 成人在线观看a| 国产精品五月天| 国产裸体无遮挡| 精品少妇一区二区30p| 超碰精品在线观看| 日本少妇高潮喷水视频| 国产午夜精品在线观看| 中文字幕永久免费视频| 久久影院中文字幕| 国产suv精品一区| 欧美日韩在线中文| 国产欧美日韩在线看| 伊人影院中文字幕| 久99九色视频在线观看| 国产精品色在线网站| 精品一区二区中文字幕| 国产精品视频第一区| 国产精品视频久久久久久| 欧美国产视频一区二区| 婷婷精品在线观看| www.com操| 亚洲在线视频一区| 日韩av免费观影| 国产在线精品一区免费香蕉| 国产精品www.| 亚洲 小说 欧美 激情 另类| 欧美日韩高清影院| 成人性生交大片免费看网站| 热re99久久精品国99热蜜月| 国模娜娜一区二区三区| 日韩乱码在线观看| 一区二区三区黄色| 136福利精品导航| 日韩欧美在线免费观看视频| 亚洲欧美乱综合| 青春草在线观看| 亚洲一区二区少妇| 午夜宅男久久久| 中文字幕在线有码| 亚洲欧美日韩在线高清直播| 国产精品亚洲一区二区在线观看 | 日韩av中文在线| 中文字幕日本一区| 黑森林福利视频导航| 亚洲欧美国产三级| 成人激情电影在线看| 国产精品手机在线|