精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Karpathy 點贊,這份報告教你如何用 LLaMa 3 創建高質量網絡數據集

人工智能 新聞
事實證明,LLM 從教育內容中學習會更好更快。部分原因是普通的互聯網爬取文章的價值不是很高,并且會分散訓練的注意力,包含太多不相關的信息。

眾所周知,對于 Llama3、GPT-4 或 Mixtral 等高性能大語言模型來說,構建高質量的網絡規模數據集是非常重要的。然而,即使是最先進的開源 LLM 的預訓練數據集也不公開,人們對其創建過程知之甚少。

最近,AI 大牛 Andrej Karpathy 推薦了一項名為 FineWeb-Edu 的工作。

圖片

這項工作將原始 15 萬億個 FineWeb token,經 Llama 3 70B 評判,過濾為 1.3 萬億個高質量(教科級)token。

事實證明,LLM 從教育內容中學習會更好更快。部分原因是普通的互聯網爬取文章的價值不是很高,并且會分散訓練的注意力,包含太多不相關的信息。

互聯網上的網頁是如此隨機和糟糕,這些奇怪的數據轉儲、廣告垃圾郵件、數兆字節的股票行情更新等等,里面混雜著「鉆石」(重要內容),那么挑戰就是把「鉆石」挑出來。

預訓練數據集對于微調可能非常有用,因為當你將模型微調到特定領域時,就會慢慢失去一般能力。模型開始慢慢忘記目標域之外的事物。并且這不僅限于知識,模型還會失去原始數據所需的一般「思維」技能。也就是說,除了廣泛的知識消失之外,計算電路也會慢慢退化。

FineWeb 是什么?

FineWeb 是一個用于 LLM 預訓練的全新大規模數據集(15 萬億 token,44TB 磁盤空間)。該數據集源自 96 個 CommonCrawl 快照,與其他開放的預訓練數據集相比,它能生成性能更好的 LLM。為了提高機器學習的清晰度,推進對如何訓練高質量大型語言模型的公開理解,團隊記錄并刪除了 FineWeb 中使用的所有設計選擇,包括對重復數據刪除和過濾策略的深入研究。

數據集獲取地址:https://huggingface.co/datasets/HuggingFaceFW/fineweb

在上述數據集的基礎上,團隊推出了 FineWeb-Edu,它是 FineWeb 的一個子集,利用可擴展的自動化高質量注釋來實現教育價值。在一些教育基準(如 MMLU、ARC 和 OpenBookQA)上,FineWeb-Edu 優于所有可公開訪問的網絡數據集。FineWeb-Edu 有兩種大小 / 過濾級別:1.3 萬億(特高級教育內容)和 5.4 萬億(高級教育內容)token(所有 token 均使用 GPT2 tokenizer)。

圖片

數據集獲取地址:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

這兩個數據集均根據許可的 ODC-By 1.0 協議發布。

在對應的長篇報告中,團隊深入探討了如何創建一個用于 LLM 預訓練的大型高質量網絡規模數據集,并討論了大規模數據質量的處理和評估、FineWeb  配方(列出并解釋了所有的設計選擇)以及創建 FineWeb-Edu 子集的過程。

大規模數據質量的處理和評估

關于用于訓練 LLM 的網絡數據集,一個常見問題是:他們從哪里獲得這些數據?

通常有兩種選擇:

  • 自己抓取,如 OpenAI 或 Anthropic 等公司;
  • 使用抓取網頁的公共資源庫,如非營利組織 CommonCrawl 維護的資源庫。

為了構建 FineWeb,團隊沿用了一些 LLM 訓練團隊過去的做法,比如將 CommonCrawl(CC)作為起點。Common Crawl 非營利組織自 2007 年以來一直在抓取網頁,通常每 1 到 2 個月發布一次新的抓取,包含 200 到 400 TiB 通過自動網絡抓取獲得的文本內容。

例如,最新的 CC 抓取(2024 年 4 月)包含 27 億個網頁,總計 386 TiB 的未壓縮 HTML 文本內容。自 2013 年以來已發布了 96 次抓取,2008 年至 2012 年發布了 3 次抓取,采用的是不同(較舊)的格式。

接下來是評估問題。在大多數情況下,尤其是在大語言模型預訓練的情況下,「高質量」并不是一個定義明確的術語,甚至不是一個僅通過人類直接觀察就能清楚感知的文檔屬性。

在一個被認為「干凈」的特定語料庫(通常是維基百科)上訓練一個模型,并用它來檢查試圖整理的數據集的易錯性,這仍然是很常見的做法。遺憾的是,這并不總能提高下游相關任務的性能,因此,另一種常用的方法是在數據集的代表性子集上訓練小型模型,并在一組評估任務上對其進行評估。之所以使用小型模型,是因為訓練成本和時間是模型大小的函數。在第二種方法中,重要的是要選擇一組多樣化且具有代表性的數據集 - 評估任務,盡量不要過度擬合任何一個單獨的基準,因為這有可能損害預訓練后獲得的 LLM 的通用性。

在這項工作中,團隊采用了訓練小模型并在一組「early-signal」基準任務上對其進行評估的方法。考慮到上述關于評估基準過度擬合的注意事項,這可以合理地代表用于訓練這些模型的數據的質量。

最終,團隊選擇了以下幾個基準:

  • CommonSense QA
  • HellaSwag
  • OpenBook QA
  • PIQA
  • SIQA
  • WinoGrande
  • ARC
  • MMLU

FineWeb 數據處理

CommonCrawl 數據有兩種主要格式:WARC 和 WET。WARC(Web ARChive 格式)文件包含爬取網頁的原始數據,包括完整頁面 HTML 和請求元數據。WET(WARC 封裝文本)文件提供這些網站的純文本版本。

大量數據集以 WET 文件為起點。但作者認為:Common Crawl 創建這些 WET 文件的默認文本提取對于 LLM 預訓練來說并不是最佳選擇,有多種開源庫可以提供更好的文本提取。作者團隊使用 trafilatura 庫從 WARC 文件中提取文本內容,從結果來看,它提供了良好的提取質量。

基礎過濾

過濾是數據審編(curation)過程的重要組成部分。它包括刪除部分數據(單詞、文本行,甚至完整文檔),這些數據會降低模型的性能,因此在作者團隊評估驅動的數據集制作過程中被視為「質量較低」的數據。

作為過濾的基礎,作者使用了 RefinedWeb 的部分設置,包括:

  • 應用 URL 過濾;
  • 應用 fastText 語言分類器,僅保留分數≥0.65 的英文文本;
  • 應用來自 MassiveText 的質量和重復過濾器(使用默認閾值)。

作者團隊將這種過濾應用于每個文本提取的轉儲(目前有 96 個轉儲)后,獲得了大約 36 萬億個 token 的數據。

重復數據刪除

重復數據刪除是為 LLM 預訓練創建大型 Web 數據集的最重要步驟之一,旨在從數據集中識別并刪除冗余 / 重復的數據。

重復數據刪除能夠改進模型性能,并使模型更好地泛化。通過重復數據刪除獲得的性能提升可以等同于訓練效率的提升,因為通過刪除重復的內容,模型可以通過更少的訓練迭代達到相同的性能水平,或者等效地,對于給定數量的訓練 token,模型將看到更加多樣化的數據。

經過上述幾個步驟,作者團隊已經實現了類似于 RefinedWeb 的數據性能,但是與 C4(Colossal Clean Crawled Corpus)數據集相比還是遜色一些。

因此,作者團隊從 C4 數據集本身的處理過程開始,探索了更多過濾步驟,旨在達到并超越 C4 的性能。

最終的 FineWeb 數據集包含 15T token,主要按順序經歷如下步驟:

  • 基礎過濾
  • 每個轉儲獨立的 MinHash 重復數據刪除
  • 精選 C4 過濾器
  • 自定義過濾器

圖片

FineWeb-Edu 子集

圖片

FineWeb-Edu 子集基于最近出現的一種過濾 LLM 訓練數據集的新方法:使用合成數據來開發識別教育內容的分類器。

這項技術在 Llama 3 和 Phi3 的訓練中得到了顯著應用,但它對網絡數據過濾的大規模影響迄今為止尚未得到充分的公開發掘。

Phi3 模型分別在 3.3 萬億和 4.8 萬億個 token 上進行了訓練,論文中指出:

我們的訓練數據包括經過嚴格過濾的公開網絡數據(根據「教育程度」),這些數據來自各種開放的互聯網資源,以及 LLM 生成的合成數據。

同樣,Llama 3 博客文章也指出:

我們發現,前幾代 Llama 擅長識別高質量數據,因此我們使用 Llama 2 來幫助構建文本質量分類器,為 Llama 3 提供動力。

然而,這些分類器和過濾后的數據集并未公開。團隊為了進一步提高 FineWeb 的質量,利用 Llama-3-70B-Instruct 生成的注釋開發了一個教育質量分類器,創建了 FineWeb-Edu。

團隊使用 Llama-3-70B-Instruct 對來自 FineWeb 的 500k 個樣本進行了注釋,按照 0 到 5 的評分標準對每個樣本的教育質量進行評分。

圖片用于 Llama-3 教育分數注釋的提示。

關于用于標注數據的開放權重模型,團隊嘗試了多種模型,包括 Mixtral-8x7B-Instruct 和 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct 以及一個收集了這三種模型分數的評審團。在實驗中,他們發現僅使用 Llama3 得出的結果最為可靠。

為了將注釋擴展到 FineWeb 中的數萬億詞條,團隊使用 Llama3-70B 注釋來訓練一個小型分類器。他們使用了「Snowflake-arctic-embed」模型,該模型帶有一個分類頭,上面有一個回歸輸出,然后在 450000 個 Llama 3 注釋上對該模型進行了 20 次訓練,凍結嵌入層和編碼器層。此處將 「Llama 3」注釋視為 ground-truth,保存了在 45k 個樣本的保留驗證集上 F1 分數最高的檢查點。訓練結束后,將分數四舍五入為 0 至 5 的整數。

然后,團隊將問題轉換為二元分類任務,使用固定閾值來確定文件是否具有教育意義。閾值為 3 時,模型在驗證集上的 F1 得分為 82%,這表明它在區分高質量教育內容方面表現出色。

最后,團隊進行了消融研究。以下是主要亮點:

  • FineWeb-Edu 超越了 FineWeb 和所有其他開放網絡數據集,在教育基準(如 MMLU、ARC 和 OpenBookQA)方面取得了顯著改進。
  • 與 C4 和 Dolma 相比,它需要的 token 數量減少了 10 倍,才能與 MMLU 的結果相媲美。
  • 這證明了使用在 LLM 注釋上訓練的分類器進行大規模數據過濾的有效性。

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-23 04:00:00

2011-06-24 14:59:41

外鏈

2023-10-15 12:07:09

2012-09-13 10:44:18

Python代碼

2011-03-04 10:11:09

JavascriptAPI

2023-05-06 12:26:41

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數程序

2022-10-24 08:10:21

SQL代碼業務

2020-09-18 07:57:10

代碼編碼開發

2015-08-03 10:40:59

程序員代碼質量Quora

2024-03-07 11:39:24

HadolintDockerfile工具

2020-01-09 11:30:40

AI 數據人工智能

2021-11-15 10:57:41

數據中心數字化轉型云計算

2021-08-08 14:26:24

SQL數據庫開發

2010-08-24 09:35:04

云計算SaaS

2021-03-17 09:48:48

高質量技術文章

2022-10-19 10:08:29

技術匯報研發管理

2024-04-22 14:02:53

點贊
收藏

51CTO技術棧公眾號

欧美成在线视频| 精品久久久久久久久久国产 | 日韩av女优在线观看| 亚洲精品在线国产| 亚洲综合一二三区| 青青草成人激情在线| 伊人精品在线视频| 精品999网站| 国产亚洲欧美日韩精品| 91精品视频国产| 亚洲欧美一区二区三区| 日韩久久一区二区| 老司机精品福利在线观看| 97超碰人人模人人人爽人人爱| 午夜电影亚洲| 亚洲性生活视频在线观看| 一区二区三区人妻| 免费高清视频在线一区| 亚洲国产精品欧美一二99| 亚洲精品一区国产精品| 日韩一级免费视频| 国产精品一区二区你懂的| 欧美亚洲成人精品| 欧美精品一区二区成人| 日韩精品永久网址| 亚洲欧美国产另类| 丰满少妇xbxb毛片日本| 日韩精品第二页| 在线亚洲免费视频| 日韩av黄色网址| 国内老司机av在线| 亚洲欧美在线视频观看| 日韩国产在线一区| 亚洲欧美自偷自拍| www.激情成人| 国产精品xxxx| a视频免费在线观看| 美女视频网站久久| 国产精品久久久久久中文字| 日本三级一区二区| 亚洲免费播放| 久久久亚洲精选| 黄色一级视频免费观看| 香港欧美日韩三级黄色一级电影网站| 国产一区二区三区久久精品 | 97免费在线视频| 欧美精品久久久久性色| 一个色综合网| 久久综合久久美利坚合众国| 手机免费观看av| 欧州一区二区| 中文字幕久久亚洲| gv天堂gv无码男同在线观看 | 最新av网址在线观看| 日韩专区在线| 国产精品天美传媒| 亚洲一区三区| 超碰porn在线| 一二三四区精品视频| 日韩精品一区二区在线视频| 中文字幕在线播放网址| 一级中文字幕一区二区| 欧美精品一区二区三区三州| 1区2区3区在线| 婷婷国产在线综合| 激情五月开心婷婷| 成人自拍视频网| 欧美三级资源在线| xxxx在线免费观看| 日韩精品成人| 日韩电视剧免费观看网站| 国产偷人妻精品一区| 久久93精品国产91久久综合| 一本色道久久88综合日韩精品| 蜜臀久久99精品久久久久久| 99久久精品网| 欧美精品九九久久| 日本高清不卡码| 六月婷婷色综合| 97久久夜色精品国产九色| 日本黄色不卡视频| 久久精品男人的天堂| 一区二区三区观看| 韩国日本一区| 色婷婷av一区二区三区之一色屋| 亚洲中文字幕久久精品无码喷水| 激情小说亚洲| 精品国产乱码久久久久久老虎| 艳妇乳肉亭妇荡乳av| 国产一区二区三区四区大秀| 久久精品视频va| 影音先锋亚洲天堂| 久久66热偷产精品| 韩国成人动漫在线观看| 成人动漫在线免费观看| 亚洲综合图片区| 欧美丰满熟妇xxxxx| 日韩视频一二区| 亚洲性线免费观看视频成熟| 免费视频一二三区| 日本成人在线电影网| 成人动漫在线观看视频| 超碰97在线免费观看| 亚洲尤物视频在线| 日本在线一二三区| 久久草在线视频| 久久精品亚洲一区| 一级片视频在线观看| 国产精品亚洲а∨天堂免在线| 欧美精品尤物在线| 久久电影网站| 69堂亚洲精品首页| 天天躁夜夜躁狠狠是什么心态| 欧美一区二区| 国产精品羞羞答答| 欧美色18zzzzxxxxx| 亚洲永久精品大片| 亚洲精品久久久中文字幕| 久久九九热re6这里有精品| 久久精品国产成人| 波多野结衣影片| 91麻豆视频网站| 精品无码国产一区二区三区av| 伊人久久综合网另类网站| 亚洲人精品午夜在线观看| 国产午夜精品一区二区理论影院| 精品一区二区综合| 亚洲国产精品久久久久久女王| 精品极品在线| 亚洲激情视频网| 国产真人真事毛片| 国产成人精品一区二| 最新视频 - x88av| 亚洲色图图片| 久久精品国产久精国产思思| 中文天堂在线播放| 日本一区二区三区四区| 97成人在线观看视频| 国产乱人伦丫前精品视频| 色综合91久久精品中文字幕| 国产高清视频免费| 亚洲欧美日韩在线| 亚洲成人手机在线观看| 亚洲蜜桃视频| 91在线观看免费网站| 麻豆传媒在线免费看| 欧美精品高清视频| 中文字幕求饶的少妇| 蜜臀久久久久久久| 中文字幕在线观看一区二区三区| 激情久久一区二区| 久久久成人精品视频| 国产乱码精品一区二区三区精东| 欧美国产在线观看| 午夜免费看视频| 希岛爱理av一区二区三区| 91精品久久久久久久久久久久久| 黄网站在线免费| 欧美一级日韩免费不卡| www.色小姐com| 成人丝袜视频网| 六月丁香婷婷激情| 精品国产一区二区三区噜噜噜| 国产精品日韩欧美| av在线影院| 亚洲大胆美女视频| 亚洲 欧美 成人| 国产精品水嫩水嫩| 日韩不卡的av| 99精品国产福利在线观看免费| 欧美日本韩国一区二区三区| 素人一区二区三区| 久久精品一区中文字幕| 秋霞av鲁丝片一区二区| 色综合婷婷久久| 欧美肥妇bbwbbw| 成年人午夜久久久| 污视频网站观看| 国内精品嫩模av私拍在线观看| 久久99精品久久久久久青青日本| 日韩欧美一区二区三区免费观看| 久久精品国产久精国产一老狼| 欧美特黄一级视频| 欧洲亚洲精品在线| 久久久久久国产精品免费播放| 99久久99久久免费精品蜜臀| 亚洲 欧美 日韩系列| 午夜日韩av| 日本精品一区二区| 9l视频自拍蝌蚪9l视频成人| 欧洲永久精品大片ww免费漫画| 欧美激情办公室videoshd| 精品对白一区国产伦| 亚洲av无码乱码国产精品fc2| 亚洲精品乱码久久久久久日本蜜臀| 三级电影在线看| 国内精品免费**视频| 成人在线免费观看av| 国产精品二区不卡| 区一区二区三区中文字幕| 欧美黄色一级| 国产精品视频自拍| 在线看片国产福利你懂的| 久久视频在线直播| 国产黄色在线| 亚洲精品动漫100p| 99久久婷婷国产一区二区三区| 福利二区91精品bt7086| 欧美日韩免费一区二区| 国产精品另类一区| 国产毛片久久久久久久| 高清视频一区二区| 亚洲一区二区福利视频| 石原莉奈在线亚洲三区| xxxx18hd亚洲hd捆绑| 欧美在线高清| 亚洲日本精品一区| 国产精品一线天粉嫩av| 国内外成人免费视频| 日韩精品一区国产| 成人av色在线观看| www.精品国产| 国产成人久久久| 日本乱码一区二区三区不卡| 色综合久久久久久中文网| 国产视频在线播放| 日韩亚洲精品电影| aaa在线观看| 伊人av综合网| 国产二区在线播放| 亚洲欧洲日本专区| 青青草观看免费视频在线| 亚洲国产日韩欧美在线动漫| www.久久精品.com| 欧美一二三四区在线| 国产免费av电影| 欧美精品九九99久久| 国产又粗又大又爽视频| 欧美男女性生活在线直播观看| 中文字幕人妻一区二区在线视频 | 亚洲国产三级在线| 男人的天堂久久久| 亚洲欧美日韩中文字幕一区二区三区 | 欧美成人黄色| 国产热re99久久6国产精品| 成人福利一区二区| 国产精品综合网站| 成人影院网站ww555久久精品| 国产欧美日韩免费看aⅴ视频| 成人在线视频观看| 国产在线一区二区三区| 成人国产精品一区二区网站| 91免费精品国偷自产在线| 精品视频91| 成人看片视频| 开心激情综合| 欧美日韩在线精品一区二区三区| 一区三区在线欧| 视频一区二区三区在线观看| 久久高清免费| 激情视频小说图片| 一区二区视频欧美| 激情综合在线观看| 日韩成人免费看| 免费人成视频在线播放| 成人动漫一区二区三区| 久久久亚洲av波多野结衣| 国产片一区二区| 国产精品成人69xxx免费视频| 亚洲精品欧美二区三区中文字幕| www.com.av| 午夜精品免费在线| 无码aⅴ精品一区二区三区| 欧美体内she精视频| 99热这里只有精品1| 亚洲国内高清视频| 成年人在线观看| 欧美国产第一页| 国产精品扒开腿做爽爽爽视频软件| 国产精品日日摸夜夜添夜夜av| av在线播放一区二区| 精品国产一区二区三区免费 | 久草热视频在线观看| 免费成人在线网站| youjizz.com日本| 中文字幕成人av| 国产在线观看免费视频今夜| 色婷婷久久久亚洲一区二区三区| 国产喷水福利在线视频| 日韩精品在线视频观看| 免费在线午夜视频| 欧洲亚洲免费在线| 亚洲综合网狠久久| 视频一区二区在线| 国产日韩一区二区三区在线| 亚洲免费黄色网| 99久久精品国产网站| 精品无码一区二区三区蜜臀| 精品国产91久久久| 国产精品主播一区二区| 亚洲人成电影网站色…| 欧美人与禽猛交乱配| 国产精品综合久久久| 日韩动漫一区| 99久re热视频精品98| 蜜桃久久av| 野战少妇38p| 亚洲日本va在线观看| 国产精品免费无遮挡无码永久视频| 精品日产卡一卡二卡麻豆| 在线观看美女网站大全免费| 国产91精品青草社区| a看欧美黄色女同性恋| 在线视频欧美一区| 日本在线不卡一区| 精品无码一区二区三区| 亚洲v日本v欧美v久久精品| 国产毛片一区二区三区va在线 | 久久经典综合| 手机免费看av片| 亚洲女同女同女同女同女同69| 波多野结衣视频免费观看| 日韩成人久久久| 丁香花电影在线观看完整版| 91传媒在线免费观看| 91视频精品| 亚洲综合欧美在线| 中文字幕欧美日韩一区| 人人妻人人爽人人澡人人精品| 亚洲精品成人免费| 最新中文字幕在线播放| 久久国产精品精品国产色婷婷| 黄色成人av网站| 逼特逼视频在线观看| 亚洲国产精品久久久久秋霞影院 | 国产日韩欧美精品在线| 国产高清中文字幕| 精品亚洲国产成av人片传媒| 国产免费拔擦拔擦8x在线播放 | 国产视频观看一区| 欧美亚洲在线日韩| 国产自偷自偷免费一区| 久久精品亚洲麻豆av一区二区| 中文字幕av影院| 亚洲天堂免费在线| free欧美| 亚洲国产精品久久久久婷婷老年| 免费看欧美美女黄的网站| 美女100%露胸无遮挡| 欧美日韩免费不卡视频一区二区三区| 浮生影视网在线观看免费| 国产精品午夜一区二区欲梦| 91欧美日韩| 肉丝美足丝袜一区二区三区四| 亚洲综合免费观看高清完整版| 刘亦菲毛片一区二区三区| 国内揄拍国内精品| 夜夜春成人影院| 亚洲国产高清av| 亚洲免费在线播放| 欧美一级在线免费观看| 欧美亚洲国产日韩2020| 欧美日韩有码| 欧洲美女亚洲激情| 亚洲国产综合91精品麻豆 | 久久五月天色综合| 99国产精品免费网站| 国产美女三级视频| 国产精品福利一区| 超碰人人人人人人| 91sa在线看| 欧美电影一区| 日本性生活一级片| 在线日韩一区二区| 中文字幕有码在线视频| 久久riav| 久久99热这里只有精品| 国产精久久久久久| 在线观看精品自拍私拍| 欧美久久一区二区三区| www.爱色av.com| 专区另类欧美日韩| 无码精品人妻一区二区三区影院| 国产成人精品网站| 欧美久久一区| 国产中年熟女高潮大集合| 91精品国产欧美一区二区成人| 黄色漫画在线免费看| 在线视频亚洲自拍| 久久婷婷成人综合色| 99久久精品国产一区二区成人| 久久人91精品久久久久久不卡| 狠狠做深爱婷婷综合一区| 国产麻豆剧传媒精品国产| 一本大道久久精品懂色aⅴ| 亚洲电影视频在线| 亚洲精品tv久久久久久久久| 成人av在线网站| 国产一区二区自拍视频| 国产mv免费观看入口亚洲|