精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)

發布于 2025-10-11 06:38
瀏覽
0收藏

核心論點

合成數據是雙刃劍,其價值在于“策略性混合”而非“純粹替代”

這項研究通過超過10萬GPU小時和1000個模型的超大規模實驗,系統性地揭示了合成數據在大型語言模型(LLM)預訓練階段的真實作用。其根本結論是:合成數據并非萬能解藥,盲目使用甚至有害;但若作為“催化劑”與高質量的真實數據策略性地混合,則能大幅提升訓練效率與模型潛力。

關鍵發現與工程實踐指南

1. “混合”是王道:特定配比可將訓練速度提升5-10倍

  • 純合成數據表現不佳:無論是“高質量改寫”還是“教科書式”的純合成數據,其單獨預訓練的效果均不超過甚至顯著劣于傳統的自然網頁文本(如CommonCrawl)。
  • 混合使用效果顯著:當把約 30% 的“高質量改寫”合成數據與70%的自然網頁數據混合時,能夠在消耗同等計算資源的情況下,達到與純自然數據訓練相比低得多的驗證損失(Validation Loss),相當于將預訓練的收斂速度提升了5到10倍。

2. 數據類型至關重要:“改寫”優于“憑空生成”

  • 高質量改寫(High-Quality Rewriting):這種方法將現有的網頁文本進行精煉、提純,使其風格類似維基百科。這類數據在混合使用時表現最佳,是提升效率的關鍵。
  • 教科書式生成(Textbook Generation):這種方法根據關鍵詞完全生成新的、結構化的“教科書”內容。實驗表明,這類純生成數據存在明顯陷阱,尤其在小數據預算下,會導致模型性能顯著惡化,并呈現出符合“模型坍塌”(Model Collapse)理論預測的模式。

3. “最佳混合比”收斂于30%,而非越高越好

研究發現,對于效果最好的“高質量改寫”數據,其在訓練數據中的最佳比例并非一個固定值,它會隨模型大小和數據預算變化。但一個清晰的趨勢是,該比例經驗性地收斂于30%左右。這意味著無腦堆砌合成數據比例是錯誤的做法。

4. 生成器模型并非越大越好:存在“能力甜點”

一個反直覺的發現是,用于生成合成數據的“生成器模型”并非能力越強(參數量越大)越好。實驗表明,使用Llama-3-8B模型生成的數據,其預訓練效果優于使用Llama-3-70B生成的數據。這暗示了生成器的輸出可能在超過某個“能力甜點”后,其生成數據的多樣性或某些隱性特征會下降,反而不利于下游模型的預訓練。

對“模型坍塌”(Model Collapse)理論的實證洞察

這項研究為“模型坍塌”理論提供了一輪(n=1)訓練場景下的重要實證證據,澄清了其適用邊界:

  • “改寫”數據可規避坍塌:在使用“高質量改寫”的合成數據進行混合預訓練時,在可預見的規模內并未觀察到理論所預測的性能退化。這表明,只要合成過程有真實數據作為“錨點”,坍塌風險是可控的。
  • “純生成”數據驗證了坍塌風險:“教科書式”數據的糟糕表現,則從實踐上印證了完全依賴模型自身生成內容進行遞歸訓練的巨大風險。

總之,這項工作為業界在LLM預訓練中如何有效、安全地利用合成數據提供了極其寶貴的量化指導和實踐原則,強調了數據質量、生成范式和混合策略的核心重要性。

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

摘要

訓練數據在大型語言模型(LLM)規模化中發揮關鍵作用,然而高質量數據供應有限。合成數據技術提供一種潛在途徑來規避這些限制。我們進行大規模實證調查(超過1000個LLM,使用超過100000 GPU小時),采用統一協議和Scaling Laws,比較自然網頁數據、多樣合成類型(改寫文本、生成教科書)以及自然與合成數據的混合。具體而言,我們發現僅在改寫合成數據上進行預訓練并不比在自然網頁文本上更快;而在1/3改寫合成數據與2/3自然網頁文本的混合上進行預訓練,可在更大數據預算下加速5至10倍(達到相同驗證損失)。僅在教科書式合成數據上進行預訓練會導致在許多下游領域損失顯著更高,尤其在小數據預算下。訓練數據混合中合成數據的“好”比例取決于模型大小和數據預算,對于改寫合成數據經驗上收斂到約30%。更大生成器模型并不一定產生比約8B參數模型更好的預訓練數據。這些結果為大規模單輪(n=1)模型在合成數據上的訓練提供混合證據:在改寫合成數據上訓練在可預見規模內無性能退化,而在教科書式純生成合成數據混合上訓練顯示出“model collapse”預測的模式。本工作解密了合成數據在預訓練中的作用,驗證了其條件性益處,并提供實際指導。

1.引言

大型語言模型(LLM)的顯著進步與訓練數據的規模密切相關,更關鍵的是其質量。隨著訓練最先進模型的計算需求激增,以及高質量自然文本的有限性日益明顯(Villalobos et al., 2024),人們對合成數據的興趣顯著增加(Ben Allal et al., 2024; Eldan and Li, 2023; Patel et al., 2024; Chen et al., 2024; Long et al., 2024; Thrush et al., 2024; Havrilla et al., 2024; Maini et al., 2024; Li et al., 2023b; Abdin et al., 2024; Javaheripi et al., 2023; Cheng et al., 2024; Gu et al., 2023)。合成數據定義為由預現有模型或自動化流水線生成的文本,在基礎預訓練階段提供一種引人注目的潛力途徑,用于增強或最終取代傳統人類生成語料庫。

雖然合成數據在后訓練階段的效用日益確立,例如指令微調(instruction-tuning)和對齊(alignment)(Taori et al., 2023; Li et al., 2023a; Ge et al., 2024),其中目標針對性強且自然數據可能稀缺,但其在關鍵預訓練階段的作用和影響仍未充分表征和理解(Liu et al., 2024b)。這一知識空白構成了優化LLM開發流水線的重大障礙,并引發基本問題:

  • (RQ1) 合成數據能否在大數據規模下有效提升LLM預訓練性能,以及在何種條件下?
  • (RQ2) 不同類型和生成方法學的合成數據如何影響預訓練動態和Scaling Laws行為?
  • (RQ3) 什么原則指導合成數據在預訓練中的有效部署,包括“好”混合比例、生成器模型能力的影響,以及訓練語料庫的統計特征?

盡管這些問題直觀明了,但明確答案仍難以捉摸。這種模糊源于多個因素。首先,領域特征在于不一致的實證發現和顯著的方法異質性(Long et al., 2024; Liu et al., 2024b)。提出的方法通常依賴定制設置,模糊了直接可比性和泛化性。即使對于簡單開源方法,Yang et al. (2024)報告在Maini et al. (2024)合成數據上訓練的模型在持續預訓練中早期飽和,而無顯著性能提升。其次,合成數據生成涉及針對質量提升與廣泛分布多樣性之間的復雜權衡。最近研究在合成數據上呈現矛盾:一些認為其以犧牲多樣性為代價改善訓練數據質量(Havrilla et al., 2024),另一些建議多樣性本身是模型性能的關鍵預測因素(Chen et al., 2024)。第三,理論擔憂持續存在,特別是從遞歸訓練中產生的“model collapse”(Dohmatob et al., 2024b, a),即使災難性失敗尚未廣泛出現。這種潛在益處、不一致證據、方法變異和理論風險的結合突顯了對系統性調查的迫切需求。

為填補這一關鍵空白并提供實證基礎答案,我們對合成數據在LLM預訓練中的作用和有效使用進行系統性、大規模調查。本研究涉及訓練超過1000個LLM變體(參數高達3B),數據集高達200B Token,使用超過100000 GPU小時,從而評估模型大小和數據體制在Scaling Laws中的效果。

我們的主要發現揭示:

  1. 戰略性地納入特定合成數據類型可顯著加速預訓練收斂。與在自然網頁文本上預訓練相比,在1/3改寫合成數據與2/3自然網頁文本混合上訓練可在更大數據預算下加速5至10倍(達到相同驗證損失)。
  2. 然而,影響高度依賴合成數據的類型和特征:僅在改寫合成數據上預訓練并不比在自然網頁文本上更快;而在教科書式合成數據上預訓練會導致驗證損失顯著更高。
  3. 訓練數據混合中合成數據的“好”比例是細微的,隨數據類型、目標模型規模和預算而變,對于改寫合成數據收斂到約30%。反直覺的是,更大或更強生成器模型并不一定產生比約8B參數模型優越的合成數據用于下游模型預訓練。
  4. 我們聚焦低級統計解釋結果。有些在測試數據集中頻繁但在訓練數據集中稀缺或缺失的unigram導致更高評估損失,而無單一訓練集提供完整覆蓋。CommonCrawl具有更寬的unigram覆蓋和到測試數據集的最低KL-divergence;然而,它并未產生優越性能,表明“好”訓練數據混合依賴于超出簡單相似性的因素,并指向更復雜的多樣性與質量權衡。。

2.相關工作

本研究與LLM開發的多個關鍵領域交匯,特別是涉及合成數據生成和用于預訓練、數據混合策略、Scaling Laws應用,以及圍繞model collapse的擔憂。

合成數據在LLM預訓練中

合成數據的效用在訓練的針對性后期階段得到廣泛認可,例如指令微調(Taori et al., 2023)、對齊(Li et al., 2023a; Ge et al., 2024),以及日益用于增強推理能力(Muennighoff et al., 2025)。Meta (2025)詳細描述了一個專用“中訓練”階段,使用合成推理數據,在初始預訓練后和后續后訓練與強化學習(RL)前發生。相比之下,合成數據在基礎預訓練通用能力中的作用較少確立,并以多樣方法為特征。Phi系列(Li et al., 2023b; Javaheripi et al., 2023)率先使用“教科書式”合成數據預訓練生產級模型。Abdin et al. (2024),討論后續Phi模型(例如Phi-4),認為此方法特別在自然網頁文本提供遞減回報的大訓練預算下提升推理,同時承認潛在缺點如有限事實基礎和增加幻覺風險。其他基礎預訓練探索包括Eldan and Li (2023)為較小模型的故事生成、改寫現有文本(Maini et al., 2024),以及采用多樣提示生成(Chen et al., 2024; Patel et al., 2024; Gu et al., 2023)。盡管這些探索(見Havrilla et al. (2024)的調查),領域特征在于方法異質性和有時沖突的結果(例如,Long et al. (2024)和Liu et al. (2024b)關于多樣性和質量;Yang et al. (2024)關于Maini et al. (2024)改寫數據的飽和)。本研究通過系統評估多個不同合成數據生成范式(改寫網頁文本、生成“教科書”)及其與自然數據的混合,在統一預訓練協議和嚴格Scaling Laws分析下,在實質數據和模型規模上進行,旨在澄清這些模糊。

數據Curation、混合策略和Scaling Laws

細致數據 Curation 和多樣自然數據源的戰略混合被確立為LLM預訓練的關鍵(Touvron et al., 2023; Raffel et al., 2020; Penedo et al., 2024; Xie et al., 2023; Ye et al., 2024; Liu et al., 2024a)。然而,合成數據與自然語料庫的系統集成和Scaling Laws行為相對未探索,盡管初步發現顯示此類混合的益處(Maini et al., 2024; Javaheripi et al., 2023)。開創性Scaling Laws描述LLM性能與模型大小、數據集大小和計算等因素的可預測關系(Kaplan et al., 2020; Hoffmann et al., 2022),最近擴展到模型自然數據混合策略(Kang et al., 2024b)。具體使用合成數據的預訓練規模動態被描述為“神秘的”(Liu et al., 2024b)。例如,在某些合成數據類型上訓練的模型可顯示早期性能飽和(Yang et al., 2024),突顯了對更清晰理解的需求。本工作獨特地通過采用Scaling Laws分析作為主要評估工具來填補這些空白。我們系統調查不同合成數據類型與自然網頁文本基線的優化混合比例,檢查這些比例和整體預訓練有效性如何與合成數據特征和變異數據預算互動。此方法旨在解密合成數據在可規模LLM預訓練中的作用,并為其有效集成提供實證基礎指導。

模型崩潰和代際退化

主要在模型生成數據上訓練模型的前景激發了對“model collapse”或“generational degradation”的理論調查,其中遞歸訓練可能因減少多樣性或放大偏差導致模型質量下降(Shumailov et al., 2023; Dohmatob et al., 2024b, a)。雖然這些風險在理論分析和模擬中被突出,但來自實際預訓練場景的大規模實證證據,特別是那些仍納入顯著自然數據的,仍然有限。本研究通過在具有變異比例和類型合成數據的大數據集上預訓練模型,提供關于“model collapse”在大型單輪(n=1)訓練合成數據上的直接實證洞見。

3.合成數據生成方法

我們調查兩種不同范式用于生成合成數據:網頁改寫和教科書式純合成數據。這些范式代表增強或取代預訓練中自然文本的不同哲學。

3.1 網頁改寫

受WRAP(Maini et al., 2024)等技術啟發,網頁改寫利用預訓練語言模型(LM)將現有網頁文檔精煉為潛在更有價值的預訓練資源。在本研究中,我們通過從CommonCrawl數據集采樣文檔實現網頁改寫。預訓練生成器LM被提示改寫這些文檔。從Maini et al. (2024)探索的變體中汲取靈感,我們生成兩種不同風格,旨在探查不同潛在益處用于預訓練:

  • 高質量(High-Quality,HQ)改寫:提示指示生成器模型將源文本改寫為清晰、連貫、結構良好的英語,模仿高質量來源如Wikipedia的風格。這針對改善一般文本質量用于基礎預訓練,類似于激進數據過濾或質量提升步驟。HQ改寫旨在增加網頁語料庫中已有信息的有效密度和質量,與提高預訓練數據效率的更廣目標一致。
  • 問答(Question-Answering,QA)改寫:提示指示生成器模型將源文本信息重組為對話式問答格式。這探索將指令跟隨或對話式結構直接納入預訓練階段,可能加速對齊能力的發展。此QA改寫方法與日益增長的“instruction pre-training”(Cheng et al., 2024)興趣相關,其中下游目標如指令跟隨或對話能力通過合成數據格式早期納入。

3.2 合成教科書(TXBK)

此范式由假設驅動,即密集、高質量、教育內容可能比擴散網頁文本更計算高效,用于灌輸某些能力(例如,推理、編碼、事實回憶)。目標是生成完全新穎內容,模仿教科書或高質量教育材料的結構、風格和信息密度。在我們的實驗中,我們生成新穎“教科書式”文檔。生成過程使用從CommonCrawl隨機采樣的關鍵詞作為種子,提供多樣主題的起點。然后,使用預訓練生成器LM(例如Mistral-7B)通過結構化指令提示生成類似于教科書章節或教程的文本。這些提示明確鼓勵生成清晰解釋、定義、說明性示例(包括相關代碼片段與解釋),以及潛在相關練習或推理步驟。在整個生成過程中,強調爭取事實準確性、連貫性和清晰教學結構。

4.實證結果

4.1 實驗設置

我們進行大規模預訓練實驗,比較在以下上訓練的模型:(1) 自然網頁語料庫基線,(2) 使用我們不同網頁改寫和合成教科書范式(見第3節生成方法學)生成的純合成數據集,以及(3) 自然與合成數據的各種混合。大約600個LLM變體,大小高達30億參數,在高達2000億Token的數據集上訓練。此努力在NVIDIA A100 80G硬件上消耗超過70000 GPU小時。

4.1.1 數據集

自然數據基線:我們的自然數據由從未過濾CommonCrawl(CC)轉儲中提取的英語文本組成,通過RedPajama-v2流水線(Weber et al., 2024)處理。

合成數據:所有合成數據集使用Mistral-Instruct-7b-v0.1模型(Jiang et al., 2023)生成,用于改寫或種子的輸入文檔從我們未過濾CC基線采樣。應用標準生成采樣參數和輕度啟發式后過濾。生成細節、提示模板和樣本生成在附錄B.3中提供。

產生以下合成類型:

  • 網頁改寫(Maini et al. (2024)-like):通過使用從Maini et al. (2024)優化的提示改寫CC文檔生成更長文本,在兩種風格:HQ和QA。
  • 合成教科書(Li et al. (2023b)-like):從CC派生大綱生成的新穎多章節“教科書”(TXBK),采用針對不同受眾的變異提示以鼓勵多樣性。每章節平均約450 Token,并常包括練習。

訓練數據混合:對于每個合成數據類型(HQ、QA或TXBK),我們通過在這些條件下連接和打亂源數據準備數據集:100%自然(未過濾CC基線);100%合成(完全由一種合成類型組成:HQ、QA或Textbook);67%合成/33%自然;33%合成/67%自然。對于每個實驗點(由模型大小和數據預算定義),模型在這些不同混合上訓練,實現直接比較。每個條件訓練5個以上模型變體用于魯棒Scaling Laws分析。

4.1.2 模型、訓練和評估

我們使用基于Llama 3的標準僅解碼器Transformer架構(Grattafiori et al., 2024),模型大小從100M到3B參數對數范圍。所有模型使用Meta Lingua庫(Videau et al., 2024)在PyTorch(Paszke, 2019)上從零訓練。遵循LLM Scaling Laws研究線(Kaplan et al., 2020),我們定義所有訓練模型的大小為其非嵌入參數計數,即模型中除輸入和輸出Token嵌入相關的可學習參數。主要性能度量是在保留多樣14個非代碼/數學英語文本領域從The Pile(Gao et al., 2020)和Wikitext-103數據集(Merity et al., 2016)計算的每Token平均困惑度(交叉熵損失),在最終檢查點評估。完整細節在附錄A.2中提供。

4.1.3 數據規模化

對于固定模型大小(1B參數),數據規模化建模為:?^(D)=BD^β + E,其中?為驗證損失,D為訓練數據預算,B、β、E為擬合系數。

我們訓練1B參數模型在各種數據混合上,數據預算從1B到200B Token。使用高達100B Token的數據點擬合規模公式;然后在訓練200B Token的運行上驗證。六個數據混合(CommonCrawl、33% HQ + 67% CC、33% QA + 67% CC、Textbook (TXBK)、67% TXBK + 33% CC和33% TXBK + 67% CC)訓練到200B Token用于此驗證,因為我們的HQ和QA合成數據集各限于100B Token。該擬合顯示高精度,如圖1(左)所示,在預測200B Token時實現低相對平均絕對誤差(RMABE)0.41%。

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

圖1:數據規模化。左:數據規模公式驗證。使用高達100B Token擬合的200B Token預測實現RMABE 0.41%。實心點顯示實際損失值,而擬合曲線顯示預測損失。驗證數據點由菱形標記說明。右:各種數據混合下1B參數模型的推斷數據規模性能。

通過合理可靠的擬合驗證,我們推斷數據規模(擬合高達100B Token)以預測更大數據預算(高達8T Token)的損失,覆蓋最先進LLM的訓練體制(Meta, 2025; DeepSeek-AI, 2024)。關鍵發現呈現在圖1(右)并總結如下:

  • 純合成數據不優于CommonCrawl (CC):僅在HQ或QA合成數據上訓練并不顯著優于僅在CC上訓練。僅在TXBK上訓練顯著差于在CC上訓練。
  • 混合優于純合成類型:將任何合成數據類型與CC混合顯著改善性能超過單獨使用該合成類型。
  • 改寫數據混合對比例(33% vs. 67%合成)敏感度低:對于HQ和QA,33%和67%合成與CC的混合產生類似性能。
  • 教科書混合青睞較少合成數據:對于TXBK,33%合成混合顯著優于67%混合。33% TXBK混合在約20B Token后超越純CC性能,而67% TXBK混合劣于純CC。

4.1.4 模型規模化

對于固定數據預算(50B Token),模型規模化建模為:?^(N)=AN^α + E,其中N為模型參數大小,A、α、E為擬合系數。

我們在所有10個數據混合上訓練從100M到3B參數的模型50B Token。使用高達2B參數的模型擬合公式,并在3B參數模型上驗證。此擬合也證明高度精確(圖2,左),對于3B參數模型預測的RMABE為0.30%。推斷模型規模(擬合高達3B參數)以預測更大模型(高達400B參數)在50B Token預算上的性能(圖2,右)揭示了與數據規模模式的一些差異:

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

圖2:模型規模化。左:模型規模公式驗證。使用高達2B參數模型擬合的3B參數模型預測在菱形標記的驗證數據點上實現RMABE 0.30%。實心點顯示實際損失值,而擬合曲線顯示預測損失。右:各種數據混合下訓練50B Token的推斷模型規模性能。

  • 純合成數據仍不優于CC;值得注意的是,在純改寫合成數據上訓練的模型在更大模型下將劣于在CC上訓練的模型。
  • 對于改寫數據混合,對混合比例的敏感度變化:雖然67%合成混合在大數據預算(數據規模)下略優,但相比33%混合,在更大模型大小(模型規模)下變得略不利。
  • 對于TXBK混合,33%合成一致優于67%。33% TXBK相對于純CC的優勢隨更大模型減小,此趨勢未在數據規模中觀察到。

總體,這些模型規模結果表明合成數據相對于其在數據規模場景中的效用,對于預訓練更大LM顯得相對較不利。盡管優于在CC上訓練,更大模型不如更大數據預算那樣容忍更高比例合成數據。此觀察與實踐一致,其中合成數據對較小LM或特定預訓練階段有效,但對最大模型使用較少主導。

4.1.5 計算規模化和不可約損失

我們還使用來自所有約700次訓練運行的數據擬合聯合Scaling Laws,同時納入模型大小(N)和數據預算(D)(細節在附錄A):?^(N,D)=AN^α + BD^β + E。CC數據的示例損失景觀如圖6所示。系數E表示不可約損失,即無限大模型和數據下可實現的理論最小損失。

每個數據混合的E估計(圖3)指示其最終潛力。值得注意的是,任何涉及合成數據的混合,或純合成數據(除純QA),預計實現比僅在CommonCrawl上訓練更低的不可約損失。這實證挑戰單輪訓練中“model collapse”的理論擔憂,該擔憂預測任何合成數據納入將最終退化性能(Dohmatob et al., 2024a)。在研究混合中,33% HQ改寫數據 + 67% CC顯示最低預測不可約損失。相反,純QA改寫數據顯示高不可約損失,僅次于純CommonCrawl。

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

圖3:不同數據混合的估計不可約損失(E)。更低值更好。

5.額外研究:更廣視角

除了主要Scaling Laws分析,我們進行針對性實驗以加深對影響合成數據在預訓練中有效使用的特定因素的理解。

5.1 “好”合成數據混合比例

動機

我們的主要Scaling Laws分析測試了合成與自然數據的有限離散混合比例(0%、33%、67%、100%)。為以更細粒度識別“好”比例,我們進行細粒網格搜索,受指示最優混合隨合成數據類型、模型規模和數據預算變異的激勵。

方法

我們訓練約400個額外LLM(200M到1B參數)在1B到50B Token的數據預算上。對于每個合成數據類型(HQ、QA、TXBK)和每個(模型大小、數據預算)配置,我們變異與CommonCrawl混合的合成數據百分比,跨十個指數間隔點:0%、0.5%、1%、2%、5%、10%、15%、20%、50%和100%。“好”比例定義為在評估集上產生最低驗證損失的混合。

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

圖4:從網格搜索中最佳發現混合比例(與CommonCrawl的合成數據百分比)對于HQ(左)、QA(中)和TXBK(右)合成數據類型,跨不同模型大小和數據預算。最佳發現比例均低于50%,似乎收斂到約30%。

發現

圖4可視化結果。最佳發現比例均低于50%,似乎收斂到約30%。關鍵觀察包括:

  • HQ改寫數據:最優混合一致為約30% HQ合成數據與70% CommonCrawl,跨測試規模。此30%混合通常優于Maini et al. (2024)建議的50%混合在我們設置中。
  • QA改寫數據:QA數據的首選比例隨模型/數據大小增加而趨于減少,從較小配置的約50%移向較大配置的30%。
  • 教科書(TXBK)數據:益處在更大規模最明顯。最優比例對于較小配置往往最小(低于5%),隨規模增加但通常保持低于改寫數據。

這些發現精煉我們的Scaling Laws觀察,強調有效合成數據部署對其類型和訓練體制的敏感性。

5.2 生成器模型能力的影響

動機

通常假設更大、更強生成器模型產生更高質量合成數據,導致更好下游性能。我們實證測試此假設。

方法

我們使用變異規模的Llama-3模型(3B、8B和70B參數)作為生成器,重新創建我們HQ和QA改寫數據集的子集。生成提示和源CommonCrawl文檔與原流水線一致,該流水線使用Mistral-7B-Instruct作為生成器。然后,使用固定1B參數下游模型,與先前實驗相同架構,訓練5億Token。對于每個生成器(Llama3-3B/8B/70B),我們通過在與CommonCrawl的混合上訓練下游模型評估產生的合成數據。這些混合中合成數據百分比跨八個指數間隔點變異:0.5%、1%、2%、5%、10%、15%和20%。約200個模型為此消融研究訓練,以比較不同能力生成器模型產生的合成數據效能。

發現

結果,由類似于圖5所示趨勢說明,挑戰“越大越好”的生成器模型直覺,并揭示細微關系:

  • 一定水平的生成器能力似乎有益:來自Llama-3-8B生成器的合成數據一致優于來自Llama-3-3B生成器的。這發現建議需要基線能力,并與Maini et al. (2024)的建議對比,即可通過使用較小生成器LM顯著降低改寫成本而無下游性能損失。
  • 然而,進一步增加生成器大小到Llama-3-70B并未產生比來自Llama-3-8B生成器優越的合成數據用于預訓練,通過訓練模型的驗證損失評估。
  • 在特定實例中,Llama-3-70B生成器證明較不有效。對于HQ改寫數據,Llama-3-70B模型生成的合成數據導致比來自Llama-3-8B模型一致更差的評估結果。對于QA改寫數據,70B生成器的輸出導致比8B生成器相當的性能。

這表明超出單純生成器規模的因素,例如不同規模的指令跟隨保真度、生成輸出多樣性,或潛在引入風格偽影,在確定合成數據用于預訓練的效用中發揮關鍵作用。簡單采用最大可用生成器可能不是最有效或高效策略。

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

論文:解密合成數據在LLM預訓練中的作用:Scaling Laws、益處與陷阱的系統性研究(Meta FAIR研究院)-AI.x社區

圖5:生成器模型能力消融。比較使用來自Llama3-3B/8B/70B生成器的HQ/QA改寫數據與CommonCrawl混合訓練5B Token的1B參數模型的驗證損失。這些混合中合成數據百分比跨從0.5%到20%的七個指數間隔點變異。

5.3 通過低級統計解釋

合成數據對預訓練效率的影響,特別是“好”混合比例如何隨合成數據類型、預算和模型大小變異,需要調查底層機制。雖然合成數據可能改善“數據質量”(例如,更好連貫性、減少噪聲)以犧牲多樣性為代價(Long et al., 2024),但生成過程反映生成器LM的輸出分布,可能從自然表達縮小分布支持或引入如model collapse的偽影(Dohmatob et al., 2024a)。

我們通過低級統計分析調查:

  • (Q1) 合成數據是否比自然網頁文本顯示減少的詞匯多樣性(即“shrunk support”)?
  • (Q2) 使用合成數據的測試性能改善是否可歸因于更小訓練-測試分布距離?
  • (Q3) 最優混合比例是否由于最小化分布距離,或更復雜多樣性與質量權衡?

受Magnusson et al. (2024)發現小部分高頻字符串顯著貢獻LM損失的啟發,我們跨訓練和測試語料庫進行unigram頻率分析。

完整結果和分析在附錄5.3中提供。我們總結關鍵發現:

  • 詞匯不匹配和高損失Token:在測試集中頻繁但在某些訓練集中稀缺或缺失的unigram(例如,“\n\n”、“hvor”(丹麥語)、“d?n”(土耳其語)等)導致更高評估損失。此問題普遍;無單一訓練集提供完整覆蓋。
  • 合成數據和unigram分布:合成數據比寬廣網頁語料庫如CommonCrawl略微縮小unigram分布;然而CommonCrawl的更寬覆蓋并未產生優越性能。
  • 到測試集的分布距離:unigram分布上的KL-divergence未顯示合成數據更接近測試分布;CommonCrawl似乎最接近測試數據集。

初步結論:

  • 單一數據源的固有局限:所有數據源,包括CommonCrawl,都有分布間隙導致在欠表示Token上的高評估損失。這青睞具有寬廣詞匯覆蓋和合理頻率的混合語料庫,幫助解釋為什么混合源語料庫往往優于單一源。
  • 超出分布匹配的“好”混合:模型往往以顯著合成數據比例(例如,約30%)訓練最佳,即使它不最小化到測試集的unigram分布距離。這表明超出簡單相似性的因素,指向更復雜多樣性與質量權衡。

6.結論

此大規模實證調查(超過1000個LLM變體)證明合成數據在基礎預訓練中呈現細微權衡。戰略混合特定合成類型(例如,約30%高質量改寫文本與自然數據)可顯著加速預訓練收斂高達5至10倍,并潛在實現比自然數據單獨更低的不可約損失。這些結果為大規模單輪(n=1)模型在合成數據上的訓練提供混合證據:在改寫合成數據上訓練在可預見規模內無性能退化,而在教科書式純生成合成數據混合上訓練顯示“model collapse”預測的模式。然而,有效性也條件于生成方法、混合策略和生成器模型。更大生成器模型未保證優越預訓練數據。下游模型性能不能簡單由訓練數據的多樣性或到測試語料庫的相似性解釋,而是指向更復雜多樣性與質量權衡。

我們的發現強調合成數據需要仔細、實證告知的部署,而不是數據約束的通用解決方案。基本下一步涉及開發更針對性合成數據生成技術和動態混合策略。在前沿規模上對其對多樣模型能力(推理、魯棒性、對齊)的長期影響進行嚴格評估至關重要,同時 pinpoint生成器模型超出單純大小的關鍵有益特征。

7. 討論

關于大規模單輪(n=1)模型在合成數據上的訓練的“model collapse”。本論文貢獻關于大規模單輪(n=1)模型在合成數據上訓練的新證據,拒絕先前研究中某些關于“model collapse”的猜想,并幫助精煉其應用范圍。

“model collapse”概念由Shumailov et al. (2023)正式化,表征迭代在自生成(或混合)數據上訓練的效果。隨后工作如Dohmatob et al. (2024b)研究n-fold迭代合成訓練的效果,其中主要結果顯示即使n=1(一輪)在合成數據上訓練導致測試困惑度顯著爆發相比原數據訓練。此外,Dohmatob et al. (2024a)顯示即使最小合成數據分數(例如,總訓練數據集的1%)在124M參數GPT-2 small上在BabyStories上訓練仍可導致model collapse。基于理論推導,作者猜想更大“模型可能緩解崩潰,雖然它們不能完全防止它。”鑒于對重要主題的強結論,理論分析基于風格化模型(例如,回歸模型),語言建模實驗簡單(例如,一任務微調)。這些“model collapse”預報與合成數據生成/訓練的進步之間仍存在顯著差距。

本工作為此演進主題帶來更多清晰。在本工作中,我們發現對于一輪(n=1)模型在合成數據上的訓練:

  • 在當代LM預訓練中使用改寫合成數據時,我們未見在可預見規模內的性能退化模式,且在改寫合成數據與自然數據混合上預訓練可導致驗證損失減少的顯著加速。
  • 在教科書式純生成合成數據混合上訓練確實導致下游領域損失顯著更高,尤其在小數據預算下。這與“model collapse”論文報告的模式和預測大致一致。

這顯示在大型LM預訓練中,一輪在合成數據上訓練并不一定退化驗證性能,限制“model collapse”論文理論結果的外推。

  • 盡管n-gram分布支持縮小,使用正確類型合成數據和與自然數據的混合比例,納入合成數據的益處可能超過“model collapse”問題并交付實質益處。這添加反證據于納入合成數據將總是導致更差模型性能的猜想。
  • 然而,大多數觀察益處來自改寫合成數據,而教科書式合成數據即使與大量自然數據混合往往導致性能退化。在教科書式合成數據上的實證結果顯示“model collapse”中表征的模式,建議“model collapse”中理論結果的泛化性可能依賴合成數據的性質。

總之,本工作貢獻的結果和發現拒絕“model collapse”中的某些聲明,并幫助精煉其應用范圍。

局限性

本研究雖廣泛,但有影響范圍和泛化性的局限:

  • 合成數據范圍有限:我們分析三種特定合成數據類型(HQ/QA改寫、TXBK)。發現可能不直接適用于其他生成方法(例如,合成代碼、對話)或提示策略。
  • 評估焦點:分析嚴重依賴困惑度/損失用于規模。缺乏對細微能力或安全的深入人類評估,以及對高度專業任務的評估。在NLP基準上的額外評估將是理想補充,因為損失并非最終目標。
  • 時間效應:我們檢查單一預訓練階段。潛在長期效應、細微退化或多代動態(“model collapse”)未調查。
  • 規模約束:實驗達到3B參數和200B Token。觀察到的合成數據效用在更大模型大小的規模趨勢需要在前沿模型規模(超過100B參數、超過10T Token)驗證。
  • Tokenizers的影響:第5.3節研究顯示不同訓練數據集有不同Token覆蓋,其中某些在訓練數據中稀缺的Token可能與評估中更高損失相關。雖然不足以影響本論文主要結果(如“好”混合比例),但Tokenizer的影響在驗證損失的更細粒分析中可能更可見。

倫理考慮

合成數據在LLM預訓練中的生成和使用值得仔細倫理反思:

  • 偏差傳播:合成數據風險繼承并放大生成器模型的偏差。對生成器和生成數據進行公平審計至關重要,但超出本研究范圍。
  • 事實準確性:生成內容可包括不準確(hallucinations)。大規模使用可能在模型中嵌入誤信息,需要魯棒質量控制。
  • 數據多樣性:過度依賴潛在同質合成數據可能比在多樣真實世界文本上訓練減少模型魯棒性和多樣性。
  • 透明度和可再現性:我們通過承諾開源完整配方緩解某些擔憂,以促進可再現性和進一步社區研究。

本文轉載自??Andy730??,作者:常華

已于2025-10-11 06:38:39修改
收藏
回復
舉報
回復
相關推薦
av网站手机在线观看| 国产一区二区在线免费| 色噜噜在线观看| 欧美日韩五码| 亚洲视频精选在线| 国产精品久久久久久久久久久久午夜片| 国产乡下妇女做爰视频| 人人精品视频| 欧美巨大另类极品videosbest| 成人短视频在线观看免费| 青青草免费在线视频| 久久精品99国产精品日本| 国内精品久久久久久| 亚洲一二三精品| 超碰成人福利| 欧美日韩视频在线一区二区| 久久av综合网| 国产毛片在线| 成人sese在线| 成人国产精品免费视频| 一级片免费在线播放| 色中色综合网| 亚洲欧美激情一区| 黑人无套内谢中国美女| 国产精品久久乐| 欧美日韩精品中文字幕| 老汉色影院首页| 精品视频一二区| 成人h精品动漫一区二区三区| 国产欧美中文字幕| 午夜影院免费在线观看| 国产精品国码视频| 久久精品2019中文字幕| 国产成人精品无码免费看夜聊软件| 日韩欧美另类中文字幕| 欧美在线|欧美| 凹凸国产熟女精品视频| 欧美黑人xx片| 亚洲欧美另类在线| 亚洲日本精品一区| 国产高清视频在线播放| 91丨九色丨蝌蚪丨老版| 国产精品污www一区二区三区| 一二三区在线播放| 免费精品视频最新在线| 国产不卡在线观看| 亚洲 欧美 成人| 宅男噜噜噜66国产日韩在线观看| 欧美交受高潮1| 欧美精品一级片| 亚洲影视一区| 欧美精品免费在线观看| 波多野结衣在线网址| 99re66热这里只有精品8| 有码中文亚洲精品| 欧美丰满老妇熟乱xxxxyyy| 欧美猛男做受videos| 日韩成人激情在线| 无码人妻aⅴ一区二区三区| 久久激情av| 亚洲成在人线av| yy1111111| 羞羞色国产精品网站| 亚洲精品久久视频| 波多野结衣影院| 西瓜成人精品人成网站| 亚洲人永久免费| 影音先锋男人在线| 婷婷综合网站| 欧美激情一级欧美精品| 国产情侣在线视频| 久久综合五月| 国产免费一区视频观看免费| 国产尤物视频在线观看| 国产乱码精品一区二区三| 99精彩视频在线观看免费| 人妻va精品va欧美va| 99国产精品国产精品毛片| 日本高清一区| 欧美性猛交xxx乱大交3蜜桃| 亚洲嫩草精品久久| 精品国偷自产一区二区三区| 欧美日韩免费看片| 欧美男男青年gay1069videost| 91看片破解版| 大型av综合网站| 亚洲人午夜精品免费| 男人的午夜天堂| 在线看片一区| 国产精品日韩精品| 亚洲AV无码一区二区三区性| 91在线丨porny丨国产| 亚洲成人18| 国产原创在线观看| 精品久久久在线观看| 91人人澡人人爽人人精品| 久久精品免视看国产成人| 亚洲黄色片网站| 网爆门在线观看| 欧美三级黄美女| 国产97在线|亚洲| jlzzjlzzjlzz亚洲人| 久久午夜电影网| 路边理发店露脸熟妇泻火| 天堂中文av在线资源库| 在线播放亚洲一区| 一女三黑人理论片在线| 自产国语精品视频| 日本成人精品在线| 亚洲精品国产av| 国产精品久久久久久久蜜臀| 免费一级特黄毛片| 精品一区二区三区中文字幕| 亚洲欧美色图片| 精品无码人妻一区二区三区| 捆绑调教美女网站视频一区| 久久66热这里只有精品| 成人在线免费看黄| 欧美色成人综合| 天堂久久久久久| 欧美成人69| 国产欧美精品在线播放| 你懂的在线观看| 亚洲一区二区免费视频| 亚洲精品乱码久久久久久动漫| 免费看av成人| 7777精品视频| 亚洲精品18p| 夜夜精品视频一区二区 | 99免费在线观看视频| 国产黄色在线| 色婷婷国产精品久久包臀| 18禁一区二区三区| 99久久99久久精品国产片桃花| 日韩av电影手机在线| 少妇一级淫片免费看| 亚洲激情自拍偷拍| 欧美成人手机在线视频| 色婷婷亚洲mv天堂mv在影片| 国产精品成人aaaaa网站| 欧美女优在线观看| 欧美日韩国产一区二区三区| 国产chinese中国hdxxxx| 欧美午夜影院| 国产激情美女久久久久久吹潮| av中文字幕在线观看| 欧美一区二区高清| 国产午夜手机精彩视频| 国内成人免费视频| 糖心vlog在线免费观看| 一区二区三区欧洲区| 欧美激情一区二区三区高清视频| 国产富婆一级全黄大片| 一区二区三区欧美日韩| 亚洲一区和二区| 亚洲国产导航| 免费在线观看一区二区| 色综合一本到久久亚洲91| 亚洲欧美中文字幕在线一区| 亚洲午夜无码久久久久| 国产精品国产精品国产专区不片| 五月天av在线播放| 欧美一区国产在线| 国产女人水真多18毛片18精品| 精品丝袜在线| 亚洲网站在线观看| 在线观看黄色国产| 亚洲欧美国产毛片在线| zjzjzjzjzj亚洲女人| 一区二区91| 西游记1978| 欧美午夜在线播放| 91福利视频在线观看| 福利成人在线观看| 欧美一区二区视频免费观看| 国产一级片免费看| 久久久综合视频| 久久久久久久久久一区| 国产精品黄色| 欧美成人免费在线| 亚洲黑人在线| 91wwwcom在线观看| 亚洲免费视频一区二区三区| 日韩免费高清av| 久久国产视频一区| 亚洲素人一区二区| 日韩 中文字幕| 国内精品久久久久影院色| 久艹视频在线免费观看| 久久综合成人| 国产精品久久亚洲7777| 伊人久久高清| 欧美高跟鞋交xxxxxhd| 国产资源在线观看| 日韩欧美一二区| 日韩一级在线视频| 一区二区三区鲁丝不卡| 蜜臀久久99精品久久久久久| 国产精品正在播放| 日本久久精品一区二区| 在线免费观看欧美| 欧美亚洲视频一区| 伊人成综合网伊人222| 4444kk亚洲人成电影在线| 美女一区网站| 欧美精品xxx| 欧美激情视频在线播放| 亚洲欧美日韩久久久久久| 精品久久国产视频| 欧美在线观看视频在线| 日韩av电影网| 亚洲精品久久嫩草网站秘色| 色欲狠狠躁天天躁无码中文字幕 | 日本视频在线| 日韩电影网在线| 国产极品999| 欧美日韩免费一区二区三区| 国产原创视频在线| 亚洲最新视频在线播放| 黄色一级大片在线免费观看| 久久久久久久久久久久久久久99 | 欧美一区二区.| 先锋影音在线资源站91| 日韩视频精品在线| 成人18在线| 亚洲欧美中文字幕在线一区| 香蕉人妻av久久久久天天| 欧美va日韩va| www国产一区| 欧美一区二区成人6969| 国产乱叫456在线| 欧美日韩免费在线视频| 中国一区二区视频| 欧美性受xxxx黑人xyx| 国产91国语对白在线| 日韩欧美精品中文字幕| 国产福利拍拍拍| 午夜精品福利视频网站| 国产在线视频99| 亚洲一二三区视频在线观看| 欧美日韩在线观看成人| 亚洲欧美另类图片小说| 欧美亚洲日本在线| 亚洲欧美激情在线| 欧美日韩亚洲国产另类| 一区二区三区在线观看网站| 丰满少妇高潮久久三区| 一二三四社区欧美黄| 国产一级特黄毛片| 亚洲成人精品一区二区| 日韩美女视频网站| 岛国精品视频在线播放| 黄色免费av网站| 色狠狠色狠狠综合| 人妻中文字幕一区二区三区| 欧美三区在线观看| 91美女精品网站| 日韩免费观看高清完整版| 懂色av一区二区三区四区| 精品国产123| 天堂av在线免费观看| 亚洲天堂第一页| av成人手机在线| 欧美xxxx18性欧美| av在线加勒比| 日本sm极度另类视频| 日本午夜精品久久久久| 97视频资源在线观看| 人体久久天天| 午夜视频久久久| 国产真实久久| 久久久久久久久久久久久久国产| 人人精品人人爱| 青娱乐国产精品视频| av一区二区三区在线| 手机毛片在线观看| 一区二区三区91| 日日夜夜操视频| 91精品国产入口| 亚州视频一区二区三区| 正在播放欧美视频| 天堂av中文在线| 国产91色在线免费| 亚洲网一区二区三区| 另类小说综合网| 久久精品国内一区二区三区水蜜桃| youjizz.com在线观看| 日日摸夜夜添夜夜添国产精品| 911福利视频| 91亚洲精品一区二区乱码| 狂野欧美性猛交| 精品久久久久久中文字幕| 97精品久久人人爽人人爽| 亚洲国产天堂久久综合网| av午夜在线| 97在线看免费观看视频在线观看| 懂色aⅴ精品一区二区三区| 国产精品久久久对白| 日韩久久精品网| 精品国产免费av| 国产一区二区三区观看| 四虎永久免费在线观看| 亚洲综合免费观看高清完整版| 午夜一级黄色片| 亚洲精品在线网站| 欧美高清视频| 国产精品wwwwww| 噜噜噜狠狠夜夜躁精品仙踪林| 一区二区精品免费视频| 亚洲综合另类| 国产av一区二区三区传媒| 中文字幕一区二区三区乱码在线| xxxx.国产| 亚洲成**性毛茸茸| gogogogo高清视频在线| 国产精品日韩欧美综合| 一二三四区在线| 日韩欧美一区电影| 啊v视频在线| 欧美最猛性xxxxx免费| 成人av综合网| 国产在线无码精品| 狠狠色综合色综合网络| 夫妇露脸对白88av| 色综合久久久久综合| 天天插天天干天天操| 欧美高清激情视频| 欧美影院在线| 精品国产三级a∨在线| 美女脱光内衣内裤视频久久影院| 国产免费一区二区三区网站免费| 午夜视频一区在线观看| 亚洲xxxx天美| 欧美丰满老妇厨房牲生活| 成人国产精品一区二区网站| 亚洲精品在线免费| 免费美女久久99| 91ts人妖另类精品系列| 欧美色精品在线视频| 国产又爽又黄的激情精品视频| 欧美日韩国产精品一区二区三区| 欧洲一区二区av| 国产中文字幕在线观看| 日韩免费精品视频| 九九综合九九| 中文字幕第80页| 亚洲国产激情av| 一级爱爱免费视频| 久久精品91久久久久久再现| www.欧美| 日本男女交配视频| 国产福利91精品一区二区三区| 久久国产精品国语对白| 91精品国产综合久久久久久| a级影片在线观看| 粉嫩av四季av绯色av第一区| 狠色狠色综合久久| www.超碰97| 欧美少妇一区二区| 老司机免费在线视频| 亚洲已满18点击进入在线看片| 欧美99在线视频观看| 性农村xxxxx小树林| 欧美性色视频在线| 啊v视频在线| 亚洲最大成人在线| 99精品视频免费观看视频| 熟女俱乐部一区二区| 欧美色电影在线| 日韩影视在线| 免费中文日韩| 国产制服丝袜一区| 国产乡下妇女做爰视频| 亚洲欧美综合图区| 亚洲欧美在线人成swag| 国产一线二线三线女| 91日韩一区二区三区| 中文字幕日本人妻久久久免费| 成年无码av片在线| 日韩mv欧美mv国产网站| 91福利国产成人精品播放| 一区二区三区在线观看视频| 青青草免费在线| 92国产精品视频| 麻豆亚洲精品| 国产少妇在线观看| 亚洲免费视频观看| 国产精品美女久久久久人| a级黄色一级片| 日韩一区有码在线| 无码国产精品一区二区色情男同| 国产精品爽黄69天堂a| 国产精品大片| 激情高潮到大叫狂喷水| 亚洲激情视频在线观看| 亚洲欧洲二区| 蜜臀久久99精品久久久酒店新书| 亚洲精品国产一区二区精华液 | 亚洲欧洲在线观看| 亚洲日本视频在线|