精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?

發(fā)布于 2024-9-19 12:48
瀏覽
0收藏

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

一、結(jié)論寫在前面

論文標(biāo)題:Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

論文鏈接:??https://arxiv.org/pdf/2409.02326??

高質(zhì)量數(shù)據(jù)對于語言模型的有效預(yù)訓(xùn)練至關(guān)重要。然而,“高質(zhì)量”的精確定義仍未得到充分探索。

聚焦于代碼領(lǐng)域,論文引入了Arctic-SnowCoder-1.3B,這是一個數(shù)據(jù)高效的基礎(chǔ)代碼模型,通過三個階段的逐步精煉數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,共處理了555B token:(1) 使用500B個標(biāo)準(zhǔn)質(zhì)量代碼token進(jìn)行通用預(yù)訓(xùn)練,經(jīng)過基本過濾、去重和去污染預(yù)處理;(2) 使用50B個高質(zhì)量token進(jìn)行持續(xù)預(yù)訓(xùn)練,這些token從第一階段中通過BERT風(fēng)格的質(zhì)量注釋器選出,該注釋器經(jīng)過訓(xùn)練以區(qū)分優(yōu)質(zhì)代碼與隨機(jī)數(shù)據(jù),使用從高質(zhì)量代碼文件中提取的正例,以及來自Magicoder和StarCoder2-Instruct的指令數(shù)據(jù);(3) 使用5B個合成數(shù)據(jù)進(jìn)行增強(qiáng)預(yù)訓(xùn)練,這些數(shù)據(jù)由Llama-3.1-70B使用第二階段數(shù)據(jù)作為種子生成,采用Magicoder的預(yù)訓(xùn)練方法。

僅僅訓(xùn)練有限數(shù)據(jù)集,Arctic-SnowCoder-1.3B在BigCodeBench上取得了SOTA的結(jié)果,這是一個專注于實際和具有挑戰(zhàn)性的編程任務(wù)的編碼基準(zhǔn),在訓(xùn)練了小于等于 1T tokens的類似大小的模型中。特別是,它比Phi-1.5-1.3B [20]高出36%。盡管訓(xùn)練數(shù)據(jù)量為555B tokens,與其他在萬億tokens上訓(xùn)練的最先進(jìn)的小型代碼模型相比,Arctic-SnowCoder在多個基準(zhǔn)測試中達(dá)到了或超過了這些模型的性能。

例如,Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中擊敗了StarCoderBase-3B,后者訓(xùn)練數(shù)據(jù)超過1T tokens。Arctic-SnowCoder-1.3B在HumanEval+ (28.0 vs. 27.4)上優(yōu)于StarCoder2-3B,后者訓(xùn)練數(shù)據(jù)超過3T tokens,這是一個評估函數(shù)級代碼生成的基準(zhǔn),同時在BigCodeBench(19.4 vs. 21.4)上保持競爭力。論文進(jìn)行了全面的消融研究,以驗證訓(xùn)練Arctic-SnowCoder背后的設(shè)計決策:    

?首先,論文的研究結(jié)果表明,在一般預(yù)訓(xùn)練中,將文件級數(shù)據(jù)按編程語言劃分成倉庫后,顯著優(yōu)于僅按倉庫名稱分組數(shù)據(jù)的方法。

?此外,論文確定了最佳的學(xué)習(xí)率計劃,包括重新預(yù)熱階段后進(jìn)行線性衰減,以及在持續(xù)預(yù)訓(xùn)練期間高質(zhì)量數(shù)據(jù)的理想重復(fù)次數(shù),論文發(fā)現(xiàn)是四次。

?更重要的是,論文對基于模型的質(zhì)量注釋器的比較,這些注釋器在各種數(shù)據(jù)組合上進(jìn)行訓(xùn)練,強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的對齊對于實現(xiàn)卓越性能至關(guān)重要。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

圖1:Arctic-SnowCoder-1.3B的三階段預(yù)訓(xùn)練,逐步使用更高質(zhì)量的數(shù)據(jù)。

二、論文的簡單介紹

2.1 論文的背景

預(yù)訓(xùn)練LLMs通常依賴于大量數(shù)據(jù)。在代碼等專業(yè)領(lǐng)域,這種對數(shù)據(jù)量的重視尤為明顯,研究人員通過抓取GitHub等平臺獲取大量代碼預(yù)訓(xùn)練數(shù)據(jù)集。然而,最近的研究越來越表明,高質(zhì)量的數(shù)據(jù)對于有效的預(yù)訓(xùn)練至關(guān)重要, 包括代碼領(lǐng)域。

在通用領(lǐng)域,研究人員探索了多種技術(shù)來策劃高質(zhì)量的語言模型預(yù)訓(xùn)練數(shù)據(jù)。FineWeb-Edu使用基于Snowflake-arctic-embed-m嵌入構(gòu)建的線性回歸器來評估網(wǎng)頁的教育價值并選擇高質(zhì)量內(nèi)容,而DCLM方法則采用基于fastText的過濾器,該過濾器在高質(zhì)量在線資源和指令數(shù)據(jù)的正例以及隨機(jī)負(fù)例網(wǎng)頁上進(jìn)行訓(xùn)練,以識別高質(zhì)量文本。與使用未過濾的大規(guī)模數(shù)據(jù)集相比,這些基于模型的質(zhì)量過濾器顯著提高了語言模型在下游任務(wù)中的性能。

同樣,研究人員也認(rèn)識到高質(zhì)量代碼數(shù)據(jù)對于預(yù)訓(xùn)練的重要性,Phi-1使用隨機(jī)森林分類器在Code-Gen嵌入上選擇教育性代碼樣本,DeepSeek-Coder-V2采用多階段fastText管道來召回與網(wǎng)絡(luò)相關(guān)的代碼數(shù)據(jù)和GitHub上的高質(zhì)量代碼,實現(xiàn)了最先進(jìn)的編碼性能。    

在本文中,論文介紹了Arctic-SnowCoder-1.3B,這是一個高性能的小型代碼模型,通過一種新穎的三步訓(xùn)練方法創(chuàng)建,專注于數(shù)據(jù)質(zhì)量的逐步提升。得益于這種方法,Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中均優(yōu)于StarCoderBase-3B [19],并在復(fù)雜且實用的BigCodeBench基準(zhǔn)測試 [46] 上超越Phi-1.5-1.3B [20] 36%,該基準(zhǔn)對實際編程至關(guān)重要。

2.2 論文的方法--Arctic-SnowCoder

這里論文將詳細(xì)解釋Arctic-SnowCoder-1.3B的訓(xùn)練方法,如圖1所示。論文首先討論原始訓(xùn)練數(shù)據(jù)的組成(見圖1),然后概述通用預(yù)訓(xùn)練階段。接下來,論文描述使用高質(zhì)量數(shù)據(jù)的協(xié)同預(yù)訓(xùn)練過程,最后,論文詳細(xì)闡述使用合成數(shù)據(jù)的增強(qiáng)預(yù)訓(xùn)練。模型架構(gòu)基于Llama-2,具體細(xì)節(jié)見表1。

表1:Arctic-SnowCoder的模型架構(gòu)細(xì)節(jié)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

2.2.1原始數(shù)據(jù)

用于訓(xùn)練Arctic-SnowCoder-1.3B的原始預(yù)訓(xùn)練數(shù)據(jù)僅包含代碼,主要來源于用于訓(xùn)練Snowflake Arctic的編碼數(shù)據(jù)。該數(shù)據(jù)結(jié)合了The Stack v1和GitHub爬取數(shù)據(jù)的清洗后版本。從這些數(shù)據(jù)中,論文選擇了18種流行的編程語言進(jìn)行訓(xùn)練,類似于StarCoder2-3B。這些語言包括Python、Java、C++、C 、JavaScript、PHP、C#、Go、TypeScript、SQL、Ruby、Rust、Jupyter Notebook、Scala、Kotlin、Shell、vart、Swift,總計400B唯一token。

2.2.2 通用預(yù)訓(xùn)練

在通用預(yù)訓(xùn)練階段,模型使用Adam進(jìn)行訓(xùn)練,訓(xùn)練500B token,序列長度為8192,批量大小為512。學(xué)習(xí)率在600次迭代后進(jìn)行線性預(yù)熱,隨后遵循余弦衰減。論文設(shè)置最大學(xué)習(xí)率為5.3x 10^{-4},最小學(xué)習(xí)率為5.3 x 10^{-5},這一設(shè)置參考了DeepSeek-Coder。在此階段,論文使用了全部400B原始數(shù)據(jù),未進(jìn)行額外的質(zhì)量過濾。論文首先按編程語言對代碼文件進(jìn)行分區(qū),按倉庫進(jìn)行分組,然后以隨機(jī)順序連接它們,類似于StarCoder2的方法。論文展示了首先按編程語言對代碼文件進(jìn)行分區(qū)的優(yōu)勢。論文將此階段生成的模型命名為Arctic-SnowCoder-alpha。    

2.2.3 高質(zhì)量數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練(Continued pretraining)

在通用預(yù)訓(xùn)練之后,論文使用從相同原始預(yù)訓(xùn)練語料庫中提取的50B高質(zhì)量token繼續(xù)預(yù)訓(xùn)練Arctic-SnowCoder-alpha。這50B高質(zhì)量token是通過將12.5B個由論文的代碼質(zhì)量注釋器評分的前百分位代碼文件token重復(fù)4次形成的。

受FineWeb-Edu和DCLM的啟發(fā),論文在基于BERT的先進(jìn)嵌入模型Snowflake-arctic-embed-m之上訓(xùn)練了一個線性分類頭。訓(xùn)練數(shù)據(jù)包括30萬個正樣本,采樣自22萬個高質(zhì)量開源代碼文件、8萬個來自Magicoder和StarCoder2-Instruct的高質(zhì)量指令數(shù)據(jù),以及從預(yù)訓(xùn)練語料庫中隨機(jī)選擇的300個代碼文檔。

關(guān)于代碼質(zhì)量的先前研究,如Phi-1,往往過分強(qiáng)調(diào)代碼的“教育價值”,使模型偏向于像HumanEva這樣的簡單基準(zhǔn)。論文展示了論文的注釋方法能夠帶來更平衡的模型能力提升。

此外,鑒于這些代碼文檔通常超過1000個token,超過了BERT的512個token的上下文窗口大小,論文改進(jìn)了FineWeb-Edu的流程,通過平均質(zhì)量注釋器產(chǎn)生的頂部、中部和底部部分的分?jǐn)?shù)來計算每個文件的分?jǐn)?shù)。在此階段,論文從0到最大預(yù)訓(xùn)練學(xué)習(xí)率5.3x 10^{-4}進(jìn)行1000次迭代的學(xué)習(xí)率預(yù)熱,隨后進(jìn)行線性衰減至0。此階段生成的模型稱為Arctic-SnowCoder-beta。

2.2.4 使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練

在增強(qiáng)預(yù)訓(xùn)練階段,論文利用Llama-3.1-70B-Instruct 生成比持續(xù)預(yù)訓(xùn)練階段更高質(zhì)量的數(shù)據(jù),并將Python混合比例提高到約50%,同時保持其他語言的比例不變。Phi-1 [13]表明,類似教科書的合成預(yù)訓(xùn)練數(shù)據(jù)可以顯著提升模型性能。

然而,過度依賴此類數(shù)據(jù)可能會導(dǎo)致模型分布偏斜,從而可能損害其在實際編碼任務(wù)中的有效性。例如,論文后面展示的,Phi-1.5在HumanEvalt和MBPP+上表現(xiàn)出色,這些任務(wù)類似于教科書練習(xí),但在BigCodeBench [46]中更復(fù)雜和實用的編碼任務(wù)上表現(xiàn)較差。為了解決這個問題,論文改編了Magicoder的OSS-Instruct方法用于預(yù)訓(xùn)練。最初,OSS-Instruct旨在通過提示模型創(chuàng)建受開源代碼片段啟發(fā)的問答對來生成現(xiàn)實的指令調(diào)優(yōu)數(shù)據(jù)。

相比之下,論文通過使用Llama-3.1-70B-Instruct生成高質(zhì)量和面向問題解決的代碼文件來生成高質(zhì)量的合成預(yù)訓(xùn)練數(shù)據(jù),這些代碼文件以持續(xù)預(yù)訓(xùn)練階段中評分最高的代碼文檔為種子。后面論文展示了每個預(yù)訓(xùn)練階段都顯著優(yōu)于前一個階段,突顯了逐步提高數(shù)據(jù)質(zhì)量的有效性。

2.3 論文的效果

這里論文將Arctic-SnowCoder與最先進(jìn)的小型語言模型進(jìn)行比較,并展示了每個預(yù)訓(xùn)練階段的性能提升,評估了兩種形成通用預(yù)訓(xùn)練中倉庫級別數(shù)據(jù)的策略,并對持續(xù)預(yù)訓(xùn)練中的設(shè)計選擇進(jìn)行了詳細(xì)的消融分析。    

2.3.1 實驗設(shè)置

論文考慮以下四個多樣化的編程基準(zhǔn),以全面評估不同代碼模型的代碼生成能力:

?HumanEval+和MBPP+ 。HumanEval和MBPP是用于函數(shù)級代碼生成的兩個最廣泛使用的基準(zhǔn)。論文采用了EvalPlus增強(qiáng)的版本,提供了80倍/35倍的更多測試用例以進(jìn)行嚴(yán)格評估。HumanEvalt和MBPP+分別包含164和378個編碼問題。

?EvoEval 是一個程序合成基準(zhǔn)測試套件,通過將現(xiàn)有基準(zhǔn)測試演化為不同的目標(biāo)領(lǐng)域而創(chuàng)建。論文采用了其五個默認(rèn)的轉(zhuǎn)換類別,即困難、創(chuàng)造性、微妙、組合和工具使用,總計500個任務(wù)。

?BigCodeBench 通過實際且具有挑戰(zhàn)性的編程任務(wù)評估語言模型。它包含1140個編程任務(wù),每個任務(wù)都是通過人類與語言模型的協(xié)作創(chuàng)建的,任務(wù)質(zhì)量由人類專家保證。        

2.3.2 基線比較與三階段預(yù)訓(xùn)練的有效性

表 2 :將Arctic-SnowCoder與最先進(jìn)的小型語言模型 ( \mathrm{< 3 B} ) 進(jìn)行比較,按訓(xùn)練計算量 > 1T 標(biāo)記進(jìn)行劃分。Arctic-SnowCoder-alpha和Arctic-SnowCoder-beta分別是通用預(yù)訓(xùn)練和繼續(xù)使用高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練后的檢查點(diǎn)。Arctic-SnowCoder是使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練后的最終檢查點(diǎn)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

表2展示了多種小型語言模型(參數(shù)少于3B)在多個編碼基準(zhǔn)上的綜合比較,按其訓(xùn)練計算是否超過1T tokens進(jìn)行分類。值得注意的是,Arctic-SnowCoder表現(xiàn)出色,特別是在其有限的訓(xùn)練數(shù)據(jù)下。Arctic-SnowCoder-1.3B在BigCodeBench上達(dá)到了與訓(xùn)練數(shù)據(jù)不超過1T token的同類模型相比的最新性能,顯著優(yōu)于StarCoderBase-3B、SmolLM-1.7B和Phi-1.5-1.3B。特別是,盡管Phi-1.5-1.3B在“教科書式”基準(zhǔn)測試如HumanEval+、MBPP+和EvoEval上具有優(yōu)勢,但Arctic-SnowCoder-1.3B在更復(fù)雜和實用的Big-CodeBench上以36%的優(yōu)勢超越了Phi-1.5-1.3B。    

此外,Arctic-SnowCoder-1.3B在所有評估基準(zhǔn)上均擊敗了StarCoderBase-3B,后者是StarCoder2-3B的前身,訓(xùn)練數(shù)據(jù)為1T tokens。盡管僅訓(xùn)練了555B tokens,Arctic-SnowCoder-1.3B在HumanEvalt上與經(jīng)過更廣泛訓(xùn)練的模型如StarCoder2-3B、StableCode-3B、CodeGemma-2B-v1.0和Qwen1.5-1.8B相媲美甚至超越。在EvoEval和BigCodeBench上,Arctic-SnowCoder仍然具有競爭力。

此外,該表還突顯了Arctic-SnowCoder在其訓(xùn)練階段的持續(xù)改進(jìn):Arctic-SnowCoder-alpha、Arctic-SnowCoder-beta和最終的Arctic-SnowCoder。每個階段都建立在前一階段的基礎(chǔ)上,Arctic-SnowCoder在所有基準(zhǔn)測試中均取得了最高分?jǐn)?shù)。這種穩(wěn)步提升強(qiáng)調(diào)了高質(zhì)量和合成數(shù)據(jù)在最終階段的關(guān)鍵作用。盡管從相同的數(shù)據(jù)開始,Arctic-SnowCoder的每次迭代都縮小了與最先進(jìn)模型的差距,展示了整體訓(xùn)練方法的有效性。

2.3.3 通用預(yù)訓(xùn)練中的倉庫級數(shù)據(jù)

在通用預(yù)訓(xùn)練階段,論文采用了StarCoder2的方法,通過隨機(jī)拼接文件內(nèi)容將文件級數(shù)據(jù)隨機(jī)分組到倉庫中。在表3中,論文研究了兩種方法:(1)僅按倉庫名稱對文件進(jìn)行分組,這意味著每個訓(xùn)練文檔可以是多語言代碼文件的混合,如果倉庫是用不同語言編寫的;(2)在將文件分組到倉庫之前,先按編程語言對文件進(jìn)行分區(qū),這意味著每個訓(xùn)練文檔僅關(guān)注一種單一語言。

表3:兩種預(yù)訓(xùn)練方法對倉庫級別數(shù)據(jù)分組的比較。(1)“按倉庫分組”將每個倉庫視為一個可能混合多種語言的單一訓(xùn)練單元,以及(2)“按語言和倉庫分組”在按倉庫分組之前先按編程語言對數(shù)據(jù)進(jìn)行分區(qū)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

論文可以觀察到,第二種方法,即論文在一般預(yù)訓(xùn)練中最終采用的方法,明顯優(yōu)于第一種方法。

2.3.4繼續(xù)預(yù)訓(xùn)練中的設(shè)計選擇

在繼續(xù)預(yù)訓(xùn)練中,論文從預(yù)訓(xùn)練語料庫中提取高質(zhì)量的token,并訓(xùn)練一個改進(jìn)的基礎(chǔ)模型。為了獲得高質(zhì)量的token,論文采用了基于模型的質(zhì)量標(biāo)注器。在本節(jié)中,論文實驗了各種設(shè)計選擇,包括標(biāo)注器的訓(xùn)練數(shù)據(jù)、繼續(xù)預(yù)訓(xùn)練中使用的學(xué)習(xí)率以及高質(zhì)量token的最佳重復(fù)次數(shù)。    

基于模型的質(zhì)量標(biāo)注器 類似于FineWeb-Edu ,論文在Snowf lake-arctic-embed-m嵌入模型之上訓(xùn)練一個線性頭來為每個代碼文件評分。在表4中,論文實驗了4種變體:

?ANN-EDU:論文提示Mixtral-8x7B-Instruct標(biāo)注每個代碼文件的教育價值(1到5)。使用400k標(biāo)注數(shù)據(jù)訓(xùn)練一個線性回歸頭。對于以下變體,類似于DCLM ,論文隨機(jī)采樣負(fù)文檔并僅更改正部分。使用線性分類頭。

?ANN-INs:正樣本是來自ANN-EDU的100k教育數(shù)據(jù)(3.5+)和來自Magicoder [41]和StarCoder2-Instruct [40]的100k高質(zhì)量指令數(shù)據(jù)的混合。

?ANN-HQ: 正樣本為220k開源、合成、高質(zhì)量代碼文件。

?ANN-HQINs: 正樣本為220k ANN-HQ訓(xùn)練數(shù)據(jù)與80k來自Magicoder[41]和StarCoder2-Instruct[40]的指令數(shù)據(jù)的混合。

表4: 通過應(yīng)用基于模型的質(zhì)量標(biāo)注器(使用不同配方訓(xùn)練)進(jìn)行10B繼續(xù)預(yù)訓(xùn)練的下游性能比較

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

訓(xùn)練標(biāo)注器后,論文首先將每個標(biāo)注器應(yīng)用于整個預(yù)訓(xùn)練語料庫,為每個文件獲取一個分?jǐn)?shù)。與僅掃描前2k字符的FineWeb-Edu不同,論文掃描代碼文件的頂部、中部和底部部分,并平均這些分?jǐn)?shù)。然后,論文根據(jù)這些分?jǐn)?shù)按語言對代碼文件進(jìn)行排名,并選擇前百分位的文檔,直到達(dá)到大約10 B token。論文保持與預(yù)訓(xùn)練中使用的相同混合比例。表中顯示,結(jié)合高質(zhì)量文件和指令數(shù)據(jù)的ANN-HQINS實現(xiàn)了最佳的下游性能。

論文在圖2中進(jìn)行了額外的分析。對于每個標(biāo)注者,論文創(chuàng)建了一個驗證數(shù)據(jù)集,其中正樣本來自代碼解決方案基準(zhǔn),負(fù)樣本來自訓(xùn)練期間未見過的隨機(jī)預(yù)訓(xùn)練數(shù)據(jù)。論文使用ROC-AUC [6](受試者工作特征曲線下面積)分?jǐn)?shù)來評估標(biāo)注者在基準(zhǔn)數(shù)據(jù)排名中的表現(xiàn)。該圖展示了每個基準(zhǔn)的ROC-AUC分?jǐn)?shù)與基準(zhǔn)通過率之間的相關(guān)性。幾乎一致的趨勢是:較高的ROC-AUC分?jǐn)?shù)導(dǎo)致更好的基準(zhǔn)性能。良好的ROC-AUC分?jǐn)?shù)表明標(biāo)注者有效地塑造了下游任務(wù)的分布。因此,高質(zhì)量的關(guān)鍵在于與下游應(yīng)用分布的對齊。    

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

圖2:注釋者ROC-AUC評分與基準(zhǔn)測試pass@1之間的相關(guān)性。

學(xué)習(xí)率調(diào)度 論文還在表5中研究了不同的學(xué)習(xí)率調(diào)度策略,包括(1)從最小預(yù)訓(xùn)練學(xué)習(xí)率線性退火至零,(2)使用最小預(yù)訓(xùn)練學(xué)習(xí)率的恒定調(diào)度,以及(3)重新預(yù)熱至最大預(yù)訓(xùn)練學(xué)習(xí)率后線性衰減至零。根據(jù)經(jīng)驗,論文發(fā)現(xiàn)重新預(yù)熱方法表現(xiàn)最佳,并在所有其他關(guān)于繼續(xù)預(yù)訓(xùn)練的實驗中一致使用。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

高質(zhì)量數(shù)據(jù)重復(fù)次數(shù) 最后,論文將預(yù)訓(xùn)練的token范圍從10 B擴(kuò)展到50 B。剩下的一個問題是如何確定高質(zhì)量token的最佳重復(fù)次數(shù)。論文通過選擇由ANN-HQINS排名的前百分位token進(jìn)行實驗,重復(fù)次數(shù)從1到5,如表6所示。在這種情況下,前百分位token是最高質(zhì)量的token。例如,1 x 50B表示前50B token的一次重復(fù),而4 X12.5B表示前12.5B token的四次重復(fù),確保所選token的質(zhì)量最佳。

根據(jù)表中的結(jié)果,重復(fù)高質(zhì)量token四次(4 x 12.5B)在下游多個評估指標(biāo)中任務(wù)中表現(xiàn)最佳,四次重復(fù)(4 x 12.5B)在HumanEval和EvoEval中得分最高。兩次重復(fù)( 2 X25.0B )和三次重復(fù)( 3 X16.7B )也表現(xiàn)出強(qiáng)勁的性能,特別是在mbpp中。五次重復(fù)( 5 x10.0B )在MBPP中得分最高,但在總體指標(biāo)上未超過四次重復(fù)。一次重復(fù)( 1 x50.0B )與多次重復(fù)相比,改進(jìn)最小。

表6:使用ANN-HQINS在50B繼續(xù)預(yù)訓(xùn)練中不同高質(zhì)量數(shù)據(jù)重復(fù)次數(shù)的下游性能。    

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
午夜国产精品影院在线观看| 久久久综合网| 精品欧美乱码久久久久久1区2区| 久久99久久99精品| 欧美日本网站| 国产一区二区在线视频| 97视频色精品| 国产在线观看免费视频软件| japanese色系久久精品| 色网站国产精品| 午夜啪啪福利视频| 欧美91精品久久久久国产性生爱| 久久99国产精品麻豆| 性欧美暴力猛交69hd| 黄色裸体一级片| 日韩丝袜视频| 日韩一区二区麻豆国产| 欧在线一二三四区| 波多野结衣在线高清| 国产精品天美传媒沈樵| 久久99导航| 99在线精品视频免费观看20| 老鸭窝91久久精品色噜噜导演| 久久综合亚洲社区| 国产精品情侣呻吟对白视频| 国产精东传媒成人av电影| 欧美特级限制片免费在线观看| 成年人午夜视频在线观看| 美女国产在线| 国产亚洲欧美一级| 国产日韩精品一区观看| av观看在线免费| 青青草视频一区| 日本精品免费观看| 国产在线视频二区| 午夜久久免费观看| 自拍视频国产精品| 国产三级av在线播放| 天堂资源在线亚洲| 亚洲第一天堂无码专区| 国产又黄又嫩又滑又白| 国产成人久久精品一区二区三区| 欧亚一区二区三区| 久久午夜夜伦鲁鲁一区二区| 中文在线资源| 日韩欧美a级成人黄色| 男人用嘴添女人下身免费视频| 国产乱妇乱子在线播视频播放网站| 中文字幕欧美一| 一本一生久久a久久精品综合蜜| 撸视在线观看免费视频| 91免费小视频| 女人一区二区三区| 视频三区在线观看| 97久久精品人人澡人人爽| 999精品在线观看| 99热这里只有精品3| 国产麻豆精品在线观看| 97久久天天综合色天天综合色hd| 国产视频一区二区三| 国产一区二区女| 91美女片黄在线观看游戏| 国产成年妇视频| 国产成人av资源| 国产日韩亚洲精品| 日本大片在线观看| 欧美国产日韩a欧美在线观看 | 98精品在线视频| 男女视频免费看| 老鸭窝亚洲一区二区三区| 日韩免费视频在线观看| 中文字幕+乱码+中文字幕明步 | 免费的黄网站在线观看| **性色生活片久久毛片| 99久re热视频精品98| 高清电影在线免费观看| 色欧美88888久久久久久影院| www.日本xxxx| 国产精品一区二区三区四区在线观看 | 国产精品久久久午夜夜伦鲁鲁| 久久 天天综合| 成人欧美视频在线| 男同在线观看| 国产精品久久久久久妇女6080| 蜜臀av.com| 麻豆视频在线观看免费网站黄| 色香蕉成人二区免费| 思思久久精品视频| 成人看片黄a免费看视频| 精品性高朝久久久久久久| 九九九视频在线观看| 2023国产精品久久久精品双| 97人人做人人爱| 精品乱码一区内射人妻无码| 国产黄色成人av| 久久综合精品一区| 成人在线观看免费网站| 婷婷综合另类小说色区| 亚洲 国产 图片| 青青操综合网| 久久精品一偷一偷国产| aaa人片在线| 国产精品资源站在线| 麻豆91蜜桃| 国产成人午夜| 色狠狠色狠狠综合| 国产高潮视频在线观看| 成人三级视频| 欧美一区二区三区免费观看| 国产强伦人妻毛片| 国产欧美日本一区二区三区| 欧美亚洲日本一区二区三区| 四虎地址8848精品| 亚洲欧美国产精品| 国产主播在线观看| 久久国产夜色精品鲁鲁99| 久久久7777| 欧美日韩经典丝袜| 欧美乱妇23p| 97在线观看免费视频| 亚洲精品看片| 北条麻妃高清一区| 日本美女高清在线观看免费| 欧美性猛交xxxx乱大交| 日本一卡二卡在线| 欧美精品一卡| 91九色视频在线| a黄色在线观看| 日本精品一区二区三区四区的功能| www日本在线观看| 亚洲男女av一区二区| 国产精品视频播放| 国产毛片在线| 91久久精品国产91性色tv| 欧美无人区码suv| 亚洲精品护士| 国产一区二区不卡视频| 黑人另类精品××××性爽| 91精品国产91久久久久久最新毛片| 国产真人真事毛片视频| 日本不卡不码高清免费观看| 日本在线成人一区二区| 第四色男人最爱上成人网| www成人在线视频| 国产精品久久久99| 日韩精品你懂的| 欧美日韩国产一区二区三区不卡 | 看片网址国产福利av中文字幕| 国产91精品在线观看| 九九久久九九久久| 亚洲国产欧美在线观看| 欧美日韩国产成人在线观看| wwwav在线播放| 亚洲精品欧美激情| 91成人在线观看喷潮蘑菇| 欧美成熟视频| 国产精品麻豆免费版| av免费不卡国产观看| 亚洲第一视频在线观看| 精品免费囯产一区二区三区| www精品美女久久久tv| 久久久免费视频网站| 久久97视频| 国产欧美日韩最新| 国产成人无吗| 精品国产露脸精彩对白| 天天操天天摸天天干| 久久久精品日韩欧美| 香港日本韩国三级网站| 99久久精品费精品国产风间由美| 91久久综合亚洲鲁鲁五月天| 午夜影院免费在线| 亚洲国产精彩中文乱码av| 日韩精品1区2区| 国产日本亚洲高清| 九九精品久久久| 中文字幕一区二区三区欧美日韩| yellow视频在线观看一区二区| 超碰激情在线| 夜夜嗨av一区二区三区四区| 一区二区三区www污污污网站| 亚洲美女在线一区| 国产精品一级黄片| 久久成人av少妇免费| 激情六月天婷婷| 国产亚洲电影| 91免费在线观看网站| 在线免费日韩片| 久久综合电影一区| 亚洲av激情无码专区在线播放| 欧美性色黄大片| 久久久久久久久久综合| 国产亚洲制服色| 免费观看一区二区三区| 久久尤物视频| 国产一区二区三区在线免费| 国产欧美日韩影院| 岛国视频一区| 国产成+人+综合+亚洲欧美| 欧美激情免费视频| 永久免费av在线| 亚洲国产成人精品一区二区 | 国产女人被狂躁到高潮小说| 91视频国产观看| 亚洲视频在线不卡| 久久亚洲影院| 精品无码国产一区二区三区av| 精品国产乱码久久久久久果冻传媒| 91一区二区三区| 成人黄色免费网站| 欧美在线中文字幕| 91精品国产91久久久久久青草| 亚洲人成在线观看| 日批视频免费播放| 91精品国产一区二区| 精人妻无码一区二区三区| 亚洲一区二区欧美激情| 国产真实乱在线更新| 久久精品在线观看| 无码任你躁久久久久久老妇| 狠狠色2019综合网| 自拍偷拍 国产| 国产精品腿扒开做爽爽爽挤奶网站| 干日本少妇视频| 国产精品99视频| 欧美午夜精品久久久久免费视| 久久久久97| av蓝导航精品导航| 久久视频免费| 成人写真福利网| 日韩黄色碟片| 国产日韩欧美91| 韩国精品视频在线观看| 国产成人鲁鲁免费视频a| 欧美巨大丰满猛性社交| 久久久久久亚洲精品中文字幕| av网站大全在线| 久久精品男人天堂| 老司机在线视频二区| 日韩在线视频一区| 日本天堂在线观看| 最近2019好看的中文字幕免费| 国产精品一区二区婷婷| 国产午夜精品免费一区二区三区| 亚洲AV成人无码一二三区在线| 日韩成人在线视频观看| 日本黄色大片视频| 日韩成人网免费视频| 日本不卡视频一区二区| 亚洲欧美另类中文字幕| 精品视频二区| 中文字幕亚洲激情| 久久久久久国产精品免费无遮挡| 中文字幕少妇一区二区三区| 精品视频在线一区二区| 久久不射电影网| 国产高清在线a视频大全 | 九九热这里有精品| 成人一区二区电影| 亚洲日本一区二区三区在线| 国产chinese精品一区二区| 国产精品白浆| 久久久久久久久四区三区| 最新精品国偷自产在线| 亚洲不卡中文字幕| 91精品国产视频| 日本成人在线不卡| 一区二区国产精品| 久久久精品三级| 国产米奇在线777精品观看| 国产又粗又猛又爽又黄| 99国产精品久久久| 国产人妻大战黑人20p| 18成人在线观看| 久草免费在线视频观看| 欧美日韩一区二区免费在线观看| 国产精品久久久久久久久夜色| 欧美日韩国产高清一区二区三区| 国产哺乳奶水91在线播放| 日韩av网址在线| bbbbbbbbbbb在线视频| 欧美成aaa人片免费看| 午夜激情电影在线播放| 成人网欧美在线视频| 丁香五月缴情综合网| 亚洲精品国产精品国自产| 综合av在线| 黄色a级片免费| 国产精品一二三| 亚洲黄色免费视频| 亚洲一区二区三区三| 中文天堂在线视频| 精品成人在线观看| 午夜在线免费观看视频| 久久人人爽国产| 国产亚洲欧美日韩精品一区二区三区 | 久久天天躁狠狠躁老女人| 国产在线美女| **亚洲第一综合导航网站| 综合亚洲色图| 成人短视频在线观看免费| 久久综合伊人| 亚洲一区二区三区四区av| 国产日韩欧美高清在线| 国产精品第一页在线观看| 欧美乱熟臀69xxxxxx| 免费在线国产| 久久人人97超碰精品888| 日韩一级特黄| 日韩影视精品| 欧美一级一区| 日本不卡视频一区| 亚洲桃色在线一区| 中文字幕一区二区三区四区免费看| 精品福利av导航| 在线中文字幕第一页| 国产精品永久免费在线| 蜜桃a∨噜噜一区二区三区| 国产精品无码免费专区午夜| 老司机午夜精品99久久| 国产中年熟女高潮大集合| 亚洲va中文字幕| 国内精品偷拍视频| 久久久精品电影| 国产免费叼嘿网站免费| 青青草97国产精品免费观看无弹窗版| 日本55丰满熟妇厨房伦| 国产精品久久久久久户外露出| www.com亚洲| 亚洲男人第一网站| 涩涩视频网站在线观看| 官网99热精品| 欧美日韩一视频区二区| 亚欧精品在线视频| 《视频一区视频二区| 中文字幕网址在线| 最近2019年中文视频免费在线观看 | 亚洲成人福利在线观看| 久久久久久久久一| av图片在线观看| 亚洲免费精彩视频| 自由日本语热亚洲人| 欧美亚洲爱爱另类综合| 男女av一区三区二区色多| 深爱五月激情网| 欧美日韩国产专区| 裸体xxxx视频在线| 欧美一区第一页| 精品国产91| 亚洲少妇久久久| 国产精品乱码一区二区三区软件| 中文字幕观看在线| 色婷婷综合久久久久| 国产区一区二| www.在线观看av| 99久久国产综合精品色伊| 99久在线精品99re8热| 亚洲人午夜精品| 成人在线观看免费播放| 伊人久久大香线蕉午夜av| 国产福利精品一区| 日本熟妇成熟毛茸茸| 亚洲欧美另类中文字幕| 伦一区二区三区中文字幕v亚洲| 日本福利视频导航| 国产 日韩 欧美大片| 亚洲欧美在线视频免费| 亚洲欧美一区二区三区情侣bbw| av在线日韩| 黄色污污在线观看| av在线这里只有精品| 精品久久久久久久久久久久久久久久| 在线免费看av不卡| 日本在线成人| 91传媒久久久| 国产精品第五页| 日本黄色一区二区三区| 国产精品都在这里| 国产午夜精品无码| 在线免费视频一区二区| 看女生喷水的网站在线观看| 国产成人免费观看| 三级亚洲高清视频| 日本福利片在线观看| 日韩经典一区二区三区| 欧美成人高清视频在线观看| 波多野结衣av一区二区全免费观看| 91麻豆国产在线观看| 国产一区二区三区中文字幕 | 久草网视频在线观看| 日韩精品中文字幕在线播放| 成人免费一区| 777精品久无码人妻蜜桃| 国产精品久久三区| 日韩在线一区二区三区四区| 国产美女久久久| 日韩视频在线一区二区三区 | 日本精品600av| 国产伦精品一区二区三区高清| 美女久久久精品|