精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型開發(fā)者必讀!拆解世界級AI模型的誕生,Hugging Face把4年模型訓(xùn)練經(jīng)驗(yàn)寫成了一本開源指南

人工智能 新聞
這份詳盡的指南,由12位Hugging Face的頂尖工程師團(tuán)隊(duì)打造,記錄了他們訓(xùn)練模型的全部心路歷程,可以說是一份真正意義上的手把手實(shí)戰(zhàn)指南,將Hugging Face團(tuán)隊(duì)約4年來構(gòu)建最先進(jìn)(SOTA)模型和數(shù)據(jù)集的所有經(jīng)驗(yàn),毫無保留地公之于眾。

大模型開發(fā)者必讀!

Hugging Face發(fā)布了《The Smol Training Playbook:The Secrets to Building World-Class LLMs》模型訓(xùn)練秘訣。

這份詳盡的指南,由12位Hugging Face的頂尖工程師團(tuán)隊(duì)打造,記錄了他們訓(xùn)練模型的全部心路歷程,可以說是一份真正意義上的手把手實(shí)戰(zhàn)指南,將Hugging Face團(tuán)隊(duì)約4年來構(gòu)建最先進(jìn)(SOTA)模型和數(shù)據(jù)集的所有經(jīng)驗(yàn),毫無保留地公之于眾。

官方推薦2~4天讀完。

這本手冊,讓這個(gè)過去被神秘光環(huán)籠罩的過程,變得透明、可及、高效。它適合所有對AI訓(xùn)練抱有熱忱的人,無論你是初學(xué)者、研究員,還是身處一線的工程師。

最好別訓(xùn)練模型

手冊開篇就提出了一個(gè)顛覆性的觀點(diǎn)。

在投入數(shù)百萬美元計(jì)算資源之前,必須回答一個(gè)最根本的問題:為什么需要訓(xùn)練一個(gè)新模型?

Hugging Face的經(jīng)驗(yàn)表明,99%的情況下,你根本不應(yīng)該從頭開始訓(xùn)練。

為了避免無謂的資源消耗,他們設(shè)計(jì)了一個(gè)名為訓(xùn)練指南針的決策框架。這個(gè)框架像一位經(jīng)驗(yàn)豐富的老船長,在你準(zhǔn)備揚(yáng)帆出海燒錢遠(yuǎn)航之前,冷靜地幫你審視航行的必要性。

決策的邏輯鏈條異常清晰。

你有一個(gè)需求。

這個(gè)需求能通過提示工程(Prompt Engineering)解決嗎?

如果不行,能通過檢索增強(qiáng)生成(RAG)解決嗎?

如果還不行,能通過微調(diào)(Fine-tuning)一個(gè)現(xiàn)有模型解決嗎?

如果微調(diào)也不夠,審視一下,現(xiàn)有的開源模型真的無法滿足你的要求嗎?

走完這一系列拷問,你才能觸及那僅存的1%的正當(dāng)訓(xùn)練理由。

Hugging Face將其歸納為三類。

一是前沿研究(Frontier Research)。

比如你正在探索一種全新的網(wǎng)絡(luò)架構(gòu),試圖替代Transformer,或者發(fā)明了一種新的注意力機(jī)制。這種探索未知邊界的行為,值得開啟一次全新的訓(xùn)練。

二是特定的生產(chǎn)需求(Production Specificity)。

當(dāng)你的應(yīng)用場景極端特殊,現(xiàn)有模型無法勝任時(shí)。例如,為一種罕見方言構(gòu)建模型,或者在對延遲要求嚴(yán)苛到毫秒級的邊緣設(shè)備上部署,再或者為醫(yī)療、法律等高度專業(yè)化的領(lǐng)域打造專用模型。

三是戰(zhàn)略性開源(Strategic Open-Source)。

當(dāng)你發(fā)現(xiàn)整個(gè)開源生態(tài)系統(tǒng)中存在一個(gè)明顯的空白,需要有人去填補(bǔ)。Hugging Face自家的StarCoder模型就是如此,當(dāng)時(shí)市面上缺乏一個(gè)足夠強(qiáng)大的代碼生成開源模型。SmolLM系列同樣出于此目的,旨在探索小尺寸模型配合海量高質(zhì)量數(shù)據(jù)的性能極限,為社區(qū)提供一個(gè)能在特定規(guī)模上挑戰(zhàn)閉源模型的選項(xiàng)。

倘若你的理由不屬于這三者中的任何一種,指南針會(huì)明確指向停止的方向。如果屬于,那么恭喜你,準(zhǔn)備開啟一段昂貴但目標(biāo)明確的旅程。

確定要訓(xùn)練后,下一個(gè)問題是,訓(xùn)練一個(gè)什么樣的模型?

這并非一個(gè)越大越好的簡單游戲,而是在參數(shù)規(guī)模、數(shù)據(jù)總量、計(jì)算預(yù)算和預(yù)期性能這四個(gè)變量之間,尋找一個(gè)微妙的平衡點(diǎn)。

規(guī)模定律(Scaling Laws)是重要的參考,但絕非不可違背的圣經(jīng)。

SmolLM3團(tuán)隊(duì)的實(shí)踐發(fā)現(xiàn),當(dāng)數(shù)據(jù)質(zhì)量達(dá)到某個(gè)閾值后,模型的性能可以突破傳統(tǒng)規(guī)模定律預(yù)測的上限。換言之,用更優(yōu)質(zhì)的數(shù)據(jù)喂養(yǎng),一個(gè)較小的模型也能爆發(fā)出驚人的能量。

對SmolLM3而言,這個(gè)平衡點(diǎn)被定格在30億參數(shù)。這個(gè)規(guī)模不大不小,恰到好處。它足夠強(qiáng)大,足以展現(xiàn)出一些復(fù)雜能力;又足夠小巧,可以在單張消費(fèi)級顯卡上流暢運(yùn)行推理,極大地降低了部署門檻。

上下文長度則采用漸進(jìn)式策略,從4K起步,逐步擴(kuò)展至16K以上,這需要在位置編碼方式與訓(xùn)練成本之間做出權(quán)衡。多語言能力的設(shè)計(jì)從一開始就融入數(shù)據(jù)混合策略,而不是等到訓(xùn)練后期再通過微調(diào)打補(bǔ)丁。

最后是如何訓(xùn)練。

這部分構(gòu)成了手冊的主體,但在決策階段就需要確立核心哲學(xué):先用極小的成本進(jìn)行消融實(shí)驗(yàn),再進(jìn)行中等規(guī)模的驗(yàn)證,最后才投入全規(guī)模訓(xùn)練。每個(gè)階段都必須有可靠、可量化的評估指標(biāo)作為導(dǎo)航,同時(shí)對存儲(chǔ)、網(wǎng)絡(luò)、節(jié)點(diǎn)故障率等基礎(chǔ)設(shè)施成本有清醒的認(rèn)識。

魔鬼藏在架構(gòu)與參數(shù)的細(xì)節(jié)里

一旦進(jìn)入模型設(shè)計(jì)的深水區(qū),每一個(gè)微小的組件選擇都可能對最終結(jié)果產(chǎn)生深遠(yuǎn)影響。Hugging Face的工程師們像鐘表匠一樣,對模型的每一個(gè)零件進(jìn)行了數(shù)十次甚至上百次的拆解、測試與重組。

這個(gè)過程的核心原則是小規(guī)模上驗(yàn)證一切。

直覺是廉價(jià)的,而GPU時(shí)間是昂貴的。

SmolLM3團(tuán)隊(duì)運(yùn)行了數(shù)百個(gè)消融實(shí)驗(yàn),每一個(gè)實(shí)驗(yàn)都在為一個(gè)關(guān)鍵決策去風(fēng)險(xiǎn)。這些實(shí)驗(yàn)遵循黃金法則:每次只改變一個(gè)變量,用10億到100億(token)的小規(guī)模數(shù)據(jù)快速迭代,并確保評估指標(biāo)足夠敏感,能夠捕捉到不同配置間的細(xì)微差異。

以注意力機(jī)制為例,這是Transformer模型的心臟。團(tuán)隊(duì)系統(tǒng)性地評估了四種方案。

標(biāo)準(zhǔn)多頭注意力(MHA)效果最好,但它的鍵值緩存(KV Cache)在推理時(shí)會(huì)占用大量內(nèi)存,對于追求極致性能且不計(jì)較部署成本的場景是首選。

多查詢注意力(MQA)則走向另一個(gè)極端,多個(gè)查詢頭共享一個(gè)鍵值頭,內(nèi)存占用最小,推理速度最快,但會(huì)帶來2%到3%的質(zhì)量損失,更適合資源受限的邊緣設(shè)備。

分組查詢注意力(GQA)是前兩者之間的完美妥協(xié)。它將查詢頭分組,每組共享一套鍵值頭,內(nèi)存占用減半,質(zhì)量損失卻不到1%。在10億到30億參數(shù)規(guī)模的模型上,GQA是數(shù)據(jù)驅(qū)動(dòng)下得出的最佳平衡點(diǎn)。SmolLM3最終選擇了它。

還有一種新興的潛在多頭注意力(MLA),它通過低秩投影壓縮鍵值,在處理長上下文時(shí)效率極高。團(tuán)隊(duì)在小規(guī)模測試后發(fā)現(xiàn),在30億參數(shù)的規(guī)模下,MLA帶來的收益尚不明顯,但它被作為未來版本的潛在升級選項(xiàng)保留了下來。

選擇的背后并非一帆風(fēng)順。GQA的實(shí)現(xiàn)有一個(gè)巨大的陷阱。

在進(jìn)行張量并行(Tensor Parallelism)時(shí),如果權(quán)重劃分不當(dāng),可能導(dǎo)致同一個(gè)張量并行組內(nèi)的不同GPU分配到錯(cuò)誤的鍵值頭,使得GQA在功能上退化為MQA。SmolLM3團(tuán)隊(duì)就曾因此遭遇過一次訓(xùn)練到1萬億(token)后被迫重啟的重大事故。

位置編碼是模型理解序列順序、處理長上下文的基石。

旋轉(zhuǎn)位置編碼(RoPE)是當(dāng)前的主流選擇。它的關(guān)鍵在于基值(base)的選擇。基值越大,模型向更長上下文外推的能力就越強(qiáng),但訓(xùn)練的穩(wěn)定性也可能隨之下降。SmolLM3采用10萬作為基值,在4K長度上訓(xùn)練后,模型可以很好地外推到16K的上下文。

線性偏置注意力(ALiBi)是另一個(gè)選項(xiàng),它在長文本上的泛化能力很好,實(shí)現(xiàn)也更簡單,但在短文本上的表現(xiàn)略遜于RoPE。

令人驚訝的是,無位置編碼(NoPE)在某些特定設(shè)置下竟然也行得通。但SmolLM3的消融實(shí)驗(yàn)表明,在30億參數(shù)規(guī)模上,放棄位置編碼會(huì)導(dǎo)致多任務(wù)語言理解(MMLU)評估分?jǐn)?shù)下降約2%,這個(gè)代價(jià)是無法接受的。

一個(gè)關(guān)鍵的創(chuàng)新是文檔內(nèi)掩碼(IntraDoc Masking)。傳統(tǒng)的因果掩碼在不同文檔的邊界處會(huì)阻斷注意力,使得模型無法在打包的序列中跨文檔學(xué)習(xí)。文檔內(nèi)掩碼則允許模型在保持因果性的前提下,在文檔之間建立聯(lián)系,顯著提升了模型對長篇文檔的理解能力。

嵌入層與歸一化層的設(shè)計(jì)同樣充滿了細(xì)節(jié)。

輸入和輸出嵌入層共享權(quán)重,這個(gè)看似簡單的技巧可以減少15%到20%的參數(shù)量。在30億參數(shù)規(guī)模上,SmolLM3的實(shí)驗(yàn)證明這種做法對性能沒有任何損失,因此成為必選項(xiàng)。

歸一化層的位置,前置歸一化(Pre-norm)在超過20次的消融實(shí)驗(yàn)中,因其優(yōu)越的穩(wěn)定性和收斂速度而勝出,盡管理論上它的表達(dá)能力略弱于后置歸一化(Post-norm)。

歸一化的類型,均方根層歸一化(RMSNorm)相比層歸一化(LayerNorm)計(jì)算更快、內(nèi)存占用更少,且效果相當(dāng),因此被全程采用。

查詢鍵歸一化(QK-Norm)是在查詢和鍵進(jìn)行點(diǎn)積后增加一個(gè)歸一化步驟。這個(gè)操作至關(guān)重要,它能有效防止注意力分?jǐn)?shù)在長上下文或半精度(FP16)訓(xùn)練時(shí)發(fā)生爆炸,是穩(wěn)定訓(xùn)練的守護(hù)神。

優(yōu)化器和超參數(shù)的選擇,看似枯燥,卻往往是決定成敗的致命環(huán)節(jié)。

團(tuán)隊(duì)測試了多種優(yōu)化器,包括Adam、Lion、Sophia等。

結(jié)論清晰而明確:AdamW至今仍是大規(guī)模語言模型訓(xùn)練的黃金標(biāo)準(zhǔn)。其配置細(xì)節(jié)也經(jīng)過了微調(diào):β1為0.9,β2為0.95(而非更常見的0.999,較低的β2更適合長序列訓(xùn)練),權(quán)重衰減為0.1。

學(xué)習(xí)率調(diào)度策略是另一個(gè)深?yuàn)W的領(lǐng)域。

最流行的余弦(Cosine)調(diào)度策略并不適合超長序列的訓(xùn)練,因?yàn)樗ǔT谟?xùn)練總步數(shù)的30%后就開始衰減,過早地降低了學(xué)習(xí)率。SmolLM3的測試發(fā)現(xiàn),在訓(xùn)練了8萬億(token)后,使用余弦調(diào)度的模型性能便陷入停滯。

手冊中著重介紹了一種名為WSD(Warmup-Stable-Decay,預(yù)熱-穩(wěn)定-衰減)的調(diào)度器,這是模型能夠成功訓(xùn)練11萬億(token)的關(guān)鍵。

它先用一小部分步數(shù)預(yù)熱到峰值學(xué)習(xí)率,然后在長達(dá)70%的訓(xùn)練時(shí)間內(nèi)將學(xué)習(xí)率保持在峰值(穩(wěn)定階段),確保模型有充分的時(shí)間學(xué)習(xí),最后再進(jìn)行線性衰減。

SmolLM3的WSD參數(shù)設(shè)置為:前1000億(token)從0預(yù)熱到3e-4的學(xué)習(xí)率;在1000億到10萬億(token)之間,學(xué)習(xí)率穩(wěn)定在3e-4;最后1萬億(token)線性衰減至3e-5。

一個(gè)創(chuàng)新性的技巧是批量大小預(yù)熱(Batch Size Warmup)。訓(xùn)練初期使用較小的批量(例如100萬token),然后逐步增大到硬件能承受的最大值(400萬token)。這種做法能有效穩(wěn)定訓(xùn)練早期的損失函數(shù),避免發(fā)散。

數(shù)據(jù)決定了模型的上限

手冊用最醒目的方式強(qiáng)調(diào)了一個(gè)原則:數(shù)據(jù)質(zhì)量是提升模型性能最大的杠桿,沒有之一。

模型架構(gòu)的創(chuàng)新帶來的性能提升可能不到5%,而數(shù)據(jù)質(zhì)量的改善則能帶來超過20%的飛躍。

Hugging Face的數(shù)據(jù)哲學(xué)是一條嚴(yán)謹(jǐn)?shù)墓I(yè)流水線。

原始文本首先經(jīng)過嚴(yán)格的過濾,然后進(jìn)行細(xì)致的去重,接著由模型進(jìn)行質(zhì)量評分,最后按照精心設(shè)計(jì)的比例進(jìn)行混合。每一個(gè)環(huán)節(jié)都有可量化的指標(biāo)進(jìn)行監(jiān)控。

以他們開源的FineWeb數(shù)據(jù)集為例,其過濾流程包括:

使用FastText進(jìn)行語言檢測,只保留置信度超過90%的樣本。

使用一個(gè)小型語言模型對文本質(zhì)量進(jìn)行打分,淘汰低分樣本。

通過MinHashLSH算法在文檔級別進(jìn)行去重,防止模型背誦重復(fù)內(nèi)容,也避免了評估集數(shù)據(jù)的泄露。

利用Perspective API等工具過濾掉有毒或不安全的內(nèi)容。

代碼數(shù)據(jù)的處理則更為特殊。只保留在GitHub上星標(biāo)數(shù)超過10的倉庫,通過語法解析器檢查代碼的有效性,并將去重做到函數(shù)級別,以防止許可證污染。

數(shù)學(xué)數(shù)據(jù)則通過從學(xué)術(shù)論文網(wǎng)站arXiv提取LaTeX源碼并渲染成文本,再結(jié)合使用GPT-4等大模型合成新的數(shù)學(xué)問答對來進(jìn)行增強(qiáng)。

數(shù)據(jù)混合的配比,是真正的煉丹術(shù)。

SmolLM3的目標(biāo)是成為一個(gè)兼具多語言、推理和代碼能力的全能模型。團(tuán)隊(duì)的初始混合配比是50%的網(wǎng)頁文本,30%的代碼,以及20%的多語言數(shù)據(jù)。

然而,消融實(shí)驗(yàn)的結(jié)果令人意外。

將代碼比例從30%提升到40%,代碼評估基準(zhǔn)HumanEval的分?jǐn)?shù)竟提升了8%。

將多語言數(shù)據(jù)從20%提升到30%,通用知識評估MMLU的分?jǐn)?shù)不僅沒有下降,反而因跨語言知識的遷移而有所上升。

網(wǎng)頁文本的質(zhì)量遠(yuǎn)比數(shù)量重要,經(jīng)過更嚴(yán)格的過濾后,即便比例從50%降至35%,模型性能也毫無損失。

最終,SmolLM3的數(shù)據(jù)配方演變?yōu)椋?5%高質(zhì)量英語網(wǎng)頁文本,15%覆蓋20種語言的多語言文本,40%的代碼(其中Python占一半),以及10%專門用于數(shù)學(xué)和推理的數(shù)據(jù)。

課程學(xué)習(xí)(Curriculum Learning)的有效性也得到了驗(yàn)證。訓(xùn)練的前1萬億(token),模型只學(xué)習(xí)相對簡單的內(nèi)容,比如短文本和高置信度的干凈數(shù)據(jù)。隨后,長文檔、復(fù)雜代碼等高難度數(shù)據(jù)才被逐步引入。這種由易到難的學(xué)習(xí)路徑,不僅穩(wěn)定了訓(xùn)練初期的收斂過程,還為最終性能帶來了2%到3%的額外提升。

分詞策略同樣關(guān)鍵。SmolLM3的詞表大小從常見的32K擴(kuò)展到了64K,專門增補(bǔ)了大量代碼關(guān)鍵字和多語言的子詞。一個(gè)重要的警告是:訓(xùn)練中途絕對不要修改詞表,這會(huì)破壞嵌入空間的連續(xù)性,導(dǎo)致災(zāi)難性的后果。

當(dāng)理論撞上384塊GPU的現(xiàn)實(shí)

理論設(shè)計(jì)得再完美,當(dāng)它運(yùn)行在由384塊H100 GPU組成的龐大集群上時(shí),現(xiàn)實(shí)的復(fù)雜性便會(huì)顯露無疑。

SmolLM3長達(dá)3周、消耗11萬億(token)的訓(xùn)練過程,就是一場與意外搏斗的馬拉松。

存儲(chǔ)系統(tǒng)曾因并行寫入請求超過IOPS上限而崩潰,導(dǎo)致檢查點(diǎn)(checkpoint)保存失敗。

網(wǎng)絡(luò)在夜間維護(hù)時(shí)段發(fā)生擁塞,導(dǎo)致節(jié)點(diǎn)間的AllReduce通信超時(shí)。

損失函數(shù)曲線上會(huì)隨機(jī)出現(xiàn)無法解釋的尖峰。

平均每天都有一到兩塊H100 GPU發(fā)生故障,故障率約為0.5%。

其中最驚心動(dòng)魄的,是那次發(fā)生在訓(xùn)練進(jìn)行到1萬億(token)后的重啟事件。

當(dāng)時(shí),團(tuán)隊(duì)發(fā)現(xiàn)模型的各項(xiàng)評估指標(biāo),如MMLU和HumanEval,都顯著低于小規(guī)模實(shí)驗(yàn)的預(yù)期。他們首先懷疑是數(shù)據(jù)混合出了問題,但反復(fù)檢查后排除了這個(gè)可能。

排查過程如同一部偵探小說。數(shù)據(jù)加載器正常,梯度同步正常,損失計(jì)算正常。最后,當(dāng)他們檢查到系統(tǒng)的隨機(jī)性時(shí),發(fā)現(xiàn)了那個(gè)隱藏至深的Bug:在同一個(gè)張量并行組內(nèi)的所有GPU,竟然共享了同一個(gè)隨機(jī)種子。

根本原因在于,初始化GQA的鍵值頭時(shí),代碼錯(cuò)誤地使用了全局種子而非與每個(gè)GPU綁定的本地種子。這導(dǎo)致在一個(gè)由8塊GPU組成的張量并行組內(nèi),所有鍵值頭的初始化狀態(tài)完全相同。模型的注意力頭多樣性被人為地削減了,學(xué)習(xí)能力因此受到嚴(yán)重抑制。

雖然Bug被修復(fù)了,但已經(jīng)消耗掉的1萬億(token)的訓(xùn)練成果無法挽回。

團(tuán)隊(duì)面臨一個(gè)艱難的抉擇:是基于當(dāng)前有缺陷的模型繼續(xù)訓(xùn)練,還是壯士斷腕,從頭開始?他們選擇了后者。這個(gè)決定意味著大約15萬美元的計(jì)算成本打了水漂,但它換來的是最終模型能夠達(dá)到SOTA級別的性能。

這次事件的最大教訓(xùn)是,必須對每一個(gè)組件進(jìn)行系統(tǒng)性的單元測試。正是因?yàn)槠渌糠侄冀?jīng)過了嚴(yán)格的消融驗(yàn)證,團(tuán)隊(duì)才能在眾多可能性中迅速定位到問題根源。

吞吐量優(yōu)化是另一場戰(zhàn)斗。理論上,384塊H100能提供380 PFLOPS的算力,但實(shí)際利用率峰值只有45%左右。通過性能剖析,團(tuán)隊(duì)發(fā)現(xiàn)數(shù)據(jù)加載、通信開銷、計(jì)算內(nèi)核效率和中央處理器(CPU)瓶頸是四大性能殺手。

他們通過使用Ray Data并行化數(shù)據(jù)加載、調(diào)整AllReduce的通信桶大小、升級到最新版的CUDA和FlashAttention內(nèi)核、用Numba編譯Python預(yù)處理代碼等一系列手段,將實(shí)際吞-吐量提升到了一個(gè)可接受的水平。序列打包(Sequence Packing)和動(dòng)態(tài)批大小等技巧也被用來減少計(jì)算資源的浪費(fèi)。

損失尖峰是訓(xùn)練中常見的雜音,但SmolLM3遇到的尖峰頻率異常之高。通過細(xì)致的排查,團(tuán)隊(duì)發(fā)現(xiàn)這并非單一原因所致。

一部分尖峰是由數(shù)據(jù)引起的,代碼數(shù)據(jù)的平均長度遠(yuǎn)超文本,其梯度也更大,容易導(dǎo)致梯度爆炸。解決方案是為代碼數(shù)據(jù)設(shè)置一個(gè)更低的梯度裁剪閾值。

另一部分則源于優(yōu)化器,AdamW中β2參數(shù)設(shè)為0.999導(dǎo)致二階矩更新過慢,對梯度尖峰不夠敏感。將其調(diào)整為0.95后,尖峰的幅度顯著降低。

甚至硬件也可能是元兇。監(jiān)控系統(tǒng)發(fā)現(xiàn),某節(jié)點(diǎn)的HBM顯存溫度一度超過95攝氏度,導(dǎo)致GPU自動(dòng)降頻。調(diào)整數(shù)據(jù)中心的空調(diào)流向后問題解決。

從一塊璞玉到一件稱手工具

預(yù)訓(xùn)練完成的基礎(chǔ)模型,本質(zhì)上只是一個(gè)高級的自動(dòng)補(bǔ)全工具。要讓它變成能與人對話、遵循指令的智能助手,還需要經(jīng)歷細(xì)致的后訓(xùn)練過程。

監(jiān)督微調(diào)(SFT)是第一步。其核心在于構(gòu)建高質(zhì)量的指令數(shù)據(jù)集。團(tuán)隊(duì)采用了拒絕采樣的方法,讓模型對同一個(gè)提示生成多個(gè)回答,然后由人工挑選出最佳答案。數(shù)據(jù)混合同樣關(guān)鍵,最終配比為50%的通用指令,30%的代碼指令和20%的對話數(shù)據(jù)。

SFT階段的超參數(shù)也充滿了驚喜。最佳學(xué)習(xí)率是預(yù)訓(xùn)練的十分之一(1e-5),并且訓(xùn)練兩個(gè)周期(epoch)效果最好,更多周期反而會(huì)導(dǎo)致過擬合。有趣的是,流行的低秩適配(LoRA)微調(diào)方法在SFT階段效果不佳,全參數(shù)微調(diào)的表現(xiàn)要好得多。

偏好優(yōu)化,如基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),并非所有模型的必需品。只有當(dāng)模型需要抑制有害內(nèi)容、對齊人類審美或強(qiáng)化特定格式遵循時(shí),它才顯得尤為重要。

Hugging Face在SmolLM3上測試了一種更穩(wěn)定的偏好優(yōu)化算法APO(自適應(yīng)偏好優(yōu)化)。它不需要訓(xùn)練額外的價(jià)值網(wǎng)絡(luò),簡化了架構(gòu),在有益且無害的評估中,為模型帶來了5%的提升。

對于數(shù)學(xué)推理能力,團(tuán)隊(duì)開發(fā)了一種名為GRPO(分組相對策略優(yōu)化)的創(chuàng)新方法。

它讓模型對每個(gè)問題生成多個(gè)候選答案,然后用自動(dòng)化的規(guī)則(如代碼是否可運(yùn)行、數(shù)學(xué)答案是否正確)來篩選和排序這些答案,并據(jù)此更新模型策略。這個(gè)方法的效果是驚人的,它將模型在GSM8k數(shù)學(xué)基準(zhǔn)上的得分從62%一舉提升到了84%。關(guān)鍵在于,這個(gè)過程完全自動(dòng)化,無需昂貴的人工標(biāo)注。

最終,SmolLM3被打造成了一個(gè)雙模式推理模型。它既可以直接回答問題的快速模式,也具備先生成思考鏈條再給出答案的思考模式。這種設(shè)計(jì)是通過在SFT數(shù)據(jù)中混入思維鏈(Chain-of-Thought)樣本,并用特殊標(biāo)記來控制模式切換實(shí)現(xiàn)的。

這一切的背后,是龐大而復(fù)雜的基礎(chǔ)設(shè)施支撐。

在GPU選型上,Hugging Face的經(jīng)驗(yàn)是,對于小規(guī)模的消融實(shí)驗(yàn)(小于1000億token),使用4090消費(fèi)級顯卡集群的性價(jià)比遠(yuǎn)超昂貴的H100。他們用這種方式完成了絕大多數(shù)的早期實(shí)驗(yàn),節(jié)省了約80%的成本。

存儲(chǔ)系統(tǒng)是另一個(gè)常被忽略的瓶頸。

一個(gè)完整的模型檢查點(diǎn)大小可達(dá)300GB,頻繁的保存會(huì)產(chǎn)生巨大的I/O壓力。解決方案包括使用NVMe固態(tài)硬盤陣列作為本地緩存、對檢查點(diǎn)進(jìn)行分片保存,以及采用Apache Arrow格式加速數(shù)據(jù)加載。

網(wǎng)絡(luò)通信是多節(jié)點(diǎn)訓(xùn)練的黑暗藝術(shù)。

PCIe與NVLink拓?fù)洳黄ヅ洹CCL緩沖區(qū)大小設(shè)置不當(dāng)、TCP與RDMA協(xié)議選擇錯(cuò)誤等問題,都可能嚴(yán)重拖慢訓(xùn)練速度。精細(xì)的配置和監(jiān)控是保障通信效率的關(guān)鍵。

最后是故障恢復(fù)。

在一個(gè)擁有數(shù)百塊GPU的集群中,節(jié)點(diǎn)故障是必然事件。一個(gè)健壯的訓(xùn)練系統(tǒng)必須具備自動(dòng)化故障恢復(fù)的能力,包括心跳檢測、故障節(jié)點(diǎn)隔離、動(dòng)態(tài)重配置集群以及從最近的檢查點(diǎn)快速回滾。PyTorch的彈性訓(xùn)練框架為此提供了強(qiáng)大的支持。

《Smol Training Playbook》最終沉淀出了兩條結(jié)晶。

第一是團(tuán)隊(duì)對迭代速度的癡迷。

頂級團(tuán)隊(duì)的標(biāo)志不是單次實(shí)驗(yàn)的規(guī)模有多大,而是單位時(shí)間內(nèi)能完成多少次實(shí)驗(yàn)。并行化實(shí)驗(yàn)、建立快速失敗機(jī)制、將一切流程自動(dòng)化,是提升迭代速度的核心。Hugging Face的內(nèi)部指標(biāo)是,每個(gè)研究員每周要進(jìn)行15到20個(gè)消融實(shí)驗(yàn),從一個(gè)想法誕生到看到初步結(jié)果,平均只需要18小時(shí)。其中90%的實(shí)驗(yàn)會(huì)失敗,但正是這些失敗的實(shí)驗(yàn),為最終的成功指明了方向。

第二是團(tuán)隊(duì)對高質(zhì)量數(shù)據(jù)的偏執(zhí)。

這句話被反復(fù)強(qiáng)調(diào):架構(gòu)帶來的提升是小步快跑,而數(shù)據(jù)帶來的提升是跨越式發(fā)展。對數(shù)據(jù)多樣性、準(zhǔn)確性和信息密度的追求,應(yīng)該近乎于一種信仰。

這本手冊的終極價(jià)值,不在于提供了一份可以按圖索驥的菜譜,而是揭示了SOTA模型誕生的本質(zhì):它是一場工程、科學(xué)與藝術(shù)的完美結(jié)合。

它不需要神來之筆,需要的是系統(tǒng)性地消除風(fēng)險(xiǎn),是永不停歇的快速迭代,是對數(shù)據(jù)質(zhì)量的極致尊重,以及在凌晨兩點(diǎn)調(diào)試數(shù)據(jù)加載器時(shí)那份堅(jiān)韌不拔。

訓(xùn)練世界級模型沒有秘密,只有千次實(shí)驗(yàn)后的直覺,萬次失敗后的洞察,和永不妥協(xié)的質(zhì)量追求。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-09-26 10:42:20

2019-08-16 10:55:37

開發(fā)者技能AI

2024-08-02 13:40:00

2022-07-13 16:45:34

?大模型AI微軟

2025-03-26 10:57:40

PyTorchGGUF

2020-03-12 12:31:01

開源谷歌量子AI

2024-11-15 08:24:41

2024-09-24 07:31:52

2024-09-06 13:00:29

2025-04-01 09:54:09

AI算法大模型AI

2024-12-02 12:47:08

2024-07-12 14:53:42

2023-06-16 14:10:45

開源人工智能

2024-02-27 07:22:45

DriftAI應(yīng)用

2024-11-04 00:24:56

2023-12-01 14:34:42

AnthropicAILLM

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2024-10-25 19:32:58

ChatGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产一区二区三区黄片| 中文字幕成人动漫| av福利在线导航| 不卡的av电影| 国产精品夫妻激情| 欧美日韩在线观看免费| 天天操综合520| 欧美日韩国产经典色站一区二区三区 | 国产精品免费一区二区三区| 国产精品黄色大片| 99精品美女| 亚洲精品理论电影| 三日本三级少妇三级99| 美女18一级毛片一品久道久久综合| 国产精品嫩草影院av蜜臀| 97碰碰视频| 在线免费看91| 亚洲在线成人| 欧美多人爱爱视频网站| 亚欧洲乱码视频| 97一区二区国产好的精华液| 欧洲在线/亚洲| 国产96在线 | 亚洲| 精品视频久久久久久| 日本网站在线看| 欧美中文字幕精在线不卡| 亚洲在线一区二区三区| 视频一区不卡| 天天摸天天干天天操| 日韩av电影一区| 久久久久久久久久久亚洲| 变态另类ts人妖一区二区| 欧美久久亚洲| 欧洲一区在线电影| 黄色成人在线看| 成人影欧美片| 国产欧美日韩一区二区三区在线观看| 亚洲最大福利网站| 嫩草影院一区二区三区| 亚洲人成毛片在线播放女女| 日韩有码在线电影| 中文幕无线码中文字蜜桃| 嫩呦国产一区二区三区av| 91国产丝袜在线播放| 日本黄色片一级片| 欧洲不卡av| 久久久久久久一区| 国产欧美精品一区二区三区| 国产又粗又猛又爽又黄91| 亚洲深夜影院| 欧美精品在线观看91| 蜜臀av午夜精品久久| 国产精品嫩模av在线| 亚洲精品国产综合久久| 在线观看免费看片| 国产视频一区二| 欧美日韩精品一区二区| 乱子伦视频在线看| 在线免费看h| 天天影视网天天综合色在线播放| 美国av在线播放| 欧美69xxxx| 国产精品成人一区二区艾草 | 欧洲毛片在线视频免费观看| 日韩av在线网| 四虎精品一区二区| 中文字幕av一区二区三区四区| 欧美日韩国产色站一区二区三区| www.xxx麻豆| 男人的天堂在线视频免费观看| 99精品欧美一区二区三区综合在线| 91久久夜色精品国产网站| 一级片在线免费播放| 久久精品中文| 日韩av色综合| 亚洲第一区av| 九一久久久久久| 成人av色在线观看| 99国产在线播放| 国产精品一卡二卡在线观看| 成人做爰www免费看视频网站| 一本到在线视频| 精东粉嫩av免费一区二区三区| 国产精品自产拍在线观| 一级黄色a视频| 国精产品一区一区三区mba视频 | 国产亚洲成精品久久| 极品人妻videosss人妻| 久久美女精品| 欧美国产高跟鞋裸体秀xxxhd| 久久久久成人网站| 一区二区三区导航| 国产精品www| 亚洲视频在线免费播放| 老司机一区二区三区| 国产精品久久97| www.国产精品视频| 99久久99精品久久久久久 | 人妖一区二区三区| 亚洲免费视频一区二区| 黑人操日本美女| 亚洲三级网站| 国产精品视频成人| 亚洲av无码国产精品久久不卡 | 国产裸体写真av一区二区| 国产免费黄色网址| 91亚洲国产成人精品一区二区三| 欧美一区二区三区四区夜夜大片| 国产h在线观看| 亚洲精品国久久99热| 欧美日本视频在线观看| 成人视屏在线观看| 精品国产青草久久久久福利| 性欧美丰满熟妇xxxx性仙踪林| 国内黄色精品| 欧美高清激情视频| 伊人精品在线视频| 91在线观看视频| av电影一区二区三区| 麻豆视频在线看| 欧美色精品天天在线观看视频| 国产精品偷伦视频免费观看了| 国产一区三区在线播放| 久久6精品影院| 艳妇乳肉豪妇荡乳av无码福利| 国产精品一二二区| 日韩精品伦理第一区| 2021天堂中文幕一二区在线观| 欧美影院一区二区三区| 免费不卡的av| 午夜欧美视频| 日韩一二三四| 夜久久久久久| 91美女高潮出水| 国产精品国产高清国产| 成人欧美一区二区三区1314 | 欧美国产91| 日韩av手机在线观看| 精品国产一级片| 国产精品免费人成网站| 欧美日本视频在线观看| 97久久精品| 欧美精品免费播放| 一本到在线视频| 日本一区二区成人在线| 成人三级视频在线播放 | 日韩欧美一二区| 91av手机在线| 日本系列欧美系列| 久久久久久久久一区| av在线free| 欧美精品色综合| 中文字幕黄色网址| 老牛国产精品一区的观看方式| 国产在线精品一区二区三区》| 国产鲁鲁视频在线观看特色| 欧美视频精品在线观看| 欧洲美一区二区三区亚洲| 国产精品嫩草99av在线| 国内精品久久久久久久果冻传媒| 永久免费网站在线| 欧美一区二区三区在线| 激情五月激情综合| 麻豆国产欧美一区二区三区| 日韩精品资源| 黄色成人在线观看网站| 日韩视频在线观看免费| 91片黄在线观看喷潮| 中文字幕在线视频一区| 中文字幕中文在线| 欧美日韩伦理| 欧美一区亚洲一区| 黄色软件在线观看| 欧美午夜精品久久久久久超碰| 蜜桃无码一区二区三区| 久久婷婷麻豆| 亚州欧美一区三区三区在线 | 国产中文字幕91| 伦xxxx在线| 欧美一级理论性理论a| 欧美精品久久久久性色| 成人黄页在线观看| 99热在线这里只有精品| 欧美日韩播放| 国产精品永久免费| 91cn在线观看| 91精品国产一区二区三区| 国产成人免费在线观看视频| 喷水一区二区三区| 九九久久九九久久| 久久久伦理片| 国产精品丝袜高跟| 呦呦在线视频| 精品爽片免费看久久| 亚洲视屏在线观看| 亚洲美女视频在线观看| 国产精品熟妇一区二区三区四区 | 欧美激情综合亚洲一二区| 色哟哟国产精品色哟哟| 色播五月激情综合网| 色哟哟一一国产精品| 成人午夜大片免费观看| 国产精品97在线| 91综合视频| 久久99热只有频精品91密拍| 日韩不卡在线| 欧美激情一级欧美精品| 色哟哟在线观看| 91精品国产综合久久国产大片| 国产乡下妇女做爰| 国产精品免费观看视频| 精品人妻一区二区免费| 奇米精品一区二区三区在线观看| 日本国产中文字幕| 精品freesex老太交| 成人在线观看av| 全球最大av网站久久| 欧美激情欧美狂野欧美精品| 六十路在线观看| 日韩欧美一级二级三级久久久| 99精品在线播放| 亚洲黄色小视频| 免费黄色片网站| 99国产精品视频免费观看| 欧美亚洲日本在线观看| 欧美一区不卡| 小说区视频区图片区| 亚洲欧洲美洲国产香蕉| 97人人做人人人难人人做| 桃子视频成人app| 欧美精品xxx| 日本激情视频在线观看| 精品在线观看国产| 成人av无码一区二区三区| 欧美午夜电影一区| 区一区二在线观看| 一区二区三区视频在线看| 欧美日韩黄色网| 国产精品嫩草影院av蜜臀| 无码人妻精品一区二区三应用大全| 国产在线精品视频| 久久综合伊人77777麻豆最新章节| 激情综合在线| 狠狠噜天天噜日日噜| 五月精品视频| 亚洲欧美日产图| 欧美美乳视频| 欧美一区二区视频17c| 另类在线视频| 国产精品日韩一区二区三区| 999久久久国产999久久久| 国产成人精品视频在线观看| 激情av在线| 粗暴蹂躏中文一区二区三区| 亚洲视频tv| 最近2019好看的中文字幕免费| 日韩大胆人体| 亚洲美女激情视频| 三级毛片在线免费看| 精品欧美一区二区在线观看| 国产极品999| 日韩欧美在线不卡| 亚洲国产精品一| 精品久久久久av影院| 丰满少妇被猛烈进入| 日韩三级在线观看| 亚洲国产精彩视频| 欧美成人一区二区三区片免费| 国产女人18毛片18精品| 91精品国产综合久久精品麻豆| 国产又粗又猛又爽又黄91| 欧美性色欧美a在线播放| 亚洲国产无线乱码在线观看| 在线免费观看日本一区| 中文字幕av影视| 欧美日韩国产高清一区二区| 天堂网视频在线| 在线免费视频一区二区| 亚洲香蕉在线视频| 日韩一级欧美一级| 色婷婷综合视频| 国产一区二区动漫| av在线资源站| 美女精品久久久| 俄罗斯一级**毛片在线播放 | 欧美日韩一区二 | 亚洲一区欧美在线| 欧美视频在线看| 这里只有精品国产| 制服丝袜亚洲精品中文字幕| 精品国产免费无码久久久| 亚洲成av人影院在线观看| 精品视频一二区| 久久精品亚洲一区| 91福利在线尤物| 国产精品伦子伦免费视频| 国产欧美视频在线| 国产综合18久久久久久| 欧美色女视频| 久久香蕉视频网站| 免费亚洲网站| 中文字幕一区二区三区四| 成人av网站大全| 国产精品1区2区3区4区| 一级女性全黄久久生活片免费| 久久不卡免费视频| 欧美日韩一区二区三区不卡| 国产美女三级无套内谢| 日韩高清a**址| 免费在线观看黄色| 欧美孕妇与黑人孕交| 亚洲成人高清| 精品视频高清无人区区二区三区| 少妇精品久久久一区二区| 神马午夜伦理影院| 久久成人在线| 国产成人av免费观看| 久久久精品tv| caoporn91| 精品视频在线视频| 视频一区二区免费| 久久综合伊人77777| 极品美女一区| 成人在线看片| 无需播放器亚洲| 欧美黑人又粗又大又爽免费| 国产**成人网毛片九色 | 成年人视频软件| 欧美视频免费在线| 人妻一区二区三区免费| 日韩一区二区三区国产| 国精产品一区二区三区有限公司 | 久久久成人精品视频| 一区二区电影免费观看| 不卡日韩av| 亚洲一级淫片| 欧美午夜aaaaaa免费视频| 99久久99久久免费精品蜜臀| 欧美人禽zoz0强交| 欧美日韩国产精品成人| 高清在线观看av| 2019中文字幕免费视频| 日韩精品中文字幕一区二区 | 性日韩欧美在线视频| 国产午夜精品一区在线观看| 蜜桃传媒视频麻豆一区 | www.日韩.com| 欧美影视资讯| 日韩一区免费观看| 三级不卡在线观看| 美国黑人一级大黄| 色婷婷综合久久久中文一区二区| 色噜噜一区二区三区| 久久久久亚洲精品成人网小说| 电影91久久久| 黄色影视在线观看| 国产一区二区三区综合| 日本二区三区视频| 欧美日本国产视频| 看黄网站在线观看| 国产精品视频一区二区三区四| 天天躁日日躁狠狠躁欧美巨大小说| 欧美成人精品免费| 成人综合激情网| 黄色小视频在线免费看| 亚洲成人av在线| 不卡一本毛片| 精品一区二区国产| 国产日韩一区| 男人天堂av电影| 欧美性受xxxx黑人xyx| 日本视频在线免费观看| 亚洲影影院av| 黄色日韩精品| 国产精品第七页| 色综合 综合色| 天天综合视频在线观看| 成人中文字幕在线观看| 欧美日韩影院| 一区二区不卡免费视频| 在线亚洲一区二区| 国内在线精品| 国产综合久久久久久| 综合av在线| 国产中文字幕一区二区| 在线观看日韩高清av| 国产二区三区在线| 国产精品入口免费| 肉肉av福利一精品导航| 少妇人妻好深好紧精品无码| 欧美喷潮久久久xxxxx| 成人区精品一区二区不卡| 国产综合精品一区二区三区| 视频一区二区国产| 国产一二三区精品| 日韩av影视综合网| 国产精品原创视频| www.欧美黄色| 国产亚洲制服色| 国产毛片久久久久|