精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

剛剛,Thinking Machines Lab博客提出在策略蒸餾,Qwen被cue 38次

人工智能 新聞
我們探討了在策略蒸餾在訓(xùn)練小型模型進(jìn)行數(shù)學(xué)推理或持續(xù)學(xué)習(xí)助手等方面的應(yīng)用。我們將在策略蒸餾與其他兩種后訓(xùn)練方法進(jìn)行了比較:離策略蒸餾和在策略 RL。

剛剛,不發(fā)論文、愛發(fā)博客的 Thinking Machines Lab (以下簡稱 TML)再次更新,發(fā)布了一篇題為《在策略蒸餾》的博客。

在策略蒸餾(on-policy distillation)是一種將強(qiáng)化學(xué)習(xí) (RL) 的糾錯(cuò)相關(guān)性與 SFT 的獎(jiǎng)勵(lì)密度相結(jié)合的訓(xùn)練方法。在將其用于數(shù)學(xué)推理和內(nèi)部聊天助手時(shí),TML 發(fā)現(xiàn)在策略蒸餾可以極低的成本超越其他方法。

該公司 CEO Mira Murati 表示,這種方法可用于小模型,使其具備強(qiáng)大的領(lǐng)域性能和持續(xù)學(xué)習(xí)能力。

值得注意的是,在這篇新博客中,TML 明確表示這項(xiàng)新成果受到了 Qwen 團(tuán)隊(duì)研究的啟發(fā),并且其實(shí)驗(yàn)過程中也大量用到了 Qwen3 系列模型。事實(shí)上,在原英文博客中,「Qwen」這個(gè)關(guān)鍵詞一共出現(xiàn)了 38 次之多!比小米 17 系列發(fā)布會雷總提到「蘋果」的 37 次還多一次。

作為一家明星創(chuàng)業(yè)公司,TML 的更新也吸引了廣泛關(guān)注。有人總結(jié)其優(yōu)勢:

更是有網(wǎng)友盛贊,TML 才是真 Open AI。


博客地址:https://thinkingmachines.ai/blog/on-policy-distillation/

這篇博客的主要作者是 Thinking Machines Lab 研究者 Kevin Lu。他之前曾在 OpenAI 工作,領(lǐng)導(dǎo)了 4o-mini 的發(fā)布,并參與過 GPT-5 series、GPT-oss、o3 & o4-mini、4.1-nano & 4.1-mini、o1-mini、o3-mini 等模型的研發(fā)工作。

下面我們就來詳細(xì)看看這篇博客的內(nèi)容。

大型語言模型(LLM)能夠在特定領(lǐng)域展現(xiàn)出專家級的水平。這是幾種能力共同作用的結(jié)果,包括:對輸入的感知、知識檢索、規(guī)劃選擇和可靠執(zhí)行。

要實(shí)現(xiàn)這一點(diǎn),需要一系列的訓(xùn)練方法。我們可以將其大致分為三個(gè)階段:

  • 預(yù)訓(xùn)練(Pre-training):教授通用能力,例如語言使用、寬泛的推理和世界知識。
  • 中訓(xùn)練(Mid-training):傳授領(lǐng)域知識,例如代碼、醫(yī)療數(shù)據(jù)庫或公司內(nèi)部文件。
  • 后訓(xùn)練(Post-training):引導(dǎo)出目標(biāo)行為,例如遵循指令、解決數(shù)學(xué)問題或聊天。

在特定專業(yè)領(lǐng)域,經(jīng)過強(qiáng)化訓(xùn)練的小型模型,其表現(xiàn)往往優(yōu)于那些大型的通用模型。使用小型模型有很多好處:

  • 出于隱私或安全考慮,它們可以進(jìn)行本地部署。
  • 它們可以更輕松地持續(xù)訓(xùn)練和更新。
  • 它們還能節(jié)省推理成本。

想要利用這些優(yōu)勢,就需要為訓(xùn)練的后續(xù)階段選擇正確的方法。

后訓(xùn)練「學(xué)生」模型的方法可以分為兩種:

  1. 在策略(On-policy)訓(xùn)練:從學(xué)生模型自身采樣軌跡(rollouts),并為這些軌跡分配某種獎(jiǎng)勵(lì)。
  2. 離策略(Off-policy)訓(xùn)練:依賴于某個(gè)外部來源的目標(biāo)輸出,學(xué)生模型需要學(xué)習(xí)模仿這些輸出。

例如,我們可能希望訓(xùn)練一個(gè)緊湊模型來解決如下的數(shù)學(xué)問題:

我們可以通過強(qiáng)化學(xué)習(xí)(RL)來進(jìn)行在策略訓(xùn)練。具體做法是根據(jù)學(xué)生模型的每個(gè)軌跡是否解決了問題來為其評分。這個(gè)評分可以由人工完成,也可以由一個(gè)能可靠給出正確答案的「教師」模型來完成。

在策略訓(xùn)練的優(yōu)勢在于,學(xué)生通過在自己的樣本上訓(xùn)練,能更直接地學(xué)會避免錯(cuò)誤。

但 RL 有一個(gè)主要缺點(diǎn):它提供的反饋非常稀疏(sparse feedback)。無論使用多少 token,它在每個(gè)訓(xùn)練回合(episode)中教授的比特?cái)?shù)是固定的。

在我們上面的例子中,學(xué)生只知道「21」是錯(cuò)誤答案,并更新模型以避免產(chǎn)生這個(gè)軌跡。但它并沒有學(xué)到究竟錯(cuò)在哪里 —— 是搞錯(cuò)了運(yùn)算順序,還是算術(shù)本身出了錯(cuò)。這種反饋的稀疏性使得 RL 在許多應(yīng)用中效率低下。

離策略訓(xùn)練通常通過監(jiān)督微調(diào)(SFT)來完成,即在一組精心策劃的、針對特定任務(wù)的有標(biāo)注示例上進(jìn)行訓(xùn)練。這些有標(biāo)注示例的來源可以是一個(gè)在當(dāng)前任務(wù)上表現(xiàn)出色的教師模型。

我們可以使用一種稱為蒸餾(distillation)的機(jī)制:訓(xùn)練學(xué)生模型來匹配教師模型的輸出分布。我們在教師的軌跡上進(jìn)行訓(xùn)練,這些軌跡是生成的 token 的完整序列,包括中間的思考步驟。

在每一步,我們既可以使用教師完整的「下一個(gè) token 分布」(常被稱為 「logit 蒸餾」),也可以只采樣給定的序列。實(shí)踐證明,采樣序列提供了對教師分布的無偏估計(jì),并能達(dá)到相同的目標(biāo)。學(xué)生模型會根據(jù)自己生成該 token 的概率有多低,來相應(yīng)地更新對序列中每個(gè) token 的學(xué)習(xí)(在下例中用深色表示):

事實(shí)證明,蒸餾大型教師模型,在訓(xùn)練小型模型方面非常有效,使其能夠:

  • 遵循指令
  • 進(jìn)行數(shù)學(xué)和科學(xué)推理
  • 從醫(yī)療筆記中提取臨床信息
  • 以及參與多輪聊天對話

用于這些應(yīng)用和其他應(yīng)用的蒸餾數(shù)據(jù)集通常是開源和公開發(fā)布的。

離策略訓(xùn)練的缺點(diǎn)是,學(xué)生是在教師經(jīng)常遇到的上下文中學(xué)習(xí),而不是在學(xué)生自己將來會經(jīng)常遇到的上下文中學(xué)習(xí)。

這可能會導(dǎo)致復(fù)合錯(cuò)誤(compounding error):如果學(xué)生早期犯了一個(gè)教師從未犯過的錯(cuò)誤,它會發(fā)現(xiàn)自己越來越偏離在訓(xùn)練中觀察到的狀態(tài)。

當(dāng)我們關(guān)心學(xué)生在長序列上的表現(xiàn)時(shí),這個(gè)問題變得尤為突出。為了避免這種偏離,學(xué)生必須學(xué)會從自己的錯(cuò)誤中恢復(fù)。

離策略蒸餾觀察到的另一個(gè)問題是,學(xué)生可以學(xué)會模仿教師的風(fēng)格和自信,但不一定能學(xué)會其事實(shí)的準(zhǔn)確性。

打個(gè)比方:如果你在學(xué)習(xí)國際象棋,在策略 RL 就好比在沒有教練指導(dǎo)的情況下自己下棋。贏棋或輸棋的反饋與你自己的下法直接相關(guān),但每局只收到一次反饋,而且不會告訴你哪些棋步對結(jié)果貢獻(xiàn)最大。離策略蒸餾則類似于觀看一位特級大師下棋 —— 你觀察到的是非常高超的棋步,但這些棋步是在新手玩家很少會遇到的棋局狀態(tài)下走出的。

我們希望能將 RL 的在策略相關(guān)性與蒸餾的密集獎(jiǎng)勵(lì)信號結(jié)合起來。

對于學(xué)習(xí)國際象棋來說,這就好比有一位老師來為你自己的每一步棋打分,從「大錯(cuò)特錯(cuò)」到「妙不可言」。對于 LLM 的后訓(xùn)練來說,這就是在策略蒸餾(on-policy distillation)。

在策略蒸餾 —— 集兩者之長

在策略蒸餾的核心思想是:從學(xué)生模型中采樣軌跡,并使用一個(gè)高性能的教師模型來為每個(gè)軌跡的每一個(gè) token 評分。

回到我們上面的數(shù)學(xué)例子,在策略蒸餾會給解題的每一步打分,懲罰那些導(dǎo)致學(xué)生得出錯(cuò)誤答案的錯(cuò)誤步驟,同時(shí)強(qiáng)化那些執(zhí)行正確的步驟。

在這篇文章中,我們探討了在策略蒸餾在以下任務(wù)上的應(yīng)用:

1. 訓(xùn)練模型進(jìn)行數(shù)學(xué)推理。

2. 訓(xùn)練一個(gè)兼具領(lǐng)域知識和指令遵循能力的助手模型。

我們在已經(jīng)具備預(yù)訓(xùn)練和中訓(xùn)練基礎(chǔ)能力的模型上應(yīng)用在策略蒸餾。我們發(fā)現(xiàn),這是一種廉價(jià)而強(qiáng)大的后訓(xùn)練方法,它成功將在策略訓(xùn)練的優(yōu)勢和密集獎(jiǎng)勵(lì)信號結(jié)合到了一起。

我們的在策略蒸餾工作借鑒了 DAGGER(Ross et al, 2010),這是一種迭代式的 SFT 算法,它包含了教師對學(xué)生訪問過的狀態(tài)的評估。

它也類似于過程獎(jiǎng)勵(lì)建模(Lightman et al, 2023),這是一種 RL 方法,會對學(xué)生模型思維鏈中的每一步都進(jìn)行評分。

我們擴(kuò)展了 Agarwal et al.(2023)和 Qwen3 團(tuán)隊(duì)(2025)之前的在策略蒸餾工作。使用 Tinker 訓(xùn)練 API,我們復(fù)刻了 Qwen3 的成果,即通過在策略蒸餾在推理基準(zhǔn)上實(shí)現(xiàn)了同等性能,而成本僅為 RL 的一小部分。

實(shí)現(xiàn)

你可以在這個(gè) Tinker cookbook 中跟著學(xué)習(xí)實(shí)現(xiàn)的每一步:

https://github.com/thinking-machines-lab/tinker-cookbook/tree/main/tinker_cookbook/recipes/distillation

損失函數(shù):反向 KL

在策略蒸餾可以使用多種損失函數(shù)來為學(xué)生的軌跡評分。為簡單起見,我們選擇逐 token 的反向 KL(reverse KL)—— 即在給定相同先前軌跡的條件下,學(xué)生(π_θ)和教師(π_teacher)在每個(gè) token 上的分布之間的散度:

我們的獎(jiǎng)勵(lì)函數(shù)會最小化反向 KL,這會促使學(xué)生在自己所處的每種狀態(tài)下都去近似教師的行為。當(dāng)學(xué)生的行為與教師完全一致時(shí),反向 KL 為零。為簡單起見,我們使用的折扣因子為零:在任何給定的時(shí)間步,學(xué)生只優(yōu)化眼前的下一個(gè) token,不考慮未來的 token。

反向 KL 與 RL 有著天然的協(xié)同作用,RL 通常優(yōu)化由獎(jiǎng)勵(lì)模型引導(dǎo)的某種序列級反向 KL。然而,與實(shí)踐中的大多數(shù)獎(jiǎng)勵(lì)模型不同,反向 KL 是「不可破解的」(unhackable),因?yàn)閺慕處熌P偷慕嵌葋砜矗?KL 總是對應(yīng)著高概率的期望行為。反向 KL 的另一個(gè)有用特性是它是「尋找眾數(shù)(mode seeking)」的 —— 它學(xué)習(xí)一種特定行為(教師的行為),而不是將其分布分散在幾個(gè)次優(yōu)選項(xiàng)上。

這種方法可節(jié)省大量計(jì)算資源。因?yàn)樗恍枰却粋€(gè)軌跡完成采樣才能計(jì)算獎(jiǎng)勵(lì),所以我們可以使用更短或部分的軌跡進(jìn)行訓(xùn)練。查詢教師的對數(shù)概率也只需要大型模型進(jìn)行一次前向傳播,而軌跡則是由更小、更廉價(jià)的學(xué)生模型生成的。

我們也不需要單獨(dú)的獎(jiǎng)勵(lì)或標(biāo)注模型。將基于蒸餾的逐 token 獎(jiǎng)勵(lì)與序列級的環(huán)境獎(jiǎng)勵(lì)結(jié)合起來可能會有好處;這是未來一個(gè)有趣的潛在研究領(lǐng)域。

圖解

下面我們來看一個(gè)真實(shí)的例子,這是一個(gè)錯(cuò)誤的學(xué)生軌跡,由教師模型進(jìn)行評分。這個(gè)例子來自 SimpleBench,它要求模型做出一個(gè)關(guān)鍵觀察:問題的前提很重要。正確答案是 「B. 0」,因?yàn)楸鶋K在煎鍋里會融化。而學(xué)生模型(Qwen3-4B-Instruct-2507)錯(cuò)誤地將其視為一個(gè)純粹的數(shù)學(xué)問題,沒有考慮物理背景。

顏色越深,代表該 token 受到教師模型(Qwen3-235B-A22B-Instruct-2507)的懲罰越高(教師模型正確解決了這個(gè)問題)。

我們看到,它懲罰了那些引導(dǎo)學(xué)生誤入歧途的短語的起始 token,這直觀上對應(yīng)了引導(dǎo)推理的重要「分叉 token」(forking tokens)。最終答案(雖然是錯(cuò)的)并沒有受到懲罰 —— 因?yàn)樵诮o定前面所有序列的條件下,這個(gè)答案是完全可預(yù)測的。

偽代碼

我們在 Tinker 的 RL 腳本之上實(shí)現(xiàn)了在策略蒸餾,該腳本已經(jīng)實(shí)現(xiàn)了采樣、獎(jiǎng)勵(lì)計(jì)算和策略梯度式的訓(xùn)練。

地址:https://thinkingmachines.ai/blog/on-policy-distillation/(https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/rl/train.py)

  1. 初始化教師客戶端:Tinker API 可以輕松地為不同模型創(chuàng)建不同的客戶端。我們使用采樣客戶端,因?yàn)槲覀儾恍枰ㄟ^教師模型傳播對數(shù)概率。
  2. 采樣軌跡:我們像在 RL 中一樣從學(xué)生模型中采樣軌跡。在采樣期間,RL 已經(jīng)計(jì)算了學(xué)生的對數(shù)概率 log π_θ(x),用作重要性采樣損失的一部分。
  3. 計(jì)算獎(jiǎng)勵(lì):我們用 compute_logprobs 函數(shù)在采樣出的軌跡上查詢教師客戶端,它會返回教師在學(xué)生采樣的 token x 上的對數(shù)概率 log π_teacher (x)。然后我們用這個(gè)來計(jì)算反向 KL。
  4. 使用 RL 進(jìn)行訓(xùn)練:我們將逐 token 的優(yōu)勢(advantage)設(shè)置為負(fù)的反向 KL,并調(diào)用 RL 的重要性采樣損失函數(shù)來對學(xué)生模型執(zhí)行訓(xùn)練更新。

偽代碼如下:

在下面的實(shí)驗(yàn)中,我們通常將在策略蒸餾應(yīng)用于已經(jīng)過特定領(lǐng)域知識中訓(xùn)練的模型。這種訓(xùn)練提高了學(xué)生生成教師分布范圍內(nèi)的 token 的概率,盡管這通常遠(yuǎn)不足以復(fù)刻教師的性能。通常,正如我們將在個(gè)性化示例中看到的,生成相關(guān) token 的概率開始時(shí)為零,因?yàn)閷W(xué)生缺乏任何相關(guān)的領(lǐng)域知識。

我們將使用在策略蒸餾進(jìn)行后訓(xùn)練,并將其與訓(xùn)練專家模型的其他最后關(guān)鍵階段的方法進(jìn)行比較。

蒸餾以獲得推理能力

我們使用蒸餾來訓(xùn)練 Qwen3-8B-Base 模型的數(shù)學(xué)推理能力,并使用 Qwen3-32B 作為教師模型。教師(Qwen3-32B)和學(xué)生(Qwen3-8B-Base)都是目前 Tinker 上支持的模型,因此你可以使用 Tinker cookbook 復(fù)現(xiàn)我們的實(shí)驗(yàn)。

離策略蒸餾

如前所述,我們所有的實(shí)驗(yàn)都以離策略蒸餾(即在教師生成的示例數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào))的形式作為中訓(xùn)練的起點(diǎn)。用于數(shù)學(xué)推理的數(shù)據(jù)集是 OpenThoughts-3,這是一個(gè)由 QwQ-32B(一個(gè)類似于 Qwen3-32B 的推理模型)生成的推理提示和響應(yīng)的集合。

在 40 萬個(gè)提示上對學(xué)生模型(Qwen3-8B-Base)進(jìn)行全參數(shù)微調(diào)(full fine-tuning),在 AIME'24(一個(gè)數(shù)學(xué)問題基準(zhǔn)測試)上獲得了 60% 的分?jǐn)?shù)。我們也可以使用 LoRA 進(jìn)行訓(xùn)練,但在高容量數(shù)據(jù)集上訓(xùn)練時(shí),它落后于全參數(shù)微調(diào)。在所有情況下,我們都看到性能呈對數(shù)線性增長 —— 最初的性能提升很廉價(jià),但后期的提升成本高昂。

我們可以將在 40 萬個(gè)提示上微調(diào)過的模型視為一個(gè)檢查點(diǎn),然后嘗試各種后訓(xùn)練方法,將其在 AIME’24 基準(zhǔn)上的分?jǐn)?shù)從 60% 提高到 70%。

默認(rèn)方法是在更多提示上進(jìn)行微調(diào),即繼續(xù)離策略蒸餾的過程。根據(jù)對數(shù)線性趨勢推斷,我們估計(jì)模型在大約 200 萬個(gè)提示上能達(dá)到 70% 的分?jǐn)?shù)。這個(gè)推斷需要 scaling law 持續(xù)有效而不停滯,這并不簡單。

強(qiáng)化學(xué)習(xí)

Qwen3 技術(shù)報(bào)告稱,在類似的 SFT 初始化基礎(chǔ)上,通過 17,920 個(gè) GPU 小時(shí)的 RL,在基準(zhǔn)測試上達(dá)到了 67.6% 的性能。這很難與蒸餾的成本直接比較,但基于對 SFT 訓(xùn)練堆棧的一些合理假設(shè),這與在 200 萬個(gè)離策略蒸餾提示上訓(xùn)練的成本相似。

Qwen 團(tuán)隊(duì)還報(bào)告稱,使用在策略蒸餾,能以 RL 成本的十分之一,在 AIME’24 上達(dá)到了 74.4% 的更高分?jǐn)?shù)。這也啟發(fā)了我們的工作。

在策略蒸餾

作為替代方案,我們運(yùn)行了在策略蒸餾。從 40 萬 SFT 檢查點(diǎn)開始,在策略蒸餾在大約 150 個(gè)步驟內(nèi)就達(dá)到了 AIME’24 70% 的成績。

跨方法比較計(jì)算成本并非易事。下面,我們用 FLOPs(浮點(diǎn)運(yùn)算次數(shù))來計(jì)算成本。

我們發(fā)現(xiàn),當(dāng) SFT 數(shù)據(jù)集是現(xiàn)成的(如我們的 OpenThoughts-3 示例)或在多次訓(xùn)練中被攤銷時(shí),基線成本降低了 9 倍。

然而,我們經(jīng)常希望在一個(gè)沒有現(xiàn)成離策略蒸餾數(shù)據(jù)集的新任務(wù)上訓(xùn)練一個(gè)小模型。如果我們將教師模型的全部成本(即包括從教師模型采樣的額外成本)計(jì)算在離策略蒸餾中,那么總成本可降低約 30 倍。

用于個(gè)性化的蒸餾

除了將小型模型訓(xùn)練到在通用任務(wù)上表現(xiàn)出色之外,蒸餾的另一個(gè)用例是個(gè)性化。例子包括在對話中遵循特定的語氣和輸出格式,或者像工具使用和成本預(yù)算這樣的能力。我們經(jīng)常希望在傳授新領(lǐng)域知識的同時(shí)訓(xùn)練這種行為。

同時(shí)訓(xùn)練這兩者通常很困難,輕量級微調(diào)(如 LoRA)往往不足以實(shí)現(xiàn)這一目標(biāo),因此需要更大規(guī)模的中訓(xùn)練。在掌握新知識的基礎(chǔ)上學(xué)習(xí)后訓(xùn)練行為,需要一個(gè)復(fù)雜的后訓(xùn)練堆棧,通常由專有數(shù)據(jù)和獎(jiǎng)勵(lì)模型組成。雖然前沿實(shí)驗(yàn)室可以做到這一點(diǎn),但其他從業(yè)者要復(fù)刻可能很困難或成本高昂。

在本節(jié)中,我們展示了在策略蒸餾可以有效地用于后訓(xùn)練專業(yè)化行為。這種方法也適用于持續(xù)學(xué)習(xí)或「測試時(shí)訓(xùn)練」:即在模型部署后更新它們,而不會導(dǎo)致基礎(chǔ)性能下降。我們使用一個(gè)在公司內(nèi)部文檔上進(jìn)行中訓(xùn)練的模型作為應(yīng)用示例。

訓(xùn)練一個(gè)內(nèi)部助手

定制模型的一個(gè)常見目標(biāo)是充當(dāng)助手:在某個(gè)領(lǐng)域擁有專家知識,并且具有可靠的助手式行為。我們可能需要對這兩者進(jìn)行單獨(dú)訓(xùn)練,尤其是當(dāng)專業(yè)領(lǐng)域知識無法僅從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)到,或者學(xué)習(xí)它會干擾行為時(shí)。

我們的例子是一個(gè)公司內(nèi)部助手,我們有兩個(gè)期望:

1. 模型對該領(lǐng)域(公司文檔)知識淵博。預(yù)訓(xùn)練模型沒有見過任何公司內(nèi)部文檔,因此無論模型規(guī)模多大,都只能猜測。我們將使用內(nèi)部知識召回評估(「內(nèi)部 QA」)來衡量這一點(diǎn)。

2. 模型表現(xiàn)出強(qiáng)大的后訓(xùn)練行為,即遵循指令。我們將使用常用的 IF-eval 來衡量這一點(diǎn)。

訓(xùn)練新知識會降低已學(xué)到的行為

我們將從 Qwen3-8B(而不是基礎(chǔ)模型)開始。Qwen3-8B 已經(jīng)通過 RL 進(jìn)行了后訓(xùn)練,掌握了作為助手有用的技能,如指令遵循和推理。先前的研究表明,這種強(qiáng)化學(xué)習(xí)只訓(xùn)練了原始模型的一小部分子網(wǎng)絡(luò),因此當(dāng)網(wǎng)絡(luò)在大量數(shù)據(jù)上進(jìn)一步訓(xùn)練時(shí),可能會變得很脆弱。我們研究了這種情況發(fā)生的程度,以及如何恢復(fù)所需的行為。

為了減少這種災(zāi)難性遺忘(catastrophic forgetting),中訓(xùn)練中一種常見的做法是混入來自模型原始預(yù)訓(xùn)練分布的「背景數(shù)據(jù)」。

在這種情況下,我們無法訪問 Qwen3 的預(yù)訓(xùn)練分布。因此,我們考慮一個(gè)更強(qiáng)、成本更高的基線:我們獲取 Tulu3 提示(一個(gè)廣泛的聊天和指令遵循數(shù)據(jù)集),并使用 Qwen3-8B 重新采樣它們,以充當(dāng)聊天背景數(shù)據(jù)。

然后,我們在內(nèi)部文檔和聊天數(shù)據(jù)的不同混合比例上微調(diào) Qwen3-8B。提高文檔數(shù)據(jù)比例會直接提升模型的知識水平。然而,盡管混入至少 30% 的聊天數(shù)據(jù)有助于保留大部分指令遵循能力,但沒有任何一種權(quán)重配比能維持在 IF-eval 上的原始性能。

對于任何給定的混合比例,我們都觀察到 IF-eval 性能在微調(diào)過程中下降。

另一種常用的方法是使用 LoRA 來約束參數(shù)更新,從而減少災(zāi)難性遺忘的可能性。然而,這種方法仍然不足以保留 IF-eval,而且 LoRA 學(xué)到的知識也更少。

在策略蒸餾恢復(fù)后訓(xùn)練行為

接下來,我們試圖在對內(nèi)部文檔進(jìn)行微調(diào)后,恢復(fù)指令遵循行為。這種行為最初是用 RL 訓(xùn)練的,成本高昂,而且正如我們所見,很脆弱。

取而代之的是,我們在 Tulu3 提示上,使用模型的早期版本 Qwen3-8B 作為教師,來進(jìn)行在策略蒸餾。請注意,這個(gè)訓(xùn)練階段與內(nèi)部文檔數(shù)據(jù)無關(guān),其唯一目的是恢復(fù)指令遵循能力。

使用模型的早期版本作為教師來「重新喚起」在微調(diào)過程中丟失的能力,這使得在策略蒸餾在持續(xù)學(xué)習(xí)(continuous learning)方面非常有前景。我們可以交替進(jìn)行「在新數(shù)據(jù)上微調(diào)」和「蒸餾以恢復(fù)行為」這兩個(gè)階段,使我們的模型能夠隨著時(shí)間的推移學(xué)習(xí)并保持知識的最新狀態(tài)。

在 70-30 混合的內(nèi)部文檔數(shù)據(jù)和聊天數(shù)據(jù)上微調(diào)后,在策略蒸餾幾乎完全恢復(fù)了在 IF-eval 上的性能,且沒有損失任何知識;我們還觀察到聊天能力和模型在內(nèi)部 QA 評估中的「知識」性能之間存在一些正向遷移。

從本質(zhì)上講,我們將語言模型本身視為一個(gè)獎(jiǎng)勵(lì)模型,高概率的行為會受到獎(jiǎng)勵(lì)。這與逆向 RL(inverse RL)有關(guān):高概率的行為對應(yīng)于假定的潛在偏好模型中的有利獎(jiǎng)勵(lì)。任何經(jīng)過指令調(diào)優(yōu)的開源權(quán)重模型都可以在這個(gè)意義上用作獎(jiǎng)勵(lì)模型;我們只需要能訪問 compute_logprobs 函數(shù)。

討論

密集監(jiān)督可極大提高計(jì)算效率

強(qiáng)化學(xué)習(xí)和在策略蒸餾都通過反向 KL 進(jìn)行學(xué)習(xí),修剪基礎(chǔ)策略中存在的動作空間。區(qū)別在于獎(jiǎng)勵(lì)的密度。

在 LoRA Without Regret 中,我們提出了信息論的觀點(diǎn),即強(qiáng)化學(xué)習(xí)每個(gè)回合只教授 O (1) 的比特。相比之下,蒸餾每個(gè)回合教授 O (N) 比特,其中 N 是 token 的數(shù)量。通過更密集的獎(jiǎng)勵(lì),我們到底能獲得多少訓(xùn)練效率的提升?

我們做了一個(gè)實(shí)驗(yàn)來直接比較兩者:

  1. 從 Qwen3-8B-Base(沒有額外的 SFT)開始。
  2. 在 DeepMath 上運(yùn)行 RL。我們使用 128 的 LoRA rank。生成的模型是蒸餾的教師。
  3. 從 RL 訓(xùn)練的模型(2)在策略蒸餾回基礎(chǔ)模型(1)。

從相同的初始化開始,在策略蒸餾學(xué)習(xí) RL 訓(xùn)練的策略所需的梯度步數(shù)大約少 7-10 倍,這對應(yīng)于 50-100 倍的計(jì)算效率提升。

我們看到,蒸餾達(dá)到教師性能水平的速度比 RL 快了大約 7-10 倍。反向 KL 下降到接近零,AIME 分?jǐn)?shù)在 10 個(gè)梯度步內(nèi)就得以恢復(fù),而 RL 則需要 70 步才能達(dá)到該水平。

蒸餾可以有效地重用訓(xùn)練數(shù)據(jù)以提高數(shù)據(jù)效率

對于從業(yè)者來說,收集大量的訓(xùn)練提示可能既困難又耗時(shí)。因此,我們希望能夠在訓(xùn)練中多次重用提示。

使用 RL 時(shí),在同一個(gè)提示上訓(xùn)練多個(gè)輪次(epochs)常常導(dǎo)致對最終答案的簡單記憶。

相比之下,在策略蒸餾學(xué)習(xí)的是近似教師的完整分布,而不是記憶單個(gè)答案。這使我們能夠用同一個(gè)提示訓(xùn)練多個(gè)樣本。

我們重復(fù)了上述在數(shù)學(xué)上訓(xùn)練 Qwen3-8B-Base 的實(shí)驗(yàn),但這次只使用數(shù)據(jù)集中隨機(jī)選擇的一個(gè)提示。我們在這個(gè)提示上連續(xù)訓(xùn)練了 20 步。盡管我們只在一個(gè)提示上訓(xùn)練,但我們確實(shí)達(dá)到了與教師模型相當(dāng)?shù)男阅堋?/span>

RL 在語義策略空間中搜索

我們已經(jīng)看到,在策略蒸餾可以用少得多的訓(xùn)練步驟來復(fù)刻 RL 提供的學(xué)習(xí)效果。

一種解釋是,與預(yù)訓(xùn)練不同,RL 并未在梯度步驟本身上花費(fèi)大量計(jì)算。我們應(yīng)該認(rèn)為 RL 將其大部分計(jì)算用在了搜索(search)上 —— 即推出一個(gè)策略并分配功勞 —— 而不是進(jìn)行更新。

預(yù)訓(xùn)練通過隨機(jī)梯度下降探索高維參數(shù)空間。預(yù)訓(xùn)練需要海量信息,并且非常難以蒸餾。

相比之下,我們應(yīng)該認(rèn)為 RL 是在探索語義策略(semantic strategies)的空間。RL 不是在參數(shù)空間中探索,而是靠運(yùn)氣「偶然」發(fā)現(xiàn)新策略 —— 它只是從它已有的權(quán)重集合中隨機(jī)抽樣。

一旦找到了一個(gè)好的策略,蒸餾就成了學(xué)習(xí)它的捷徑:在策略蒸餾不需要對 RL 課程中的中間策略進(jìn)行建模,而只需要學(xué)習(xí)最終的策略。

打個(gè)比方:在科學(xué)研究中,我們花費(fèi)大量時(shí)間和資源來尋找答案和探索新思想。一旦發(fā)現(xiàn)一個(gè)結(jié)果,用自然語言將其教給別人就簡單得多。相比之下,像運(yùn)動這樣的直覺性身體技能,就很難教給別人,因?yàn)檫@些知識存在于一種天生的語言中(例如,肌肉記憶),只有我們自己才能輕易理解。運(yùn)動只能通過反復(fù)練習(xí)來學(xué)習(xí)。

作為持續(xù)學(xué)習(xí)工具的在策略學(xué)習(xí)

在關(guān)于個(gè)性化的部分,我們探討了在策略蒸餾將專業(yè)訓(xùn)練行為重新引入模型的能力。這可以推廣到更廣泛的持續(xù)學(xué)習(xí)(continual learning)任務(wù),這些任務(wù)要求在不降低先前能力的情況下獲取新知識。

先前的工作發(fā)現(xiàn),在策略學(xué)習(xí)(RL)比較少地遺忘。然而,RL 只能塑造行為 —— 它不能很好地教授新知識,因此不足以用于持續(xù)學(xué)習(xí)。

在上一節(jié)中,我們看到 SFT(包括離策略蒸餾)在支持持續(xù)學(xué)習(xí)方面是失敗的,因?yàn)樗鼤档托袨椤?/span>

我們更深入地研究了這個(gè)問題。當(dāng)我們在模型自己的樣本數(shù)據(jù)集上運(yùn)行 SFT 時(shí)會發(fā)生什么?我們看到,任何大于零的實(shí)用學(xué)習(xí)率都會導(dǎo)致指令遵循評估的性能下降!

一個(gè)可能的解釋是,雖然 KL 散度在期望上為 0,但每個(gè)有限的批次(batch)在實(shí)踐中都會表現(xiàn)出略微不同的分布。在這些有限批次上訓(xùn)練會導(dǎo)致非零的梯度更新,這會使更新后的模型策略偏離其原始狀態(tài)。

在策略蒸餾始終保持在在策略狀態(tài),并且由于教師保持不變,學(xué)生會收斂于教師的期望行為,而不會像 SFT 那樣在自蒸餾設(shè)置中出現(xiàn)性能衰退。這使得在策略蒸餾成為一種非常有前景的持續(xù)學(xué)習(xí)工具。

總結(jié)

我們探討了在策略蒸餾在訓(xùn)練小型模型進(jìn)行數(shù)學(xué)推理或持續(xù)學(xué)習(xí)助手等方面的應(yīng)用。我們將在策略蒸餾與其他兩種后訓(xùn)練方法進(jìn)行了比較:離策略蒸餾和在策略 RL。

我們發(fā)現(xiàn),在策略蒸餾結(jié)合了兩者的優(yōu)點(diǎn):在策略訓(xùn)練的可靠性能以及密集獎(jiǎng)勵(lì)信號帶來的成本效益。

后訓(xùn)練是達(dá)到前沿模型能力的關(guān)鍵部分。通過利用來自學(xué)生的在策略采樣和來自教師的密集監(jiān)督,在策略蒸餾方案能夠以前沿高計(jì)算量 RL 運(yùn)行成本的一小部分,達(dá)到這些能力。

我們的實(shí)現(xiàn)可以在 Tinker cookbook 中找到。我們的工作探索了在策略蒸餾的簡單直接的實(shí)例化,以清晰地展示其優(yōu)勢。我們希望繼續(xù)研究蒸餾的新應(yīng)用、改進(jìn)教師監(jiān)督的新方法,以及提高數(shù)據(jù)效率和持續(xù)學(xué)習(xí)的方法。

在 Thinking Machines,我們的使命是為人們提供兼具前沿性能、適應(yīng)性和個(gè)性化的 AI 模型。在策略蒸餾是實(shí)現(xiàn)這一目標(biāo)的有力工具。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-11 12:29:28

2025-10-27 08:52:00

2025-06-10 05:00:00

2023-09-01 14:49:09

AI微軟

2024-08-23 09:20:00

AI語言模型

2025-02-27 10:41:53

2025-09-29 09:01:36

2025-07-22 11:03:07

2019-09-25 10:10:29

臉書華裔程序員

2022-04-08 14:40:59

框架訓(xùn)練模型

2022-03-15 17:58:00

俄烏信創(chuàng)國產(chǎn)化

2015-07-22 11:47:25

云計(jì)算搜索引擎谷歌

2025-08-14 18:22:29

AIDeepSeekOpenAI

2025-09-11 09:04:00

2022-09-09 10:24:54

SREZUOYEBANGDevOps

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2025-02-07 15:10:00

模型AI語音

2020-12-22 11:00:16

京東智聯(lián)云云原生

2025-01-06 12:10:01

2025-02-24 08:40:00

開源模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

精品一区二区三区免费毛片爱| 欧美理伦片在线播放| 国产精品国产自产拍在线| 91久久精品在线| 日本少妇bbwbbw精品| 久草在线成人| 日韩一级大片在线| 成人羞羞国产免费网站| 国产精品扒开做爽爽爽的视频| 国产麻豆视频精品| 国产成+人+综合+亚洲欧洲| 四虎影视一区二区| 五月综合久久| 日韩视频免费观看高清完整版 | 国产精品久久久久久久久借妻| 三级黄色录像视频| 在线成人动漫av| 日韩限制级电影在线观看| 成人在线观看a| 国产极品人妖在线观看| 欧美国产乱子伦 | 亚洲成a人v欧美综合天堂| 日韩一区二区三区高清| 人妻与黑人一区二区三区| 日韩精品91亚洲二区在线观看| 久久在线免费观看视频| 成年人免费观看视频网站 | 女女同性女同一区二区三区91| 国产精品一区二区av白丝下载| 亚洲综合电影一区二区三区| 精品视频9999| 成人涩涩小片视频日本| 免费欧美视频| 日韩精品极品在线观看| 国产在线a视频| 国产专区精品| 欧美日韩精品三区| 国产一级不卡毛片| 中文字幕影音在线| 激情懂色av一区av二区av| 欧美一二三不卡| 97caopron在线视频| 中文字幕亚洲在| 亚洲乱码一区二区三区| 高清美女视频一区| 国产亚洲欧美日韩日本| 欧美精品人人做人人爱视频| 视频二区在线观看| 成人动漫一区二区在线| 91久久偷偷做嫩草影院| 国产免费黄色网址| 国产一区福利在线| 91综合免费在线| 国产乱色精品成人免费视频| 九色porny丨国产精品| 国产日韩av在线播放| 国产女优在线播放| 美女国产一区二区三区| 国产欧美一区二区三区在线看| 中文字幕一区二区三区四区视频| 日韩精品每日更新| 国产综合久久久久| 999国产精品视频免费| 国产麻豆精品95视频| 99久久99久久精品国产片| 亚洲免费国产视频| 99v久久综合狠狠综合久久| 久久草视频在线看| 黄色国产在线| 国产精品国产三级国产aⅴ原创 | 亚洲黄色网址大全| 99久久婷婷这里只有精品 | 国产高清成人在线| 精品久久久久久综合日本| 色噜噜在线播放| 久久免费偷拍视频| 亚洲一区三区在线观看| 影音先锋在线播放| 欧美性xxxx极品hd满灌| 日本免费观看网站| 欧美成年网站| 日韩美女av在线| 久久视频一区二区三区| 欧美福利视频| 欧美中文字幕在线| 国产精品高潮呻吟av| 国产a区久久久| 蜜桃视频在线观看成人| 免费av在线| 黄色成人在线免费| 亚洲高清在线不卡| 日韩超碰人人爽人人做人人添| 国产亚洲日本欧美韩国| 欧美成人aaa片一区国产精品| 99热精品在线观看| 成人黄色大片在线免费观看| 蜜桃久久一区二区三区| 欧美激情综合网| 国产精品www在线观看| 国产精品毛片久久久久久久久久99999999| 91精品国产综合久久蜜臀 | 国产精品沙发午睡系列990531| 可以免费看的黄色网址| 免费看av不卡| 欧美xxx久久| 国产一二三四视频| 亚洲精品免费观看| 国产视频福利一区| 男人的天堂在线| 一区二区三区日韩欧美精品| 无码少妇一区二区三区芒果| 999在线精品| 日韩在线免费观看视频| 国产真人真事毛片| 韩国女主播成人在线观看| 欧美精品七区| 日本不良网站在线观看| 日韩视频在线你懂得| 亚洲色图日韩精品| 视频在线观看一区二区三区| 国产成人看片| 操你啦在线视频| 欧美三级日韩三级| 国产呦小j女精品视频| 亚洲高清av| 91精品黄色| 黄色网址免费在线观看| 欧美视频一区二区三区在线观看| www.免费av| 精品999日本| 99re国产视频| 18av在线视频| 欧美一区二区在线不卡| 国产一区在线观看免费| 青青草97国产精品免费观看无弹窗版| 精品国产一区二区三区麻豆免费观看完整版| 黄色动漫在线| 91精品国产综合久久久久久| 国产免费嫩草影院| 麻豆精品视频在线观看| 亚洲精品国产精品国自产观看| 欧美一级大片| 亚洲欧洲日产国码av系列天堂| 亚洲免费在线观看av| 91麻豆精东视频| 成熟丰满熟妇高潮xxxxx视频| youjizz欧美| 高清欧美性猛交| 亚洲精品中文字幕成人片| 亚洲最大成人网4388xx| 东京热av一区| 国产午夜精品一区二区三区欧美 | 美女扒开腿免费视频| 欧美女人交a| 成人黄色片视频网站| 三级福利片在线观看| 精品福利二区三区| 日韩精品一区二区av| 99免费精品视频| 成人小视频在线看| 成人激情视频| 成人中文字幕+乱码+中文字幕| 免费人成在线观看播放视频 | 亚洲欧美色视频| 欧美性猛xxx| 久操视频在线观看免费| 久久激情五月激情| 在线视频一二三区| 国产精品xxx在线观看| 欧美又大又粗又长| 69av亚洲| 精品日韩99亚洲| 日产精品久久久| 国产精品三级视频| 亚洲午夜精品在线观看| 亚洲深夜激情| 亚洲自拍三区| 波多野结衣欧美| 国产精品va在线| 最新av在线播放| 国产视频精品免费播放| 中文字幕乱码中文字幕| 亚洲综合免费观看高清完整版在线| yjizz视频| 日本伊人色综合网| 欧美一级爱爱视频| 国产麻豆一区二区三区精品视频| 91精品国产综合久久久久久蜜臀 | 日韩av黄色在线观看| 永久免费av片在线观看全网站| 欧美一卡2卡3卡4卡| 日本午夜视频在线观看| 亚洲色图视频网站| 少妇毛片一区二区三区| 狠狠色丁香婷综合久久| 777久久久精品一区二区三区| 999久久久免费精品国产| 国产精品国产精品| 日本亚洲欧洲无免费码在线| 午夜精品福利视频| wwwav在线| 亚洲视频精品在线| 亚洲女人18毛片水真多| 欧美日韩1区2区| 国产三级av片| 亚洲高清久久久| 久久成人小视频| 久久先锋影音av鲁色资源| 中文字幕1区2区| 另类专区欧美蜜桃臀第一页| 欧美一区二区三区爽大粗免费| 久久精品国内一区二区三区水蜜桃| 精品伦理一区二区三区| 视频一区日韩| 成人国产精品一区二区| 激情亚洲影院在线观看| 98视频在线噜噜噜国产| 自由的xxxx在线视频| 色av中文字幕一区| 久久经典视频| 亚洲精品国产拍免费91在线| 精品免费久久久| 欧美日本韩国一区二区三区视频| 丰满少妇xoxoxo视频| 香蕉影视欧美成人| 清纯粉嫩极品夜夜嗨av| 中文字幕一区在线观看视频| 精品国产成人亚洲午夜福利| 91视频一区二区三区| 美女扒开腿免费视频| 国产激情偷乱视频一区二区三区| 日本高清久久久| 久久成人免费网| 2025韩国理伦片在线观看| 首页国产欧美久久| 中文字幕在线导航| 日韩在线a电影| 国产淫片av片久久久久久| 国产精品毛片一区二区三区| 成人毛片一区二区| 99国产精品私拍| 欧美视频免费看欧美视频| 亚洲黄色一区| 国产精品一区二区免费在线观看| 亚洲午夜一区| 国产黄视频在线| 久久成人一区| www.超碰com| 亚洲尤物影院| 亚洲少妇第一页| 毛片av中文字幕一区二区| 中文字幕第100页| 久久99精品久久久久久动态图| 久热在线视频观看| 国产东北露脸精品视频| www.四虎精品| 91在线看国产| 99久久久无码国产精品性| 国产欧美日韩亚州综合 | 毛片在线能看| 这里只有精品视频在线| 理论片午午伦夜理片在线播放| 久久中文字幕在线| 欧美v亚洲v| 5566日本婷婷色中文字幕97| 欧美精品资源| 91在线免费看网站| 全球av集中精品导航福利| 欧美日韩日本网| 天天做天天爱天天爽综合网| 97超碰国产精品| 美女被久久久| 伊人色在线视频| 成人国产精品免费网站| 亚洲午夜久久久久久久国产| 亚洲人123区| 国产成人愉拍精品久久 | 1769国内精品视频在线播放| 国产成人精品亚洲日本在线观看| 国产精品综合不卡av| 91九色鹿精品国产综合久久香蕉| 久久综合九色99| 久久精品国产99久久| 国产一区二区三区小说| 水野朝阳av一区二区三区| 久久久久亚洲av片无码v| 91蜜桃网址入口| 亚洲最大的黄色网址| 狠狠色噜噜狠狠狠狠97| 国产一区二区三区成人| 日韩h在线观看| 黄网站在线播放| 日韩美女视频中文字幕| www久久久| 欧美一进一出视频| 欧美三区视频| 天天爽天天爽夜夜爽| 福利一区福利二区| 林心如三级全黄裸体| 偷拍日韩校园综合在线| 国产精品无码天天爽视频| 亚洲色图综合网| 97人人爽人人澡人人精品| 国产在线999| 欧美极品中文字幕| 东北少妇不带套对白| 精品一区二区三区在线播放| 野花社区视频在线观看| 亚洲一级二级三级在线免费观看| 中文字幕一区二区免费| 精品亚洲一区二区三区| av白虎一区| 91亚洲精品一区二区| 欧美丝袜激情| 日韩一级在线免费观看| caoporn国产精品| 欧美日韩在线视频免费| 欧美精品丝袜久久久中文字幕| 日本福利片高清在线观看| 欧美精品久久久久久久免费观看| 久久精品黄色| 色姑娘综合av| 爽好多水快深点欧美视频| av无码av天天av天天爽| 亚洲成人精品一区| 精品国产亚洲av麻豆| 久久色在线播放| 亚洲精品aa| 亚洲一区bb| 久久精品理论片| 五月天婷婷丁香网| 欧美欧美欧美欧美首页| 成人好色电影| 国产精品视频99| 色婷婷亚洲mv天堂mv在影片| 高清一区二区视频| 国产精品欧美一区二区三区| 中日韩av在线| 中文字幕一区电影| 久久日本片精品aaaaa国产| 亚洲精品一区二区三区樱花| 日本免费新一区视频| 日本一二三不卡视频| 欧美影视一区在线| www视频在线观看免费| 国产精品久久久久久久久男| 青青草国产免费一区二区下载| 国产a级片免费观看| 国产欧美精品一区二区色综合| 黄色av网站免费| 中文字幕欧美精品在线| 亚洲伊人精品酒店| 免费看日b视频| 国产成人精品aa毛片| 九九热国产视频| 国产视频久久久久| 欧美日韩女优| 日韩视频在线观看视频| 国产成人在线看| 欧美bbbbbbbbbbbb精品| 亚洲欧洲在线看| 国内自拍亚洲| 日本成人在线不卡| 91免费观看在线| 中文字幕第三页| 欧美精品亚州精品| 女同另类激情重口| 人人干人人视频| 一区二区三区日韩| 天堂a√中文在线| 国产精品最新在线观看| 黄色成人在线网址| 国产精品1000部啪视频| 欧美精选一区二区| 91资源在线观看| 日韩欧美视频一区二区三区四区 | 欧美自拍丝袜亚洲| 国产视频在线播放| 国产一区再线| 蜜桃视频在线一区| 麻豆疯狂做受xxxx高潮视频| 亚洲毛片在线观看| 91成人小视频| 国产肥臀一区二区福利视频| 国产精品久久777777| 天天干天天舔天天射| 国产欧美一区二区三区视频| 亚洲韩日在线| 999福利视频| 国产丝袜一区二区三区| 日本免费一区二区三区视频| 免费观看日韩毛片| 亚洲三级在线观看| 蜜桃视频在线免费| 96久久精品| 麻豆国产欧美一区二区三区| 日本熟妇色xxxxx日本免费看| 中文字幕欧美日韩精品| 欧美成人专区| 992kp免费看片|