總成本降低30倍,告別昂貴后訓練,在線策略蒸餾敲開大模型后訓練的未來
一家明星公司 Thinking Machines,發(fā)了一篇論文,提出一種LLM后訓練方法——在線策略蒸餾,讓小模型更懂專業(yè)領域。

Thinking Machines成立于2024年,由前OpenAI首席技術官Mira Murati聯(lián)合創(chuàng)立。專注于開發(fā)新一代人工智能基礎設施和模型,目標是構建安全、可靠且可擴展的 AI 系統(tǒng)。團隊還包括多位來自 OpenAI、Google 和 Meta 的資深工程師與研究人員。
在線策略蒸餾用十分之一的成本,達到了比強化學習更高的模型性能。
大型語言模型展現(xiàn)出的專家級能力,并非單一技術的產物,而是輸入感知、知識檢索、計劃選擇和可靠執(zhí)行等多種能力的復雜疊加。
要鑄就這些能力,一套完整的訓練方法必不可不可少。這個過程通常被劃分為三個宏觀階段。
- 預訓練(pre-training)是第一步,它通過海量的無監(jiān)督文本,教授模型語言使用、廣泛推理和世界知識等通用能力。
- 中期訓練(mid-training)是第二步,它向模型灌輸特定領域的知識,比如代碼、醫(yī)療數(shù)據庫或一家公司的內部文檔。
- 后訓練(post-training)是最后一步,也是至關重要的一步,它負責引導模型產生目標行為,例如遵循指令、進行數(shù)學推理或展開對話。
Thinking Machines Lab的Kevin Lu及其合作者發(fā)表的這篇研究,就將焦點精準地對準了后訓練階段。

他們提出了一種名為在線策略蒸餾(On-policy distillation)的新方法,巧妙地將在線策略訓練的相關性與蒸餾的密集獎勵信號結合起來。
這種方法在保持甚至超越現(xiàn)有模型性能的同時,戲劇性地降低了訓練成本,為大型語言模型的高效后訓練開辟了一條全新的道路。
LLM后訓練面臨一個根本性的兩難選擇
大型語言模型訓練方法的演進,是一部從簡單到復雜的歷史。
早期的語言模型幾乎完全依賴預訓練。但隨著模型規(guī)模的爆炸式增長和應用需求的日益多樣化,人們很快發(fā)現(xiàn),僅靠預訓練已無法滿足特定任務的高性能要求。中期訓練和后訓練階段應運而生。
后訓練的方法,主要可以歸為兩大流派:在線策略訓練(on-policy training)和離策略訓練(off-policy training)。
- 在線策略訓練,顧名思義,是從學生模型自身生成的軌跡(或稱經驗)中采樣,并為其分配獎勵。學生在自己走過的路上學習。
- 離策略訓練,則依賴于一個外部來源提供的目標輸出。學生模型需要學習的,是模仿這些現(xiàn)成的、高質量的輸出。
強化學習是典型的在線策略訓練方法。它通過獎勵信號,像馴獸師一樣引導模型學習正確的行為。但強化學習有一個致命的弱點:反饋極其稀疏。
無論模型生成了多少個token,在一個訓練周期內,它能學到的信息量是固定的。
以解答一道數(shù)學題為例。
如果學生模型最終給出了錯誤答案,強化學習的獎勵機制只能告訴它你錯了。這個反饋是序列級別的,它無法指出錯誤究竟發(fā)生在哪一個具體的推理步驟。學生模型就像一個考砸了卻拿不到批改試卷的孩子,只知結果,不知所以然。
離策略訓練則試圖解決這個問題。它通常采用監(jiān)督微調(Supervised Fine-Tuning, SFT)的形式,在一個經過精心策劃和標記的任務示例集上進行訓練。
這些高質量的標記示例,往往來自于一個在任務上表現(xiàn)出色的教師模型。蒸餾(distillation)就是一種常用的離策略訓練機制,它訓練學生模型去匹配教師模型的輸出分布,學習教師的思考過程。
傳統(tǒng)蒸餾方法提供了密集的獎勵信號,看似解決了強化學習的痛點。但它引入了一個新的、同樣棘手的問題:學生模型學習的上下文,是教師模型經常遇到的上下文,而不是它自己會遇到的。
這會導致一種被稱為復合錯誤(compounding error)的現(xiàn)象。
想象一下,學生模型在解題的早期步驟犯了一個小錯誤,一個教師模型絕不會犯的錯誤。這個錯誤會立刻將它帶入一個未知領域,一個在教師提供的訓練數(shù)據中從未出現(xiàn)過的狀態(tài)。由于缺乏應對這種陌生局面的經驗,學生模型很可能會一步錯、步步錯,最終離正確答案越來越遠。
這就是后訓練面臨的兩難困境:在線的強化學習反饋稀疏,學習效率低下;離策略的蒸餾存在分布不匹配問題,可能導致復合錯誤。人們似乎必須在學得慢和學不準之間做出抉擇。
在線策略蒸餾找到了最優(yōu)解
在線策略蒸餾的核心思想非常直觀:從學生模型自己采樣的軌跡中學習,同時使用一個高性能的教師模型,對這條軌跡中的每一個詞元進行評分。
它像一位經驗豐富的導師,看著學生親手完成作業(yè),并在每一個步驟旁邊給出即時反饋。
這種方法完美結合了在線策略訓練的相關性(學生在自己遇到的狀態(tài)下學習)和蒸餾的密集獎勵信號(每個步驟都有反饋),實現(xiàn)了魚與熊掌兼得的效果。
回到數(shù)學解題的例子。在線策略蒸餾會對學生解答過程的每一步進行評分。它不僅會懲罰那些最終導致錯誤答案的步驟,還會強化那些被正確執(zhí)行的步驟。
這提供了一個比傳統(tǒng)強化學習密集得多的反饋信號,同時又完美規(guī)避了離策略學習的分布不匹配問題。
為了評估學生模型的軌跡,在線策略蒸餾可以采用多種損失函數(shù)。研究人員為了簡化問題,選擇了一種高效且強大的度量方式:每詞元反向KL散度(reverse KL)。
它衡量的是,在給定相同歷史軌跡的條件下,學生模型(π_θ)的預測分布與教師模型(π_teacher)的預測分布之間的差異。

獎勵函數(shù)的目標就是最小化這個反向KL散度。這會推動學生模型,在它自己所處的每一個狀態(tài)下,都盡可能地模仿教師模型的行為。
當學生模型的行為與教師模型完全一致時,反向KL散度為零。為了簡化計算,研究者使用了零折扣因子,這意味著在任何給定的時間步,學生模型只關心如何優(yōu)化緊接著的下一個詞元,而不去考慮更遙遠的未來。
反向KL散度與強化學習有著天然的親和力,因為強化學習本質上也是在優(yōu)化某種由獎勵模型定義的序列級反向KL。
但與大多數(shù)獎勵模型不同,反向KL是不可破解的。一個低的KL值總是對應著從教師模型角度看的高概率期望行為,不存在被學生模型利用以獲得高獎勵卻產生無用輸出的漏洞。
反向KL還有另外兩個非常實用的特性。
它是模式尋求的。這意味著它會引導學生學習一種特定的、高質量的行為(教師模型的行為),而不是將概率分散在幾個次優(yōu)的選項上,讓學習目標更加明確。
它還能有效減少暴露偏差(exposure bias)。暴露偏差指的是模型在訓練時看到的是真實數(shù)據,但在推理時看到的是自己生成的數(shù)據,這種差異導致的性能下降。在線策略蒸餾通過讓學生在自己生成的數(shù)據上學習,天然地緩解了這個問題。
實現(xiàn)這套方法的過程也相對簡單,可以基于現(xiàn)有的強化學習腳本進行構建。Thinking Machines Lab利用其Tinker訓練API,主要通過以下幾個步驟實現(xiàn):
- 初始化教師客戶端。Tinker API使得為不同模型創(chuàng)建客戶端變得輕而易舉,無需擔心底層模型引擎的資源利用率。這里使用采樣客戶端,因為只需要教師模型進行前向傳播計算概率,而不需要反向傳播梯度。
- 采樣軌跡。像在標準強化學習中一樣,從學生模型采樣軌跡。在采樣過程中,學生的對數(shù)概率已經被計算出來,這是后續(xù)重要性采樣損失計算的一部分。
- 計算獎勵。使用
compute_logprobs函數(shù)查詢教師客戶端,獲取教師模型對學生采樣出的那些詞元的對數(shù)概率。然后,利用這個值計算出每一步的反向KL散度。 - 使用強化學習進行訓練。將每詞元的優(yōu)勢函數(shù)(advantage)設置為負的反向KL散度,然后調用強化學習的重要性采樣損失函數(shù),對學生模型執(zhí)行一次訓練更新。
這個流程帶來了顯著的計算效率提升。
由于計算獎勵的過程非常快,不必等待整個長軌跡采樣完成,可以使用較短或部分的軌跡就開始訓練,大大加快了迭代速度。
查詢教師模型的對數(shù)概率,也僅僅需要一次從較大模型的前向傳播,而生成軌跡的任務則由更小、更便宜的學生模型來完成。
更重要的是,這種方法不需要一個獨立的獎勵模型或標記模型。教師模型本身就扮演了獎勵模型的角色,高明且廉價。未來一個有趣的研究方向,可能是將這種基于蒸餾的每詞元獎勵與傳統(tǒng)的序列級環(huán)境獎勵結合起來。
驚人的效率提升是其最直接的優(yōu)勢
理論上的優(yōu)雅必須通過實踐來檢驗。研究者使用在線策略蒸餾進行后訓練,并將其與傳統(tǒng)方法進行了直接比較,以此來展示其作為訓練專家模型最后關鍵階段的威力。
實驗場景設定在數(shù)學推理能力的訓練上。
研究者選擇Qwen3-8B-Base模型作為學生,Qwen3-32B作為教師,目標是提升學生模型的數(shù)學推理能力。這兩個模型都是Tinker平臺目前支持的模型,使得實驗可以被輕松復現(xiàn)。
所有實驗都從一個共同的起點開始:一種離策略蒸餾形式的中期訓練。
具體來說,就是在一個由教師模型生成的數(shù)據集上,對學生模型進行監(jiān)督微調。這個數(shù)據集名為OpenThoughts-3,它是由一個類似Qwen3-32B的推理模型QwQ-32B生成的推理提示和響應集合。
在40萬個提示上進行完全微調后,學生模型Qwen3-8B-Base在AIME'24(一個數(shù)學問題基準測試)上達到了60%的分數(shù)。研究者也嘗試了LoRA(低秩適應)進行訓練,但在這種高容量數(shù)據集上,LoRA的效果不如完全微調。
所有情況下的性能增長都呈現(xiàn)出一種對數(shù)線性關系——初期的性能提升成本低廉,但越往后,每提升一個百分點所需的成本就越高。

現(xiàn)在,這個經過40萬提示微調、AIME'24分數(shù)達到60%的模型,成為了比較不同后訓練方法效果的檢查點。目標是:將AIME'24分數(shù)從60%提高到70%,看看哪種方法最省力。
默認的方法是繼續(xù)進行監(jiān)督微調,也就是延續(xù)離策略蒸餾的過程。根據之前觀察到的對數(shù)線性趨勢進行外推,研究者估計,模型大約需要在200萬個提示上進行訓練,才能在AIME'24上達到70%的分數(shù)。
這個外推的前提是縮放定律(scaling law)持續(xù)有效而不會停滯,這本身就是一個不小的挑戰(zhàn)。盡管如此,確實存在通過大規(guī)模離策略蒸餾將8B模型性能提升到70%以上的先例。
Qwen3在一個類似的SFT初始化的基礎上,通過強化學習,花費了17920個GPU小時,在AIME'24基準測試上達到了67.6%的性能。
直接比較這個成本與蒸餾的成本很困難,但根據對SFT訓練堆棧的一些合理假設,這大致相當于訓練200萬個離策略蒸餾提示的成本。

真正引人注目的是,Qwen團隊報告稱,他們使用在線策略蒸餾,僅用了強化學習十分之一的成本(1800 GPU小時),就在AIME'24上達到了更高的74.4%的分數(shù)。這正是啟發(fā)這項研究工作的關鍵發(fā)現(xiàn)。
研究者在自己的基礎設置中嘗試復現(xiàn)這一驚人的結果。
從60%分數(shù)的SFT檢查點開始,在線策略蒸餾僅用了大約150個訓練步驟,就將AIME'24的分數(shù)提升到了70%。

比較不同方法的計算成本是一件復雜的事情,因為訓練、采樣和對數(shù)概率計算的成本比例因具體實現(xiàn)而異。
為了得到一個更公平的比較,研究者以浮點運算次數(shù)(FLOPs)來計算成本。這種度量方式會懲罰那些可以在GPU上高效并行化的操作,因此它實際上高估了計算對數(shù)概率的真實成本。

結果是驚人的。
當SFT數(shù)據集是現(xiàn)成的(比如OpenThoughts-3),或者其生成成本可以在多次訓練中分攤時,在線策略蒸餾的基線成本降低了9倍。
在這種情況下,不計入離策略訓練的教師FLOPs成本,但必須計入在線策略的,因為教師模型需要實時運行以計算學生軌跡的對數(shù)概率。
考慮到這種計算可以在GPU上廉價地并行化,換算成GPU小時的成本降低幅度更接近18倍。
在更現(xiàn)實的場景中,常希望在沒有現(xiàn)成離策略蒸餾數(shù)據集的新任務上訓練模型。如果將離策略蒸餾中生成數(shù)據的教師模型成本也完全計算在內,那么總成本的降低幅度達到了約30倍。
密集監(jiān)督帶來的效率提升是顯著的。強化學習和在線策略蒸餾都通過反向KL進行學習,本質都是在修剪基礎策略中存在的動作空間。它們的根本區(qū)別在于獎勵的密度。
一篇名為LoRA Without Regret的研究提出了一個信息論的視角:強化學習每個周期只教授O(1)比特的信息。相比之下,蒸餾每個周期能教授O(N)比特的信息,其中N是序列中的詞元數(shù)量。
為了量化這種密集獎勵帶來的訓練效率提升,研究者進行了一項直接對比實驗:
- 從Qwen3-8B-Base模型開始,不進行任何額外的SFT。
- 在DeepMath數(shù)據集上運行強化學習,得到的模型作為蒸餾的教師。
- 使用在線策略蒸餾,將從強化學習訓練出的模型的知識,蒸餾回基礎模型。
結果顯示,在線策略蒸餾達到教師性能水平的速度,比強化學習快了約7-10倍。反向KL散度迅速降至接近零,AIME分數(shù)在不到10個梯度步內就恢復了,而強化學習則需要70步才能達到同樣的水平。

累計來看,所需的總計算量減少了約50-100倍。
這其中的原因有兩點。強化學習通常需要在接近評估上下文長度的序列上進行訓練,以便策略能夠學習到上下文的限制。
而蒸餾在較短的上下文長度下也能合理學習,因為獎勵是密集的,不會因為軌跡是否完成而出現(xiàn)急劇的懸崖。
當SFT初始化較強時,在線策略蒸餾可以有效地使用更小的批量大小,因為它每個周期提供的信息比特更多,從而降低了梯度噪聲。
這些結果有力地表明,過程監(jiān)督和密集獎勵有潛力將學習效率提高一個數(shù)量級。
它為持續(xù)學習和個性化打開了新大門
除了在通用任務上訓練高性能小模型,蒸餾的另一個重要用例是個性化。
例子包括讓模型在對話中遵循特定的語調和輸出格式,或者實現(xiàn)工具使用和成本預算等特定功能。通常希望將這種定制化的行為與新的領域知識一起訓練到模型中。
同時訓練知識和行為通常非常困難。
輕量級的微調往往不足以實現(xiàn)目標,需要進行更大規(guī)模的中期訓練。而在新知識的基礎上學習后訓練行為,則需要一套復雜的后訓練堆棧,通常依賴于專有數(shù)據和獎勵模型。這種方法對于頂尖實驗室來說是可行的,但對于大多數(shù)從業(yè)者而言,成本過高且難以復制。
在線策略蒸餾在這里展現(xiàn)了其作為一種高效后訓練工具的價值。
這種方法同樣適用于持續(xù)學習或測試時訓練:在模型部署后,不斷用新數(shù)據更新它,同時不損害其基礎性能。
研究者用一個在內部公司文檔上進行中期訓練的模型作為例子。
定制模型的一個常見目標是讓它扮演一個助手角色:既在某個領域擁有專業(yè)知識,又具備可靠的助手行為。這兩個目標可能需要分開訓練,特別是當專業(yè)領域知識無法僅從預訓練數(shù)據中學到,或者學習新知識的過程會干擾原有行為時。
實驗中的內部公司助手有兩個期望:
- 模型了解公司文檔。預訓練模型沒有見過這些內部文檔,因此只能猜測。研究者使用內部知識問答評估(內部QA)來衡量這一點。
- 模型表現(xiàn)出強大的后訓練行為,即指令跟隨能力。研究者使用常用的IF-eval基準來衡量這一點。
這次,研究者從Qwen3-8B開始,這是一個已經經過指令跟隨和推理強化學習后訓練的模型。
先前的研究表明,這種強化學習可能只訓練了原始模型的一小部分子網絡,因此當網絡在大量新數(shù)據上進一步訓練時,這些習得的能力可能非常脆弱。
研究者首先探究了災難性遺忘發(fā)生的程度。
為了減少災難性遺忘,中期訓練的一個常見做法是混合來自原始模型預訓練分布的背景數(shù)據。
但研究者無法訪問Qwen3的預訓練分布。因此,他們采用了一個更強但更昂貴的基線:使用Tulu3提示(一個廣泛的聊天和指令跟隨數(shù)據集),并用Qwen3-8B重新采樣,作為聊天背景數(shù)據。
這種由Qwen3-8B采樣的在線策略背景數(shù)據,充當了一個前向KL正則化器,在整個中期訓練過程中強化模型的原始行為。
然后,研究者在內部文檔和聊天數(shù)據的不同混合比例上微調Qwen3-8B。
結果顯示,增加文檔數(shù)據的比例直接提高了模型的知識水平。但同時,雖然混合至少30%的聊天數(shù)據有助于保留大部分指令跟隨能力,但沒有任何一個混合權重能夠保持IF-eval上的原始性能不下降。

對于任何給定的混合比例,研究者都觀察到IF-eval性能在微調期間持續(xù)下降。這嚴重損害了使用更長時間的訓練來進一步專業(yè)化模型的能力。

接下來,研究者試圖在內部文檔微調之后,恢復模型的指令跟隨行為。
這種行為最初是用昂貴且脆弱的強化學習訓練出來的。這一次,他們選擇在Tulu3提示上運行在線策略蒸餾,并巧妙地使用模型的早期版本——即原始的Qwen3-8B——作為教師。
這個訓練階段與內部文檔數(shù)據完全無關,其唯一目的就是恢復被遺忘的指令跟隨能力。
使用模型的一個早期版本作為教師,來重新激活在微調過程中丟失的能力,這使得在線策略蒸餾在持續(xù)學習方面非常有前景。
可以設想一種訓練模式:在新數(shù)據上進行微調階段,然后進入恢復行為的蒸餾階段,兩者交替進行。這使得模型能夠隨著時間的推移不斷學習新知識,同時保持核心能力不退化。
結果非常理想。
在一個70%內部文檔和30%聊天數(shù)據的混合微調之后,在線策略蒸餾幾乎完全恢復了模型在IF-eval上的性能,并且沒有丟失任何新學到的知識。研究者甚至觀察到聊天能力和模型在內部QA評估上的知識性能之間存在一些正向遷移。

本質上,在線策略蒸餾將語言模型本身視為一個獎勵模型,高概率的行為會得到獎勵。
這與逆強化學習(Inverse Reinforcement Learning)有異曲同工之妙。
任何經過指令調優(yōu)的開源模型,只要能訪問其計算對數(shù)概率的函數(shù),就可以在這種意義上被用作獎勵模型。
蒸餾作為整合行為和知識的工具,其潛力遠不止于此。在線學習可以是增強類似模型合并設置的關鍵工具。
更有趣的是,在線策略蒸餾還能極大地提高數(shù)據效率。
對于許多從業(yè)者來說,收集大規(guī)模的訓練提示數(shù)據集既困難又耗時。因此,在訓練中多次重復使用提示就顯得尤為重要。
使用強化學習時,在同一個提示上訓練多個周期,通常會導致模型簡單地記住最終答案,而不是學會推理過程,特別是對于大模型。
相比之下,在線策略蒸餾通過最小化反向KL散度,學習的是近似教師的完整分布,而不僅僅是記憶單個答案。這允許在同一個提示上訓練多個樣本而不導致過擬合。
研究者重復了在數(shù)學上訓練Qwen3-8B-Base的實驗,但這次只使用數(shù)據集中隨機選擇的一個提示。
他們在這個唯一的提示上連續(xù)訓練了20步,總共生成并評分了5120個序列。盡管這種方式計算效率較低,但結果令人驚訝:僅靠這一個訓練提示,學生模型就成功匹配了教師模型的AIME'24性能。

在線策略蒸餾的成功,讓人們重新思考強化學習的本質。
或許我們應該將強化學習看作是在一個語義策略空間中進行探索。
它的大部分計算并非花費在梯度更新上,而是花費在搜索上——推出不同的策略并為其分配信用。
它不是在參數(shù)空間中艱難跋涉,而是在已有的能力集合中進行隨機組合,偶然發(fā)現(xiàn)新的有效策略。
一旦找到了好的策略,蒸餾就成了學習它的捷徑。
在線策略蒸餾不需要建模強化學習課程中所有中間的、不成熟的策略,它直奔終點,只建模那個最終學到的、最優(yōu)的策略。
這就像科學研究。我們花費大量時間和資源去探索、試錯,最終找到答案。一旦結果被發(fā)現(xiàn),用自然語言把它教給別人,就變得相對簡單。
與之相對的是直覺性的身體技能,比如運動。這些技能更難教授,因為知識存在于一種內在的語言——肌肉記憶中。運動只能通過反復練習來學習。強化學習更像后者,而在線策略蒸餾則像前者中的教學環(huán)節(jié)。
在線策略蒸餾始終保持在線策略,并且由于教師是固定的,學生會穩(wěn)定地收斂于教師的理想行為,而不會像自蒸餾的SFT那樣性能退化。
這使其成為持續(xù)學習的一個極具前景的強大工具。
這項研究探索了在線策略蒸餾在數(shù)學推理和持續(xù)學習等應用中的巨大潛力。
通過利用來自學生的在線策略采樣和來自教師的密集監(jiān)督,在線策略蒸餾配方以一小部分成本,達到了過去需要高昂計算成本的強化學習才能達到的能力。
后訓練是通往最前沿模型能力的關鍵一環(huán),而在線策略蒸餾,無疑是這條路上最高效、最經濟的路徑之一。





























