統一視角下的HPT:動態融合SFT與RL,釋放LLM后訓練新潛能

大家好,我是肆〇柒。今天探索一篇來自清華大學、上海AI實驗室與微信AI團隊的前沿研究。這篇論文提出了一種名為HPT的創新算法,它像一位“智能教練”,能根據模型的實時表現,動態決定是該用監督學習“補基礎”,還是用強化學習“練推理”,從而解決后訓練中SFT與RL難以調和的矛盾,讓模型性能實現質的飛躍。
后訓練(Post-Training)是決定模型最終戰斗力的關鍵戰役。然而,這場戰役往往讓一線算法工程師們深陷泥潭:是選擇高效但死板的監督微調(SFT, Supervised Fine-Tuning),還是選擇潛力巨大但極不穩定的強化學習(RL, Reinforcement Learning)?是咬牙上成本高昂的"SFT→RL"兩階段流水線,還是冒險嘗試效果飄忽不定的混合策略?
調參的噩夢、效果的瓶頸、資源的浪費,構成了后訓練領域揮之不去的痛點。現在,這種名為"混合后訓練"(Hybrid Post-Training, HPT)的新算法,正以其簡潔、強大和自適應的特性,為這個領域帶來一場創新思考。它不再將SFT與RL視為水火不容的對手,而是基于一個深刻的統一理論框架,讓兩者協同工作,動態互補,最終實現"1+1>2"的效果。
你是否也受困于LLM后訓練?
后訓練的困境,源于SFT與RL兩種范式天然的矛盾與互補。直接對基礎模型應用RL(即"Zero RL"),就如同讓一個剛學會走路的孩子去參加馬拉松——模型缺乏基本能力,采樣出的軌跡(Trajectory)質量低下,無法獲得有效獎勵信號,訓練極易崩潰。在Qwen2.5-Math-1.5B上的實驗表明,純GRPO訓練50輪后,仍有近30%的問題產生連續滾動錯誤(如下圖所示),這意味著工程師每天要面對數百條"模型已崩潰"的報警,不得不反復重啟訓練。

GRPO training dynamics of SFT→GRPO on Qwen2.5-Math-1.5B across 50 training epochs. GRPO訓練動態示意圖
反之,純SFT雖然能讓模型快速掌握特定領域的知識,卻像給學生喂"標準答案",模型只會死記硬背,一旦遇到訓練數據分布之外(Out-of-Distribution)的問題,便束手無策,泛化能力堪憂。更令人頭疼的是,SFT→RL的兩階段流水線雖然看似完美,實則代價高昂:它需要兩套獨立的訓練流程,在8*A800 GPU上額外消耗200+ GPU小時(約$1,200成本),且兩個階段的銜接往往成為新的瓶頸——第一階段SFT的過擬合,可能會在第二階段RL中扼殺模型寶貴的探索能力。
更進一步的解決方案,如LUFFY等混合策略,嘗試在單個訓練階段內同時使用SFT和RL的損失。但這類方法通常依賴一個預設的、固定的混合比例,如同給所有學生用同一套教育方式,無法適應模型在訓練過程中能力的動態變化,效果自然不穩定。下圖直觀展示了這種困境:在SFT→GRPO中,模型在Level 5難題上的表現始終難以突破,而HPT卻能持續進步。

Performance difference(HPT v.s. SFT→GRPO) on Qwen2.5-Math-1.5B across 50 training epochs. HPT與SFT→GRPO性能差異對比
核心問題由此浮現:如何設計一個算法,既能像SFT一樣高效地"學得會",吸收高質量演示數據中的知識,又能像RL一樣自由地"想得通",通過在線探索不斷提升泛化和推理能力?HPT算法,正是為解決這一核心矛盾而生。其背后的理論基石,是將SFT和RL統一到一個名為"統一策略梯度估計器"(Unified Policy Gradient Estimator, UPGE)的框架下。
理論基石:共同目標下的梯度統一
HPT的突破性在于,它揭示了SFT與RL并非水火不容,而是優化同一個目標函數的不同路徑。論文提出了一個共同優化目標:

統一策略梯度估計器示意圖
如上圖所示,這個統一公式可拆解為四個可替換的組件:
- 穩定掩碼(Stabilization Mask):決定哪些梯度更新應被保留或屏蔽
- 參考策略分母(Reference Policy):提供重加權系數,通常為逆概率形式
- 優勢估計(Advantage Estimate):衡量當前響應序列的質量
- 似然梯度(Likelihood Gradient):將梯度信息從動作映射到模型參數
下表將SFT、PPO、GRPO、LUFFY、SRFT等主流后訓練算法的梯度計算,全部映射到這四個組件上。這揭示了一個事實:SFT和GRPO在數學上只差兩個開關設置。這意味著工程師不必再糾結"該用SFT還是RL"——就像不必爭論"該用鏟子還是鋤頭",因為HPT自動為你選擇最適合當前問題的工具。

各種后訓練算法的理論統一視圖
上表展示了不同算法的統一表示,它證明所有后訓練算法本質是同一框架的變體。看SFT行:當"參考策略"設為πθ、"優勢估計"設為1時,就是傳統SFT;看GRPO行:當"參考策略"設為πθold、"優勢估計"設為組歸一化獎勵時,就是當前最火的GRPO。這意味著——SFT和RL不是對立選擇,而是同一枚硬幣的兩面。HPT的突破在于:它不再強迫工程師"二選一",而是讓模型根據當前能力,自動選擇最優學習模式。
純RL的局限性:為什么我們需要SFT

為了更直觀地理解SFT的必要性,論文通過上圖展示了SFT→GRPO在Qwen2.5-Math-1.5B上的訓練動態。研究者選取了85道Level 3(較易)和85道Level 5(最難)的問題進行50輪訓練,跟蹤每個問題的采樣準確率。圖中密集的白色區域(甚至連續的白線)表明RL方法在輸出中頻繁出現滾動錯誤,這正是純RL方法的核心局限:當所有輸出都頻繁出錯時,模型難以有效學習。
下圖則進一步揭示了HPT如何解決這一問題。該圖展示了HPT與SFT→GRPO的性能差異,紅色表示HPT表現更好,藍色表示SFT→GRPO更優。雖然SFT→GRPO前期因已包含SFT階段而具有優勢(藍色區域),但在訓練后期,HPT逐漸超越并最終占據主導(紅色區域),特別是在Level 5難題上優勢更為明顯。這表明HPT通過基于問題級滾動表現的反饋,特別有利于學習更具挑戰性的問題。

混合后訓練(HPT)算法
UPGE框架的創新意義,不僅在于它統一了數學形式,更在于它揭示了不同算法的本質是在不同數據分布和穩定性假設下對同一目標的梯度估計。既然SFT和RL的梯度都是對"真實梯度"的一種有偏或無偏估計,那么最優的訓練策略就不是固定使用某一種估計器,而是應該根據當前模型的狀態,動態選擇方差最小、偏差最低的那個估計器。
HPT的核心思想可以濃縮為一句話:"會的題用RL練推理,不會的題用SFT學答案"。但這一表述背后,蘊含著深刻的動態反饋機制,遠非簡單的靜態分類。
HPT工作流程
HPT的工作流程(如算法偽代碼下圖所示)是一個閉環的動態反饋系統。

這個算法關鍵在于基于模型當前表現的實時決策:

這里的關鍵是,HPT的決策是實時的、基于模型當前策略的。它不是預先知道哪些題"難",而是通過讓模型對同一個問題進行多次采樣,根據其當前表現來決定教學方法。這意味著:

動態門限的科學選擇


訓練過程中動態離線數據比例變化
上圖清晰地展示了這一過程:訓練初期,弱模型(1.5B)的SFT比例高達80%,這是在"補基礎";隨著能力提升,比例穩步下降至20%左右,轉向"練推理"。而強模型(7B)的下降速度更快,體現了"因材施教"的智能。值得注意的是,較弱的1.5B模型在SFT主導階段停留的時間比7B模型更長,這與"因材施教"的理論完全吻合。


不同門限設置下的訓練獎勵和離線數據比例對比
上圖進一步證實了這一點:雖然
的設置在初期SFT比例最低,但其訓練獎勵的上升速度最快,最終收斂到最高水平。這證明了"少即是多"——對于強模型,過早或過多地介入SFT,反而會打斷其寶貴的自主探索過程,將其拉回"死記硬背"的模式。讓強模型在探索中犯錯,比強行灌輸標準答案更能激發其潛力。
HPT到底有多強?
理論的優美,最終需要實踐的檢驗。HPT在多個維度的實測中,都交出了一份令人信服的答卷,其優勢不僅體現在最終分數上,更體現在模型能力的本質提升上。
精確的性能對比
在Qwen2.5-Math-7B上,HPT展現了"橫掃千軍"的統治力。如下表所示,它不僅大幅超越了單一的SFT和GRPO基線,更以顯著優勢碾壓了當前主流的先進方法。在AIME 2024基準上,HPT以33.0分的成績,領先其最強基線SFT→GRPO(25.7分)7.3個百分點;相較于混合策略LUFFY(26.1分)和SRFT(18.4分),HPT的優勢同樣明顯。這一結果有力地證明了,動態融合的策略遠勝于靜態的、手工調優的方案。

HPT的強大并非大模型的專屬。在參數規模更小、能力相對較弱的Qwen2.5-Math-1.5B和LLaMA3.1-8B模型上,HPT同樣帶來了顯著且穩定的性能增益(見表3)。這表明HPT具有強大的普適性,能夠有效提升不同規模、不同架構模型的后訓練效果,為資源有限的團隊提供了極具性價比的解決方案。
Pass@k與獨有解的發現
HPT的強大,不僅體現在最終分數上,更體現在它對模型"能力天花板"的突破。
HPT與基線的Pass@k性能對比
上圖是一個極具說服力的證據。圖中,純RL方法(GRPO)的Pass@1024曲線最低,這印證了業界的普遍認知:RL擅長優化已知路徑,但難以擴展能力邊界。而純SFT的曲線雖高,卻犧牲了推理的靈活性。HPT的曲線則"后來居上",在高采樣數下反超所有基線,穩居第一。
這顛覆了業界認知:HPT不僅Pass@1領先,其Pass@1024(衡量模型極限能力)也全面碾壓基線。這意味著——HPT訓練的模型在大量嘗試中找到正確答案的能力更強。具體看AIME24:當采樣1024次時,HPT解題率比GRPO高15%,相當于'原本100道題只能解30道,現在能解45道'。更驚人的是,HPT的曲線始終在最上方,證明它既學到了SFT的知識注入,又保留了RL的探索能力——這才是真正的能力上限突破。
這種能力在攻克難題時表現得淋漓盡致。
MATH-500上獨有解的雙向分析
上表的'+27/-8'是HPT的'殺手锏':它多解出27道Level 5奧數難題,僅"遺忘"8道已會題目。這意味著——HPT在攻堅最難問題時,幾乎不損失已有能力。對工程師而言,這解決了后訓練的終極矛盾:既要探索新能力,又不能忘記舊知識。當你的模型需要同時處理100種復雜任務時,HPT就是那個'不忘本'的智能體。
更令人振奮的是,HPT不僅提升了模型的"做題"能力(Pass@1),更大幅拓展了其"思考"的邊界。通過分析模型在大量采樣下的表現(Pass@k),研究發現,HPT訓練的模型在Pass@1024指標上取得了最高分(見下圖)。
HPT與基線的Pass@k性能對比
這一發現極具反直覺性:雖然直觀上認為HPT(混合方法)的Pass@k應介于純SFT和純GRPO之間,但上圖顯示,HPT的曲線始終在最上方。這意味著HPT在利用SFT為模型注入新知識的同時,最大程度地保護并增強了模型自主探索、發現新解法的能力,真正提升了模型的能力上限,而非簡單的過擬合。這一發現直接回應了業界關于"RL是否能擴展模型能力邊界"的討論,證明了HPT在探索能力上的卓越表現。
驗證性能與訓練動態
為了進一步驗證HPT的穩定性和泛化能力,研究者在Qwen2.5-Math-1.5B上進行了詳細的驗證性能測試。

Qwen2.5-Math-1.5B在多個基準測試上的驗證性能對比
上圖展示了HPT在AIME24、AMC和MATH-500等多個基準測試上的驗證性能。HPT不僅在訓練集上表現優異,在驗證集上也持續優于基線方法,且表現穩定。這一結果證實了HPT避免了過擬合風險,能夠有效泛化到新問題。
此外,研究者還評估了不同訓練范式對Off-policy RL的影響,結果如下表所示:
Name | AIME 24 | AIME 25 | AMC | MATH-500 | Minerva | Olympiad | Avg |
OFF/ON | 16.6 | 11.8 | 47.3 | 76.2 | 35.3 | 41.6 | 38.1 |
Mix/ON | 16.7 | 17.2 | 46.9 | 79.4 | 37.5 | 43.9 | 40.3 |
SFT/ON | 16.6 | 17.8 | 51.0 | 81.0 | 37.5 | 47.3 | 41.9 |
實驗表明,SFT/ON(即HPT)取得了最佳平均性能(41.9分),優于Mix/ON(40.3分)和OFF/ON(38.1分)。這說明對于HPT而言,Off-policy RL可能并非必需,因為SFT已經有效地作為學習離線數據的訓練方法。這一發現簡化了HPT的實現,避免了復雜的Off-policy RL機制。
如何用好HPT?
對于希望將HPT落地的工程師而言,其配置出人意料地簡潔,核心在于理解其動態本質并遵循實驗得出的最佳實踐。
超參設置:動態平衡的藝術

訓練動態可視化:洞悉模型"心路歷程"
離線數據比例動態變化:

訓練過程中動態離線數據比例變化
上圖清晰地展示了HPT的"自適應學習"過程:訓練初期,弱模型(1.5B)的SFT比例高達80%,這是在"補基礎";隨著能力提升,比例穩步下降至20%左右,轉向"練推理"。而強模型(7B)的下降速度更快,體現了"因材施教"的智能。這一動態變化過程是健康且符合預期的。值得注意的是,較弱的1.5B模型在SFT主導階段停留的時間比7B模型更長,這與"因材施教"的理論完全吻合。
訓練熵與響應長度:
對于一線工程師而言,監控訓練過程中的**熵(Entropy)和響應長度(Response Length)**是判斷模型是否"學歪了"的關鍵。
不同方法的訓練動態對比
上圖顯示,HPT能維持比純RL更高的輸出熵。在實踐中,這意味著模型的回答更加多樣化,沒有陷入"只會輸出某一種固定模板"的模式崩潰。更關鍵的是響應長度:HPT模型的響應長度在早期快速攀升后,在RL階段并未回退。這表明模型已將長推理模式"內化"為自身策略的一部分,而非簡單地"背答案"。如果在你的訓練中發現響應長度在RL階段急劇縮短,那很可能意味著RL正在"抹除"SFT階段學到的復雜推理模式,這是一個危險的信號。
與LUFFY的核心區別
LUFFY等方法是"固定菜譜",在一個批次內按固定比例混合SFT和RL數據。而HPT是"智能點餐",它根據模型對每個具體問題的實時表現,動態決定是"學標準答案"還是"練推理過程"。這種細粒度的、基于性能反饋的自適應機制,是HPT效果更優、更穩定的根源。下圖直觀地展示了不同
值下,SFT比例的動態變化過程,
越大,SFT介入越頻繁。

在Qwen2.5-Math-1.5B上,不同門控設置下的訓練獎勵(左)與離線數據比例(右)對比。
上圖顯示了HPT的因材施教智慧:對Qwen強模型(γ=0),它幾乎全程用RL訓練(離線數據比例<20%),因為強模型需要更多探索;對LLaMA弱模型(γ=2),它前期大量用SFT打基礎(離線數據比例>60%)。Table 6的消融實驗更證明:對Qwen2.5-Math-1.5B,γ=0的效果(41.9分)比γ=2(39.0分)高2.9分——盲目增加SFT比例反而會損害性能。這就像教學生:對學霸,讓他多做難題;對學渣,先夯實基礎。HPT的智能正在于此。
總結:HPT—后訓練的"自動駕駛"模式
HPT 成功地將工程師從繁瑣的手動階段劃分、痛苦的比例調優中解放出來,用一個簡潔、自適應的算法,無縫融合了SFT的高效與RL的探索潛力。
從實踐角度看,HPT效果更強、更穩定、更省心。它在多個模型和基準測試上均取得了頂尖或接近頂尖的結果,無論是大模型還是小模型,都能從中受益。對于一線工程師而言,這意味著更低的試錯成本和更高的產出效率。
從方法論上看,HPT的成功是"第一性原理"思維的勝利。它沒有在工程技巧的層面修修補補,而是回歸到"我們究竟想優化什么?"這個根本問題,從統一的理論框架出發,推導出最優的算法設計。當我們將SFT和RL視為優化同一目標的不同梯度估計器時,一個基于簡單性能反饋的門控機制,就能激發出遠超復雜手工設計的威力。
HPT的真正價值,是為未來的LLM后訓練研究提供了一個強大的范式:當面臨看似矛盾的技術路線時,應回到它們共同的優化目標,尋找統一的理論解釋,再據此設計自適應的融合算法。HPT不僅是工程實踐的勝利,更是統一理論框架指導下算法設計的典范。
告別繁瑣的手動階段劃分和比例調整,HPT讓一個算法自適應地融合SFT和RL的優勢。它不再需要工程師在"SFT"與"RL"之間做非此即彼的選擇,而是讓模型根據自身能力動態選擇最優的學習路徑。效果更強、更穩定、更省心,在多個模型和基準測試上均取得SOTA或接近SOTA的結果。
HPT,理應成為每一位LLM后訓練工程師工具箱中的新標配。它不僅是一個算法,更是一種"自動駕駛"式的后訓練新范式,讓模型能夠根據自身狀態智能地選擇最優的學習路徑,從而實現能力的最大化提升。






























