首次結合RL與SFT各自優勢,動態引導模型實現推理?效訓練
劉子儒博士畢業于香港城市大學數據科學專業,導師為趙翔宇教授及數學家周定軒教授。目前就職于華為香港研究所小藝團隊,負責 RLVR 算法與擴散語言模型方向的研究。龔成目前在香港城市大學攻讀博士學位,導師為張青富教授。期間在華為香港研究所小藝團隊進行研究實習,負責RLVR算法方向的研究。
新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在復雜推理方面取得了顯著進展。該方向核心是一種名為 ZERO-RL 的訓練方法,即采用可驗證獎勵強化學習(RLVR)逐步提升大模型在強推理場景 (math, coding) 的 pass@1 能力。相較于依賴高質量人工數據或從強大模型中提煉出的思維鏈的監督微調(SFT),基于強化學習(RL)的后訓練在增強推理能力方面表現出更強的泛化性。
然而,目前以 Group Relative Policy Optimization (GRPO) 為代表的 RLVR 方法通常面臨兩個局限點:1. 訓練數據難度與模型能力之間存在差距,導致獎勵稀疏從而阻礙了學習過程的穩定性。2. 單純基于 On-policy 強化學習算法的樣本效率低下,這對于端側小模型而言尤為突出。
為此,華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

- 論文標題:GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning
- 論文:https://arxiv.org/abs/2507.10628
- Github:https://github.com/hkgc-1/GHPO
- 數據:https://huggingface.co/datasets/hkgc/math3to5_olympiads_aime
GHPO 不僅能大幅提升端側模型的樣本利用效率,同時針對性緩解了目前 RLVR 方法中的獎勵稀疏現象。通過難度感知與動態引導模塊設計,GHPO 不僅提升了模型訓練過程中的穩定性,并且在 6 個不同的開源數學推理 Benchmark 上實現提升,尤其在 GPQA-Diamond 和 AMC23 上分別提升 9% 和 10%。該方法進一步被證明可以適用于不同難度分布的訓練數據集與多個模型類別。

具體方法
在 RL 中引入模仿學習
源自于對在線強化學習算法與基于模仿學習方法的思考,該團隊發現在傳統 GRPO 算法的訓練過程中,只有正確答案本身被用來提供監督信號,而標準解題過程未被利用。因此,團隊提出了一個全新思路:通過將標準解題過程直接整合到強化學習循環中,來解決之前提到的獎勵稀疏問題,并進一步提出假設:模型訓練過程中通過標準解題過程的提示,從而獲得有效的學習信號。并且該方法能提升模型在推理任務上的泛化能力。
后續通過一系列的實驗證明該假設確實可行。
GHPO 算法框架
然而,以上的離線方案需要預先將一組訓練數據集中的樣本進行難度劃分,并始終對其應用固定比例的提示。從而導致該方案無法實現全局最優的效果與有效的拓展。因此,該團隊進一步提出了引導式混合策略優化(GHPO),實現了動態樣本難度評估,并自適應地在強化學習和模仿學習之間切換。

如圖所示,GHPO 由兩個核心模塊組成:
- 自動化難度檢測:該模塊評估當前問題的內在難度,從而決定后續的學習過程。該模塊不需要提前標準或引入其他大模型作為輔助,僅需要基于每個樣本生成的解答的分布即可進行難度分類。該方案既能實現高效訓練且隨模型能力同步演進。
- 自適應提示切換:根據檢測到的難度,該模塊通過整合不同級別的標準解題路徑來引導模型進行探索學習。團隊提出了一種具有多階段指導的自適應提示優化策略,該策略動態調整提示比例 ω。這種動態提示注入的核心思想是一個由學習階段控制的線性調度。訓練過程中會首先應用一小部分真實解作為初始提示,如果模型未能生成正確響應,提示的長度將在后續階段逐漸增加。
基于以上的創新方案,GHPO 的目標函數可以表達為以下形式:

這種創新方法確保僅在模型真正需要時才提供對應指導,為模型當前能力范圍內的任務保留了有價值的探索,同時為更具挑戰性的場景提供了自適應的優化。
評測表現全面超越 GRPO 算法,代碼數據全面開源
GHPO 的代碼實現基于 Openr1 項目,訓練框架的選擇為 TRL,使用 vLLM 進行推理加速。團隊在 TRL 的代碼邏輯上直接實現了 GHPOTrainer,后續有望在 TRL 后續版本上集成。
實驗設計上,基于 Qwen2.5-7B-base 模型進行了多種 RLVR 算法的實現,包括 GRPO、DeepScaleR 的課程學習,以及固定比例提示作為基線,并基于開源數據準備了兩種不同難度設定的訓練集,驗證了 GHPO 算法在 6 個主流數學 Benchmark 上的表現:


結果表明 GHPO 算法相較于 GRPO 可以實現平均 4.5% 的性能提升。

同時 GHPO 在訓練過程中有著更加穩定的梯度更新。并且團隊進一步證明該算法可以應用到其他模型上,如 Qwen2.5-Math-7B。
進一步提供了詳細的案例展示:

總結與展望:GHPO 推動了強化學習與 SFT 之間的借鑒融合
自從 DeepSeek-R1 問世后,以 GRPO 為代表的強化學習算法一度成為大模型后訓練的熱點,相較于 SFT,被認為能帶來更強的模型泛化能力。GHPO 不僅以一種巧妙地方式緩解了 RLVR 訓練獎勵信號稀疏帶來的訓練不穩定問題,同時實現了 on-policy 強化學習與模仿學習的自適應調整,為社區提供重新看待 SFT 與 RL 的視角以及提供兩者未來深度融合的可能性,助力人類進一步探索人工智能本質。




































