NeurIPS 25 | GRPO進階版來了,GVPO重構大模型后訓練范式
大模型后訓練(post-training)正在成為 AI 進化的關鍵一環。從最早的 SFT(監督微調),再到近來大火的 GRPO,一條核心主線貫穿始終:如何讓大模型具有更強的推理能力、更好地對齊人類偏好,同時保持穩定和高效。
然而,GRPO 雖然在 DeepSeek-R1 等項目中大放異彩,但其訓練不穩定、超參數敏感的問題一直限制其大規模落地。
現在,作業幫團隊聯合香港科技大學(廣州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通過避免重要性采樣解決了 GRPO 的穩定性難題,并能在理論上提供了唯一最優解保證,并且在實驗中表現全面超越現有方法。

- 論文標題: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
- 論文鏈接:https://arxiv.org/abs/2504.19599
- 作者:張愷晨、洪煜中、鮑軍威、蔣宏飛、宋旸、洪定乾、熊輝
- 單位:作業幫教育科技有限公司、香港科技大學(廣州)
GVPO 設計動機
受到 DPO 的啟發,研究團隊也希望在 GRPO 的場景(即每個 prompt 進行多次采樣)下,同樣能夠利用 KL 約束下 Reward 最大化
的解析解:

但這里存在一個實際困難:公式中涉及的 Z (x),它需要對所有可能的采樣 y 進行期望計算,在實踐中幾乎不可行。為了解決這個問題,研究團隊發現:只要保證同一個 prompt 下所有采樣對應的梯度權重之和為 0,Z (x) 就會自然消掉,從而規避了這一計算難題。
GVPO 是什么?
基于這一思路,研究團隊首先提出了以梯度形式表示的 GVPO Loss:

其中
。
研究團隊進一步分析后發現,GVPO 擁有非常直觀的物理意義。其 Loss 等價于一個均方誤差損失(MSE Loss):

其中:
- 真實值
來自實際獎勵的中心距離; - 預測值
來自隱式獎勵(由當前策略與參考策略推導)。
換句話說,GVPO 在本質上是用 MSE Loss 讓「隱式獎勵」去逼近「真實獎勵」。
兩大關鍵優勢
1. 唯一最優解保證
基于 GVPO 的 MSE 形式,研究團隊從必要性和充分性兩方面嚴格證明:當且僅當 R_θ=R 時,GVPO 達到唯一最優解。換句話說,GVPO 的理論最優解正是 KL 約束下的獎勵最大化
的解。這一點在數學上確保了算法的有效性與穩定性,也為其在實際應用中的可靠表現提供了堅實保障。
2. 無須重要性采樣
研究團隊進一步發現,GVPO 的唯一最優解對訓練時的采樣分布幾乎沒有限制。除了常見的
和前一步
,GVPO 還能適配任意滿足條件
的分布 —— 而這種條件在當代大模型的 Softmax 解碼過程中天然成立。
這意味著 GVPO 能夠天然支持無需重要性采樣的 off-policy 訓練,在充分利用人類專家數據、蒸餾數據和歷史數據的同時,避免了重要性采樣常見的訓練不穩定問題,從而更契合大規模工業級應用場景。
三種分析視角:從不同角度理解 GVPO
研究團隊發現 GVPO 的核心思想可以從三個互補的分析視角來理解,每一種都對應著圖中展示的等價損失函數:

1. 負對數似然視角(NLL)
在這個視角下,GVPO 的損失函數可以表示為帶權重的負對數似然。一個關鍵點是:帶 KL 約束的 Policy Gradient 實際上可以看作 GVPO 在 on-policy 采樣下的特例。換句話說,GVPO 不僅涵蓋了傳統策略梯度方法的更新方式,還進一步解耦了采樣分布與學習策略,從而允許靈活地整合歷史數據和異構數據源,為大模型后訓練打開了更高效的訓練方式。
2. 均方誤差視角(MSE)
從 MSE 角度看,GVPO 的優化目標等價于最小化「隱式獎勵中心距離」與「實際獎勵中心距離」的偏差。這一解釋帶來直觀的物理含義:當隱式獎勵完全對齊實際獎勵時,損失達到最小。更重要的是,這種設計保證了 GVPO 收斂到唯一的、KL 約束下的全局最優解,為穩定訓練提供了理論保證。
3. 強化學習視角(RL)
RL 視角揭示了 GVPO 損失函數的三大組成部分:
- 組相對獎勵項:推動高回報響應占據更大概率;
- 方差正則項:自然引入適度探索,避免熵塌縮;
- 協方差正則項:作為正則化,抑制策略過度偏離參考策略,保障訓練穩定性。
這三種視角共同說明:GVPO 既有理論保證,又兼具靈活性和穩定性,將復雜的優化過程轉化為可解釋的數學框架。
實驗結果:全面勝出
研究團隊在數學推理任務上進行了系統對比。基座模型為 Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五個基準測試中:

GVPO 全面領先,不僅大幅提升基座模型表現,還超過 GRPO 和改進版 Dr.GRPO。在復雜推理任務中優勢尤為明顯。

此外,消融實驗顯示:
- GVPO 對超參數 β 不敏感,幾乎無需繁瑣調參。(Figure 2)
- GVPO 在采樣數量 k 增加時擴展性優異,并且小模型甚至能靠增加采樣追平大模型表現。(Figure 3)
- GVPO 支持混合采樣策略(歷史數據 + 新數據),進一步降低成本,并且連接了現代大模型研究和傳統強化學習探索策略研究。(Figure 4)
意義與前景
一句話總結:GVPO 讓后訓練從「經驗驅動」走向「理論保證」,既「穩」又「強」。
在大模型邁向通用智能的道路上,后訓練已經成為競爭焦點。GVPO 的提出,可能預示著下一代后訓練的范式轉變:
- 更穩定 → 降低大規模訓練的工程風險
- 更靈活 → 支撐更復雜的數據利用場景
- 更高效 → 在推理和對齊中獲得更佳的性價比
研究團隊認為,GVPO 為可靠、通用的大模型后訓練提供了全新范式。



































