大型語言模型穩定強化學習的新路徑:幾何平均策略優化GMPO
本文主要作者:趙毓鐘,中國科學院大學在讀博士,微軟亞洲研究院 MSRA 實習生,主要研究方向為多模態學習、語言模型后訓練。劉悅,中國科學院大學在讀博士,微軟亞洲研究院 MSRA 實習生,主要研究方向為視覺表征模型。
指導老師:萬方,中國科學院大學計算機學院副教授,博導。葉齊祥,中國科學院大學電子學院教授,博導。 崔磊,微軟亞洲研究院通用人工智能組(GenAI)首席研究經理。韋福如,微軟亞洲研究院通用人工智能組(GenAI)杰出科學家。
近年來,強化學習(RL)在大型語言模型(LLM)的微調過程中,尤其是在推理能力提升方面,取得了顯著的成效。傳統的強化學習方法,如近端策略優化(Proximal Policy Optimization,PPO)及其變種,包括組相對策略優化(Group Relative Policy Optimization,GRPO),在處理復雜推理任務時表現出了強大的潛力。然而,盡管它們在許多場景下都表現良好,仍然面臨著在訓練過程中不穩定的問題,尤其是在處理帶有極端重要性加權獎勵時。幾何平均策略優化(Geometric-Mean Policy Optimization,GMPO),作為 GRPO 的穩定化版本,解決這一問題。本文將深入探討 GMPO 的原理、優勢,并通過理論分析和實驗驗證來展示其強大的效果。

- 論文標題:Geometric-Mean Policy Optimization
- 論文鏈接:https://arxiv.org/abs/2507.20673
- 開源代碼: https://github.com/callsys/GMPO

圖表 1 GMPO 和 GRPO 的對比。GRPO 優化算數平均獎勵、而 GMPO 優化幾何平均獎勵(左)。 在訓練過程中,GRPO 經常出現極端重要性采樣比率,更新不穩定,而 GMPO 有更穩定的重要性采樣比率,更新更加穩定(右)。
GRPO 面臨的挑戰
組相對策略優化(GRPO)是強化學習在大型語言模型微調中的重要進展。GRPO 通過優化 token 級獎勵的算術平均值來進行訓練(忽略了剪切操作):

然而算數平均對異常值十分敏感,在訓練過程中容易產生極端的重要性采樣比率(ps. 當前策略與舊策略分配給一個 token 的概率比)。在訓練過程中,重要性采樣比率(即當前策略與舊策略分配給一個標記的概率比)可能會大幅波動。這種波動導致策略更新不穩定。為了緩解這一問題,GRPO 引入了對重要性采樣比率的剪切操作,但這種方法并未完全解決穩定性問題,并且還過度限制模型更新幅度使得模型探索能力變弱,進而影響了模型的泛化能力。
GMPO:GRPO 的穩定化版本
GMPO 通過優化幾何平均來替代 GRPO 中的算術平均,解決了 GRPO 在訓練過程中容易受到異常值影響的問題。幾何平均本身對異常值更具魯棒性,因為它會相對抑制極端值的影響,從而使訓練過程更加穩定。GMPO 的訓練目標可以表示為:

這種簡單而有效的修改確保了 GMPO 在訓練過程中能夠更好地處理極端獎勵,從而避免了 GRPO 中常見的不穩定情況。
通過將 PPO 中的 token 級裁切策略引入 GMPO,我們得到了 GMPO 的完整公式:

為了維持計算的穩定性,GMPO 中的連乘操作和裁切操作被放在 log 域執行。GMPO 的偽代碼如下所示:

為了進一步理解為什么 GMPO 相比于 GRPO 更加穩定,我們推導并證明了 GMPO 在梯度層面上相對 GRPO 更加魯棒:

可以看到,GRPO 每個 token 的梯度受到了它自身的重要性采樣比率加權,容易受到極端值影響。GMPO 每個 token 的梯度則受到序列重要性采樣比率的幾何平均加權,不容易受到極端值影響。

圖表 2 不同剪切范圍和訓練步驟下的重要性采樣比率范圍。范圍越寬,表示策略更新越不穩定。與 GRPO(剪切范圍為 (0.8, 1.2))相比,GMPO 在剪切范圍為 (e?0.4, e0.4) 的情況下表現出更大的穩定性。
除了算數平均向幾何平均的變化,GMPO 還有兩個關鍵設計:
1. 在 token 級別進行裁切。不同于 DeepSeek-Math,在 DeepSeek-R1 中,GRPO 被定義在了序列級。序列級重要性采樣比率等效于 token 級重要性采樣比率的連乘,DeepSeek-R1 對序列級重要性采樣比率進行了裁切。GMPO 沒有跟隨 DeepSeek-R1 進行序列級別裁切,而是繼續跟隨 DeepSeek-Math 進行 token 級裁切。原因如下:
(1)與序列級別的剪切相比,詞元級別的剪切更加穩定。如圖 2 所示,序列級別剪切(GMPO-seqclip-(e?0.4,e0.4))的采樣范圍大于詞元級別剪切(GMPO (e?0.4,e0.4)),因此在優化過程中更容易產生極端梯度。
(2)序列級別的剪切相比 token 級別的剪切過于激進。一旦觸發,它會將整個序列中所有 token 的梯度置為零,可能會丟失來自序列中有價值部分的梯度信號。
2. 更寬的裁切。正如 DAPO 所示,剪切操作可能限制探索并導致早期的確定性策略,從而妨礙擴展過程。為了在不犧牲穩定性的情況下促進探索,DAPO 采用了剪切上限策略,將剪切范圍從 (0.8, 1.2) 輕微擴展至 (0.8, 1.28)。
如圖 1 所示,我們可視化了 GRPO 和 GMPO 在每個訓練步驟中的最大和最小重要性采樣比率。關鍵觀察結果如下:
(1)隨著訓練的進行,重要性采樣比率的范圍逐漸擴大,表明策略更新變得更為激進,穩定性降低。
(2)與 GRPO 相比,GMPO 保持了更穩定的采樣比率范圍,表明更新更加穩定。
(3)對于 GMPO,將剪切范圍從 (e?0.2,e0.2) 擴展至 (?∞,+∞) 會增加策略更新的不穩定性?;谶@些發現,我們通過將方程 4 中的剪切閾值 (?1,?2) 設置為 (e?0.4,e0.4) 來平衡訓練穩定性與探索性。這個范圍顯著大于 GRPO 和 DAPO,能鼓勵更大的探索,并提升性能。
GMPO 的優勢

與 GRPO 相比,GMPO 在以下幾個方面具有明顯的優勢:
1. 更穩定的策略更新:GMPO 的梯度更新更加穩定。
2. 更高的獎勵:與 GRPO 相比,GMPO 在簡單數據集 MATH Level 3-Level 5 上維持了相當的獎勵。在更難的 DeepScaleR 和多模態數據集 Geometry3K 上有更高的獎勵。
3. 減少過擬合的風險:相對于 GRPO,GMPO 自然地維持了和 RL 前模型的 KL 散度。通過保持較小的 KL 散度,GMPO 減少了過擬合的風險,有助于模型在更復雜的任務中取得更好的表現。
4. 更高的熵值:GMPO 在訓練過程中能夠保持更高的熵,支持更加持續的探索,避免了訓練過程中的早期收斂。
實驗驗證:GMPO 與 GRPO 的對比
為了驗證 GMPO 的有效性,我們在多個語言任務和多模態推理基準上進行了廣泛的實驗。實驗結果表明,GMPO 在多個數據集上顯著優于 GRPO,無論是在穩定性方面,還是在推理能力方面。
1. 語言任務:在語言推理任務中,GMPO 在五個數學推理基準上進行了測試,這些基準包含不同難度的數學問題,包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。實驗結果顯示:

2. 多模態任務:在多模態推理任務中,GMPO 在 Geometry3K 基準上進行了測試,該任務涉及幾何問題的解答。GMPO 相比 GRPO,在 Pass@1 準確率上提高了 1.4%,這表明 GMPO 在多模態任務中的應用潛力。

結論
Geometric-Mean Policy Optimization(GMPO)通過優化標記級獎勵的幾何平均值,成功克服了 GRPO 在訓練過程中面臨的不穩定性問題。與傳統的算術平均方法相比,GMPO 的策略更新更加穩定,探索能力更強,同時減少了過擬合的風險。通過廣泛的理論分析和實驗驗證,GMPO 在語言任務和多模態推理任務中都取得了顯著的優勢。
GMPO 的提出為未來強化學習在大型語言模型中的應用提供了一個更加可靠且可擴展的解決方案,為未來的研究奠定了堅實的基礎。隨著對 LLM 推理能力的不斷提升,GMPO 無疑將在推動更高效、更穩定的強化學習系統方面發揮重要作用。



































