一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法 精華
大語言模型(LLM)的發展可謂日新月異。大家都知道,LLM 的訓練過程很復雜,其中有兩個關鍵階段:預訓練和后訓練。今天咱們就來深入聊聊在這一過程中發揮重要作用的近端策略優化(PPO)算法和組相對策略優化(GRPO)算法。這倆算法不僅在學術圈備受關注,在實際應用中也有著舉足輕重的地位,理解它們,能讓你更懂 LLM 是如何一步步變得這么 “聰明” 的!
一、從 LLM 訓練說起
LLM 的訓練如同一場漫長而復雜的旅程,主要分為預訓練和后訓練兩個大階段。
- 預訓練:這是基礎積累階段,模型就像一個勤奮的學生,在大規模網頁數據的知識海洋里學習,通過下一個詞預測任務,不斷積累背景知識,為后續學習打下基礎。這個過程就像是我們學習新知識時,先廣泛閱讀各種資料,建立起基本的認知框架。
- 后訓練:旨在提升模型的推理能力,又細分為兩個階段。
a.監督微調(SFT):可以理解為老師針對學生的薄弱環節進行專項輔導。它利用少量高質量的專家推理數據,讓模型學習如何模仿專家的解題思路和方法,像指令遵循、問答以及思維鏈等能力都是在這個階段培養的。
b.強化學習從人類反饋(RLHF):當專家數據有限時,RLHF 就派上用場了。它借助人類的反饋來訓練獎勵模型,再由獎勵模型引導 LLM 學習,使模型的輸出更符合人類的偏好。比如學生做完作業后,老師根據作業情況給予反饋,學生根據老師的反饋來改進自己的學習方法。
不過,DeepSeek 的 R1 - zero 模型卻走出了一條與眾不同的路。它直接跳過 SFT 階段,將 RL 直接應用到基礎模型上。這樣做帶來了不少好處,計算效率提高了,模型能夠通過自主探索實現推理能力的 “自我進化”,還避免了 SFT 數據可能引入的偏差。當然,這一切的前提是要有一個非常出色的基礎模型。
不僅如此,DeepSeek 還引入 GRPO 算法替代 PPO 來優化 RLHF 部分。這一改變可不得了,直接減少了對價值函數(也就是 critic 模型,通常和策略模型一樣大)的需求,內存和計算開銷降低了約 50%,大大提高了訓練效率。
二、RLHF 的工作流程揭秘
在深入了解 PPO 和 GRPO 之前,我們先來揭開 RLHF 的神秘面紗。RLHF 的工作流程主要分為四步:
- 采樣:針對每個提示,模型會生成多個響應。就好比老師提出一個問題,學生們會給出各種各樣的答案。
- 排序:人類根據這些答案的質量進行排序,判斷哪個回答得好,哪個還有提升空間。這一步就像是老師批改作業,給學生的答案打分。
- 訓練獎勵模型:由于讓人類對模型的所有輸出進行打分不太現實,所以采用一種節省成本的方法,讓標注人員對 LLM 輸出的一小部分進行評分,然后訓練一個獎勵模型,讓它學會預測標注人員的偏好。這個獎勵模型就像是一個智能打分器,經過訓練后能模擬人類的評價標準。
- 微調模型:使用 RL 算法(如 PPO、GRPO)對 LLM 進行微調,讓模型在獎勵模型的引導下,不斷提高自己的得分。這就好比學生根據老師的反饋和打分,不斷調整自己的學習方法,努力提高成績。
在這個過程中,獎勵模型和 RL 算法是兩個核心組件,接下來咱們就重點講講它們。
三、獎勵模型:模擬人類評價的 “小能手”

四、PPO:復雜而強大的優化算法
PPO(近端策略優化)在 RLHF 中起著至關重要的作用,它包含幾個關鍵組件:
- 策略(Policy):就是經過預訓練或 SFT 的 LLM,它負責生成對提示的響應,就像學生根據自己學到的知識回答問題一樣。
- 獎勵模型(Reward model):這是一個已經訓練好并凍結的網絡,根據完整響應給出標量獎勵,相當于老師根據學生完整的回答給出一個具體的分數。
- 評論家(Critic,也叫值函數):它是一個可學習的網絡,根據部分響應預測標量獎勵,有點像老師在學生回答問題的過程中,根據學生已經回答的部分,預測最終可能得到的分數。
PPO 的工作流程如下:
- 生成響應:LLM 根據提示生成多個響應。
- 打分:獎勵模型給每個響應分配獎勵。
- 計算優勢:這里用到了通用優勢估計(GAE)方法。優勢的概念是特定動作(比如生成的某個詞)相較于平均動作的優勢程度。計算優勢有兩種常見方法:
a.蒙特卡洛(MC)方法:利用完整軌跡的獎勵,雖然偏差小,但方差高。這是因為獎勵比較稀疏,就像在學習過程中,只有偶爾幾次考試成績能作為評價依據,獲取足夠樣本進行優化的成本高。
b.時間差分(TD)方法:用一步軌跡獎勵,方差低了,但偏差又高了。這就好比只根據學生某一次的課堂表現來評價他的整體學習情況,難以準確預測部分響應的最終獎勵。
c.GAE:為了平衡這兩者,通過多步 TD 來計算優勢。不過,由于不完整響應的獎勵為 0,所以需要評論家模型來預測獎勵,從而計算 TD 誤差。
- 優化策略:通過優化總目標來更新 LLM,讓模型生成的每個詞都能最大化獎勵,就像學生努力讓自己每次回答問題都能得到更高的分數。
- 更新評論家:訓練值函數,讓它能更準確地預測部分響應的獎勵,以便更好地指導策略的優化。
PPO 的目標函數包含幾個部分:
- 裁剪的替代目標:通過限制策略更新的概率比,讓模型在追求高優勢動作的同時,避免過度自信,防止策略過于偏向某個動作。比如,在選擇答案時,避免模型過于依賴某一種解題思路。
- 熵獎勵:鼓勵模型探索更多的可能性,避免生成過于單一的結果,讓模型的回答更加多樣化。
- KL 懲罰:防止當前策略偏離原始模型太遠,保證訓練的穩定性,確保模型在優化過程中不會 “跑偏”。
- 評論家的 L2 損失:用于優化評論家模型,使其能更好地預測獎勵,提高評價的準確性。
5. GRPO:PPO 的精簡升級版本
GRPO 是對 PPO 的改進,理解了 PPO,GRPO 就很好懂啦。它和 PPO 的關鍵區別在于估計優勢的方式。GRPO 不再依賴評論家模型,而是通過對同一提示生成的多個響應來計算優勢。
GRPO 的工作流程是這樣的:
- 采樣:針對每個提示,從 LLM 策略中采樣一組響應。
- 計算獎勵:用獎勵模型給每個響應計算獎勵。
- 計算組歸一化優勢:將每個響應的獎勵減去組內平均獎勵,再除以組內標準差,得到歸一化的優勢,公式為:

GRPO 的目標函數和 PPO 類似,也包含裁剪的替代損失和 KL 懲罰,但沒有熵獎勵,因為基于組的采樣方式本身就鼓勵了模型的探索。
6. DeepSeek R1 的極簡設計理念
DeepSeek R1 在 LLM 訓練上展現出一種獨特的 “極簡主義” 風格,除了前面提到的跳過 SFT 階段和使用 GRPO 算法,還有很多值得關注的設計:
- 基于規則的確定性獎勵:拋棄了復雜的神經過程獎勵模型或結果獎勵模型,采用簡單的二進制檢查,如答案正確性、格式規范、語言一致性等檢查。比如,對于數學問題,檢查答案是否正確;對于代碼問題,檢查是否能正確編譯。這樣既避免了模型 “耍小聰明” 欺騙獎勵模型,又節省了獎勵模型的訓練成本。
- 冷啟動數據:最小化人工干預:不再費力收集大規模的 SFT 數據集,而是通過少量高質量的思維鏈(CoT)示例,加上簡單的人工后處理,為 RL 訓練提供一個 “夠用” 的起點。這種方式避免了昂貴的 SFT 階段,同時又能讓模型快速啟動訓練。
- 拒絕采樣:嚴格篩選,強化訓練:RL 訓練后,生成大量推理軌跡,只保留正確的響應用于監督微調,簡單粗暴但很有效。就像在眾多練習中,只挑選做對的題目進行深入分析,提高訓練的針對性。
- 蒸餾:復制推理模式:訓練小模型時,直接在大模型生成的大量響應上進行微調,讓小模型繼承大模型通過暴力 RL 發現的推理模式,避免了小模型進行復雜 RL 訓練的成本。
這種設計理念體現了 AI 領域的一個趨勢:有時候,簡單直接的方法配合大規模的計算資源,比復雜的工程設計更能取得好的效果。
7. 小結
PPO 和 GRPO 作為 LLM 訓練中的重要算法,各自有著獨特的優勢和應用場景。
PPO 雖然復雜,但功能強大;
GRPO 則通過簡化設計,提高了訓練效率。
而 DeepSeek R1 的一系列創新設計,也為 LLM 的發展提供了新的思路。

















