一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法精華

發布于 2025-2-19 11:54

瀏覽

0收藏

大語言模型（LLM）的發展可謂日新月異。大家都知道，LLM 的訓練過程很復雜，其中有兩個關鍵階段：預訓練和后訓練。今天咱們就來深入聊聊在這一過程中發揮重要作用的近端策略優化（PPO）算法和組相對策略優化（GRPO）算法。這倆算法不僅在學術圈備受關注，在實際應用中也有著舉足輕重的地位，理解它們，能讓你更懂 LLM 是如何一步步變得這么 “聰明” 的！

一、從 LLM 訓練說起

LLM 的訓練如同一場漫長而復雜的旅程，主要分為預訓練和后訓練兩個大階段。

預訓練：這是基礎積累階段，模型就像一個勤奮的學生，在大規模網頁數據的知識海洋里學習，通過下一個詞預測任務，不斷積累背景知識，為后續學習打下基礎。這個過程就像是我們學習新知識時，先廣泛閱讀各種資料，建立起基本的認知框架。
后訓練：旨在提升模型的推理能力，又細分為兩個階段。

a.監督微調（SFT）：可以理解為老師針對學生的薄弱環節進行專項輔導。它利用少量高質量的專家推理數據，讓模型學習如何模仿專家的解題思路和方法，像指令遵循、問答以及思維鏈等能力都是在這個階段培養的。

b.強化學習從人類反饋（RLHF）：當專家數據有限時，RLHF 就派上用場了。它借助人類的反饋來訓練獎勵模型，再由獎勵模型引導 LLM 學習，使模型的輸出更符合人類的偏好。比如學生做完作業后，老師根據作業情況給予反饋，學生根據老師的反饋來改進自己的學習方法。

不過，DeepSeek 的 R1 - zero 模型卻走出了一條與眾不同的路。它直接跳過 SFT 階段，將 RL 直接應用到基礎模型上。這樣做帶來了不少好處，計算效率提高了，模型能夠通過自主探索實現推理能力的 “自我進化”，還避免了 SFT 數據可能引入的偏差。當然，這一切的前提是要有一個非常出色的基礎模型。

不僅如此，DeepSeek 還引入 GRPO 算法替代 PPO 來優化 RLHF 部分。這一改變可不得了，直接減少了對價值函數（也就是 critic 模型，通常和策略模型一樣大）的需求，內存和計算開銷降低了約 50%，大大提高了訓練效率。

二、RLHF 的工作流程揭秘

在深入了解 PPO 和 GRPO 之前，我們先來揭開 RLHF 的神秘面紗。RLHF 的工作流程主要分為四步：

采樣：針對每個提示，模型會生成多個響應。就好比老師提出一個問題，學生們會給出各種各樣的答案。
排序：人類根據這些答案的質量進行排序，判斷哪個回答得好，哪個還有提升空間。這一步就像是老師批改作業，給學生的答案打分。
訓練獎勵模型：由于讓人類對模型的所有輸出進行打分不太現實，所以采用一種節省成本的方法，讓標注人員對 LLM 輸出的一小部分進行評分，然后訓練一個獎勵模型，讓它學會預測標注人員的偏好。這個獎勵模型就像是一個智能打分器，經過訓練后能模擬人類的評價標準。
微調模型：使用 RL 算法（如 PPO、GRPO）對 LLM 進行微調，讓模型在獎勵模型的引導下，不斷提高自己的得分。這就好比學生根據老師的反饋和打分，不斷調整自己的學習方法，努力提高成績。

在這個過程中，獎勵模型和 RL 算法是兩個核心組件，接下來咱們就重點講講它們。

三、獎勵模型：模擬人類評價的 “小能手”

一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法-AI.x社區

四、PPO：復雜而強大的優化算法

PPO（近端策略優化）在 RLHF 中起著至關重要的作用，它包含幾個關鍵組件：

策略（Policy）：就是經過預訓練或 SFT 的 LLM，它負責生成對提示的響應，就像學生根據自己學到的知識回答問題一樣。
獎勵模型（Reward model）：這是一個已經訓練好并凍結的網絡，根據完整響應給出標量獎勵，相當于老師根據學生完整的回答給出一個具體的分數。
評論家（Critic，也叫值函數）：它是一個可學習的網絡，根據部分響應預測標量獎勵，有點像老師在學生回答問題的過程中，根據學生已經回答的部分，預測最終可能得到的分數。

PPO 的工作流程如下：

生成響應：LLM 根據提示生成多個響應。
打分：獎勵模型給每個響應分配獎勵。
計算優勢：這里用到了通用優勢估計（GAE）方法。優勢的概念是特定動作（比如生成的某個詞）相較于平均動作的優勢程度。計算優勢有兩種常見方法：

a.蒙特卡洛（MC）方法：利用完整軌跡的獎勵，雖然偏差小，但方差高。這是因為獎勵比較稀疏，就像在學習過程中，只有偶爾幾次考試成績能作為評價依據，獲取足夠樣本進行優化的成本高。

b.時間差分（TD）方法：用一步軌跡獎勵，方差低了，但偏差又高了。這就好比只根據學生某一次的課堂表現來評價他的整體學習情況，難以準確預測部分響應的最終獎勵。

c.GAE：為了平衡這兩者，通過多步 TD 來計算優勢。不過，由于不完整響應的獎勵為 0，所以需要評論家模型來預測獎勵，從而計算 TD 誤差。

優化策略：通過優化總目標來更新 LLM，讓模型生成的每個詞都能最大化獎勵，就像學生努力讓自己每次回答問題都能得到更高的分數。
更新評論家：訓練值函數，讓它能更準確地預測部分響應的獎勵，以便更好地指導策略的優化。

PPO 的目標函數包含幾個部分：

裁剪的替代目標：通過限制策略更新的概率比，讓模型在追求高優勢動作的同時，避免過度自信，防止策略過于偏向某個動作。比如，在選擇答案時，避免模型過于依賴某一種解題思路。
熵獎勵：鼓勵模型探索更多的可能性，避免生成過于單一的結果，讓模型的回答更加多樣化。
KL 懲罰：防止當前策略偏離原始模型太遠，保證訓練的穩定性，確保模型在優化過程中不會 “跑偏”。
評論家的 L2 損失：用于優化評論家模型，使其能更好地預測獎勵，提高評價的準確性。

5. GRPO：PPO 的精簡升級版本

GRPO 是對 PPO 的改進，理解了 PPO，GRPO 就很好懂啦。它和 PPO 的關鍵區別在于估計優勢的方式。GRPO 不再依賴評論家模型，而是通過對同一提示生成的多個響應來計算優勢。

GRPO 的工作流程是這樣的：

采樣：針對每個提示，從 LLM 策略中采樣一組響應。
計算獎勵：用獎勵模型給每個響應計算獎勵。
計算組歸一化優勢：將每個響應的獎勵減去組內平均獎勵，再除以組內標準差，得到歸一化的優勢，公式為：

GRPO 的目標函數和 PPO 類似，也包含裁剪的替代損失和 KL 懲罰，但沒有熵獎勵，因為基于組的采樣方式本身就鼓勵了模型的探索。

6. DeepSeek R1 的極簡設計理念

DeepSeek R1 在 LLM 訓練上展現出一種獨特的 “極簡主義” 風格，除了前面提到的跳過 SFT 階段和使用 GRPO 算法，還有很多值得關注的設計：

基于規則的確定性獎勵：拋棄了復雜的神經過程獎勵模型或結果獎勵模型，采用簡單的二進制檢查，如答案正確性、格式規范、語言一致性等檢查。比如，對于數學問題，檢查答案是否正確；對于代碼問題，檢查是否能正確編譯。這樣既避免了模型 “耍小聰明” 欺騙獎勵模型，又節省了獎勵模型的訓練成本。
冷啟動數據：最小化人工干預：不再費力收集大規模的 SFT 數據集，而是通過少量高質量的思維鏈（CoT）示例，加上簡單的人工后處理，為 RL 訓練提供一個 “夠用” 的起點。這種方式避免了昂貴的 SFT 階段，同時又能讓模型快速啟動訓練。
拒絕采樣：嚴格篩選，強化訓練：RL 訓練后，生成大量推理軌跡，只保留正確的響應用于監督微調，簡單粗暴但很有效。就像在眾多練習中，只挑選做對的題目進行深入分析，提高訓練的針對性。
蒸餾：復制推理模式：訓練小模型時，直接在大模型生成的大量響應上進行微調，讓小模型繼承大模型通過暴力 RL 發現的推理模式，避免了小模型進行復雜 RL 訓練的成本。

這種設計理念體現了 AI 領域的一個趨勢：有時候，簡單直接的方法配合大規模的計算資源，比復雜的工程設計更能取得好的效果。

7. 小結

PPO 和 GRPO 作為 LLM 訓練中的重要算法，各自有著獨特的優勢和應用場景。

PPO 雖然復雜，但功能強大；

GRPO 則通過簡化設計，提高了訓練效率。

而 DeepSeek R1 的一系列創新設計，也為 LLM 的發展提供了新的思路。

本文轉載自??鴻煊的學習筆記??，作者：乘風破浪jxj ????

標簽

PPO

LLM

訓練

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法精華

一、從 LLM 訓練說起

二、RLHF 的工作流程揭秘

三、獎勵模型：模擬人類評價的 “小能手”

四、PPO：復雜而強大的優化算法

5. GRPO：PPO 的精簡升級版本

6. DeepSeek R1 的極簡設計理念

7. 小結

目錄

51CTO

51CTO博客

51CTO學堂

一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法 精華

一、從 LLM 訓練說起

二、RLHF 的工作流程揭秘

三、獎勵模型：模擬人類評價的 “小能手”

四、PPO：復雜而強大的優化算法

5. GRPO：PPO 的精簡升級版本

6. DeepSeek R1 的極簡設計理念

7. 小結

目錄

一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法精華