精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法 精華

發布于 2025-2-19 11:54
瀏覽
0收藏

大語言模型(LLM)的發展可謂日新月異。大家都知道,LLM 的訓練過程很復雜,其中有兩個關鍵階段:預訓練和后訓練。今天咱們就來深入聊聊在這一過程中發揮重要作用的近端策略優化(PPO)算法和組相對策略優化(GRPO)算法。這倆算法不僅在學術圈備受關注,在實際應用中也有著舉足輕重的地位,理解它們,能讓你更懂 LLM 是如何一步步變得這么 “聰明” 的!

一、從 LLM 訓練說起

LLM 的訓練如同一場漫長而復雜的旅程,主要分為預訓練和后訓練兩個大階段。

  • 預訓練:這是基礎積累階段,模型就像一個勤奮的學生,在大規模網頁數據的知識海洋里學習,通過下一個詞預測任務,不斷積累背景知識,為后續學習打下基礎。這個過程就像是我們學習新知識時,先廣泛閱讀各種資料,建立起基本的認知框架。
  • 后訓練:旨在提升模型的推理能力,又細分為兩個階段。

a.監督微調(SFT):可以理解為老師針對學生的薄弱環節進行專項輔導。它利用少量高質量的專家推理數據,讓模型學習如何模仿專家的解題思路和方法,像指令遵循、問答以及思維鏈等能力都是在這個階段培養的。

b.強化學習從人類反饋(RLHF):當專家數據有限時,RLHF 就派上用場了。它借助人類的反饋來訓練獎勵模型,再由獎勵模型引導 LLM 學習,使模型的輸出更符合人類的偏好。比如學生做完作業后,老師根據作業情況給予反饋,學生根據老師的反饋來改進自己的學習方法。

不過,DeepSeek 的 R1 - zero 模型卻走出了一條與眾不同的路。它直接跳過 SFT 階段,將 RL 直接應用到基礎模型上。這樣做帶來了不少好處,計算效率提高了,模型能夠通過自主探索實現推理能力的 “自我進化”,還避免了 SFT 數據可能引入的偏差。當然,這一切的前提是要有一個非常出色的基礎模型。

不僅如此,DeepSeek 還引入 GRPO 算法替代 PPO 來優化 RLHF 部分。這一改變可不得了,直接減少了對價值函數(也就是 critic 模型,通常和策略模型一樣大)的需求,內存和計算開銷降低了約 50%,大大提高了訓練效率。

二、RLHF 的工作流程揭秘

在深入了解 PPO 和 GRPO 之前,我們先來揭開 RLHF 的神秘面紗。RLHF 的工作流程主要分為四步:

  1. 采樣:針對每個提示,模型會生成多個響應。就好比老師提出一個問題,學生們會給出各種各樣的答案。
  2. 排序:人類根據這些答案的質量進行排序,判斷哪個回答得好,哪個還有提升空間。這一步就像是老師批改作業,給學生的答案打分。
  3. 訓練獎勵模型:由于讓人類對模型的所有輸出進行打分不太現實,所以采用一種節省成本的方法,讓標注人員對 LLM 輸出的一小部分進行評分,然后訓練一個獎勵模型,讓它學會預測標注人員的偏好。這個獎勵模型就像是一個智能打分器,經過訓練后能模擬人類的評價標準。
  4. 微調模型:使用 RL 算法(如 PPO、GRPO)對 LLM 進行微調,讓模型在獎勵模型的引導下,不斷提高自己的得分。這就好比學生根據老師的反饋和打分,不斷調整自己的學習方法,努力提高成績。

在這個過程中,獎勵模型和 RL 算法是兩個核心組件,接下來咱們就重點講講它們。

三、獎勵模型:模擬人類評價的 “小能手”

一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法-AI.x社區

四、PPO:復雜而強大的優化算法

PPO(近端策略優化)在 RLHF 中起著至關重要的作用,它包含幾個關鍵組件:

  • 策略(Policy):就是經過預訓練或 SFT 的 LLM,它負責生成對提示的響應,就像學生根據自己學到的知識回答問題一樣。
  • 獎勵模型(Reward model):這是一個已經訓練好并凍結的網絡,根據完整響應給出標量獎勵,相當于老師根據學生完整的回答給出一個具體的分數。
  • 評論家(Critic,也叫值函數):它是一個可學習的網絡,根據部分響應預測標量獎勵,有點像老師在學生回答問題的過程中,根據學生已經回答的部分,預測最終可能得到的分數。

PPO 的工作流程如下:

  1. 生成響應:LLM 根據提示生成多個響應。
  2. 打分:獎勵模型給每個響應分配獎勵。
  3. 計算優勢:這里用到了通用優勢估計(GAE)方法。優勢的概念是特定動作(比如生成的某個詞)相較于平均動作的優勢程度。計算優勢有兩種常見方法:

a.蒙特卡洛(MC)方法:利用完整軌跡的獎勵,雖然偏差小,但方差高。這是因為獎勵比較稀疏,就像在學習過程中,只有偶爾幾次考試成績能作為評價依據,獲取足夠樣本進行優化的成本高。

b.時間差分(TD)方法:用一步軌跡獎勵,方差低了,但偏差又高了。這就好比只根據學生某一次的課堂表現來評價他的整體學習情況,難以準確預測部分響應的最終獎勵。

c.GAE:為了平衡這兩者,通過多步 TD 來計算優勢。不過,由于不完整響應的獎勵為 0,所以需要評論家模型來預測獎勵,從而計算 TD 誤差。

  1. 優化策略:通過優化總目標來更新 LLM,讓模型生成的每個詞都能最大化獎勵,就像學生努力讓自己每次回答問題都能得到更高的分數。
  2. 更新評論家:訓練值函數,讓它能更準確地預測部分響應的獎勵,以便更好地指導策略的優化。

PPO 的目標函數包含幾個部分:

  1. 裁剪的替代目標:通過限制策略更新的概率比,讓模型在追求高優勢動作的同時,避免過度自信,防止策略過于偏向某個動作。比如,在選擇答案時,避免模型過于依賴某一種解題思路。
  2. 熵獎勵:鼓勵模型探索更多的可能性,避免生成過于單一的結果,讓模型的回答更加多樣化。
  3. KL 懲罰:防止當前策略偏離原始模型太遠,保證訓練的穩定性,確保模型在優化過程中不會 “跑偏”。
  4. 評論家的 L2 損失:用于優化評論家模型,使其能更好地預測獎勵,提高評價的準確性。

5. GRPO:PPO 的精簡升級版本

GRPO 是對 PPO 的改進,理解了 PPO,GRPO 就很好懂啦。它和 PPO 的關鍵區別在于估計優勢的方式。GRPO 不再依賴評論家模型,而是通過對同一提示生成的多個響應來計算優勢。

GRPO 的工作流程是這樣的:

  1. 采樣:針對每個提示,從 LLM 策略中采樣一組響應。
  2. 計算獎勵:用獎勵模型給每個響應計算獎勵。
  3. 計算組歸一化優勢:將每個響應的獎勵減去組內平均獎勵,再除以組內標準差,得到歸一化的優勢,公式為:一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法-AI.x社區

GRPO 的目標函數和 PPO 類似,也包含裁剪的替代損失和 KL 懲罰,但沒有熵獎勵,因為基于組的采樣方式本身就鼓勵了模型的探索。

6. DeepSeek R1 的極簡設計理念

DeepSeek R1 在 LLM 訓練上展現出一種獨特的 “極簡主義” 風格,除了前面提到的跳過 SFT 階段和使用 GRPO 算法,還有很多值得關注的設計:

  • 基于規則的確定性獎勵:拋棄了復雜的神經過程獎勵模型或結果獎勵模型,采用簡單的二進制檢查,如答案正確性、格式規范、語言一致性等檢查。比如,對于數學問題,檢查答案是否正確;對于代碼問題,檢查是否能正確編譯。這樣既避免了模型 “耍小聰明” 欺騙獎勵模型,又節省了獎勵模型的訓練成本。
  • 冷啟動數據:最小化人工干預:不再費力收集大規模的 SFT 數據集,而是通過少量高質量的思維鏈(CoT)示例,加上簡單的人工后處理,為 RL 訓練提供一個 “夠用” 的起點。這種方式避免了昂貴的 SFT 階段,同時又能讓模型快速啟動訓練。
  • 拒絕采樣:嚴格篩選,強化訓練:RL 訓練后,生成大量推理軌跡,只保留正確的響應用于監督微調,簡單粗暴但很有效。就像在眾多練習中,只挑選做對的題目進行深入分析,提高訓練的針對性。
  • 蒸餾:復制推理模式:訓練小模型時,直接在大模型生成的大量響應上進行微調,讓小模型繼承大模型通過暴力 RL 發現的推理模式,避免了小模型進行復雜 RL 訓練的成本。

這種設計理念體現了 AI 領域的一個趨勢:有時候,簡單直接的方法配合大規模的計算資源,比復雜的工程設計更能取得好的效果。

7. 小結

PPO 和 GRPO 作為 LLM 訓練中的重要算法,各自有著獨特的優勢和應用場景。

PPO 雖然復雜,但功能強大;

GRPO 則通過簡化設計,提高了訓練效率。

而 DeepSeek R1 的一系列創新設計,也為 LLM 的發展提供了新的思路。

本文轉載自??鴻煊的學習筆記??,作者: 乘風破浪jxj ????

收藏
回復
舉報
回復
相關推薦
亚洲aa在线| 高清精品在线| 国产毛片精品视频| 欧美精品videofree1080p| 亚洲激情 欧美| 色综合一本到久久亚洲91| 国产精品蜜臀av| 都市激情久久久久久久久久久| 偷偷操不一样的久久| 欧美综合一区| 亚洲国产精品成人va在线观看| 国产精品入口免费软件| 欧美精品videossex少妇| 久久久久亚洲综合| 成人动漫视频在线观看免费| 中文字幕日韩免费| 欧美日韩91| 最新国产精品拍自在线播放| 中文字幕乱视频| 性欧美video另类hd尤物| 精品欧美国产一区二区三区| 在线观看日本一区| 欧美日韩国产中文字幕在线| 国产一区二区三区四区在线观看| 日本亚洲欧美成人| 久草视频中文在线| 久久中文字幕av一区二区不卡| 亚洲精品一区二区三区蜜桃下载 | 亚洲欧美成人影院| 国产欧美一区二区三区在线看蜜臀| 99在线首页视频| 在线免费观看一区二区| 宅男噜噜噜66一区二区| 欧美第一页在线| 999精品在线视频| 国内精品久久久久久99蜜桃| 精品亚洲永久免费精品| 无码人妻久久一区二区三区蜜桃| 国产亚洲精彩久久| 在线免费视频一区二区| 国内自拍在线观看| 麻豆mv在线看| 亚洲国产欧美日韩另类综合| 特级西西444| 国产成人无吗| 1000部国产精品成人观看| 亚洲电影一二三区| 最新真实国产在线视频| 国产日韩精品一区二区浪潮av| 久久综合中文色婷婷| 少妇高潮久久久| 成人h动漫精品一区二| 丁香五月网久久综合| 国产高清免费在线观看| 国产精品一区二区在线看| 成人性生交xxxxx网站| 亚洲天堂男人网| 久久精品国产**网站演员| 国产欧美日韩高清| 一级淫片免费看| 国产一区二区免费视频| 亚洲影影院av| 亚洲产国偷v产偷v自拍涩爱| 国产白丝精品91爽爽久久| 99在线看视频| 亚洲av激情无码专区在线播放| 97久久久精品综合88久久| 美媛馆国产精品一区二区| 精华区一区二区三区| 国产视频一区在线播放| 在线观看亚洲视频啊啊啊啊| 欧美一区二区三区在线观看免费| 亚洲欧美偷拍卡通变态| 国产freexxxx性播放麻豆| 三妻四妾的电影电视剧在线观看| 一本大道久久a久久综合 | 国产精品一区二区免费不卡 | 一区二区三区日本久久久| 亚洲另类激情图| 一本在线免费视频| 欧美日本二区| 日韩av黄色在线观看| 亚洲天堂手机在线| 粉嫩在线一区二区三区视频| 麻豆亚洲一区| 国产最新在线| 香蕉成人啪国产精品视频综合网| 国产成人久久777777| 国模私拍国内精品国内av| 日韩精品一区二区三区蜜臀| 熟妇高潮精品一区二区三区| 日韩av在线播放网址| 另类天堂视频在线观看| www.日本精品| 久草这里只有精品视频| 国产精品久久久久久久久婷婷| 三级理论午夜在线观看| 18欧美亚洲精品| 国产一区二区网| 久久三级毛片| 亚洲第一福利网| 992在线观看| 亚洲毛片一区| 成人自拍性视频| 久草在线网址| 亚洲午夜一区二区| 亚洲精品手机在线观看| 粉嫩的18在线观看极品精品| 日韩在线精品一区| 欧美精品二区三区| 国产成人精品免费| 亚洲7777| 人成在线免费网站| 日韩欧美激情四射| 欧美福利在线视频| 久久不射网站| 国产综合18久久久久久| av在线免费播放| 欧美私模裸体表演在线观看| 免费的av网站| 欧美精品黄色| 91在线高清视频| 成人精品一区二区三区免费 | 99国产精品国产精品毛片| 永久久久久久| 欧美123区| 精品无人区太爽高潮在线播放| 老妇女50岁三级| 久久精品国产亚洲aⅴ| 明星裸体视频一区二区| 国产v日韩v欧美v| 精品国产乱码久久久久久夜甘婷婷| 国产精品18在线| 奇米精品一区二区三区在线观看| 精品一区二区三区国产| 国产乱妇乱子在线播视频播放网站| 欧美日韩黄色一区二区| 久久久久亚洲av无码a片| 国产精品丝袜xxxxxxx| 国产一区免费在线| 91色在线看| 精品久久久三级丝袜| 在线免费日韩av| 国产在线视频一区二区三区| 伊人久久大香线蕉av一区| 99久久精品一区二区成人| 亚洲精品影视在线观看| 亚洲GV成人无码久久精品| 91女厕偷拍女厕偷拍高清| 国产精品一区二区免费在线观看| 加勒比久久高清| 韩日欧美一区二区| 天天干天天舔天天射| 午夜精品视频一区| 国产三级国产精品| 免费亚洲一区| 日韩精品大片| 亚洲一区有码| 欧美成人四级hd版| 欧美一级做性受免费大片免费 | 国产在线观看黄色| 久久综合一区二区| av网站在线观看不卡| 自拍偷拍一区| 国产日韩欧美另类| free性欧美hd另类精品| 精品国产3级a| 黑人精品无码一区二区三区AV| 久久久久免费观看| 自拍偷拍一区二区三区四区| 香蕉视频国产精品 | av中文字幕免费在线观看| 一区二区在线观看视频 | av不卡一区| 91精品国产91久久久久久久久| 欧美女优在线| 欧美色图在线观看| 九九视频在线观看| 91在线一区二区| 国产真人无码作爱视频免费| 欧美在线免费看视频| 亚洲自拍偷拍福利| 亚洲女同志freevdieo| 色噜噜亚洲精品中文字幕| 国产wwwxxx| 欧美性猛交xxxx免费看| 乱老熟女一区二区三区| 成人动漫av在线| 欧美日韩一区二区三区69堂| 精品福利电影| 亚洲视频小说| 激情小说一区| 国产欧美精品一区二区| 九色porny视频在线观看| 色狠狠av一区二区三区香蕉蜜桃| 深爱五月激情五月| 欧美久久久久久久久久| 欧美一二三区视频| 国产精品久久久久久久裸模| 中文字幕人妻一区| 麻豆91精品视频| 777精品久无码人妻蜜桃| 成人羞羞网站入口| 精品在线视频一区二区| 亚洲男人在线| 国产精品18久久久久久首页狼 | 亚洲精品久久久久久| 久久狠狠一本精品综合网| 特级西西444| 日韩在线观看一区 | 欧美色图另类| 日韩欧美在线综合网| 激情网站在线观看| 性久久久久久久| 多男操一女视频| 久久久久久久免费视频了| 国产吃瓜黑料一区二区| 久久精品国产亚洲aⅴ| 97xxxxx| 亚洲高清久久| 可以在线看黄的网站| 成人午夜av| 日本10禁啪啪无遮挡免费一区二区| 亚洲乱码一区| 91久久久久久久| 免费污视频在线一区| 91高清视频免费观看| 天天色天天射天天综合网| 日韩性xxxx爱| 91这里只有精品| 国产午夜精品视频免费不卡69堂| 五月婷婷在线观看视频| 欧美刺激脚交jootjob| av加勒比在线| 欧美一区二区三区在线视频| 在线观看视频二区| 欧美丝袜第三区| www.久久视频| 91久久精品一区二区三| 亚洲s码欧洲m码国产av| 黑人巨大精品欧美一区二区一视频| 国产一级一片免费播放| 洋洋av久久久久久久一区| 农村黄色一级片| 亚洲最新在线观看| 精品午夜福利在线观看| 亚洲国产视频一区二区| 国产一级在线观看视频| 亚洲成人免费在线| www.毛片.com| 91官网在线观看| 中文字幕理论片| 欧美日韩亚州综合| 国产一区二区在线不卡| 日韩一级片在线播放| www.四虎在线观看| 精品国产第一区二区三区观看体验| 亚洲经典一区二区| 亚洲国产精品人久久电影| 天堂资源中文在线| 日韩不卡中文字幕| 国产系列在线观看| 啊v视频在线一区二区三区 | 国产91精品久久久久久久| 美女100%一区| 国产主播精品在线| 亚洲免费一区三区| 久久亚洲免费| 日韩欧美网站| 草草草视频在线观看| 亚洲精品一二| 在线免费视频a| 国产剧情一区二区| 一区二区免费在线观看视频| 久久久午夜精品理论片中文字幕| 国产91丝袜美女在线播放| 中文字幕一区三区| 久久精品免费在线| 日本韩国精品在线| 99久久免费国产精精品| 日韩风俗一区 二区| 91欧美在线视频| 色综合色综合网色综合 | 成人午夜高潮视频| 久久亚洲道色| 天天综合色天天综合色hd| 一区二区在线| 欧美女人性生活视频| 精久久久久久久久久久| japanese在线观看| 国产精品色噜噜| 久久精品国产亚洲av高清色欲| 一本一本大道香蕉久在线精品 | 成人高清免费观看| 免费在线观看a视频| 亚洲一区二区在线免费看| 国产精品乱码一区二区视频| 日韩天堂在线观看| 国产小视频免费在线网址| 欧美黑人一级爽快片淫片高清| 成人做爰视频www网站小优视频| 99porn视频在线| 欧美综合一区| 国产精品秘入口18禁麻豆免会员| 国产在线一区二区| 亚洲午夜久久久久久久国产| 亚洲va韩国va欧美va| 夜夜躁狠狠躁日日躁av| 日韩电影在线观看中文字幕| 黄网站免费在线观看| 日韩av大片免费看| 伊人久久影院| 这里只有精品66| 久久经典综合| 免费看三级黄色片| 中文字幕欧美一| 欧美男人天堂网| 日韩av网址在线观看| 伊人电影在线观看| 91精品国产综合久久香蕉922| 美女精品一区最新中文字幕一区二区三区| 永久免费网站视频在线观看| 热久久一区二区| mm131丰满少妇人体欣赏图| 亚洲成人免费影院| 国产77777| 欧美黑人视频一区| 色悠久久久久综合先锋影音下载| 亚洲国产午夜伦理片大全在线观看网站 | 久久久国产精品一区| 97精品国产综合久久久动漫日韩| 精品在线观看一区二区| 亚洲激情精品| 99riav国产精品视频| 一区二区三区免费观看| 99久久久无码国产精品免费| 久久天天躁夜夜躁狠狠躁2022| 国产精品传媒麻豆hd| 性欧美.com| 美国十次了思思久久精品导航| 亚洲午夜精品久久久久久高潮| 日韩欧美国产激情| 内衣办公室在线| 日本久久久久久久久久久| 国产成人黄色| 特级丰满少妇一级| 中文字幕一区三区| 国产成人毛毛毛片| 久久久久久91香蕉国产| 91久久偷偷做嫩草影院电| 女人被男人躁得好爽免费视频| 大尺度一区二区| 日韩伦人妻无码| 精品无人区乱码1区2区3区在线| 在线精品亚洲欧美日韩国产| 麻豆91av| 日韩成人午夜精品| 极品美妇后花庭翘臀娇吟小说| 欧美群妇大交群的观看方式| 好了av在线| 国产精品区一区| 性久久久久久| 国产在线综合视频| 51精品视频一区二区三区| 欧美v亚洲v| 久久综合九色综合久99| 免费国产亚洲视频| 国产大片免费看| 亚洲国产精品嫩草影院久久| 都市激情亚洲一区| 亚洲美女自拍偷拍| www.亚洲人| 亚洲无码精品一区二区三区| 色偷偷888欧美精品久久久| 欧美电影在线观看一区| 少妇无码av无码专区在线观看| 国产三级三级三级精品8ⅰ区| 国产精品国产三级国产普通话对白| 美女少妇精品视频| 天天做夜夜做人人爱精品| 色戒在线免费观看| 污片在线观看一区二区| 超碰国产在线| 成人在线免费网站| 日韩国产在线观看| 国产亚洲精品久久久久久无几年桃| 亚洲毛片在线看| 免费一区二区三区在线视频| av在线播放亚洲| 国产精品久久久久久妇女6080| 亚洲精品一区二区三区蜜桃| 国产精品观看在线亚洲人成网| 欧美a级在线| 国产手机在线观看| 亚洲精品一区二区三区影院 | 黄网站免费在线观看| 久久久免费看| 国产成人在线视频网站| 精品视频一二三区| 91精品国产色综合久久不卡98|