精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法 精華

發布于 2025-4-15 07:34
瀏覽
0收藏

在大語言模型(LLMs)的飛速發展進程中,DeepSeek-R1 憑借出色的性能脫穎而出,吸引了無數目光。而它背后的 “秘密武器”——GRPO(Group Relative Policy Optimization)強化學習算法,更是成為大家熱議的焦點。今天,咱們就用通俗易懂的方式,深入剖析一下這個讓 DeepSeek-R1 大放異彩的 GRPO 算法!

1. GRPO 誕生的 “前因后果”

在大語言模型的微調環節,強化學習(RL)起著舉足輕重的作用。一直以來,近端策略優化(PPO)算法都是 LLM 微調的常用手段。但隨著模型規模越來越大,PPO 的問題逐漸暴露出來。

想象一下,PPO 就像是一個背著沉重背包的行者,這個背包就是與策略模型大小相當的價值網絡,用來估計優勢函數。在處理數十億甚至千億參數的大型語言模型時,維護和更新這個價值網絡,需要耗費大量的計算資源和內存空間,訓練過程變得又慢又艱難,就像行者被沉重背包拖累,舉步維艱。

而且,PPO 在更新策略時,就像一輛剎車不太靈的汽車,策略分布容易發生劇烈變化,導致訓練穩定性大打折扣。為了解決這些難題,DeepSeek 的研究人員經過不懈努力,研發出了 GRPO 算法,致力于讓大語言模型的訓練更加高效、穩定。

2. GRPO 的核心 “智慧”

GRPO 的核心思路十分巧妙,簡單來說,它不走尋常路,不再依賴傳統的價值網絡(也就是批評模型)來評估動作價值,而是通過組內相對獎勵來優化策略模型。

這就好比在學校里評選優秀學生,以前是每個學生單獨打分(依賴價值網絡評估每個動作價值),現在則是把學生分成小組,根據小組內每個學生的相對表現來評選(根據組內動作相對表現調整策略)。這樣做有不少好處:

  • 計算負擔大幅減輕:不用再維護價值網絡這個 “耗能大戶”,就像行者扔掉了沉重的背包,訓練過程中的內存占用和計算代價顯著降低。
  • 訓練穩定性顯著提高:通過組內比較來估計優勢函數,就像小組內互相競爭,大家的水平差距能更準確地體現出來,減少了策略更新的波動,讓訓練過程更加平穩。
  • 策略更新更易掌控:GRPO 引入了 KL 散度約束,這就像是給策略更新上了一把鎖,防止策略更新幅度過大,保持策略分布的穩定。

從數學角度看,GRPO 的目標是在保持策略更新穩定的同時,最大化預期累積獎勵。它的目標函數雖然有點復雜,但可以簡單理解為通過對采樣動作組的獎勵進行處理和約束,實現對策略模型的優化 。

3. GRPO 算法的 “操作指南”

3.1 采樣動作組

面對每個輸入狀態,GRPO 會像抽獎一樣,按照當前策略的概率分布,從眾多可能的動作中采樣出一組動作。這樣做能保證采樣的動作豐富多樣,就像抽獎時各種獎項都有機會被抽到,為后續的評估和優化提供更多可能性。

3.2 獎勵評估

每個采樣動作都會接受獎勵函數的 “考驗”,根據任務的不同,獎勵函數的評判標準也不一樣。在數學推理任務中,如果模型給出的答案正確,就能獲得較高的獎勵值;在代碼生成任務里,代碼能成功運行,獎勵值也會相應提高。

3.3 計算相對優勢

這一步是把每個動作的獎勵值進行歸一化處理,得到相對優勢。簡單理解,就是把每個動作的獎勵值放在一起比較,看看它在這組動作中的相對表現如何。

比如,大家考試后,老師不僅告訴你考了多少分,還會告訴你在班級里的排名情況,這個排名就類似于相對優勢。通過計算相對優勢,可以更準確地評估每個動作的優劣。

3.4 策略更新

根據計算出的相對優勢,GRPO 會對策略模型的參數進行調整。對于那些相對優勢為正的動作,就像班級里成績排名靠前的學生,會增加它們出現的概率;相對優勢為負的動作,則會減少概率。

3.5 KL 散度約束

為了避免策略更新 “失控”,GRPO 引入了 KL 散度約束。它就像一個 “穩壓器”,限制新舊策略之間的差異,確保策略分布的變化在合理范圍內,讓模型訓練更加穩定。

4. GRPO 與 PPO 的 “大對決”

一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法-AI.x社區

4.1 算法結構差異明顯

PPO 嚴重依賴價值網絡來估計優勢函數,價值網絡不僅計算復雜,還占用大量內存。而 GRPO 則果斷拋棄價值網絡,通過組內相對獎勵來估計優勢函數,大大減少了計算和存儲需求。

在獎勵計算方式上,PPO 使用廣義優勢估計(GAE),要綜合考慮每個動作的即時獎勵和未來獎勵的折扣總和,計算過程比較繁瑣。GRPO 則簡單直接,采樣一組動作計算獎勵值,歸一化后就得到相對優勢。

策略更新機制方面,PPO 通過裁剪概率比來控制策略更新幅度,GRPO 則引入 KL 散度約束,能更精準地調整策略更新的程度。計算效率上,PPO 因為價值網絡的拖累,在大規模語言模型訓練中速度較慢,GRPO 則憑借精簡的結構,計算效率更高,更適合大規模模型的微調。

4.2 優勢與局限各有不同

PPO 的優勢在于穩定性較好,通過裁剪概率比能有效防止策略更新過于激進,而且適用范圍廣,在多種強化學習任務中都能發揮不錯的效果。但它的局限也很明顯,計算負擔重,在大規模模型中,維護價值網絡成本太高;策略更新方差較大,會影響訓練的穩定性。

GRPO 的優勢突出:

  • 計算效率高,訓練速度比 PPO 快 30%,內存占用還能減少 50%;
  • 穩定性強,組內相對獎勵計算減少了策略更新的方差;
  • 可控性好,KL 散度約束讓策略更新更精細。

不過,GRPO 也有短板:

  • 每個狀態都要采樣一組動作,采樣成本較高;
  • 在獎勵信號稀疏的任務中,表現可能不如 PPO 穩定。

5. GRPO 在 DeepSeek-R1 中的 “實戰成果”

5.1 多階段訓練鑄就 “全能選手”

DeepSeek-R1 模型運用 GRPO 算法進行訓練,采用了多階段策略。

在監督微調(SFT)階段,用高質量標注數據對基礎模型進行 “打磨”,讓模型在特定任務上初步具備一定性能。

接著進入強化學習(RL)階段,按照 GRPO 算法流程,采樣動作組、評估獎勵、計算相對優勢、更新策略,不斷迭代優化。

然后通過拒絕采樣(RS)階段生成合成數據集,提升模型的通用性和連貫性。

最后在最終強化學習階段,再次運用 GRPO 算法,重點優化模型的實用性和無害性。

5.2 實驗成績相當亮眼

一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法-AI.x社區

一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法-AI.x社區

經過這樣的訓練,DeepSeek-R1 在各項任務中表現出色。

在 2024 年美國數學邀請賽(AIME)中,通過率 @1 得分高達 71.0%,相比未使用 GRPO 算法的模型,性能提升顯著。

代碼生成任務里,生成代碼的可運行性達到 85%,正確率達到 70%,能產出高質量代碼。

在寫作、角色扮演等通用任務中,模型的通用性和連貫性也很強。

而且,GRPO 算法讓訓練效率大幅提高,幫助 DeepSeek-R1 在更短時間內完成訓練,同時保持高性能。

6. GRPO 與 OpenAI RLHF 算法的 “大比拼”

OpenAI 的 RLHF 算法大名鼎鼎,它基于人類反饋,通過獎勵建模和強化學習來優化模型輸出,讓結果更符合人類偏好。和 GRPO 比起來,二者各有千秋。

  • 從算法原理看,GRPO 通過組內相對獎勵機制估計優勢函數,還加入 KL 散度正則項;RLHF 則依賴人類反饋進行獎勵建模和優化。
  • 訓練效率上,GRPO 簡化流程,計算開銷和內存需求低,訓練速度快;RLHF 訓練過程復雜,計算成本高。
  • 策略更新穩定性方面,GRPO 通過組內相對獎勵和 KL 散度正則化,更新穩定且可控;RLHF 的穩定性取決于獎勵模型的準確性和標注數據質量,容易出現偏差。
  • 應用場景中,GRPO 特別適合數學推理、代碼生成這類需要推理能力的任務;RLHF 通用性強,在聊天機器人、內容生成等優化模型輸出符合人類偏好的任務中表現出色。
  • 資源需求上,GRPO 對大規模語言模型更友好,資源需求低;RLHF 則需要大量人類標注數據和計算資源。
  • 模型性能上,GRPO 在特定任務(如數學推理)中解題準確率提升顯著;RLHF 生成的輸出更符合人類偏好,能減少有害內容生成。

GRPO 算法為大語言模型的訓練帶來了新的思路和方法,雖然它還有一些需要完善的地方,但在 DeepSeek-R1 中的成功應用,已經讓我們看到了它的巨大潛力。

本文轉載自??鴻煊的學習筆記??,作者:乘風破浪jxj

收藏
回復
舉報
回復
相關推薦
亚洲人成网站在线播放2019| 538国产精品一区二区在线 | 波多野结衣久久| av不卡免费在线观看| 国产精品成人一区| 久久综合综合久久| 国产日产一区| 亚洲国产精品嫩草影院久久| 中文久久久久久| 肉体视频在线| 国产精品私人自拍| 久久波多野结衣| 国产乱码精品一区二区| 国产精品色网| 久久国产天堂福利天堂| 中文字幕在线1| 天堂精品在线视频| 在线观看免费亚洲| 给我免费播放片在线观看| 天堂资源在线中文| 久久欧美一区二区| 国产精品亚洲一区| 国产免费一区二区三区最新不卡 | a在线观看免费视频| 91av久久| 悠悠色在线精品| 综合网五月天| av在线播放免费| 久久一区二区三区四区| 国产一区二区高清不卡| av手机免费看| 久久99久久99小草精品免视看| 啪一啪鲁一鲁2019在线视频| 免费一级肉体全黄毛片| 小说区亚洲自拍另类图片专区 | 成人免费视频网站| 夜夜狠狠擅视频| 视频在线在亚洲| 91国产在线精品| 久久网一区二区| 午夜久久黄色| 欧美刺激性大交免费视频| 北条麻妃在线观看视频| 欧美日韩国产免费观看视频| 亚洲精品视频中文字幕| av在线播放网址| 岛国精品一区| 亚洲成人精品在线| 国产吃瓜黑料一区二区| 在线一区二区三区视频| 日韩视频在线观看一区二区| 日韩视频在线观看一区二区三区| 欧美天堂一区| 在线不卡的av| 三级黄色片免费观看| 久久久久久爱| 日韩一级二级三级| jjzz黄色片| 欧美freesex8一10精品| 亚洲黄色www| 性久久久久久久久久久| 日韩电影不卡一区| 亚洲欧美视频在线| 丰满的亚洲女人毛茸茸| 欧美大人香蕉在线| 欧美成人精品激情在线观看 | 日本黄色特级片| 你懂的视频欧美| 国产亚洲欧洲高清| 黄色香蕉视频在线观看| 欧美日韩亚洲一区| 5252色成人免费视频| 亚洲av无码不卡| 另类综合日韩欧美亚洲| 亚洲综合在线播放| 五月婷婷在线观看视频| 国产亚洲成aⅴ人片在线观看| 亚洲国产精品综合| √天堂8在线网| 精品久久久国产精品999| 成人免费xxxxx在线视频| 免费视频成人| 欧美sm极限捆绑bd| 中文字幕国产综合| 午夜精品免费| 国产精品va在线播放我和闺蜜| 国产一区二区小视频| 国产福利精品一区| 欧美日韩一区综合| av免费在线观| 欧美在线影院一区二区| 丰满人妻一区二区三区53视频| 老牛国内精品亚洲成av人片| 自拍偷拍亚洲区| 久久综合亚洲色hezyo国产| 日日夜夜免费精品视频| 91精品国产91久久久久青草| 日韩porn| 亚洲精品国产一区二区精华液| 人妻少妇被粗大爽9797pw| 国产成人毛片| 亚洲精品理论电影| 污软件在线观看| 日韩专区一卡二卡| 国产激情一区二区三区在线观看 | 五月天福利视频| 国产精品美女久久久久aⅴ| 日韩伦理在线免费观看| 福利精品一区| 亚洲免费人成在线视频观看| 午夜国产福利一区二区| 日韩av在线发布| 国产精品日韩一区二区| 看黄网站在线| 欧美在线免费观看亚洲| 午夜不卡久久精品无码免费| 亚洲午夜精品一区 二区 三区| 国产精品91一区| 亚州男人的天堂| 亚洲最快最全在线视频| 中文字幕日韩综合| 成人vr资源| 国产97在线视频| 神马精品久久| 亚洲18女电影在线观看| 色综合久久久无码中文字幕波多| 日韩精品久久久久久久电影99爱| 日本欧美一二三区| 亚洲欧美一区二区三| 亚洲国产一区二区三区| 男插女视频网站| 午夜精品久久久久99热蜜桃导演| 国产日韩欧美另类| 中国日本在线视频中文字幕| 色综合视频在线观看| 午夜av免费看| 日韩网站在线| 久久国产一区二区| 中文在线а√在线8| 亚洲精品720p| 久久久国产高清| 91亚洲精品一区二区乱码| 麻豆tv在线播放| 极品国产人妖chinesets亚洲人妖| 欧美多人爱爱视频网站| 亚洲av无码一区二区三区性色| 亚洲免费看黄网站| 天堂在线精品视频| 欧美激情精品久久久六区热门| 亚洲综合一区二区不卡| 黄色成人在线网| 亚洲第一色中文字幕| 国产午夜精品无码| 99久久婷婷国产综合精品| 狠狠97人人婷婷五月| 在线成人动漫av| 国产精品高清免费在线观看| 色综合久久影院| 欧美一二三区精品| 久久精品国产亚洲AV无码麻豆| 国产99久久久精品| 欧美日韩黄色一级片| 伊人精品一区| 国产精品久久久久免费a∨大胸| 午夜伦理在线| 欧美一级日韩免费不卡| 国产精品a成v人在线播放| 99精品1区2区| 网站一区二区三区| 91精品二区| 国产在线一区二| 在线国产成人影院| 久久综合久久88| 五月激情丁香婷婷| 欧美军同video69gay| 免费在线观看黄色av| 久久你懂得1024| 特种兵之深入敌后| 国产精品毛片在线| 伊人婷婷久久| 红杏一区二区三区| 国产精品久久精品| 污污视频在线看| 亚洲欧美日韩高清| 国产精品久久久久久在线| 亚洲国产精品久久久男人的天堂| 人妻丰满熟妇aⅴ无码| 美女mm1313爽爽久久久蜜臀| 99久久免费观看| 精品产国自在拍| 岛国视频一区免费观看| 亚洲成人激情社区| 欧美成人精品xxx| 美国一级片在线免费观看视频| 91精品免费观看| 日本中文字幕第一页| 最新国产の精品合集bt伙计| 色天使在线视频| 国产在线播放一区三区四| 99re在线视频免费观看| 欧美日韩视频一区二区三区| 日韩三级电影网站| 国产精品对白久久久久粗| 国产精品欧美激情| 黄色激情在线播放| 欧美精品免费在线| 思思99re6国产在线播放| 日韩www在线| 国产成人精品免费看视频| 91精品办公室少妇高潮对白| 久久久无码精品亚洲国产| 中文字幕的久久| 巨胸大乳www视频免费观看| 国产精品系列在线观看| 人人干人人干人人| 久久av在线| r级无码视频在线观看| 午夜av一区| 亚洲国产欧洲综合997久久 | 中国一级特黄毛片| 尤物av一区二区| 国产成人综合在线视频| 国产精品你懂的| 免费看黄色的视频| 99re成人在线| 一区二区免费在线观看视频| 国产精品亚洲一区二区三区妖精| 九九热99视频| 奇米精品一区二区三区四区| 毛片一区二区三区四区| 国产精品视区| 69堂免费视频| 亚洲欧美日本国产专区一区| 成人性免费视频| 一区二区毛片| 欧美变态另类刺激| 国产乱码精品| 国产99久久九九精品无码| 9色精品在线| 国内性生活视频| 亚洲影音一区| 成人在线免费播放视频| 天堂精品中文字幕在线| aaa毛片在线观看| 久久一二三四| 日本特黄a级片| 精久久久久久久久久久| 中文字幕色网站| 国产精品99久久久久| 古装做爰无遮挡三级聊斋艳谭| 国产精品亚洲专一区二区三区| 国模大尺度视频| 不卡的看片网站| 在线免费观看a级片| 久久久综合网站| 欧美日韩生活片| 亚洲欧美日韩综合aⅴ视频| 国产盗摄x88av| 亚洲一区二区三区影院| 色婷婷在线观看视频| 欧美午夜www高清视频| 国产99久久久久久免费看| 欧美三级韩国三级日本一级| 97av免费视频| 精品嫩草影院久久| 欧美精品少妇| 北条麻妃在线一区二区| 美女网站视频在线| 2020国产精品视频| 亚洲国产91视频| 电影午夜精品一区二区三区| 亚洲精品动态| 一区二区三区四区五区视频| 午夜精品久久久久99热蜜桃导演 | 精品日韩欧美在线| 无套内谢的新婚少妇国语播放| 亚洲色图综合久久| 国产写真视频在线观看| 97精品免费视频| 成人日韩av| 国产精品久久精品国产| 国产欧美日韩精品一区二区三区 | 国产美女高潮在线观看| 国产精品av在线播放| 久久免费福利| 欧美精品123| 欧美激情视频一区二区三区在线播放 | 亚洲aaa视频| 亚洲高清在线精品| 中文字幕在线观看精品| 亚洲国产精品悠悠久久琪琪 | 亚洲天堂网中文字| 91精品国产乱码久久久张津瑜| 欧美在线影院一区二区| 欧洲av在线播放| 日韩在线高清视频| 亚洲精品mv| 99国产高清| 91久久夜色精品国产按摩| 大j8黑人w巨大888a片| 久久国产精品区| 亚洲国产无码精品| 亚洲一区二区三区四区不卡| 一二三四区视频| 亚洲久久久久久久久久久| 婷婷在线播放| 91精品久久久久久| 精品免费视频| 99精品人妻少妇一区二区| 国产精品影视天天线| 国产精品美女高潮无套| 亚洲成a人片综合在线| 国产精品视频第一页| 亚洲午夜色婷婷在线| 九九精品调教| 7777精品伊久久久大香线蕉语言| 精品免费在线| 欧美成人精品欧美一级乱| 成人美女在线观看| 久久久精品国产sm调教网站| 337p亚洲精品色噜噜| av在线二区| 国产精品久久久久久久久久久新郎 | 26uuu国产电影一区二区| 免费麻豆国产一区二区三区四区| 欧美日韩国产首页| 国产大学生校花援交在线播放| 91成品人片a无限观看| 精品国产一区二区三区不卡蜜臂 | 天堂蜜桃一区二区三区| 少妇精品一区二区| 性做久久久久久免费观看欧美| h狠狠躁死你h高h| 久久深夜福利免费观看| 成人乱码手机视频| 中文字幕色一区二区| 久久99精品久久久久婷婷| 精品人体无码一区二区三区| 欧美亚洲国产一区二区三区va| 国产日本在线| 国产精品成人一区| 久久国产精品亚洲人一区二区三区 | 中文字幕乱码一区二区免费| 成人黄色免费网| 最新国产成人av网站网址麻豆| 国产精品久久久久久吹潮| 午夜欧美性电影| 麻豆成人免费电影| 裸体武打性艳史| 欧美成人三级电影在线| 久久一卡二卡| 精品国产一区二区三区久久久久久 | 国产日韩欧美在线一区| 国产精品成人久久久| 丝袜一区二区三区| 精品国产鲁一鲁****| 中国丰满熟妇xxxx性| www.欧美日韩| 无码一区二区三区在线观看| 中文日韩在线观看| 国产精品**亚洲精品| bt天堂新版中文在线地址| zzijzzij亚洲日本少妇熟睡| www.国产高清| 影音先锋日韩有码| 日韩一区二区三区精品视频第3页| 成人短视频在线观看免费| 白白色 亚洲乱淫| 波多野结衣家庭主妇| 日韩在线高清视频| 久久成人福利| 日本www.色| 尤物在线观看一区| 欧美欧美欧美| 亚洲bt欧美bt日本bt| 一区二区动漫| 五月婷六月丁香| 337p日本欧洲亚洲大胆精品| 欧美精品高清| 国产美女作爱全过程免费视频| 91在线观看视频| 国产精品久久久久精| 国内免费精品永久在线视频| 欧洲杯半决赛直播| 高清中文字幕mv的电影| 欧美揉bbbbb揉bbbbb| 丰满诱人av在线播放| 色视频一区二区三区| 成人妖精视频yjsp地址| 男人的天堂av网站| 精品综合久久久久久97| 蜜乳av综合| 国产精品果冻传媒| 欧美性色黄大片| 99热99re6国产在线播放| 天堂资源在线亚洲视频| 处破女av一区二区| 91丨九色丨丰满| 欧美最猛性xxxxx免费| 亚洲理论电影网|