精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

寫點(diǎn)代碼 | 從頭編寫GRPO、DrGRPO、GSPO,800行代碼實(shí)現(xiàn)完整訓(xùn)練和驗(yàn)證流程

發(fā)布于 2025-8-26 06:42
瀏覽
0收藏

在大型語言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域,一個(gè)很有潛力的方向是利用可驗(yàn)證的獎勵(Verifiable Rewards)進(jìn)行模型優(yōu)化,即RLVR。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴于人類反饋(RLHF)或者一個(gè)專屬的價(jià)值模型(Value Model),這可能主觀又昂貴。而RLVR通過程序化的、客觀的獎勵函數(shù)來指導(dǎo)模型學(xué)習(xí),例如,在數(shù)學(xué)問題上,答案是否正確是可以通過計(jì)算驗(yàn)證的。 這種方法為我們提供了一條更高效、可擴(kuò)展的路徑,來增強(qiáng)模型的推理等復(fù)雜能力。

在RLVR的核心思想指導(dǎo)下,涌現(xiàn)出了一系列優(yōu)秀的算法,其中有代表性的有GRPO、DrGRPO和GSPO。其中是GRPO是訓(xùn)練DeepSeek R1的核心算法,GSPO是訓(xùn)練Qwen 3的核心算法。它們都脫胎于經(jīng)典的PPO算法,但各自在尋求更高效率和穩(wěn)定性的道路上做出了不同的探索。

最近,我在思考如何通過強(qiáng)化訓(xùn)練,提升多模態(tài)工業(yè)大模型的性能。找遍全網(wǎng),沒發(fā)現(xiàn)有中意的實(shí)現(xiàn),干脆自己動手豐衣足食。我花了兩天時(shí)間,寫了一個(gè)Python腳本,800多行代碼,從頭實(shí)現(xiàn)了GRPO、GSPO、DrGRPO 3個(gè)算法和訓(xùn)練框架。 然后用同一個(gè)數(shù)據(jù)集,訓(xùn)練相同的步數(shù),比較他們3個(gè)的性能。整體還不錯(cuò),一次運(yùn)行,效果如下

方法

初始準(zhǔn)確率

最終準(zhǔn)確率

提升幅度 (Δ)

GSPO

12.00%

72.00%

60.00%

GRPO

12.00%

72.00%

60.00%

DrGRPO

12.00%

58.00%

46.00%

你如果想試一下,參考下面的命令,或者訪問 https://github.com/zhangfaen/GRPO_DrGRPO_GSPO_from_scratch_and_benchmark

%git clone https://github.com/zhangfaen/GRPO_DrGRPO_GSPO_from_scratch_and_benchmark
%cd GRPO_DrGRPO_GSPO_from_scratch_and_benchmark
%conda create -n grpo_drgrpo_gspo python=3.12
%conda activate grpo_drgrpo_gspo 
%pip install -r requirements.txt
%python GRPO_DrGRPO_GSPO_from_scratch_and_benchmark.py

寫代碼的過程中,對這3個(gè)算法的理解也更深了,再分享一點(diǎn)對他們的理解。

GRPO、DrGRPO、GSPO:一脈相承,各有千秋

GRPO的核心思想是拋棄PPO中需要額外訓(xùn)練的價(jià)值模型(Value Model),從而大幅降低了計(jì)算和內(nèi)存的開銷。 它的做法非常巧妙:對于同一個(gè)問題(Prompt),讓模型生成一組(Group)答案,然后根據(jù)獎勵函數(shù)為每個(gè)答案打分。接著,它不再預(yù)測一個(gè)絕對的“價(jià)值”,而是計(jì)算每個(gè)答案相對于這組答案平均得分的“優(yōu)勢”(Advantage)。如果一個(gè)答案的得分高于平均分,它就獲得了正優(yōu)勢,模型就會被鼓勵學(xué)習(xí)生成類似答案的策略;反之亦然。 這種“組內(nèi)相對比較”的思想,就是GRPO名字的由來,它讓訓(xùn)練過程變得更加穩(wěn)定和高效。

然而,有研究者認(rèn)為GRPO的原始設(shè)計(jì)存在一些固有的偏見(Bias),它的損失函數(shù)計(jì)算方式會系統(tǒng)性地“偏袒”那些在錯(cuò)誤答案中更長的回復(fù),同時(shí)給予那些難度過高或過低的(即所有生成答案都對或都錯(cuò))問題過大的權(quán)重。

為了解決這些問題,DrGRPO(GRPO Done Right)應(yīng)運(yùn)而生。 它的改進(jìn)非常直接:移除導(dǎo)致偏見的操作。具體來說,DrGRPO去掉了GRPO優(yōu)勢計(jì)算中按標(biāo)準(zhǔn)差進(jìn)行歸一化的步驟,以及損失函數(shù)中按序列長度進(jìn)行歸一化的部分,從而實(shí)現(xiàn)了一個(gè)更加公平和無偏的優(yōu)化目標(biāo)。

GRPO和DrGRPO雖然高效,但有研究者認(rèn)為它們都存在一個(gè)更深層次的問題:獎勵和優(yōu)化的粒度不匹配。 獎勵是針對整個(gè)生成序列(Sequence)的(例如,最終答案是否正確),但優(yōu)化卻是在每個(gè)詞元(Token)上進(jìn)行的。 這種不匹配在高難度任務(wù)和更復(fù)雜的模型(如混合專家模型,MoE)中,會引入大量噪聲,導(dǎo)致訓(xùn)練非常不穩(wěn)定,甚至模型崩潰。

于是,GSPO(Group Sequence Policy Optimization)橫空出世,旨在從根本上解決這個(gè)問題。 GSPO的核心是將優(yōu)化的粒度從詞元級別提升到了序列級別。 它不再為每個(gè)詞元計(jì)算重要性權(quán)重,而是為整個(gè)序列計(jì)算一個(gè)統(tǒng)一的權(quán)重。 這樣一來,優(yōu)化目標(biāo)和獎勵機(jī)制就完全對齊了。 所有的更新操作,包括PPO中的裁剪(Clipping),都是在序列層面上完成的。 這一改動極大地增強(qiáng)了訓(xùn)練的穩(wěn)定性,尤其是在MoE模型的訓(xùn)練上,避免了GRPO需要的“路由回放(Routing Replay)”等復(fù)雜技巧,并顯著提升了訓(xùn)練效率和最終性能。

寫點(diǎn)代碼 | 從頭編寫GRPO、DrGRPO、GSPO,800行代碼實(shí)現(xiàn)完整訓(xùn)練和驗(yàn)證流程-AI.x社區(qū)

再介紹一下這個(gè)Python腳本,方便理解

這個(gè)Python腳本旨在提供一個(gè)清晰、可運(yùn)行的環(huán)境,讓感興趣的同學(xué)能親手實(shí)踐并比較這幾種前沿的RL算法。注:代碼以學(xué)習(xí)和理解為主要目的,實(shí)際使用中請根據(jù)實(shí)際情況進(jìn)行修改和優(yōu)化。

這個(gè)腳本主要包含以下幾個(gè)部分:

  1. **一個(gè)統(tǒng)一的訓(xùn)練器 RLVRTrainer?**:為了公平比較,我將三種算法的通用訓(xùn)練流程封裝在一個(gè)統(tǒng)一的?RLVRTrainer?類中。它涵蓋了模型和分詞器的加載、數(shù)據(jù)處理、日志記錄、模型評估以及最終模型的保存等所有必要環(huán)節(jié)。
  2. 清晰的算法實(shí)現(xiàn):在_compute_loss?方法中,可以通過?loss_type?參數(shù)(可選"grpo", "dr_grpo", "gspo")清晰地看到三種算法在計(jì)算損失函數(shù)時(shí)的核心差異。對于GSPO,還通過?importance_sampling_level?參數(shù)區(qū)分了其序列級別重要性采樣的實(shí)現(xiàn)。代碼邏輯力求與算法的原始思想保持一致,方便對照論文進(jìn)行理解。
  3. 標(biāo)準(zhǔn)化的實(shí)驗(yàn)設(shè)置:腳本使用公開的openai/gsm8k?數(shù)據(jù)集進(jìn)行數(shù)學(xué)推理任務(wù)的訓(xùn)練和評測。在?main?函數(shù)中,可以看到一個(gè)標(biāo)準(zhǔn)化的實(shí)驗(yàn)流程:

加載和準(zhǔn)備數(shù)據(jù):一次性加載數(shù)據(jù)集,并劃分為訓(xùn)練集和評估集。

統(tǒng)一起始點(diǎn):所有算法都從同一個(gè)預(yù)訓(xùn)練模型(Qwen/Qwen2.5-1.5B-Instruct)開始訓(xùn)練,并進(jìn)行初始性能評估,確保比較的起點(diǎn)公平。

相同的訓(xùn)練資源:所有算法都使用相同的超參數(shù)(如學(xué)習(xí)率、批次大小等)和訓(xùn)練步數(shù)(num_steps)進(jìn)行訓(xùn)練。

端到端的比較:腳本會自動依次運(yùn)行GSPO、GRPO和DrGRPO的訓(xùn)練和評估流程,并在最后打印出清晰的性能對比結(jié)果,包括初始準(zhǔn)確率、最終準(zhǔn)確率以及提升幅度。

通過閱讀和運(yùn)行這個(gè)腳本,應(yīng)該可以加深對GRPO、DrGRPO和GSPO核心思想的理解,還能直觀地看到“序列級別優(yōu)化”相比“詞元級別優(yōu)化”所帶來的顯著優(yōu)勢。

我運(yùn)行上述腳本的一個(gè)的結(jié)果

在一張A800 GPU卡上,運(yùn)行上述腳本,大約花費(fèi)5個(gè)小時(shí)左右,產(chǎn)生如下結(jié)果。

方法

初始準(zhǔn)確率

最終準(zhǔn)確率

提升幅度 (Δ)

GSPO

12.00%

72.00%

60.00%

GRPO

12.00%

72.00%

60.00%

DrGRPO

12.00%

58.00%

46.00%

可以看到,沒有經(jīng)過強(qiáng)化訓(xùn)練的Qwen/Qwen2.5-1.5B-Instruct,在數(shù)學(xué)推理任務(wù)中(基于openai/gsm8k數(shù)據(jù)集評測),準(zhǔn)確率約為12.00%。經(jīng)過GSPO和GRPO算法的強(qiáng)化訓(xùn)練,準(zhǔn)確率分別提升至72.00%和72.00%,而經(jīng)過DrGRPO算法的強(qiáng)化訓(xùn)練,則提升至58.00%。GSPO和GRPO的提升幅度為60.00%和60.00%,而DrGRPO的提升幅度為46.00%。需要說明的是,這次運(yùn)行使用的數(shù)據(jù)集openai/gsm8k是小學(xué)水平的數(shù)學(xué)應(yīng)用題,數(shù)據(jù)集規(guī)模小,推理難度較低,訓(xùn)練過程只訓(xùn)練了200步,結(jié)果參考就好,不代表DrGRPO在大規(guī)模生產(chǎn)環(huán)境中比GRPO和GSPO差。

附錄

  • GSPO: https://arxiv.org/abs/2507.18071
  • GRPO: https://arxiv.org/abs/2402.03300
  • Dr.GRPO: ?https://arxiv.org/pdf/2503.20783

本文轉(zhuǎn)載自???后向傳播???,作者: 張發(fā)恩

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
97超碰最新| 日韩av中文字幕在线免费观看| 中文一区一区三区免费| 亚洲成a人片在线| 久久久国产亚洲精品| 最近2019中文字幕在线高清| 麻豆免费在线观看视频| 成人小电影网站| 亚洲视频网在线直播| 精品一区二区三区自拍图片区| 黄色大全在线观看| 亚洲高清免费| 久久国产精品99国产精| 国产jk精品白丝av在线观看| 亚州一区二区| 欧美日韩中文字幕一区| 内射国产内射夫妻免费频道| 1区2区在线观看| 国产偷国产偷精品高清尤物| 国产精品区一区二区三在线播放 | 一本久久综合亚洲鲁鲁五月天| 中文字幕一区二区三区有限公司| 久久精品a一级国产免视看成人| 国产福利一区在线| 国产精品永久免费| 无码一区二区三区在线观看| 日韩午夜电影| 欧美黑人极品猛少妇色xxxxx| 中文乱码字幕高清一区二区| 精品国产中文字幕第一页| 亚洲国产三级网| 日本黄色三级网站| 99精品国产九九国产精品| 在线视频一区二区三| 777精品久无码人妻蜜桃| www.久久久久.com| 国产精品大尺度| 亚洲成人av动漫| 国产经典自拍视频在线观看| 久久综合狠狠综合| 免费一区二区三区在在线视频| 天天干天天操av| 丁香一区二区三区| 成人h视频在线观看| 国产黄a三级三级三级| 国产精品一区2区| 亚洲精品日韩av| 99草在线视频| 国产成人小视频| 999视频在线免费观看| 国产精品女同一区二区| 国产麻豆91精品| 亚洲综合国产精品| 国产高清视频免费| 不卡免费追剧大全电视剧网站| 国产精品视频在线免费观看| 欧美一级在线免费观看| www.欧美色图| 免费亚洲精品视频| 国产福利小视频在线观看| 中文字幕在线一区| 国产人妻人伦精品| 九九色在线视频| 性做久久久久久免费观看| 五十路熟女丰满大屁股| 久久r热视频| 欧美日韩高清不卡| 911av视频| 国产精品玖玖玖在线资源| 亚洲国产欧美在线成人app| 久久国产精品影院| 成人影院天天5g天天爽无毒影院| 久久久精品在线观看| 免费在线一区二区三区| 国产精品乱看| 国产精品三级美女白浆呻吟| jlzzjlzz亚洲女人18| 白白色亚洲国产精品| 日韩电影免费观看在| 二区在线播放| 天天综合色天天综合色h| 无码少妇一区二区三区芒果| 婷婷丁香久久| 亚洲第一视频在线观看| 久久中文字幕精品| 欧美精品一卡| 日韩暖暖在线视频| 精品二区在线观看| 久久久蜜桃精品| 日本三级中文字幕在线观看| 日本蜜桃在线观看视频| 欧美日韩高清一区二区| 在线视频 日韩| 久久日文中文字幕乱码| 国内伊人久久久久久网站视频| 黄色av网站免费| 国产福利一区二区三区视频 | 色婷婷色综合| 亚洲18私人小影院| 国产精品视频第一页| 久久婷婷国产综合国色天香| 国产成人三级视频| 久久久人成影片一区二区三区在哪下载 | 色天堂在线视频| 亚洲欧洲综合另类| 国产三级三级三级看三级| 91蝌蚪精品视频| 神马久久桃色视频| 亚洲天堂视频网站| 国产91精品一区二区| 亚洲一区二区自拍偷拍| 亚洲午夜天堂| 亚洲国产精品久久精品怡红院| 午夜精品久久久久99蜜桃最新版| 亚洲欧美日韩精品一区二区| 99久热re在线精品视频| 在线播放麻豆| 欧洲av在线精品| 最近日本中文字幕| 激情综合中文娱乐网| 91久久久久久久久久久| 成黄免费在线| 色一情一乱一乱一91av| 欧美xxxxx精品| 国产一区亚洲| 亚洲一区二区三| 毛片在线看网站| 欧美色偷偷大香| 久操视频在线观看免费| 免费日韩精品中文字幕视频在线| 福利精品视频| 任你弄在线视频免费观看| 欧美精品久久99| 超碰人人人人人人人| 日韩精品一二三区| 农村寡妇一区二区三区| 欧美成人h版| 国产视频精品免费播放| av资源免费观看| av在线不卡电影| 欧美牲交a欧美牲交| 欧美日韩一区二区三区在线电影| 久久久午夜视频| 少妇高潮一区二区三区69| 亚洲亚洲精品在线观看| 少妇熟女视频一区二区三区 | 日本高清+成人网在线观看| 色窝窝无码一区二区三区| 亚洲成人免费看| 亚洲中文字幕无码一区| 一区二区三区高清视频在线观看| 久久av免费观看| 婷婷六月国产精品久久不卡| 在线成人免费网站| 又污又黄的网站| 中文字幕一区二区视频| 91av免费观看| 亚洲精品九九| 欧美三级华人主播| 久久久精品一区二区毛片免费看| 日韩中文字幕精品| jizz中国女人| 欧美日韩国产精品一区| 成人免费无遮挡无码黄漫视频| 奇米四色…亚洲| 一道本在线观看视频| jizz国产精品| 国产成+人+综合+亚洲欧洲| 777电影在线观看| 日韩欧美综合在线| 日韩精品在线免费视频| 欧美激情综合在线| 亚洲熟妇一区二区| 欧美一级专区| 日本三日本三级少妇三级66| 国内露脸中年夫妇交换精品| 日本欧美国产在线| a毛片在线观看| 亚洲韩国欧洲国产日产av| 无码人妻aⅴ一区二区三区有奶水| 国产精品传媒视频| 亚洲一区二区乱码| 久久精品国产免费看久久精品| fc2ppv在线播放| 日韩av大片站长工具| 正在播放欧美视频| 国内精品久久久久久久久久久| 亚洲福利一二三区| 午夜精产品一区二区在线观看的| 经典三级在线一区| 亚洲国产精品久久久久婷蜜芽| 成人激情电影在线| 99久久久久国产精品免费| 欧美gay视频| 不卡毛片在线看| 邻居大乳一区二区三区| 日韩欧美国产一区在线观看| 无码人妻精品一区二区三区9厂 | 欧美精品777| 亚洲高清毛片一区二区| 亚洲女爱视频在线| 日韩视频在线观看免费视频| av电影一区二区| 色网站在线视频| 久色成人在线| 波多野结衣av一区二区全免费观看| 欧洲杯半决赛直播| 久久手机视频| 911亚洲精品| 国产在线98福利播放视频| 黑人巨大精品欧美一区二区桃花岛| 九九热99久久久国产盗摄| 亚洲搞黄视频| 亚洲欧美国产日韩天堂区| 日韩一区二区三区不卡| 欧美一级艳片视频免费观看| 久久这里只有精品9| 精品国产精品自拍| 久久综合久久鬼| 亚洲免费视频中文字幕| av免费播放网站| 久久久久久毛片| 中文文字幕文字幕高清| 国产91精品精华液一区二区三区| 国产一级片自拍| 美女视频免费一区| 国产精品亚洲二区在线观看| 夜夜嗨一区二区| 国产毛片视频网站| 亚洲精品123区| 精品成在人线av无码免费看| 欧美精品啪啪| 中文字幕人妻熟女人妻洋洋| 欧美黄色大片网站| avove在线观看| 久久久久亚洲| 中文字幕在线亚洲精品| 天天影视天天精品| 欧美爱爱视频网站| 亚洲国产精品久久久久蝴蝶传媒| 亚洲精品白虎| 天天射成人网| 亚洲色婷婷久久精品av蜜桃| 女人香蕉久久**毛片精品| 9191国产视频| 女同性一区二区三区人了人一 | 久久国产精品高清| 欧美18免费视频| 免费日韩av电影| av中字幕久久| 日日噜噜噜夜夜爽爽| 亚洲国产精品久久久天堂| 喜爱夜蒲2在线| 18成人免费观看视频| 波多野结衣家庭教师在线| 先锋影音久久| 国产精品乱码久久久久| 久久国产精品露脸对白| 亚洲热在线视频| 成人av网站大全| 久久久久亚洲av无码a片| 国产精品每日更新| 国产稀缺精品盗摄盗拍| 夜夜精品浪潮av一区二区三区| 亚洲精品国产精品乱码| 色av成人天堂桃色av| 在线中文字幕网站| 日韩欧美资源站| 性高潮久久久久久久久久| 国产亚洲精品久久久| 成视频免费观看在线看| 午夜精品久久久久久99热| 中文在线最新版地址| 国产精品久久久久久久久久免费| crdy在线观看欧美| 国产综合第一页| 人人狠狠综合久久亚洲婷| 欧美日韩中文字幕在线播放 | 日本一二三区在线| 成人国产免费视频| 欧美自拍偷拍网| 亚洲成人精品影院| 国产成人自拍偷拍| 亚洲成人激情图| 69视频在线| 91成人在线视频| 成人综合日日夜夜| 欧美日本韩国一区二区三区| 婷婷综合视频| 97成人在线观看视频| 国产伦精品一区二区三区免费| 亚洲乱码国产乱码精品精大量| 亚洲欧洲日韩女同| 狠狠人妻久久久久久| 欧美一区二区三区在线看| 日本啊v在线| 欧美精品videofree1080p| 韩日一区二区| 久久国产精品一区二区三区| 你懂的国产精品| 欧美黑人又粗又大又爽免费| 成年人网站91| 国产精品三区在线观看| 色999日韩国产欧美一区二区| 囯产精品久久久久久| 色七七影院综合| 激情亚洲影院在线观看| 国产另类自拍| 欧美国产精品| 国产高清av片| 国产精品美女视频| www.久久久久久久| 亚洲高清在线观看| 色呦呦在线看| 亚洲一区二区三区视频| 日韩理论电影院| 国产极品美女高潮无套久久久| 国产99久久久精品| 91视频综合网| 7777女厕盗摄久久久| 99re热久久这里只有精品34| 日韩av不卡电影| 亚洲精品女av网站| 婷婷久久综合| 日本一二区免费| 国产精品女人毛片| 亚洲精品毛片一区二区三区| 日韩高清人体午夜| a在线视频v视频| 97人人模人人爽人人少妇| 一精品久久久| 色婷婷一区二区三区在线观看| 国产精品国产自产拍高清av| 国产精品第六页| 伊人精品在线观看| 高清欧美日韩| 亚洲精品欧美精品| 美女免费视频一区| 少妇视频一区二区| 欧美精品免费视频| 在线看女人毛片| 成人自拍网站| 91精品国产高清久久久久久| 一级久久久久久久| 亚洲人成电影在线观看天堂色| 2018av在线| 国产传媒一区二区| 国内精品久久久久久久97牛牛 | 99热这里只有精品3| 亚洲天堂免费视频| 欧美男男激情videos| 精品亚洲第一| 另类av一区二区| 亚洲成人黄色av| 精品视频一区二区不卡| 免费av在线网站| 99re在线国产| 日本中文字幕在线视频| 欧美亚洲另类制服自拍| 国产欧美日韩精品一区二区免费| 人人干人人视频| 亚洲欧洲成人精品av97| 国产a级免费视频| 欧美疯狂性受xxxxx另类| 欧美黑人巨大videos精品| 久久国产乱子伦免费精品| 亚洲国产成人在线| 国产日产亚洲系列最新| 久久久久久久激情视频| 国产成人ay| 欧洲在线免费视频| 无码av免费一区二区三区试看 | 久艹在线免费观看| 久久亚洲一区二区三区四区| 影音先锋国产资源| 欧美大尺度激情区在线播放| 日本国产精品| 亚洲欧美日本一区二区三区| 亚洲一区在线视频| 久久久久久久影视| 亚洲一区二区中文字幕| 国产欧美一区二区色老头 | 亚洲国产综合在线| 精品欧美不卡一区二区在线观看 | 日本美女久久久| 五月激情六月综合| 日韩美女网站| 精品一区二区三区自拍图片区 | 久久久老熟女一区二区三区91| 91国偷自产一区二区开放时间| 91一区二区三区在线| 欧美日韩综合网| 高清在线不卡av| 国产99久久久久久免费看| 欧美大片第1页| 日韩aaaa| 大又大又粗又硬又爽少妇毛片| 日韩女优av电影| 国产成人精品一区二区三区免费| av女优在线播放|