精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

在GSM8K上比GRPO快8倍!廈大提出CPPO,讓強化學習快如閃電

人工智能 新聞
獎勵曲線證明 CPPO 在提高收斂速度的同時可保證 GRPO 的訓練穩定性:CPPO 的獎勵曲線不會崩潰或出現劇烈波動,這對于穩定訓練至關重要。

DeepSeek-R1 的成功離不開一種強化學習算法:GRPO(組相對策略優化)。

不同于 PPO(近端策略優化),GRPO 是直接根據組分數估計基線,因此消除了對 critic 模型的需求。但是,這又需要為每個問題都采樣一組完成結果,進而讓訓練過程的計算成本較高。

之后,GRPO 會使用一個基于規則的獎勵函數來計算每個完成結果的獎勵,并計算每個完成結果的相對優勢。

為了保證訓練的穩定性,GRPO 還會計算一組完成結果的策略模型、參考模型和舊策略模型的預測概率之比作為策略目標函數的一部分,這又會進一步提升強化學習的訓練開銷。GRPO 巨大的訓練開銷限制了其訓練效率和可擴展性。而在實踐中,提高訓練效率是非常重要的。

總結起來,GRPO 訓練的計算成本主要源自其核心設計:為了進行組內比較,會為每個提示詞生成一大組完成結果。此外,GRPO 的前向計算會以完成數量的 3 倍的尺度擴展。

那么,問題來了:在這個強化學習過程中,每個完成結果的貢獻都一樣嗎?

近日,廈門大學紀榮嶸團隊研究發現,每個完成結果的貢獻與其相對優勢有關。也就是說,每個完成結果對策略模型訓練的貢獻并不相等。如圖 1 所示,完成結果的數量增大時,準確度提升并不非常顯著,但訓練時間卻會迅速增長。

圖片

基于這一見解,他們發現可以通過對完成結果進行剪枝來加速 GRPO。然后,他們提出了一種加速版的 GRPO:CPPO(Completion Pruning Policy Optimization / 完成剪枝策略優化)。并且他們也已經開源發布了該算法的代碼。

圖片

  • 論文標題:CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
  • 論文地址:https://arxiv.org/pdf/2503.22342
  • 項目地址:https://github.com/lzhxmu/CPPO

顧名思義,CPPO 會根據優勢對完成結果進行剪枝,這樣一來就可以提升強化學習過程的速度。

具體來說,一開始,策略模型會針對每個問題采樣一組完成結果。隨后,通過獎勵函數計算每個完成結果的相對優勢。然后,CPPO 會修剪掉絕對優勢值較低的完成結果,僅保留絕對優勢較高的完成結果來計算損失。此過程可大大減少訓練所需的完成結果數量,從而加快訓練過程。

此外,他們還觀察到,由于完成剪枝會導致 GPU 資源利用率不足,從而導致資源浪費。為了解決這個問題,他們引入了一種動態完成結果分配策略。該策略會用新問題的完成結果填充每個設備,從而充分利用 GPU 資源并進一步提高訓練效率。

實驗證明,他們的方法是有效的。當使用 Qwen-2.5 系列模型時(包括 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B-Instruct),在保證了準確度相當的基礎上,CPPO 在 GSM8K 基準上的速度比 GRPO 快 8.32 倍,在 MATH 基準上快 3.51 倍。

或者用網友的話來說,快如閃電!

圖片

CPPO:完成剪枝策略優化

要了解 CPPO,首先必須知道 GRPO,其公式如下:

圖片


其中,q 是從數據集分布 P (Q) 中采樣的問題,{o_1, o_2, ... , o_G} 是 G 個完成結果,π_θ 是策略模型,π_θ_old 是舊策略模型,π_θ_ref 是參考模型,? 和 β 是超參數,A_i 是使用一組獎勵 {r_1, r_2, ... , r_G} 計算的優勢。

相比于 GRPO,CPPO 引入了一個選擇性條件,該條件僅會包括表現出足夠高優勢的完成結果。CPPO 的目標公式如下:

圖片

其中 γ 是一個預定義的閾值,用于確保在梯度更新中僅保留絕對優勢高于 γ 的完成結果。需要注意的是,當圖片,或者 圖片 時,clip 函數會被激活。

圖 2 展示了 CPPO 的概況:

圖片

統一單/多 GPU 設置

在多 GPU 訓練場景中,該團隊觀察到具有顯著優勢的完成結果的數量因設備而異。在這種情況下,整體訓練效率會有設備處理最多完成結果數量的瓶頸 —— 這種現象稱為「木桶效應(bucket effect)」。為了緩解這種情況,對于每臺 GPU,該團隊的選擇是只保留每個問題具有最大絕對優勢的 k 個完成結果,其中

圖片

其中 P ∈ (0, 1] 表示剪枝率。在此策略下修改后的 CPPO 為:

圖片

其中僅在具有最高絕對優勢值的 k 個完成結果對應的索引集 I 上進行求和,即

圖片

CPPO 算法的流程如下:

  1. 舊策略模型為每個問題采樣一組完成結果;
  2. 獎勵函數計算每個完成結果的獎勵;
  3. 計算每個完成結果的相對優勢;
  4. CPPO 保留 k 個具有最高絕對優勢的完成結果;
  5. 根據選定的完成結果更新策略模型。

CPPO 和 GRPO 之間的關鍵區別是:CPPO 不會將所有完成結果用于策略模型、參考模型和舊策略模型的前向計算。相反,通過僅保留具有高絕對優勢的完成結果進行梯度更新,CPPO 可顯著降低前向傳遞期間的計算開銷,從而加速了訓練過程。

通過動態完成結果分配進行并行處理

該團隊還提出了一種新的動態完成結果分配策略,以進一步優化 CPPO 的訓練效率。

由于 GPU 內存限制,傳統方法(如 GRPO 采用的方法)面臨固有的局限性。具體而言,單臺設備每批最多可以處理 B 個問題,每個問題生成 G 個候選完成結果。剪枝操作之后,每臺設備保留的完成結果總數減少到 B × k,進而導致 GPU 利用率不理想,并行計算能力未得到充分利用。

為了解決這種低效率問題,該團隊的方法是將來自其他問題的剪枝后的完成結果動態分配到設備的處理管道中,如圖 3 所示。

圖片

此策略通過不斷用來自原始問題和新引入問題的高質量完成結果填充其內存,確保每個設備都能以滿負荷運行。至關重要的是,所有新合并的完成結果都經過相同的嚴格剪枝過程,以保持一致性和相關性。

這種方法的好處有兩個:

  • 通過充分利用設備的并行計算潛力,它能最大化 GPU 利用率。
  • 它能使每臺設備每批處理更多的問題,從而減少實現收斂所需的總訓練步驟數。

有這兩大優勢,CPPO 便可在保證訓練質量的同時提高訓練效率。

CPPO 的實驗效果

使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 模型,該團隊在 GSM8K 和 MATH 數據集上對 CPPO 進行了實驗評估。此外,為了評估模型的分布外推理能力,他們還引入了 AMC2023 和 AIME2024 作為測試基準。

在 GSM8K 上的結果如表 1 所示,CPPO 在準確度和加速比上都明顯優于 GRPO。值得注意的是,CPPO 在各種剪枝率下都達到了與 GRPO 相當甚至更高的準確度。在 87.50% 的剪枝率下,CPPO 的準確度達到 80.41%,比 GRPO 的 77.05% 高出 3.36%。

圖片

在效率方面,CPPO 大大加快了訓練速度。在 93.75% 的剪枝率下,其加速比達到 8.32 倍。這些結果表明,CPPO 不僅能保持或提高準確度,還可顯著提高訓練效率。因此,CPPO 有潛力成為大規模推理模型訓練的實用有效解決方案。

在 MATH 上的表現見表 2。可以看到,CPPO 可以很好地擴展到更大的模型 —— 在不犧牲準確度的情況下在 MATH 上實現了高達 3.51 倍的加速。例如,在 87.5% 的修剪率下,CPPO 保持了與 GRPO (75.20%) 相當的準確度,同時還將訓練時間減少了 3.51 倍。

圖片

此外,在 AMC2023 和 AIME2024 基準上的評估表明,盡管 CPPO 僅在高絕對優勢完成結果上進行訓練,但它仍保留了模型在分布外任務上的泛化能力。因此,CPPO 不僅在增強推理能力方面匹敵甚至超越了 GRPO,而且還很好地減少了訓練時間,使其成為一種更有效的替代方案。

該團隊也研究了 CPPO 的穩定性和收斂性。圖 4 展示了在 GSM8K 和 MATH 數據集上訓練時的獎勵曲線。

圖片

總體而言,獎勵曲線證明 CPPO 在提高收斂速度的同時可保證 GRPO 的訓練穩定性:CPPO 的獎勵曲線不會崩潰或出現劇烈波動,這對于穩定訓練至關重要。這些結果表明 CPPO 具有穩健而穩定的訓練穩定性。此外,CPPO 的獎勵曲線顯示出了明顯的上升趨勢,能比 GRPO 更快地達到更高的獎勵值。獎勵值的更快增長表明 CPPO 的收斂速度更快。

你有興趣在自己的強化學習訓練流程中嘗試這種更快的 CPPO 嗎?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-13 09:12:00

2024-08-19 08:54:02

2024-01-26 06:15:44

PythonCPython技巧

2025-05-12 08:20:13

2019-09-09 16:30:42

Redis架構數據庫

2025-11-07 02:00:00

2025-06-27 15:44:35

蘋果AI模型

2025-07-22 07:43:26

2025-03-12 09:35:45

2017-08-14 10:52:17

小米MIUIMIUI9

2023-08-11 07:20:04

開源工具項目

2025-03-24 09:50:00

大模型自動駕駛AI

2025-10-10 08:33:49

2024-07-08 08:39:00

2022-11-02 14:02:02

強化學習訓練

2024-09-06 13:00:29

2017-06-10 16:19:22

人工智能智能體強化學習

2025-03-11 01:00:00

GRPO算法模型

2025-04-08 08:10:00

C#代碼編程

2020-05-21 21:36:54

Windows 10Windows 7Windows
點贊
收藏

51CTO技術棧公眾號

91免费在线观看网站| 亚洲欧洲黄色网| 毛片av在线播放| 亚洲AV成人无码一二三区在线| 丝袜诱惑制服诱惑色一区在线观看| 中文字幕亚洲字幕| www.黄色网| 成人日韩在线观看| 一区二区三区在线免费视频| 九色一区二区| 国产露脸无套对白在线播放| 亚洲综合精品四区| 久久综合亚洲社区| 日韩在线免费观看av| 午夜视频一区二区在线观看| 日韩欧美在线免费| 日本高清视频免费在线观看| 精品成人一区二区三区免费视频| 国产乱码一区二区三区| 日韩美女中文字幕| 国产一级大片在线观看| 日韩精品2区| 亚洲精品午夜精品| 911亚洲精选| 欧美激情不卡| 色婷婷综合久久久中文字幕| 国产freexxxx性播放麻豆| av在线女优影院| 91在线视频播放| 国产精品av一区| 国产精品久久久久久久久久久久久久久久久久 | 欧美91在线|欧美| 色综合天天性综合| 黄色一级视频在线播放| 欧美精品videosex| 亚洲女女做受ⅹxx高潮| 日日骚一区二区网站| 香港三日本三级少妇66| 国产.欧美.日韩| 亚洲999一在线观看www| 中文字幕一二区| 日韩精品久久理论片| 茄子视频成人在线| 可以在线观看av的网站| 欧美另类专区| 久久99亚洲精品| 欧美黑人性猛交xxx| 亚州av乱码久久精品蜜桃| 日韩在线视频免费观看高清中文| 国产免费无遮挡吸奶头视频| 香蕉视频一区| 亚洲免费视频一区二区| 国产黄色网址在线观看| 亚洲97av| 亚洲欧洲日产国产网站| 国产男女猛烈无遮挡a片漫画 | av影院在线播放| 国产精品实拍| 一区二区三区加勒比av| 国产青草视频在线观看| 男女在线观看视频| 亚洲一区二区在线免费看| 国产成人亚洲综合无码| 污视频网站免费在线观看| 一区二区三区鲁丝不卡| www在线观看免费| 碰碰在线视频| 色拍拍在线精品视频8848| 91热这里只有精品| 国产精品高清一区二区| 日韩欧美国产午夜精品| www男人天堂| 亚洲国产精品嫩草影院久久av| 亚洲精品资源在线| 久久久久久国产免费a片| 99九九热只有国产精品| 九九热精品视频国产| 日本少妇毛茸茸高潮| 丝袜美腿一区二区三区| 91久久精品美女| 亚洲精品久久久久久久久久久久久久| 丁香婷婷综合五月| 免费在线观看91| 在线观看黄色av| 亚洲午夜免费视频| 无码aⅴ精品一区二区三区浪潮| www.久久.com| 欧美大片国产精品| 黄瓜视频污在线观看| 日韩免费视频| 久久久久久亚洲精品中文字幕 | 免费在线看污片| 日韩欧美国产激情| 波多野结衣在线免费观看| 欧美激情极品| xvideos国产精品| 日韩精品乱码久久久久久| 日韩av中文在线观看| 7777精品久久久大香线蕉小说| 天天干天天舔天天射| 国产精品福利一区二区| a级黄色小视频| 国产激情欧美| 亚洲护士老师的毛茸茸最新章节| 91社区视频在线观看| 一区在线免费观看| 国产深夜精品福利| 五月婷婷开心中文字幕| 中文字幕日韩精品一区| 黄色片久久久久| 亚洲三级av| 久久精品国产一区二区三区| 日本在线播放视频| 国产成人高清视频| 亚洲视频在线二区| 玛雅亚洲电影| 亚洲国产成人精品久久久国产成人一区 | 国产xxxx孕妇| 中文字幕精品在线不卡| av之家在线观看| 亚洲成人影音| 久久天天躁狠狠躁夜夜av| 无码人妻丰满熟妇精品区| 成人在线视频一区二区| 超碰免费在线公开| 国产91在线精品| 日韩激情av在线播放| 久久国产在线视频| 国产风韵犹存在线视精品| 亚洲春色在线| 欧美成a人片在线观看久| 亚洲精品国精品久久99热| 免费无遮挡无码永久在线观看视频| 蜜桃视频一区二区三区| 色狠狠久久av五月综合|| 免费福利视频一区二区三区| 精品网站999www| 日本熟伦人妇xxxx| 成人18视频在线播放| 欧美精品卡一卡二| gogo人体一区| 欧美极品少妇xxxxⅹ裸体艺术| 国产同性人妖ts口直男| 自拍偷拍国产亚洲| 九一精品久久久| 91精品一区二区三区综合| 国产精品丝袜一区二区三区| 91吃瓜网在线观看| 欧美肥妇毛茸茸| 永久av免费网站| 精品综合久久久久久8888| 亚洲狠狠婷婷综合久久久| 成人黄色毛片| 日韩最新av在线| 国产精品久久婷婷| 亚洲欧美国产高清| 2025中文字幕| 亚洲人www| 蜜桃传媒视频麻豆一区| 欧美电影免费看| 夜夜躁日日躁狠狠久久88av| 又污又黄的网站| 最新热久久免费视频| 精品人妻一区二区三区免费| 欧美精品九九| 国内精品二区| 欧美电影免费观看| 日韩视频在线一区| 精品国产区一区二| 亚洲成人一区二区| 青青草视频成人| 久久国产精品色婷婷| 欧洲美女和动交zoz0z| 国产精品sss在线观看av| 欧美专区日韩视频| 97视频在线观看网站| 欧美一区二区三区喷汁尤物| www.av视频在线观看| 91啦中文在线观看| 久久撸在线视频| 午夜欧美视频| 久久亚洲综合网| 亚洲三级在线| 97在线观看免费| 成人激情电影在线看| 欧美一二三四区在线| 中文字幕亚洲精品在线| 国产精品色眯眯| 色悠悠在线视频| 日韩精品视频在线观看视频| 欧州一区二区| 999日本视频| 亚洲wwww| 久久久久在线观看| www.久久热.com| 欧美www视频| 在线免费观看一级片| 丰满少妇高潮久久三区| 日本人妖一区二区| 99久久免费观看| 风间由美中文字幕在线看视频国产欧美| 日本不卡免费高清视频| av免费在线观看网址| 亚洲图片欧洲图片av| 粉嫩av一区二区夜夜嗨| 欧美视频一区二区在线观看| 日韩黄色在线视频| 综合久久给合久久狠狠狠97色| 91精品人妻一区二区三区蜜桃欧美 | 国产又粗又大又爽视频| 疯狂做受xxxx欧美肥白少妇| 精品人妻伦九区久久aaa片| 久久久久久免费毛片精品| 日本少妇一级片| 精品一区二区三区香蕉蜜桃 | 狠狠色伊人亚洲综合成人| 少妇高潮喷水在线观看| 欧美成人一品| 欧美爱爱视频网站| 成人精品电影| 欧美主播一区二区三区美女 久久精品人| 亚洲高清在线一区| 国产这里只有精品| 91亚洲精品| 国产成人精品在线观看| 少妇淫片在线影院| 国语自产精品视频在线看一大j8| av网址在线播放| 日韩在线观看免费高清| 91精彩视频在线观看| 亚洲天堂色网站| 日韩在线免费播放| 日韩精品视频观看| 无码国产精品一区二区色情男同| 日韩精品一区二区三区中文精品| 一区不卡在线观看| 欧美日韩午夜在线视频| 中文资源在线播放| 欧美性xxxxxxxx| 中文字幕第99页| 欧美在线制服丝袜| 久久这里只有精品9| 欧美专区亚洲专区| 亚洲精品国产精品乱码视色| 欧美自拍偷拍午夜视频| 伊人久久成人网| 欧美卡1卡2卡| 国产三级在线观看视频| 7777精品伊人久久久大香线蕉的| 一本一道精品欧美中文字幕| 欧美美女直播网站| 国产视频手机在线观看| 91麻豆精品国产91久久久更新时间 | 一区不卡字幕| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 亚洲av无码不卡| 日本高清不卡aⅴ免费网站| 337p粉嫩色噜噜噜大肥臀| 欧美视频三区在线播放| 91久久精品国产91性色69| 欧美一级高清片| 蜜臀av中文字幕| 亚洲免费高清视频| 福利小视频在线观看| 日韩中文字幕在线看| av毛片在线看| 性欧美xxxx视频在线观看| 中文字幕资源网在线观看免费 | 欧美精品激情在线| 欧美调教sm| 国产欧美日韩精品专区| 久久av网站| 精品在线视频一区二区| 日韩电影二区| 日韩在线视频在线| 美女精品网站| 91精产国品一二三产区别沈先生| 成人午夜av电影| 日韩精品无码一区二区三区久久久 | 久久99精品久久久久久国产越南 | 亚洲福利合集| 日本精品一区二区三区视频| 中文字幕一区二区av | 国产91丝袜在线播放0| 日韩片在线观看| 亚洲欧美在线观看| 国产手机在线视频| 欧美丰满一区二区免费视频| 国产av无码专区亚洲av| 亚洲区在线播放| 日本在线视频www鲁啊鲁| 日韩女优人人人人射在线视频| 成人久久精品| 精品久久久久久一区| 99久久久久久中文字幕一区| 欧美色图色综合| 国内精品伊人久久久久av一坑 | 禁果av一区二区三区| 99视频精品全部免费看| 久色成人在线| 人妻换人妻a片爽麻豆| 国产精品麻豆久久久| 天天爽夜夜爽夜夜爽精品| 欧美美女bb生活片| 免费在线超碰| 久久久久亚洲精品国产| av日韩在线免费观看| 日本亚洲自拍| 国产偷自视频区视频一区二区| 毛片毛片毛片毛片毛| 国产日韩欧美a| 国产成人免费看| 精品国产一区二区三区不卡| 麻豆免费在线观看| 国产精品成人一区二区三区吃奶| 群体交乱之放荡娇妻一区二区| 国产一二三四五| 美女mm1313爽爽久久久蜜臀| 女人被狂躁c到高潮| 亚洲一区二区在线观看视频| 国产手机视频在线| 日韩在线精品视频| 欧美男体视频| 欧美高清视频一区二区三区在线观看| 正在播放日韩欧美一页| 男人的天堂最新网址| 欧美极品少妇xxxxⅹ高跟鞋| 五月天婷婷导航| 日韩精品在线播放| 精品捆绑调教一区二区三区| av成人观看| 女人香蕉久久**毛片精品| 亚洲午夜激情影院| 国产精品剧情在线亚洲| 中文字幕乱伦视频| 亚洲最新中文字幕| 日产精品一区| 亚洲国产精品123| 日本视频免费一区| 美女av免费看| 欧美日韩国产在线观看| 日本视频在线免费观看| 国产欧美最新羞羞视频在线观看| 波多野结衣在线观看一区二区| 日韩一级在线免费观看| 欧美高清在线精品一区| 影音先锋国产资源| 欧美成人激情在线| 日韩一区二区三区高清在线观看| www.激情网| av不卡免费在线观看| 久久草视频在线| 亚洲欧美国产精品久久久久久久| 高清电影一区| 一区不卡字幕| 国产精品一区免费视频| 欧美日韩精品在线观看视频 | 欧美日韩在线播放一区| 日本中文字幕伦在线观看| 91色视频在线观看| 亚洲网站在线| 国产精品815.cc红桃| 欧美亚洲日本国产| 国产一二区在线观看| 国产精品毛片一区视频| 模特精品在线| 日本成人免费在线观看| 日韩亚洲欧美在线| 国产精品13p| 日韩免费一区二区三区| 国产乱码精品一区二区三区av | 久久久com| 蜜桃91丨九色丨蝌蚪91桃色| 美女福利视频在线观看| 日韩av中文字幕在线| 九色成人搞黄网站| 青青草综合在线| 久久女同互慰一区二区三区| 国产一区二区三区中文字幕| 性视频1819p久久| 日产精品一区二区| 精人妻一区二区三区| 色香蕉久久蜜桃| 宅男网站在线免费观看| 玖玖玖精品中文字幕| 国产真实乱子伦精品视频| 日韩污视频在线观看| 最好看的2019的中文字幕视频| 亚洲国产aⅴ精品一区二区| 免费观看成人在线视频| 亚洲精品国产无天堂网2021| 国产精品麻豆一区二区三区| 99理论电影网| 另类小说欧美激情| 亚洲欧美精品一区二区三区| 久久天天躁狠狠躁夜夜av| 九一精品国产| 91人妻一区二区| 欧美精选一区二区| 欧美黄色网页|