精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大型語言模型穩定強化學習的新路徑:幾何平均策略優化GMPO

人工智能 新聞
GMPO 的提出為未來強化學習在大型語言模型中的應用提供了一個更加可靠且可擴展的解決方案,為未來的研究奠定了堅實的基礎。

本文主要作者:趙毓鐘,中國科學院大學在讀博士,微軟亞洲研究院 MSRA 實習生,主要研究方向為多模態學習、語言模型后訓練。劉悅,中國科學院大學在讀博士,微軟亞洲研究院 MSRA 實習生,主要研究方向為視覺表征模型。 

指導老師:萬方,中國科學院大學計算機學院副教授,博導。葉齊祥,中國科學院大學電子學院教授,博導。 崔磊,微軟亞洲研究院通用人工智能組(GenAI)首席研究經理。韋福如,微軟亞洲研究院通用人工智能組(GenAI)杰出科學家。

近年來,強化學習(RL)在大型語言模型(LLM)的微調過程中,尤其是在推理能力提升方面,取得了顯著的成效。傳統的強化學習方法,如近端策略優化(Proximal Policy Optimization,PPO)及其變種,包括組相對策略優化(Group Relative Policy Optimization,GRPO),在處理復雜推理任務時表現出了強大的潛力。然而,盡管它們在許多場景下都表現良好,仍然面臨著在訓練過程中不穩定的問題,尤其是在處理帶有極端重要性加權獎勵時。幾何平均策略優化(Geometric-Mean Policy Optimization,GMPO),作為 GRPO 的穩定化版本,解決這一問題。本文將深入探討 GMPO 的原理、優勢,并通過理論分析和實驗驗證來展示其強大的效果。

圖片

圖片

圖表 1 GMPO 和 GRPO 的對比。GRPO 優化算數平均獎勵、而 GMPO 優化幾何平均獎勵(左)。 在訓練過程中,GRPO 經常出現極端重要性采樣比率,更新不穩定,而 GMPO 有更穩定的重要性采樣比率,更新更加穩定(右)。

GRPO 面臨的挑戰 

組相對策略優化(GRPO)是強化學習在大型語言模型微調中的重要進展。GRPO 通過優化 token 級獎勵的算術平均值來進行訓練(忽略了剪切操作):

圖片

然而算數平均對異常值十分敏感,在訓練過程中容易產生極端的重要性采樣比率(ps. 當前策略與舊策略分配給一個 token 的概率比)。在訓練過程中,重要性采樣比率(即當前策略與舊策略分配給一個標記的概率比)可能會大幅波動。這種波動導致策略更新不穩定。為了緩解這一問題,GRPO 引入了對重要性采樣比率的剪切操作,但這種方法并未完全解決穩定性問題,并且還過度限制模型更新幅度使得模型探索能力變弱,進而影響了模型的泛化能力。

GMPO:GRPO 的穩定化版本 

GMPO 通過優化幾何平均來替代 GRPO 中的算術平均,解決了 GRPO 在訓練過程中容易受到異常值影響的問題。幾何平均本身對異常值更具魯棒性,因為它會相對抑制極端值的影響,從而使訓練過程更加穩定。GMPO 的訓練目標可以表示為:

圖片

這種簡單而有效的修改確保了 GMPO 在訓練過程中能夠更好地處理極端獎勵,從而避免了 GRPO 中常見的不穩定情況。 

通過將 PPO 中的 token 級裁切策略引入 GMPO,我們得到了 GMPO 的完整公式:

圖片

為了維持計算的穩定性,GMPO 中的連乘操作和裁切操作被放在 log 域執行。GMPO 的偽代碼如下所示:

圖片

為了進一步理解為什么 GMPO 相比于 GRPO 更加穩定,我們推導并證明了 GMPO 在梯度層面上相對 GRPO 更加魯棒:

圖片

可以看到,GRPO 每個 token 的梯度受到了它自身的重要性采樣比率加權,容易受到極端值影響。GMPO 每個 token 的梯度則受到序列重要性采樣比率的幾何平均加權,不容易受到極端值影響。

圖片

圖表 2 不同剪切范圍和訓練步驟下的重要性采樣比率范圍。范圍越寬,表示策略更新越不穩定。與 GRPO(剪切范圍為 (0.8, 1.2))相比,GMPO 在剪切范圍為 (e?0.4, e0.4) 的情況下表現出更大的穩定性。

除了算數平均向幾何平均的變化,GMPO 還有兩個關鍵設計: 

1. 在 token 級別進行裁切。不同于 DeepSeek-Math,在 DeepSeek-R1 中,GRPO 被定義在了序列級。序列級重要性采樣比率等效于 token 級重要性采樣比率的連乘,DeepSeek-R1 對序列級重要性采樣比率進行了裁切。GMPO 沒有跟隨 DeepSeek-R1 進行序列級別裁切,而是繼續跟隨 DeepSeek-Math 進行 token 級裁切。原因如下:

(1)與序列級別的剪切相比,詞元級別的剪切更加穩定。如圖 2 所示,序列級別剪切(GMPO-seqclip-(e?0.4,e0.4))的采樣范圍大于詞元級別剪切(GMPO (e?0.4,e0.4)),因此在優化過程中更容易產生極端梯度。

(2)序列級別的剪切相比 token 級別的剪切過于激進。一旦觸發,它會將整個序列中所有 token 的梯度置為零,可能會丟失來自序列中有價值部分的梯度信號。 

2. 更寬的裁切。正如 DAPO 所示,剪切操作可能限制探索并導致早期的確定性策略,從而妨礙擴展過程。為了在不犧牲穩定性的情況下促進探索,DAPO 采用了剪切上限策略,將剪切范圍從 (0.8, 1.2) 輕微擴展至 (0.8, 1.28)。

如圖 1 所示,我們可視化了 GRPO 和 GMPO 在每個訓練步驟中的最大和最小重要性采樣比率。關鍵觀察結果如下:

(1)隨著訓練的進行,重要性采樣比率的范圍逐漸擴大,表明策略更新變得更為激進,穩定性降低。

(2)與 GRPO 相比,GMPO 保持了更穩定的采樣比率范圍,表明更新更加穩定。

(3)對于 GMPO,將剪切范圍從 (e?0.2,e0.2) 擴展至 (?∞,+∞) 會增加策略更新的不穩定性?;谶@些發現,我們通過將方程 4 中的剪切閾值 (?1,?2) 設置為 (e?0.4,e0.4) 來平衡訓練穩定性與探索性。這個范圍顯著大于 GRPO 和 DAPO,能鼓勵更大的探索,并提升性能。 

GMPO 的優勢

圖片

與 GRPO 相比,GMPO 在以下幾個方面具有明顯的優勢: 

1. 更穩定的策略更新:GMPO 的梯度更新更加穩定。 

2. 更高的獎勵:與 GRPO 相比,GMPO 在簡單數據集 MATH Level 3-Level 5 上維持了相當的獎勵。在更難的 DeepScaleR 和多模態數據集 Geometry3K 上有更高的獎勵。 

3. 減少過擬合的風險:相對于 GRPO,GMPO 自然地維持了和 RL 前模型的 KL 散度。通過保持較小的 KL 散度,GMPO 減少了過擬合的風險,有助于模型在更復雜的任務中取得更好的表現。 

4. 更高的熵值:GMPO 在訓練過程中能夠保持更高的熵,支持更加持續的探索,避免了訓練過程中的早期收斂。 

實驗驗證:GMPO 與 GRPO 的對比 

為了驗證 GMPO 的有效性,我們在多個語言任務和多模態推理基準上進行了廣泛的實驗。實驗結果表明,GMPO 在多個數據集上顯著優于 GRPO,無論是在穩定性方面,還是在推理能力方面。 

1. 語言任務:在語言推理任務中,GMPO 在五個數學推理基準上進行了測試,這些基準包含不同難度的數學問題,包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。實驗結果顯示:

圖片

2. 多模態任務:在多模態推理任務中,GMPO 在 Geometry3K 基準上進行了測試,該任務涉及幾何問題的解答。GMPO 相比 GRPO,在 Pass@1 準確率上提高了 1.4%,這表明 GMPO 在多模態任務中的應用潛力。

圖片

結論 

Geometric-Mean Policy Optimization(GMPO)通過優化標記級獎勵的幾何平均值,成功克服了 GRPO 在訓練過程中面臨的不穩定性問題。與傳統的算術平均方法相比,GMPO 的策略更新更加穩定,探索能力更強,同時減少了過擬合的風險。通過廣泛的理論分析和實驗驗證,GMPO 在語言任務和多模態推理任務中都取得了顯著的優勢。

GMPO 的提出為未來強化學習在大型語言模型中的應用提供了一個更加可靠且可擴展的解決方案,為未來的研究奠定了堅實的基礎。隨著對 LLM 推理能力的不斷提升,GMPO 無疑將在推動更高效、更穩定的強化學習系統方面發揮重要作用。 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-25 11:30:47

可視化

2024-12-23 08:03:13

2023-04-06 16:29:18

模型AI

2022-06-25 21:38:36

AI模型

2025-03-21 13:00:54

2024-12-09 08:45:00

模型AI

2024-05-30 16:37:29

2023-08-05 13:08:54

2025-07-10 10:25:23

2024-01-26 08:31:49

2025-10-10 09:02:16

2021-04-13 16:18:30

人工智能強化學習人臉識別

2023-08-28 06:52:29

2024-03-20 10:31:27

2024-04-16 14:57:51

人工智能深度學習

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2017-03-28 10:15:07

2022-09-04 14:38:00

世界模型建模IRIS

2025-02-13 10:34:30

LLM算法PPO

2017-08-17 09:15:23

強化學習KerasOpenAI
點贊
收藏

51CTO技術棧公眾號

日韩成人在线观看| 老鸭窝毛片一区二区三区| 欧美手机在线视频| 99热都是精品| 精品国自产在线观看| 欧美一区影院| 日韩成人在线视频网站| 天堂社区在线视频| 在线免费av导航| 99精品久久免费看蜜臀剧情介绍| 日本久久久久久久久久久| 自拍偷拍第9页| 国产一区二区在线视频你懂的| 日韩欧美亚洲一二三区| 性欧美18一19内谢| 五月婷婷狠狠干| 国产最新精品精品你懂的| 国内精品一区二区三区| 国产精品情侣呻吟对白视频| 亚洲一区二区电影| 欧美性感一区二区三区| 免费网站永久免费观看| 草草影院在线观看| jvid福利写真一区二区三区| 成人激情在线观看| www.国产一区二区| 欧美激情视频一区二区三区在线播放| 日韩成人在线网站| 久草免费资源站| 自拍偷拍亚洲| 欧美天堂亚洲电影院在线播放| 霍思燕三级露全乳照| 粗大黑人巨茎大战欧美成人| 欧美国产成人精品| 久久精品国产综合精品| 成人高潮片免费视频| 麻豆成人综合网| 日av在线播放中文不卡| 日本少妇bbwbbw精品| 91精品一区国产高清在线gif| 亚洲日韩欧美视频一区| 李丽珍裸体午夜理伦片| 亚洲电影一区| 日韩视频一区在线观看| 国产又黄又猛的视频| 日韩一级二级| 日韩欧美在线字幕| 久久久一本二本三本| sm在线观看| 亚洲一区二区在线免费看| 法国空姐在线观看免费| 免费在线观看黄色网| 国产精品毛片久久久久久| 日本一区二区三区视频在线播放| 性xxxx18| 91丨porny丨户外露出| 精品麻豆av| 污污网站在线免费观看| 91视频在线看| 蜜桃导航-精品导航| 日韩av高清在线| 99久久精品免费看国产免费软件| 国产欧美亚洲日本| 神马午夜在线观看| 99精品久久久久久| 欧美日本国产精品| 国产精品免费播放| 欧美国产日韩亚洲一区| 亚洲一区二区三区在线观看视频| 午夜免费视频在线国产| 亚洲色图在线播放| 在线丝袜欧美日韩制服| 国产传媒在线播放| 夜夜嗨av一区二区三区中文字幕| 17c丨国产丨精品视频| japanese色国产在线看视频| 欧美日韩在线第一页| 久久婷婷国产精品| 欧美日韩在线精品一区二区三区激情综合 | 这里是久久伊人| 能看毛片的网站| 国偷自产视频一区二区久| 亚洲精品国产精品国自产观看浪潮 | 性做爰过程免费播放| caoporn免费在线| 亚洲妇熟xx妇色黄| 黄色高清无遮挡| 亚洲日日夜夜| 日韩av在线一区二区| 阿v天堂2014| 一级毛片免费高清中文字幕久久网| 欧美激情亚洲视频| www.欧美色| 国产一区二区三区不卡在线观看| 国产精品日本一区二区| 欧美美女色图| 国产欧美精品一区二区色综合| 超碰在线免费观看97| 91探花在线观看| 欧美日韩在线播放一区| 国产情侣久久久久aⅴ免费| 九热爱视频精品视频| 欧美成人亚洲成人| 超碰超碰超碰超碰| 国产一区二三区好的| 精品免费日产一区一区三区免费| 91社区在线| 午夜精品视频在线观看| 伊人色在线观看| 色爱综合av| 欧美成人全部免费| 日韩欧美在线观看免费| 国产suv一区二区三区88区| 日本一区美女| av手机在线观看| 51精品国自产在线| 欧洲av一区二区三区| 狠狠综合久久| 91精品啪在线观看麻豆免费| 偷拍自拍在线| 一级日本不卡的影视| 午夜剧场在线免费观看| 国产99精品| 97视频在线观看成人| 国产成人精品av在线观| 欧美激情自拍偷拍| 女人另类性混交zo| 久久悠悠精品综合网| 欧美精品在线视频观看| 亚洲天堂中文网| 国产欧美日产一区| 日本在线观看a| 亚洲成在人线免费观看| 久久久免费电影| www.香蕉视频| 伊人色综合久久天天人手人婷| 亚洲激情在线观看视频| 综合国产视频| 欧美在线免费看| 天堂av资源在线| 亚洲成人av免费| 性色av蜜臀av浪潮av老女人| 激情六月综合| 成人资源视频网站免费| 9191在线播放| 91精品国产欧美一区二区18 | 北条麻妃国产九九九精品小说| 97婷婷涩涩精品一区| 天天干免费视频| 欧美日韩国产在线看| 亚洲中文字幕一区| 99日韩精品| 另类小说综合网| 成人性生交大片免费网站 | 亚洲s色大片| 精品视频资源站| 黄色裸体一级片| 久久电影国产免费久久电影| 中文字幕色一区二区| 99视频这里有精品| 欧美美女18p| 亚洲美女综合网| 亚洲大片在线观看| 插我舔内射18免费视频| 亚洲一区日本| 欧美中日韩一区二区三区| 欧洲av一区二区| 中文字幕精品久久久久| 国产精品无码AV| 亚洲国产成人av好男人在线观看| av黄色一级片| 日日夜夜精品视频天天综合网| 日韩欧美亚洲在线| 9999精品| 91黑丝高跟在线| av在线女优影院| 欧美一区二区黄| 男人天堂中文字幕| 久久久久久久久97黄色工厂| 伊人国产在线视频| 午夜精品电影| 精品一区二区视频| 欧美美女被草| 欧美精品制服第一页| 五月天婷婷视频| 欧美午夜理伦三级在线观看| 深夜福利影院在线观看| 91丨国产丨九色丨pron| 五月花丁香婷婷| 99国产精品自拍| 一区二区日本| 特黄特色欧美大片| 91精品国产综合久久久久久久久 | 亚洲成人综合在线| 亚洲区自拍偷拍| 国产一本一道久久香蕉| 97超碰青青草| 亚洲综合色网| 欧美精品一区二区三区在线看午夜| 日本久久久久| 热久久免费国产视频| 色呦呦在线资源| 丝袜美腿精品国产二区| 无套内谢的新婚少妇国语播放| 欧美精品少妇一区二区三区| 欧美精品二区三区| 亚洲视频1区2区| 在线免费观看污视频| 久久9热精品视频| 日批视频在线免费看| 综合五月婷婷| 亚洲国产一区二区在线| 牛牛精品成人免费视频| 91在线视频一区| 欧美日韩不卡| 97人人做人人爱| 天堂av最新在线| 大胆欧美人体视频| 国产区在线视频| 亚洲激情第一页| a级片在线视频| 欧美日韩一区二区欧美激情 | 日本h片在线| www.精品av.com| seseavlu视频在线| 亚洲乱亚洲乱妇无码| 亚洲精品字幕在线| 欧美精品免费视频| 九九热最新视频| 一本一道久久a久久精品 | 国产乱码一区| 日本a人精品| 国产精品丝袜久久久久久高清| 国产免费不卡| 欧美一区亚洲一区| 日本免费一区二区六区| 久久久久国产视频| 丝袜美腿av在线| 欧美黑人巨大xxx极品| 在线观看h网| 欧美成人合集magnet| 免费a级人成a大片在线观看| 中文字幕亚洲欧美日韩在线不卡| 国产有码在线| 国产一区二区三区在线播放免费观看| 青青草免费观看免费视频在线| 精品国产乱码久久久久久1区2区| 亚洲精品一区二区口爆| 精品国产免费一区二区三区四区 | 成人91在线观看| 蜜臀视频在线观看| 成人动漫在线一区| 国产chinese中国hdxxxx| av激情亚洲男人天堂| 中文字幕 亚洲一区| 26uuu久久天堂性欧美| 国产精品亚洲无码| 国产日韩欧美综合一区| 黄色三级生活片| 国产精品久久久久永久免费观看 | 亚洲熟妇一区二区| 国v精品久久久网| 折磨小男生性器羞耻的故事| www.成人网.com| 欧美日韩高清丝袜| 国产精品国产三级国产普通话三级 | 国产欧美精品一二三| 国产99久久久精品| 亚洲精品乱码久久| 久久午夜电影网| 网站永久看片免费| 一区二区久久久久| av资源免费观看| 欧美日韩精品一区二区在线播放| 888奇米影视| 337p日本欧洲亚洲大胆精品| 四虎在线视频| 日韩在线观看高清| 免费在线国产视频| 欧美在线不卡区| 日韩第二十一页| 国产精品 日韩| 国产一区二区三区不卡视频网站| 一区二区不卡在线| 在线看片欧美| 无限资源日本好片| 懂色av一区二区三区免费观看| 成人乱码一区二区三区av| 亚洲欧美综合色| 国产午夜免费福利| 777久久久精品| 四虎影视在线播放| 北条麻妃久久精品| а√在线中文网新版地址在线| 青青久久av北条麻妃黑人 | 精品欧美一区二区在线观看视频 | 三级精品视频| 青草全福视在线| 国产伦理一区| 绯色av蜜臀vs少妇| 国产欧美综合在线观看第十页| 国产精品丝袜一区二区| 一本色道综合亚洲| 精品国精品国产自在久不卡| 中文字幕无线精品亚洲乱码一区| 女同视频在线观看| 国产精品一区久久久| 久久综合社区| 日本一级淫片演员| 丝袜诱惑制服诱惑色一区在线观看| 日批视频在线看| 国产精品伦理在线| 国产精品suv一区| 亚洲成avwww人| www视频在线看| 国产精品一香蕉国产线看观看| 鲁大师精品99久久久| 2022中文字幕| 狠狠色丁香九九婷婷综合五月| 成人乱码一区二区三区av| 亚洲妇女屁股眼交7| 91精品国产乱码久久久久| 一区二区三区四区视频| 美女91在线看| 国产专区一区二区| 国语自产精品视频在线看8查询8| 中文字幕线观看| 国产精品久久久久久久久久免费看 | 国产毛片久久| 性感美女一区二区三区| 亚洲少妇中出一区| 国产精品国产三级国产普通话对白| 国产亚洲激情在线| 黑人巨大亚洲一区二区久| 精品日产一区2区三区黄免费 | 亚洲一区二区三区视频在线播放| 中日韩在线观看视频| 精品亚洲男同gayvideo网站| 美女搞黄视频在线观看| 国产自产在线视频一区| 一区在线视频| 一起草在线视频| 欧美日韩一区二区免费在线观看| 四虎精品在线| 欧美性一区二区三区| 窝窝社区一区二区| 免费无码av片在线观看| 久久久久久99精品| 中文字幕在线观看视频免费| 亚洲欧美日韩中文在线制服| 色老太综合网| 五月天久久综合网| 久久精品国产**网站演员| 日本精品在线免费观看| 91精品国产麻豆| 免费毛片在线看片免费丝瓜视频| 99视频在线播放| 亚洲少妇自拍| 欧美做受高潮6| 欧美日韩国产系列| 在线网址91| 久久亚洲高清| 视频一区二区欧美| 亚洲综合图片一区| 日韩丝袜美女视频| 欧美日韩国产观看视频| 欧洲精品国产| 精品制服美女久久| 久久机热这里只有精品| 亚洲韩国日本中文字幕| 成人软件在线观看| 正在播放亚洲| 成人黄色一级视频| 天天爽夜夜爽人人爽| 日韩在线观看免费全集电视剧网站| 国产人与zoxxxx另类91| 国产玉足脚交久久欧美| 久久免费偷拍视频| 在线观看免费视频a| 欧美二区在线播放| 久久不见久久见国语| 91欧美一区二区三区| 偷窥少妇高潮呻吟av久久免费| 国产在线91| 丁香婷婷久久久综合精品国产| 久久国产一二区| 欧美一级片在线视频| 日韩禁在线播放| 四虎国产精品免费久久5151| 一区二区传媒有限公司| 国产精品伦一区二区三级视频| 日韩在线视频观看免费| 国产精品美女主播| 99热精品在线观看| 国产一区二区三区视频播放| 亚洲精品美女在线| 国产精品一区二区精品视频观看| 无遮挡又爽又刺激的视频| 亚洲尤物视频在线| 18视频免费网址在线观看|