精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從底層重構強化學習訓練框架,阿里高德開源新方法:拋棄替代損失函數,僅需優化原始目標

人工智能 新聞
在本文中,作者介紹了GPG,它有效地解決了強化微調方法(如PPO和GRPO)中現有的關鍵挑戰。

拋棄替代損失函數,僅需優化原始目標, 強化學習新范式來了:

消除critic和reference模型,避免KL散度約束;解決優勢函數和梯度估計兩個偏差。

來自阿里-高德地圖的團隊提出了一種相當簡單的強化學習訓練新方法:組策略梯度優化GPG (Group Policy Gradient)。

GPG開創性地從底層重構強化學習訓練框架,僅需優化原始目標,解決已有方法偏差,提高訓練效率。革新強化學習訓練流程,推動智能體性能突破。

在實驗中,GPG在單模態和多模態兩類任務中表現遙遙領先,其極簡架構高性能表現,有望成為下一代基礎模型訓練的關鍵方法。

圖片

以下是更多GPG有關細節。

背景介紹

近年來,以OpenAI和DeepSeek R1為代表的LLMs模型表現亮眼,深究成功背后,是強化微調技術(RFT)聯合現有強化學習方法(如PPO、GPPO)在激勵模型構建嚴謹的推理鏈上發揮了關鍵作用。

但在面對高昂的訓練成本與性能平衡,主流方法PPO也陷入巨大瓶頸,與此同時,其他研究團隊也在嘗試使用ReMax、GRPO等簡化訓練流程,并在性能上取得了很大的突破,但他們都依然存在一些問題。

研究團隊認為,當前針對RL算法的優化都在圍繞替代損失函數展開,但兩個核心問題始終懸而未決:

1.能否繞過替代策略,直接優化原始目標函數?2.如何最大限度簡化學習策略的設計?

由此,團隊提出了GPG,其核心創新包括:

  • 直接目標優化:摒棄傳統替代損失函數設計,直接優化原始強化學習目標,突破算法效率瓶頸。
  • 極簡訓練架構:無需評論模型和參考模型支持,擺脫分布約束,為模型擴展性提供更大空間。
  • 精準梯度估計技術 (AGE):首次揭示現有方法的獎勵偏差問題,提出輕量化且高精度的梯度估計方案,顯著提升策略穩定性。
  • 單模態多模態任務SOTA驗證 :在數學推理、視覺理解、跨模態推理等任務中,GPG性能全面超越現有方法,驗證其通用性與魯棒性。

圖片

組策略梯度GPG方法

方法對比

各種強化學習方法的比較,作者以最簡單的形式解釋:

圖片

下面是GPG方法和已有RL方法各個模塊的對比:

圖片

GPG方法

GPG旨在解決在沒有價值模型的情況下,策略梯度估計中的高方差問題。通過利用group-level的獎勵 ,GPG穩定了訓練過程并增強了強化學習訓練的魯棒性。

具體而言,GPG利用每個Group內的平均獎勵來歸一化獎勵,從而有效降低方差。這個方法可以移除傳統的價值模型,從而簡化了訓練過程并提高了計算效率。 GPG的名稱反映了作者方法核心機制,即利用group-level的平均獎勵來穩定和優化學習。

GPG的核心優化目標定義為:

圖片

作者提出的GPG方法通過組內優勢函數計算梯度校正機制實現了高效穩定的策略優化。在優勢函數設計上,采用組內獎勵均值歸一化方法

圖片

其中圖片可根據任務特性靈活選擇std或保持為1,這種設計有效抑制了異常值干擾。對于數學推理等二元獎勵場景(正確1.0/錯誤0.0),該方法展現出良好的適應性。

現有RL方法中的兩個bias

優勢函數中的bias

GRPO方法的優勢函數中,圖片,這部分是PG方法中的state部分,這表明GRPO優勢函數明確引入了獎勵偏差。DR.GRPO方法圖片,但是作者發現它無法明顯超過GRPO方法。見下表:

圖片

組內樣本全對全錯時,引入梯度估計的bias

當一個組內的樣本,模型預測全對或全錯則會引入對梯度估計的bias。給定批量大小為圖片的訓練批次,設第個樣本的梯度表示為圖片

不失一般性,假設批次中的前圖片個模型輸出的示例都正確或錯誤,標準反向傳播(BP)算法估計梯度為:圖片。然而,前圖片個示例不適用于梯度估計,并貢獻零梯度。

圖片

△圖 1(左)在一個組中,所有獎勵都是0的簡單問題的比例和所有獎勵都是1的困難問題的比例。(右)獎勵在各步驟間的標準差。

針對組內全對/全錯樣本的梯度估計bias問題,GPG創新性地引入動態梯度校正因子。通過圖片公式自動調節有效樣本權重,其中圖片為批次大小,圖片為無效樣本數。

圖片

實驗表明該機制可使模型準確率從43.9%提升至47.8%,顯著改善訓練穩定性。

實驗

在單模態數據集上的結果

圖片

圖片

在多模態數據集上的結果

圖片

圖片

結論

在本文中,作者介紹了GPG,它有效地解決了強化微調方法(如PPO和GRPO)中現有的關鍵挑戰。

通過將基于組內的決策動態直接納入標準的PG方法,GPG簡化了訓練過程,并顯著減少了計算開銷,而不削弱模型效果。這一突破為訓練能夠進行復雜推理的先進LLM提供了更高效的框架,從而為更具資源效率和可擴展性的人工智能系統做出了貢獻。

此外,團隊將本文代碼全面開源,希望促進技術透明化發展,也鼓勵更多人參與到該項工作中來。

論文鏈接:https://arxiv.org/pdf/2504.02546代碼鏈接:https://github.com/AMAP-ML/GPG

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-07 09:24:00

2025-06-03 08:49:00

2025-10-20 08:50:00

2017-06-10 16:19:22

人工智能智能體強化學習

2025-10-28 15:42:32

AlphaGo強化學習算法

2025-06-05 02:33:00

標注數據EM優化

2025-06-27 04:00:00

RLSC強化學習微調

2025-04-25 09:12:00

2017-03-28 10:15:07

2023-05-04 15:53:34

強化學習開發

2020-11-16 08:54:05

Google 開源技術

2011-12-01 14:15:19

信息優化惠普

2021-07-22 15:25:14

開源技術 框架

2021-11-26 18:37:39

技術人工智能計算機

2021-10-11 17:15:30

AI 數據人工智能

2017-02-24 13:27:37

阿里開源

2012-06-19 13:15:58

WANSharePoint

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2023-11-15 14:55:00

2025-11-12 04:10:00

阿里ROLL FlashChatGPT
點贊
收藏

51CTO技術棧公眾號

男人添女荫道口喷水视频| 97视频资源在线观看| 亚洲欧美va天堂人熟伦 | 超碰91人人草人人干| 最好看的中文字幕| 三上悠亚国产精品一区二区三区| 国产精品电影院| 国产一区二区三区高清视频| 国语对白做受69按摩| 欧美日韩一区二区三区四区在线观看 | 成人午夜免费在线视频| 可以在线观看的av| 国产成人亚洲综合a∨婷婷| 欧美主播福利视频| 欧美成人精品欧美一| 精品国产视频| 亚洲精品www久久久| 天天干天天色天天干| 日韩伦理精品| 一区二区三区四区乱视频| 欧美乱偷一区二区三区在线| 99久久国产免费| 日本欧美一区二区在线观看| 97免费视频在线| caoporn91| 日本在线电影一区二区三区| 亚洲精品国产福利| 国内av免费观看| 91精品店在线| 黑人巨大精品欧美一区二区| 日本黄网站色大片免费观看| 91精品专区| 91视视频在线观看入口直接观看www | 国产一区二区剧情av在线| 浅井舞香一区二区| 国产成人无码精品| 国产精品v亚洲精品v日韩精品| 在线观看视频99| 97人妻精品一区二区免费| 精品精品精品| 精品国精品国产| 亚洲欧洲日韩综合| 国产精品亚洲四区在线观看| 欧美日韩精品一区二区天天拍小说 | aaaaa一级片| 久久午夜影院| 亚洲高清久久网| 丰满熟女人妻一区二区三区| 日韩精品一区二区三区中文| 欧美精品三级在线观看| 亚洲天堂网一区| 色猫猫成人app| 欧美亚洲国产一区在线观看网站| 玩弄japan白嫩少妇hd| 成人免费网站视频| 日本韩国欧美国产| 无限资源日本好片| 日韩黄色三级| 欧美一区二区成人6969| 免费高清视频在线观看| 最新国产一区二区| 亚洲精品一区二区三区影院| 手机免费看av片| 欧美韩一区二区| 亚洲欧美日韩视频一区| 欧美另类z0zx974| 欧美精品系列| 久久精品国产2020观看福利| 一区视频免费观看| 亚洲激情二区| 欧洲亚洲妇女av| 波多野结衣视频在线看| 麻豆国产欧美日韩综合精品二区| 国产日韩欧美综合| 亚洲av无码一区二区乱子伦| 成人免费毛片嘿嘿连载视频| 久久精品日产第一区二区三区| 男女av在线| 国产精品水嫩水嫩| 青青草免费在线视频观看| www在线看| 色先锋久久av资源部| 日本在线播放一区二区| 88久久精品| 亚洲精品视频二区| 97精品在线播放| 激情综合在线| 国产精品久久网| 精品久久国产视频| 久久久久一区二区三区四区| 在线视频91| 7777kkk亚洲综合欧美网站| 黑人巨大精品欧美一区二区三区| mm131亚洲精品| 97一区二区国产好的精华液| 国产午夜精品一区二区三区 | 杨幂一区二区国产精品| 理论片一区二区在线| 亚洲人成网站免费播放| 欧美视频www| 国产欧美一级| 国产精品自产拍在线观看| 成人av免费播放| 国产色产综合色产在线视频| 国产高潮呻吟久久久| 免费在线小视频| 51午夜精品国产| 日本黄色特级片| 一区二区影视| 国产成人久久久| 肥臀熟女一区二区三区| 国产精品日韩成人| 欧美s码亚洲码精品m码| 麻豆国产一区| 一区二区成人av| 美日韩一二三区| 国产福利一区二区三区视频在线 | 国产日韩久久| 国产黄色在线网站| 欧美伊人久久久久久久久影院 | 天堂精品久久久久| 最近2019年好看中文字幕视频| 日韩女同强女同hd| 国产精品1024久久| 综合视频在线观看| 国产精品久久久久久吹潮| 精品亚洲一区二区三区在线播放| 激情视频在线播放| 久久99国产精品久久99果冻传媒| 日本不卡在线播放| 色网在线免费观看| 亚洲级视频在线观看免费1级| 毛片aaaaa| 国产乱子轮精品视频| 一区二区免费电影| 成人全视频免费观看在线看| 亚洲欧洲视频在线| 日韩毛片一区二区三区| 9人人澡人人爽人人精品| 久久av综合网| 成人h动漫精品一区二区器材| 日韩视频在线免费| 一区二区三区黄色片| 中文字幕乱码亚洲精品一区| 国产精品欧美激情在线观看| 国产成人一二| 国语自产在线不卡| 天天干天天舔天天射| 精品国产精品自拍| 一女三黑人理论片在线| 日韩视频在线一区二区三区 | 五月婷婷丁香网| 亚洲第一av色| 玖玖爱在线精品视频| 亚洲少妇一区| 欧美激情国产日韩| 91成人在线| 久久综合伊人77777蜜臀| 国产深喉视频一区二区| 亚洲精品乱码久久久久久黑人| 九九热精品在线播放| 99久久亚洲精品蜜臀| 亚洲伊人第一页| 久草在线资源站资源站| 日韩福利在线播放| 日本熟妇一区二区三区| 国产精品伦理在线| 亚洲国产日韩在线一区| 在线日韩中文| 免费av在线一区二区| 成人av色网站| 欧美精品一本久久男人的天堂| 成人黄色免费视频| 黑人巨大精品欧美一区二区免费 | 999视频精品| 亚洲在线视频福利| 97蜜桃久久| 亚洲一二在线观看| 国产精品自产拍| 午夜久久久久久电影| 精品人妻无码一区二区三区换脸| 美腿丝袜在线亚洲一区 | 亚洲乱码久久| 日本一区网站| 欧一区二区三区| 7777精品久久久久久| √天堂资源地址在线官网| 欧美一二三区精品| 波多野结衣啪啪| 亚洲精品免费播放| 中文字幕成人动漫| 床上的激情91.| 精品视频无码一区二区三区| 一区二区日韩欧美| 日韩av电影免费在线| 麻豆精品国产| 国产精品视频地址| 黄色在线观看www| 社区色欧美激情 | 五月激情婷婷网| 在线不卡a资源高清| 欧美三日本三级少妇99| 综合久久国产九一剧情麻豆| 漂亮人妻被黑人久久精品| 老司机精品视频导航| 国产精品久久中文字幕| 亚洲区综合中文字幕日日| 久久久久久精| 亚洲精品视频一二三区| 国产精品久久久久7777婷婷| av电影在线地址| 不卡av在线网站| 最新av网站在线观看 | 在线播放日本| 亚洲欧美国产一本综合首页| 欧美一区二区黄片| 欧美一级理论性理论a| 日韩xxx视频| 色综合天天综合在线视频| 久久这里只有精品国产| 综合久久久久综合| 又嫩又硬又黄又爽的视频| 国产亚洲精品bt天堂精选| 午夜久久久久久久| 懂色av中文字幕一区二区三区| 久久人人爽av| 日韩中文字幕麻豆| 成人在线激情网| 性一交一乱一区二区洋洋av| 国产aaa免费视频| 欧美精品黄色| 草草草视频在线观看| 欧美在线国产| 少妇高潮大叫好爽喷水| 香蕉视频国产精品 | 久久亚洲AV成人无码国产野外| 国产成人无遮挡在线视频| 五月激情五月婷婷| 精品一区二区精品| 一级做a免费视频| 免费黄网站欧美| 奇米影视四色在线| 日本免费新一区视频| 三级a在线观看| 日本伊人精品一区二区三区观看方式| 欧美三级午夜理伦三级| 午夜在线播放视频欧美| 欧美 日韩 国产 高清| 国产一区二区三区的电影| 日日碰狠狠添天天爽超碰97| 国产农村妇女精品一二区| 可以在线看的av网站| 99热免费精品| 国产精品无码一本二本三本色| 久久久xxx| 日韩一级理论片| 美女视频黄频大全不卡视频在线播放| 男人插女人下面免费视频| 男女男精品网站| 免费在线观看污网站| 国产精品99久久久久久宅男| 久久久高清视频| 久久综合九色综合欧美亚洲| 男女做爰猛烈刺激| 国产精品久久久久久一区二区三区| 青青操在线播放| 亚洲美女偷拍久久| 日韩精品一区二区三区国语自制| 精品欧美aⅴ在线网站| 亚洲精品一区二三区| 欧美日韩成人激情| 午夜久久久久久噜噜噜噜| 亚洲激情在线观看| 99免在线观看免费视频高清| 久久在线免费观看视频| 国产天堂在线播放视频| 欧美在线不卡区| 亚洲精品自拍| 国产女人水真多18毛片18精品| 九九热线有精品视频99| 在线亚洲美日韩| 一本久道久久久| 国产又黄又猛又粗| 国产91高潮流白浆在线麻豆 | 欧美激情免费视频| 原纱央莉成人av片| 91久久精品久久国产性色也91| 综合中文字幕| 亚洲一区二区三区加勒比| 韩国亚洲精品| www.色就是色| 成人黄色一级视频| 天天色影综合网| 欧美性xxxxxxx| 国产视频手机在线| 亚洲免费电影一区| 影音先锋中文在线视频| 日韩av电影国产| 136福利精品导航| 日韩视频专区| 国产手机视频一区二区| 污污视频在线免费| 国产午夜精品美女毛片视频| 久久黄色免费视频| 欧美日韩免费高清一区色橹橹 | www.成人| 欧美日韩精品久久久免费观看| 香蕉国产精品| 91在线视频观看免费| 成a人片亚洲日本久久| 中国一级片在线观看| 在线免费观看一区| 婷婷在线免费视频| 久久91亚洲精品中文字幕奶水 | 国产精品试看| 在线播放av网址| 18成人在线观看| 69亚洲精品久久久蜜桃小说 | 免费大片在线观看www| 青青草原一区二区| 欧美a大片欧美片| 黄色三级中文字幕| 国产精品羞羞答答xxdd| 日本免费网站视频| 在线观看日韩毛片| 蜜桃视频在线观看视频| 777午夜精品福利在线观看| 日韩免费高清视频网站| 国产树林野战在线播放| 久久精品国产精品青草| 国产精品av久久久久久无| 色综合中文字幕国产| 亚洲色图另类小说| 97国产精品久久| 久久影视三级福利片| 三上悠亚久久精品| 成人精品一区二区三区四区| 久久久www成人免费毛片| 在线综合视频播放| caopo在线| 成人av资源| 亚洲夜间福利| 中文字幕一区三区久久女搜查官| 午夜精品久久久久久久| 四虎永久在线精品免费网址| 欧美精品xxx| 久久365资源| 国产男女免费视频| 96av麻豆蜜桃一区二区| 全部毛片永久免费看| 亚洲欧美日韩久久久久久| 欧美亚洲大片| 亚洲精品中文字幕乱码三区不卡| 免费在线观看视频一区| 日本黄色片免费观看| 91精品国产综合久久久蜜臀图片| 国产午夜精品久久久久免费视| 亚洲一区二区三区xxx视频| 欧美在线观看天堂一区二区三区| 农村末发育av片一区二区 | 日本欧美www| www.久久撸.com| 2020国产精品极品色在线观看| 欧美午夜性视频| 久久久久综合网| 亚洲手机在线观看| 久久97精品久久久久久久不卡| 久久人人爽人人爽人人片av不| 黄色一级大片在线观看| 亚洲天堂2016| 熟妇高潮一区二区三区| 国产精品久久精品| 夜间精品视频| 国产精品边吃奶边做爽| 欧美三级欧美一级| 欧美videossex| 欧美成人一区二区在线| 久久er99精品| 日韩美女一级片| 永久免费看mv网站入口亚洲| 日本成人精品| aa在线免费观看| 亚洲色图一区二区| 熟妇高潮一区二区高潮| 91精品久久久久久久久久久久久久| 68国产成人综合久久精品| 中文字幕第3页| 欧美日韩国产影片| 日本不卡1234视频| 麻豆中文字幕在线观看| 91婷婷韩国欧美一区二区| 国产一区二区网站| 国产91在线播放| 国产精品地址| 91狠狠综合久久久久久| 亚洲黄页网在线观看| 91麻豆精品国产综合久久久| 国产深夜男女无套内射| 亚洲色图.com| 极品美乳网红视频免费在线观看|