精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS 25 | GRPO進階版來了,GVPO重構大模型后訓練范式

人工智能 新聞
GVPO 通過避免重要性采樣解決了 GRPO 的穩定性難題,并能在理論上提供了唯一最優解保證,并且在實驗中表現全面超越現有方法。

大模型后訓練(post-training)正在成為 AI 進化的關鍵一環。從最早的 SFT(監督微調),再到近來大火的 GRPO,一條核心主線貫穿始終:如何讓大模型具有更強的推理能力、更好地對齊人類偏好,同時保持穩定和高效。

然而,GRPO 雖然在 DeepSeek-R1 等項目中大放異彩,但其訓練不穩定、超參數敏感的問題一直限制其大規模落地。

現在,作業幫團隊聯合香港科技大學(廣州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通過避免重要性采樣解決了 GRPO 的穩定性難題,并能在理論上提供了唯一最優解保證,并且在實驗中表現全面超越現有方法。

  • 論文標題: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
  • 論文鏈接:https://arxiv.org/abs/2504.19599
  • 作者:張愷晨、洪煜中、鮑軍威、蔣宏飛、宋旸、洪定乾、熊輝
  • 單位:作業幫教育科技有限公司、香港科技大學(廣州)

GVPO 設計動機

受到 DPO 的啟發,研究團隊也希望在 GRPO 的場景(即每個 prompt 進行多次采樣)下,同樣能夠利用 KL 約束下 Reward 最大化的解析解:

但這里存在一個實際困難:公式中涉及的 Z (x),它需要對所有可能的采樣 y 進行期望計算,在實踐中幾乎不可行。為了解決這個問題,研究團隊發現:只要保證同一個 prompt 下所有采樣對應的梯度權重之和為 0,Z (x) 就會自然消掉,從而規避了這一計算難題。

GVPO 是什么?

基于這一思路,研究團隊首先提出了以梯度形式表示的 GVPO Loss:

其中

研究團隊進一步分析后發現,GVPO 擁有非常直觀的物理意義。其 Loss 等價于一個均方誤差損失(MSE Loss):

其中:

  • 真實值來自實際獎勵的中心距離;
  • 預測值來自隱式獎勵(由當前策略與參考策略推導)。

換句話說,GVPO 在本質上是用 MSE Loss 讓「隱式獎勵」去逼近「真實獎勵」。

兩大關鍵優勢

1. 唯一最優解保證

基于 GVPO 的 MSE 形式,研究團隊從必要性和充分性兩方面嚴格證明:當且僅當 R_θ=R 時,GVPO 達到唯一最優解。換句話說,GVPO 的理論最優解正是 KL 約束下的獎勵最大化的解。這一點在數學上確保了算法的有效性與穩定性,也為其在實際應用中的可靠表現提供了堅實保障。

2. 無須重要性采樣

研究團隊進一步發現,GVPO 的唯一最優解對訓練時的采樣分布幾乎沒有限制。除了常見的和前一步,GVPO 還能適配任意滿足條件的分布 —— 而這種條件在當代大模型的 Softmax 解碼過程中天然成立。

這意味著 GVPO 能夠天然支持無需重要性采樣的 off-policy 訓練,在充分利用人類專家數據、蒸餾數據和歷史數據的同時,避免了重要性采樣常見的訓練不穩定問題,從而更契合大規模工業級應用場景。

三種分析視角:從不同角度理解 GVPO

研究團隊發現 GVPO 的核心思想可以從三個互補的分析視角來理解,每一種都對應著圖中展示的等價損失函數:

1. 負對數似然視角(NLL)

在這個視角下,GVPO 的損失函數可以表示為帶權重的負對數似然。一個關鍵點是:帶 KL 約束的 Policy Gradient 實際上可以看作 GVPO 在 on-policy 采樣下的特例。換句話說,GVPO 不僅涵蓋了傳統策略梯度方法的更新方式,還進一步解耦了采樣分布與學習策略,從而允許靈活地整合歷史數據和異構數據源,為大模型后訓練打開了更高效的訓練方式。

2. 均方誤差視角(MSE)

從 MSE 角度看,GVPO 的優化目標等價于最小化「隱式獎勵中心距離」與「實際獎勵中心距離」的偏差。這一解釋帶來直觀的物理含義:當隱式獎勵完全對齊實際獎勵時,損失達到最小。更重要的是,這種設計保證了 GVPO 收斂到唯一的、KL 約束下的全局最優解,為穩定訓練提供了理論保證。

3. 強化學習視角(RL)

RL 視角揭示了 GVPO 損失函數的三大組成部分:

  • 組相對獎勵項:推動高回報響應占據更大概率;
  • 方差正則項:自然引入適度探索,避免熵塌縮;
  • 協方差正則項:作為正則化,抑制策略過度偏離參考策略,保障訓練穩定性。

這三種視角共同說明:GVPO 既有理論保證,又兼具靈活性和穩定性,將復雜的優化過程轉化為可解釋的數學框架。

實驗結果:全面勝出

研究團隊在數學推理任務上進行了系統對比。基座模型為 Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五個基準測試中:

GVPO 全面領先,不僅大幅提升基座模型表現,還超過 GRPO 和改進版 Dr.GRPO。在復雜推理任務中優勢尤為明顯。

此外,消融實驗顯示:

  • GVPO 對超參數 β 不敏感,幾乎無需繁瑣調參。(Figure 2)
  • GVPO 在采樣數量 k 增加時擴展性優異,并且小模型甚至能靠增加采樣追平大模型表現。(Figure 3)
  • GVPO 支持混合采樣策略(歷史數據 + 新數據),進一步降低成本,并且連接了現代大模型研究和傳統強化學習探索策略研究。(Figure 4)

意義與前景

一句話總結:GVPO 讓后訓練從「經驗驅動」走向「理論保證」,既「穩」又「強」。

在大模型邁向通用智能的道路上,后訓練已經成為競爭焦點。GVPO 的提出,可能預示著下一代后訓練的范式轉變:

  • 更穩定 → 降低大規模訓練的工程風險
  • 更靈活 → 支撐更復雜的數據利用場景
  • 更高效 → 在推理和對齊中獲得更佳的性價比

研究團隊認為,GVPO 為可靠、通用的大模型后訓練提供了全新范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-01 09:21:20

2023-06-09 07:29:03

模型文本document

2025-11-11 08:45:00

2025-10-16 09:04:15

2025-04-10 16:23:02

2025-09-02 08:57:00

AI模型訓練

2024-12-18 07:20:00

2023-10-25 09:50:07

自動駕駛訓練

2023-09-12 13:43:00

智能技術

2025-04-16 02:30:00

2025-02-07 13:45:58

2025-11-12 08:56:15

2025-07-08 08:42:00

模型AI訓練

2022-07-07 14:06:39

LiBai模型庫

2025-04-29 09:12:00

2025-08-08 09:06:00

2025-10-16 09:00:00

2025-04-03 15:40:41

機器學習大模型DeepSeek
點贊
收藏

51CTO技術棧公眾號

日韩成人在线观看视频| 91色精品视频在线| 免费一区二区三区| 日日骚一区二区三区| 日韩在线视频第一页| 日韩久久精品网| 欧美日韩国产丝袜另类| 国产精自产拍久久久久久| 国产精品无码在线| 日韩伦理电影网站| 欧洲杯什么时候开赛| 午夜久久久影院| 北条麻妃高清一区| 毛片aaaaa| 日韩最新av| 色久综合一二码| 鲁鲁视频www一区二区| 怡红院成永久免费人全部视频| 国产精品极品国产中出| 一区二区三区.www| 亚洲自拍偷拍在线| 日日噜噜夜夜狠狠久久波多野| 国产69精品久久久久按摩| 久久亚洲春色中文字幕久久久| 高清一区二区三区日本久| 小日子的在线观看免费第8集| 欧美a在线看| 另类人妖一区二区av| 中文字幕一区日韩电影| 在线观看国产中文字幕| 九色视频成人自拍| 奇米精品一区二区三区在线观看一| 亚洲欧美综合区自拍另类| 国产真实乱子伦| 精品国自产在线观看| 午夜精品久久| 亚洲大胆人体在线| 久久成人免费观看| 国产一级在线观看| 99视频精品在线| 欧美孕妇性xx| 成人黄色a级片| 伊人国产精品| 亚洲五月六月丁香激情| 精品亚洲第一| a片在线免费观看| 午夜久久免费观看| 亚洲成人在线网| 久久久久久国产精品日本| 免费在线观看av电影| 99久久久无码国产精品| 51成人做爰www免费看网站| 久久久久久久久久久久国产| 久久综合社区| 欧美性感一类影片在线播放| 色撸撸在线观看| 日韩在线视频免费| 成人午夜av影视| 国产精品精品视频| 国产这里有精品| 在线精品国产| 精品一区精品二区| 日韩中文字幕a| av成人在线看| 欧美二区乱c少妇| 欧美 日韩 国产在线观看| 女人黄色免费在线观看| 一区二区欧美在线观看| 国产欧美精品aaaaaa片| 国产一区二区三区不卡在线| 久久这里只有精品首页| 久久亚洲综合网| 久久精品a一级国产免视看成人 | 国产淫片av片久久久久久| 一级毛片久久久| 国产精品国产三级国产普通话99| 成人av片网址| 无套内谢的新婚少妇国语播放| 免费视频最近日韩| 91av成人在线| www青青草原| 欧美99久久| 91精品国产网站| 啪啪小视频网站| 韩国视频一区二区| 日韩美女在线看| 日本少妇性高潮| 五月婷婷亚洲| 综合网日日天干夜夜久久| 精品伦一区二区三区| 精品久久在线| 日本韩国欧美国产| 午夜视频在线网站| 亚洲成av在线| 一本到一区二区三区| 久久亚洲国产成人精品无码区 | 国内成人精品一区| 黄色av网站免费观看| 亚洲第一精品影视| 久久精品亚洲国产| 亚洲一级黄色录像| 亚洲欧美tv| 日韩av在线免费看| 日韩av无码一区二区三区不卡| 国产精品成人3p一区二区三区| 91久久香蕉国产日韩欧美9色| 91 在线视频观看| 久久综合五月婷婷| 久久福利视频导航| 特一级黄色录像| 亚洲尤物精选| 91精品国产网站| 国产精品主播一区二区| 久久97超碰色| 亚洲一区二区中文| 欧洲亚洲精品视频| 久久一日本道色综合| 亚洲 欧洲 日韩| 无遮挡爽大片在线观看视频 | 色综合一区二区日本韩国亚洲| 色视频成人在线观看免| 一个人看的视频www| 国模精品一区| 色偷偷偷综合中文字幕;dd| 国产真实夫妇交换视频| 亚洲清纯自拍| 欧美一级电影久久| 亚洲产国偷v产偷v自拍涩爱| 国产成人精品免费在线| 成人情视频高清免费观看电影| 亚洲成人久久精品| 国产精品乱人伦| 国产奶头好大揉着好爽视频| 高清不卡av| 亚洲国产毛片完整版| 亚洲黄色免费在线观看| 欧美 亚欧 日韩视频在线| 国产精品亚洲一区二区三区| 人人九九精品| 欧美午夜女人视频在线| 一区二区三区网址| 欧美精品影院| 亚洲精品影视在线观看| 欧美精品入口蜜桃| 国产又黄又大久久| 国产一区二区无遮挡| 深夜福利视频一区| 香蕉加勒比综合久久| 欧洲熟妇的性久久久久久| 欧美 日韩 国产一区二区在线视频| 成人国产亚洲精品a区天堂华泰| 99热这里只有精品在线| 成人av网在线| 亚洲高清乱码| 精品精品导航| 亚洲成人在线视频播放| 日本三级视频在线| 成人91在线观看| www插插插无码视频网站| 欧美三级精品| 亚洲人成在线观| 久草视频在线免费| 豆国产96在线|亚洲| av动漫在线免费观看| 一区二区三区短视频| 亚洲免费小视频| 青娱乐在线视频免费观看| 国产一区二区三区在线观看精品 | 欧美亚洲国产bt| 亚洲精品成人av久久| 韩国三级在线一区| 大西瓜av在线| 国产韩日精品| 亚洲国产成人精品女人久久久 | 亚洲xxxx做受欧美| 青草视频在线免费直播| 亚洲第一av在线| 国产精品一区无码| 国产91丝袜在线播放九色| 男人添女人下部视频免费| 老汉色老汉首页av亚洲| 日本欧美中文字幕| 蜜桃视频在线观看www社区 | 国产一二在线观看| 欧美浪妇xxxx高跟鞋交| 久久久久久国产精品视频| 97久久超碰精品国产| 中文字幕第一页亚洲| 五月亚洲婷婷| 人妖精品videosex性欧美| 男人天堂网在线视频| 狠狠躁夜夜躁人人躁婷婷91| 国精产品一区二区三区| 夜久久久久久| 99理论电影网| 香蕉伊大人中文在线观看| 色悠悠久久久久| 成人乱码一区二区三区 | 国产在线精品一区二区夜色| 成年人看的毛片| 日本久久一二三四| 国产成人亚洲精品| 日韩毛片在线一区二区毛片| 欧美午夜精品久久久| 欧美激情精品久久| 久久久久久久久久久99999| 国产h视频在线播放| 日本一二区不卡| 国产乱子伦精品| 国产美女一区视频| 精品国产一区二区三区久久影院 | 日韩av无码一区二区三区不卡| 日韩二区三区四区| 日韩精品久久久| 日本精品不卡| 亚洲视频专区在线| 成人小说亚洲一区二区三区| 欧美三区在线观看| 国产成人免费在线观看视频| 一区二区三区国产在线| 大桥未久一区二区| 日韩一级淫片| 国产精品自在线| 成人激情综合| 性欧美在线看片a免费观看| 亚洲欧美日韩动漫| 日韩精品一区二区三区四区| 欧美精品99久久久| 国产精品家庭影院| 日本二区在线观看| 99精品国产99久久久久久白柏| 波多野吉衣在线视频| 国产精品久久久久久模特| 免费国产一区二区| 米奇精品关键词| 日韩美女写真福利在线观看| av福利在线导航| 精品成人av一区| 久久久久久久久久码影片| 僵尸再翻生在线观看免费国语| 亚洲国产成人精品女人久久久 | 91日本在线观看| 久久69成人| 国产成+人+综合+亚洲欧洲| 欧美激情网站| 在线观看中文字幕亚洲| 国产又粗又猛又爽又黄91| 欧美优质美女网站| 中文字幕永久在线视频| 欧美午夜在线观看| 美女黄页在线观看| 欧美日韩亚洲另类| 亚洲一区二区人妻| 亚洲国产日韩a在线播放性色| 国产色视频一区二区三区qq号| 日本伊人午夜精品| 性生交免费视频| 欧美日韩一区二区高清| 麻豆蜜桃91| 久久99高清| 91在线视频一区| 99精品在线免费观看| 91精品视频播放| 亚洲1区在线| 国产在线欧美日韩| 国产一区网站| 伊人久久大香线蕉午夜av| 欧美jizz19性欧美| 蜜桃传媒视频第一区入口在线看| 性欧美lx╳lx╳| 亚洲一区二区三区xxx视频| 香蕉大人久久国产成人av| 国产视频99| 激情婷婷综合| 欧美少妇一级片| 日韩午夜免费| 九九热免费精品视频| 国内精品在线播放| 中文字幕第3页| 国产精品久久久爽爽爽麻豆色哟哟| 黄色录像免费观看| 午夜精品福利久久久| 国产情侣小视频| 日韩一区二区三区观看| 中文字幕一区二区在线视频| 日韩视频国产视频| 久久米奇亚洲| 日韩精品在线影院| 午夜伦理在线| 中文字幕日韩免费视频| 18视频在线观看网站| 久久久黄色av| 日本蜜桃在线观看视频| 国产狼人综合免费视频| 国产精品qvod| 一区二区三区在线视频111| 亚洲激精日韩激精欧美精品| 日本美女高潮视频| 成人h动漫精品一区二区| 国产精品www爽爽爽| 亚洲国产wwwccc36天堂| 伊人久久亚洲综合| 亚洲精品国产综合区久久久久久久| av在线播放网站| 亚洲国产精品成人av| 成人在线二区| 97在线精品视频| 一区二区三区亚洲变态调教大结局| 91亚洲精华国产精华| 欧美调教在线| 4444在线观看| 欧美日韩a区| 在线观看的毛片| 91亚洲国产成人精品一区二区三 | 国产精品传媒| 中文字幕99| 玖玖精品视频| 91av俱乐部| 美女尤物国产一区| 国产精品探花一区二区在线观看| av在线不卡观看免费观看| 国产福利在线导航| 亚洲日本丝袜连裤袜办公室| 亚洲最大的黄色网址| 亚洲小说欧美激情另类| 亚洲一区二区色| 亚洲视频在线看| gay欧美网站| 精品亚洲第一| 国产视频一区三区| 亚洲色偷偷色噜噜狠狠99网| 久久亚洲欧美国产精品乐播| 久久精品免费在线| 欧美刺激午夜性久久久久久久| 超碰在线免费公开| 久久久亚洲福利精品午夜| 麻豆国产一区二区三区四区| 一区二区三区四区久久| 麻豆久久久久久久| 夫妇露脸对白88av| 欧美在线观看一区二区| 极品白浆推特女神在线观看| 欧美一级淫片播放口| 偷拍亚洲精品| 日本精品一区二区三区四区| 91日韩一区二区三区| 青青草成人av| 欧美精品色一区二区三区| 三区四区电影在线观看| 国产精品偷伦一区二区| 日韩88av| 天堂中文av在线| 91在线国内视频| 中国一级特黄毛片| 亚洲视频综合网| 日本黄色成人| 男人草女人视频| 成人爽a毛片一区二区免费| 日韩成人免费在线观看| 日韩电视剧在线观看免费网站| 中文在线资源| 亚洲7777| 国产精品嫩草99av在线| www.自拍偷拍| 亚洲精品亚洲人成人网在线播放| 久久久久久91亚洲精品中文字幕| 欧美一区二区三区喷汁尤物| 美国成人毛片| 国产精品自产拍高潮在线观看| 久久久久久美女精品| 26uuu国产| 欧美日韩人人澡狠狠躁视频| 玖玖综合伊人| 亚洲一区二区少妇| 午夜亚洲视频| 久久久久亚洲av无码a片| 欧美军同video69gay| 欧美aaaaaaa| 水蜜桃一区二区| 国产麻豆欧美日韩一区| 精品国产aaa| 欧美一区在线视频| 91jq激情在线观看| 色一情一乱一伦一区二区三欧美| 国内精品在线播放| 久久久午夜影院| 亚洲精品国产精品国自产在线| 在线观看特色大片免费视频| 亚洲国产欧美日韩| 成人精品视频一区二区三区尤物| 欧美日韩一级黄色片| 久久大大胆人体| 二区三区精品| 日本少妇高潮喷水视频| 国产精品超碰97尤物18| 天堂在线资源库| 992tv成人免费视频| 日韩av专区| aaaaa一级片| 日韩欧美激情在线|