精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首次結合RL與SFT各自優勢,動態引導模型實現推理?效訓練

人工智能 新聞
華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

劉子儒博士畢業于香港城市大學數據科學專業,導師為趙翔宇教授及數學家周定軒教授。目前就職于華為香港研究所小藝團隊,負責 RLVR 算法與擴散語言模型方向的研究。龔成目前在香港城市大學攻讀博士學位,導師為張青富教授。期間在華為香港研究所小藝團隊進行研究實習,負責RLVR算法方向的研究。

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在復雜推理方面取得了顯著進展。該方向核心是一種名為 ZERO-RL 的訓練方法,即采用可驗證獎勵強化學習(RLVR)逐步提升大模型在強推理場景 (math, coding) 的 pass@1 能力。相較于依賴高質量人工數據或從強大模型中提煉出的思維鏈的監督微調(SFT),基于強化學習(RL)的后訓練在增強推理能力方面表現出更強的泛化性。

然而,目前以 Group Relative Policy Optimization (GRPO) 為代表的 RLVR 方法通常面臨兩個局限點:1. 訓練數據難度與模型能力之間存在差距,導致獎勵稀疏從而阻礙了學習過程的穩定性。2. 單純基于 On-policy 強化學習算法的樣本效率低下,這對于端側小模型而言尤為突出。

為此,華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

圖片

GHPO 不僅能大幅提升端側模型的樣本利用效率,同時針對性緩解了目前 RLVR 方法中的獎勵稀疏現象。通過難度感知與動態引導模塊設計,GHPO 不僅提升了模型訓練過程中的穩定性,并且在 6 個不同的開源數學推理 Benchmark 上實現提升,尤其在 GPQA-Diamond 和 AMC23 上分別提升 9% 和 10%。該方法進一步被證明可以適用于不同難度分布的訓練數據集與多個模型類別。

圖片

具體方法

在 RL 中引入模仿學習

源自于對在線強化學習算法與基于模仿學習方法的思考,該團隊發現在傳統 GRPO 算法的訓練過程中,只有正確答案本身被用來提供監督信號,而標準解題過程未被利用。因此,團隊提出了一個全新思路:通過將標準解題過程直接整合到強化學習循環中,來解決之前提到的獎勵稀疏問題,并進一步提出假設:模型訓練過程中通過標準解題過程的提示,從而獲得有效的學習信號。并且該方法能提升模型在推理任務上的泛化能力。

后續通過一系列的實驗證明該假設確實可行。

GHPO 算法框架

然而,以上的離線方案需要預先將一組訓練數據集中的樣本進行難度劃分,并始終對其應用固定比例的提示。從而導致該方案無法實現全局最優的效果與有效的拓展。因此,該團隊進一步提出了引導式混合策略優化(GHPO),實現了動態樣本難度評估,并自適應地在強化學習和模仿學習之間切換。

圖片

如圖所示,GHPO 由兩個核心模塊組成:

  • 自動化難度檢測該模塊評估當前問題的內在難度,從而決定后續的學習過程。該模塊不需要提前標準或引入其他大模型作為輔助,僅需要基于每個樣本生成的解答的分布即可進行難度分類。該方案既能實現高效訓練且隨模型能力同步演進。
  • 自適應提示切換根據檢測到的難度,該模塊通過整合不同級別的標準解題路徑來引導模型進行探索學習。團隊提出了一種具有多階段指導的自適應提示優化策略,該策略動態調整提示比例 ω。這種動態提示注入的核心思想是一個由學習階段控制的線性調度。訓練過程中會首先應用一小部分真實解作為初始提示,如果模型未能生成正確響應,提示的長度將在后續階段逐漸增加。

基于以上的創新方案,GHPO 的目標函數可以表達為以下形式:

圖片

這種創新方法確保僅在模型真正需要時才提供對應指導,為模型當前能力范圍內的任務保留了有價值的探索,同時為更具挑戰性的場景提供了自適應的優化。

評測表現全面超越 GRPO 算法,代碼數據全面開源

GHPO 的代碼實現基于 Openr1 項目,訓練框架的選擇為 TRL,使用 vLLM 進行推理加速。團隊在 TRL 的代碼邏輯上直接實現了 GHPOTrainer,后續有望在 TRL 后續版本上集成。

實驗設計上,基于 Qwen2.5-7B-base 模型進行了多種 RLVR 算法的實現,包括 GRPO、DeepScaleR 的課程學習,以及固定比例提示作為基線,并基于開源數據準備了兩種不同難度設定的訓練集,驗證了 GHPO 算法在 6 個主流數學 Benchmark 上的表現:

圖片

圖片

結果表明 GHPO 算法相較于 GRPO 可以實現平均 4.5% 的性能提升。

圖片

同時 GHPO 在訓練過程中有著更加穩定的梯度更新。并且團隊進一步證明該算法可以應用到其他模型上,如 Qwen2.5-Math-7B。

進一步提供了詳細的案例展示:

圖片

總結與展望:GHPO 推動了強化學習與 SFT 之間的借鑒融合

自從 DeepSeek-R1 問世后,以 GRPO 為代表的強化學習算法一度成為大模型后訓練的熱點,相較于 SFT,被認為能帶來更強的模型泛化能力。GHPO 不僅以一種巧妙地方式緩解了 RLVR 訓練獎勵信號稀疏帶來的訓練不穩定問題,同時實現了 on-policy 強化學習與模仿學習的自適應調整,為社區提供重新看待 SFT 與 RL 的視角以及提供兩者未來深度融合的可能性,助力人類進一步探索人工智能本質。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-06-06 04:10:00

LLM人工標注RL

2025-09-22 10:44:20

2025-09-16 10:09:00

2025-10-28 09:21:02

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-01-21 09:36:51

2025-07-22 08:50:00

AI模型框架

2025-02-10 09:35:00

2025-06-04 13:56:06

英偉達訓練模型

2025-09-10 09:10:00

2024-11-01 20:25:28

2025-08-04 08:49:00

2025-06-10 09:05:00

2025-06-05 08:40:00

2025-03-06 01:00:00

2025-05-12 14:23:42

AI算法訓練

2023-01-05 09:33:37

視覺模型訓練

2025-11-18 10:00:56

點贊
收藏

51CTO技術棧公眾號

91精品国产品国语在线不卡| 国产成人精品网址| 一区二区中文字幕| 亚洲免费999| 污视频网站免费在线观看| 成人黄色777网| 国产成人精品久久二区二区91| 三区四区在线观看| 永久免费精品视频| 欧洲精品在线观看| 日韩视频在线视频| 欧美性videos| 2022国产精品视频| 亚洲aa在线观看| 91av视频在线免费观看| 日韩av在线播放不卡| 国产福利小视频在线观看| 国产激情偷乱视频一区二区三区| 日本久久久久久久| 强行糟蹋人妻hd中文| 欧美精品一区二区久久| 亚洲电影免费观看高清| 国产一级片自拍| 依依综合在线| 亚洲国产视频直播| 伊人情人网综合| 精品视频一二区| 9久草视频在线视频精品| 国产日本欧美一区| 亚洲图片欧美日韩| 一本色道久久综合亚洲精品高清| 日韩三级影视基地| 黄色片在线观看免费| 免费福利视频一区| 精品剧情v国产在线观看在线| 杨幂毛片午夜性生毛片| 卡通欧美亚洲| 欧美日韩在线视频观看| 黄色成人在线免费观看| 免费黄色在线看| 国产精品麻豆欧美日韩ww| 欧美凹凸一区二区三区视频| 亚洲精品国产av| 国产丶欧美丶日本不卡视频| 成人欧美在线视频| 一区二区国产欧美| 久久丁香综合五月国产三级网站| 国产成人久久久精品一区| 最新中文字幕一区| 国产精品久久久久久模特| 久久久亚洲精选| 日韩av综合在线| 亚洲午夜极品| 91a在线视频| 日韩精品久久久久久久酒店| 亚洲国产激情| 2019中文字幕在线| 天天插天天操天天干| 日韩欧美一区二区三区免费看| 亚洲欧美中文在线视频| 一区二区黄色片| 欧美色爱综合| 久久久国产精彩视频美女艺术照福利| 一级性生活免费视频| 欧美xxav| 色综合久久久久久中文网| 中文字幕在线有码| 亚洲私拍自拍| 日本亚洲欧美成人| 这里只有精品国产| 国产中文一区二区三区| aaa级精品久久久国产片| 刘亦菲久久免费一区二区| 成人激情午夜影院| 欧洲在线视频一区| 韩国中文字幕在线| 亚洲高清三级视频| 黄色一级免费大片| 国产精品亚洲综合在线观看| 日韩西西人体444www| 国产精品九九视频| 亚洲视频你懂的| 欧美精品七区| 在线观看二区| 亚洲精品日韩一| 日本中文字幕网址| 精品日韩视频| 欧美一级艳片视频免费观看| 亚洲图片 自拍偷拍| 蜜桃久久久久| 色噜噜久久综合伊人一本| 九九热只有精品| 久久性色av| 亚洲最大福利网站| 男操女在线观看| 亚洲精品国产a| www.亚洲天堂网| 婷婷久久综合九色综合99蜜桃| 精品久久久久久亚洲综合网| 无码熟妇人妻av| 欧美99在线视频观看| 欧美一级免费视频| 国产免费一区二区三区最新不卡 | 久久视频免费在线播放| 国产在线拍揄自揄拍无码视频| 久久一本综合频道| 成人欧美一区二区| www.在线播放| 香蕉久久一区二区不卡无毒影院| 色免费在线视频| 欧美a一欧美| 欧美老肥婆性猛交视频| 欧美一级淫片免费视频黄| 国产精品影音先锋| 亚洲精品美女久久7777777| av资源在线播放| 91精品国产欧美一区二区| 天天躁日日躁aaaa视频| 欧美午夜在线| 成人有码在线视频| av基地在线| 黑人巨大精品欧美一区免费视频 | 免费看毛片的网址| 亚洲国产91视频| 亚洲午夜小视频| 国产午夜福利精品| 国产成人免费在线观看不卡| 神马影院午夜我不卡| 亚洲人成在线网站| 亚洲国产精品专区久久| 裸体武打性艳史| 九九视频精品免费| 亚洲激情电影在线| 国产一区二区主播在线| 日韩精品在线观看视频| 日本网站在线免费观看| 国产高清不卡一区二区| 久久免费一级片| 精品国产乱码久久久久久樱花| 国产亚洲精品高潮| 亚洲 欧美 日韩 在线| av亚洲产国偷v产偷v自拍| 老子影院午夜伦不卡大全| 麻豆国产精品| 欧美日韩国产第一页| 国产成人麻豆精品午夜在线| 国产精品电影院| 亚洲免费999| 香蕉视频国产精品| 91老司机在线| 成人黄视频在线观看| 欧美一区二区三区免费大片| 91久久久久久久久久久久久久| 久久国产乱子精品免费女| 亚洲成人一区二区三区| 九九热这里有精品| 成人97在线观看视频| 99精品在线看| 亚洲国产精品久久人人爱| 9.1在线观看免费| 亚洲尤物精选| 色中色综合成人| 亚洲伦理一区二区| 久久亚洲精品小早川怜子66| av小说天堂网| 午夜视频在线观看一区二区三区| 三级视频网站在线观看| 国产模特精品视频久久久久| 欧美福利精品| 福利视频一区| 久久99精品视频一区97| 天天干天天摸天天操| 欧洲精品一区二区| 91高清免费看| av在线一区二区| 已婚少妇美妙人妻系列| 午夜激情久久| 国产伦精品一区二区三区免| 亚洲综合电影| 久久久精品视频成人| 亚洲免费成人网| 一本一本大道香蕉久在线精品 | 一区二区三区在线影院| 亚洲 欧美 日韩在线| 久久综合狠狠| 久久久久久久久久久久久国产| 超碰在线一区| 国产精品入口免费视频一| 欧美日韩在线视频免费观看| 亚洲精品久久久久久久久久久久久| 亚洲综合久久网| 一区二区三区四区蜜桃| 精品无码人妻一区| 99热国产在线中文| 成人免费看黄yyy456| 99久久激情视频| 亚洲一区二区三区| 免费国产一区二区| 96sao精品免费视频观看| 久久全球大尺度高清视频| 成人免费黄色网页| 精品国产3级a| 国产精品-色哟哟| 色哟哟一区二区三区| 久久久精品视频免费观看| 99精品国产91久久久久久| 激情五月婷婷基地| 国产精品视区| 狠狠精品干练久久久无码中文字幕 | 国产精品青青在线观看爽香蕉| 丝袜在线观看| 中文字幕日韩在线视频| 外国精品视频在线观看| 欧美巨大另类极品videosbest| 97超碰人人干| 亚洲卡通动漫在线| 中文字幕第24页| 99久久精品免费看国产 | heyzo一本久久综合| 色播五月激情五月| 免费视频一区二区三区在线观看| 国产911在线观看| 日韩免费久久| 日本一区二区在线视频观看| 久久久久观看| 97久久天天综合色天天综合色hd | 欧美在线不卡视频| 可以在线观看av的网站| 亚洲国产综合91精品麻豆 | 欧美日韩国产丝袜另类| 久久久久国产精品夜夜夜夜夜| 国产精品污www在线观看| 亚洲天堂久久新| 91在线porny国产在线看| 亚洲啪av永久无码精品放毛片| 国产美女主播视频一区| 日韩欧美国产片| 免费在线成人网| 亚洲老女人av| 日本少妇一区二区| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 色综合一区二区日本韩国亚洲 | 国产亚洲成年网址在线观看| 在线观看国产三级| 99久久精品一区二区| 中文字幕在线永久| 99在线视频精品| 你懂的在线观看网站| av电影一区二区| a级在线观看视频| 久久综合中文字幕| 国产ts在线播放| 欧美国产精品一区二区三区| 欧美黄色激情视频| 中文乱码免费一区二区| 国产一二三四视频| 亚洲欧洲av另类| 真实国产乱子伦对白在线| 一区二区三区免费网站| 久久久久久国产精品免费播放| 洋洋成人永久网站入口| 精品91久久久| 日韩欧美在线观看| 中文字幕日本视频| 在线播放欧美女士性生活| 99久久久国产精品无码网爆| 日韩一区二区在线观看| 成人免费视频国产免费麻豆| 亚洲国产精品久久久| 蜜桃视频在线免费| 在线视频免费一区二区| 国产免费一区二区三区最新6| 亚洲自拍电影| 亚洲高清视频一区二区| 国产精品久久久久久久久妇女| 中文字幕第一页亚洲| 亚洲第一黄网| 国产福利影院在线观看| 国产一区二区三区高清播放| 欧美xxxxx少妇| 国产亚洲午夜高清国产拍精品| 成人免费视频入口| 一区二区欧美国产| 亚洲熟妇无码乱子av电影| 欧美日韩1234| 天堂av资源在线| 中文字幕无线精品亚洲乱码一区 | 精品产国自在拍| 精品国产无码在线| 国产视频一区在线观看一区免费| 欧美一级裸体视频| 成人黄色在线网站| 内射毛片内射国产夫妻| 夜夜操天天操亚洲| 黄色av一区二区| 日韩精品一区二区三区在线观看| 欧美女v视频| 欧美成人免费小视频| 欧美日韩国产v| 国产不卡一区二区三区在线观看| 亚洲素人在线| www.好吊操| 狠狠色丁香久久婷婷综合丁香| 天天插天天射天天干| 亚洲天堂av一区| 中文字幕在线日本| 亚洲成人免费在线视频| 麻豆91在线| 欧美精品1区| 国产高清不卡无码视频| 久久久久国产精品午夜一区| 在线成人免费av| 欧美国产日产图区| 日韩在线视频免费播放| 日韩一级片在线观看| 成年人在线视频免费观看| 海角国产乱辈乱精品视频| 亚洲国产aⅴ精品一区二区三区| 久久久久久国产精品mv| 国模吧视频一区| 超碰中文字幕在线观看| 国产精品美女一区二区三区 | 国产三区精品| 你懂的国产精品| wwwwwxxxx日本| 国产精品女上位| 狠狠躁夜夜躁人人爽视频| 亚洲国内精品在线| av影视在线看| 岛国一区二区三区高清视频| 国产高清欧美| 久久久精品高清| 国产精品久久综合| 久久久久久久久久一级| 亚洲乱码国产乱码精品精天堂| 蜜桃成人365av| 国产欧美日韩在线播放| 欧美三级视频| 色欲无码人妻久久精品| 亚洲美女在线一区| 99精品免费观看| 欧美尺度大的性做爰视频| 婷婷激情成人| 精品一区二区三区毛片| 国产福利一区在线| 麻豆91精品91久久久| 日韩亚洲欧美一区二区三区| 97caopron在线视频| 91在线高清免费观看| 91精品啪在线观看国产18| www.51色.com| 一区二区三区美女视频| 亚洲第一色网站| 午夜伦理精品一区| 欧美综合精品| 国产一级不卡毛片| 国产精品国产a级| 97人妻人人澡人人爽人人精品 | 国产乱码精品一区二三赶尸艳谈| 国产精品高清一区二区三区| 在线欧美一区| 波多野结衣办公室33分钟| 色婷婷av一区二区三区大白胸| 国产视频网站在线| 成人av在线亚洲| 欧美视频导航| 白丝女仆被免费网站| 欧美日韩中文国产| 超碰个人在线| 精品免费二区三区三区高中清不卡| 国产精品久久久免费| 日本二区在线观看| 5月丁香婷婷综合| 大香伊人久久| 任我爽在线视频精品一| 韩国视频一区二区| 国产午夜福利精品| 一本大道亚洲视频| 免费欧美网站| 少妇高清精品毛片在线视频| 国产精品青草久久| 黑人精品一区二区| 国产91亚洲精品| 久久久久久久久久久9不雅视频| 91精品国产高清91久久久久久| 欧美日韩在线另类| 1区2区在线观看| 欧美日韩高清免费| 国产精一品亚洲二区在线视频| 天天插天天操天天干| 久久精品一本久久99精品| 欧美色图五月天| 国内av一区二区| 欧美日韩在线免费| 超碰在线观看免费版| 欧美日韩亚洲综合一区二区三区激情在线| 精品亚洲免费视频| 中文字幕在线日本| 97免费视频在线| 在线一区电影|