精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

出人意料!DeepSeek-R1用的GRPO其實沒必要?規模化強化學習訓練用PPO就夠了

人工智能 新聞
相較于 PPO,GRPO 去掉了價值模型,而是通過分組分數來估計基線,從而可極大減少訓練資源。

DeepSeek-R1 非常熱門,而在其公布的訓練配方中,GRPO(Group Relative Policy Optimization)非常關鍵,是 DeepSeek-R1 核心的強化學習算法。

PPO 與 GRPO 的對比,來自論文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相較于 PPO,GRPO 去掉了價值模型,而是通過分組分數來估計基線,從而可極大減少訓練資源。

DeepSeek-R1 技術報告中寫到:「具體來說,我們使用 DeepSeek-V3-Base 作為基礎模型,并采用 GRPO 作為強化學習框架來提高模型的推理性能。在訓練過程中,DeepSeek-R1-Zero 自然地涌現出了許多強大而有趣的推理行為。經過數千個強化學習步驟后,DeepSeek-R1-Zero 在推理基準上表現出超強的性能?!?/span>

但現在,有一項研究卻證明 GRPO 對推理模型來說并不很重要。

階躍星辰與清華大學近期的一項研究發現,只需使用帶 GAE (λ= 1,γ= 1)的普通 PPO 以及基于規則的簡單獎勵函數,無需任何 KL 正則化,就足以擴展在推理任務上的響應長度和基準性能,類似于在 DeepSeek-R1-Zero 上觀察到的現象。

使用這種極簡方法,他們打造了 Open-Reasoner-Zero,這是首個面向大規模推理的強化學習訓練的開源實現。并且該實現在 GPQA Diamond 基準上的表現優于 DeepSeek-R1-Zero-Qwen-32B,同時僅需使用 1/30 的訓練步數。需要強調,該團隊不僅開源了代碼,還發布了參數設置、訓練數據和模型權重。

  • 論文標題:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
  • 論文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
  • 項目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
  • Hugging Face:https://huggingface.co/Open-Reasoner-Zero

從基礎模型開始擴展強化學習

下面首先將介紹基礎又關鍵的設置,括數據整編、獎勵函數和近端策略優化 (PPO) 算法的詳細設置。然后會討論從消融實驗中得出的關鍵見解,這些見解可以成功實現規?;瘡娀瘜W習訓練。

基礎設置

實驗中,基礎模型使用的是 Qwen2.5-{7B, 32B},并且不經過任何微調(如蒸餾或 SFT)即開始規?;瘡娀瘜W習訓練。在 Qwen2.5-{7B, 32B} 基礎模型的基礎上,該團隊擴展了標準 PPO 算法,以用于面向推理的強化學習訓練,同時仔細考慮了可擴展性和穩健性。

數據集方面,該團隊精心編排了涉及 STEM、數學和推理任務的數萬對問答數據,目標是增強模型在多樣化和復雜問題求解場景中的能力。

受 DeepSeek-R1 啟發,他們設計的提示詞模板可以引導模型利用推理計算,逐步掌握針對復雜任務的推理能力,如表 1 所示。

此外,他們還基于 OpenRLHF 開發了一個高效的大規模強化學習訓練框架,通過引入更靈活的訓練器,實現了 GPU 共置生成(collocation generation)以及支持卸載和回載的訓練。

數據集

高質量訓練數據對可擴展 Reasoner-Zero 訓練來說非常關鍵。這里作者關注了三個關鍵方面:數量、多樣性和質量。

詳細的收集整理過程請閱讀原論文。最終,他們得到的數據集包含 57k 樣本,涵蓋 STEM、數學和推理領域。

獎勵函數

不同于 DeepSeek-R1-Zero,這里的規模化強化學習訓練采用了簡單的規則式獎勵函數 —— 該函數僅檢查答案的正確性,沒有任何額外的格式獎勵。

具體來說,這個獎勵函數會在訓練時提取 <answer> 與 </answer> 標簽之間的內容,并將其與參考答案比較。

為了保證規模化強化學習清晰又簡單,他們實現了一種二元獎勵方案:如果與參考答案完全匹配,則獎勵為 1;所有其他情況的獎勵為 0。

為了確保評估嚴格且一致,他們采用了被廣泛使用的 Math-Verify 庫,圖 3 展示了其用法。

出人意料的是,該團隊發現,使用新設計的提示,即使是未對齊的基礎模型也能以很高的概率產生格式良好的響應。在早期訓練階段,基礎模型僅通過簡單的基于規則的獎勵函數就能快速學會和強化正確的推理和回答格式,如圖 4 所示。更重要的是,初步實驗表明,復雜的獎勵函數不僅是不必要的,而且可能為獎勵 hacking 留下潛在的空間。

強化學習算法

不同于 DeepSeek-R1-Zero 使用的 GRPO,該團隊為規?;柧毑捎玫膹娀瘜W習算法是近端策略優化(PPO)算法。

具體來說,對于每個問題 q(即提示詞),模型會根據基于規則的獎勵函數生成一組響應 {o_1, o_2, ..., o_n} 并接收相應的獎勵 {r_1, r_2, ..., r_n},其中 n 表示采樣軌跡的數量(即每個提示詞的 rollout 大?。?/span>

對于時間步驟 t (即 token t)處的每個響應 o_i ,令 s_t 表示時刻 t 的狀態,包括問題和所有之前生成的 token,并令 a_t 表示在該步驟生成的 token。

對于每個 token,使用 Generalized Advantage Estimation(GAE)計算其優勢估計。一般來說,GAE 能在優勢估計中提供偏差與方差的權衡,做法是通過一個由參數 λ 控制的指數加權平均值將 n 步優勢估計組合起來。該優勢估計的計算方式是:,其中是 TD(temporal difference)殘差,γ 是折扣因子,它決定了未來獎勵相對于即時獎勵的價值。該 PPO 算法通過優化以下目標函數來更新策略模型參數 θ 以最大化預期獎勵和價值模型參數 Φ,從而最小化價值損失:

其中 ε 是 clipping 參數,π_θ 是當前策略,π_θ_old 是更新前的舊策略,V_Φ 是價值函數, 是折扣回報。

具體到實例上,該團隊為該 PPO 算法精心挑選了一些超參數:GAE 參數 λ = 1.0、折扣因子 γ = 1.0 和 clipping 參數 ε = 0.2。

主要發現

該團隊得到了以下主要發現:

強化學習算法關鍵實現:實證研究表明,原始的 PPO 在不同模型規模和訓練持續時間內能夠提供非常穩定和強大的訓練過程,而無需進行額外的修改。通過廣泛的實驗,他們發現 GAE 參數在 PPO 推理任務中起著關鍵作用。具體來說,設置 λ = 1.0 和 γ = 1.0。雖然這種設置在傳統強化學習場景中通常被認為是次優的,但它卻能實現規模化強化學習訓練的理想平衡。

最小獎勵函數設計:該團隊研究表明,簡單的基于規則的獎勵函數不僅足夠而且是最佳的,因為最小設計不會留下任何潛在的獎勵 hacking 空間。值得注意的是,即使是未對齊的基礎模型也能快速適應所需的格式,這表明這是一項簡單的任務,不需要復雜的獎勵工程設計。

損失函數:該團隊在不依賴任何基于 KL 的正則化技術(例如 KL 形狀的獎勵和損失)的情況下實現了穩定的訓練,這不同于 RLHF 社區和推理器模型普遍使用的方法。這也有很好的潛力實現進一步大規模強化學習。

擴大訓練數據規模:該團隊發現擴大數據量和多樣性對于 Reasoner-Zero 訓練至關重要。雖然在有限的學術數據集(如 MATH)上進行訓練會導致性能快速停滯,但該團隊精細編排的大規模多樣化數據集能夠實現持續擴展,而不會在訓練和測試集上出現飽和跡象。

實驗表現如何?

下面介紹 Open-Reasoner-Zero 模型的全面實驗結果和分析。其中包括兩個方面的初步實驗結果:利用訓練得到的推理器進行蒸餾,在蒸餾得到的模型上使用 Open-Reasoner-Zero 訓練流程以進一步增強其推理能力(類似 DeepSeek-R1 的方法)。訓練的細節和超參數請參閱原論文,這里我們重點來看結果。

訓練曲線

圖 2 顯示了在 Open-Reasoner-Zero 7B 和 32B 上的實驗的訓練獎勵和平均響應長度曲線,而圖 5 展示了在訓練和評估集上對 Open-Reasoner-Zero 7B 的實驗的獎勵 / 準確度和平均響應長度曲線。訓練獎勵曲線和響應長度曲線分別表示生成的響應的平均獎勵和每個生成步驟中生成的響應的平均長度。

可以看到,這些指標在整個訓練過程中在兩個模型和所有基準上都得到了持續的改進,并有值得注意的觀察結果:OpenReasoner-Zero 表現出一種有趣的「階躍時刻」現象,其中響應指標在訓練過程中突然增加,這表明其涌現出了推理能力。

響應長度擴展與 DeepSeek-R1-Zero

如圖 6 所示,可以看到整個訓練過程中響應長度持續增加,沒有飽和跡象,類似于 DeepSeek-R1-Zero 中看到的行為。

值得注意的是,雖然模型大小和訓練步驟都有助于改善響應長度,但 Open-Reasoner-Zero-32B 模型僅用 1/5.8 的訓練步數就實現了與 DeepSeek-R1-Zero (671B MoE) 相當的響應長度。這種卓越的訓練效率證明了新的極簡主義方法對大規模強化學習訓練的有效性。

質量分析

該團隊也對 Open-Reasoner-Zero 模型生成的響應進行了一些定性分析。為了分析模型的反思能力并觀察像 DeepSeek-R1-Zero 這樣的頓悟時刻,他們遵從之前的方法確定了五種代表性的反思模式(wait、recheck、retry、alternatively、however)。他們將包含任何這些模式的響應數量計為「反思響應」,并確定平均正確反思長度(包含獲得正確答案的反思模式的響應的長度)。

如圖 7 所示,在整個訓練過程中,平均正確反思長度始終超過平均響應長度,這表明包含反思模式的響應利用了更多的「思考時間」來獲得正確答案,類似于 OpenAI o1 中描述的測試時間擴展。

一個特別值得注意的現象出現在步驟 680 左右,該團隊觀察到三個指標同時加速:獎勵、平均正確反思長度和平均響應長度。通過手動檢查步驟 680 之前和之后的模型輸出,該團隊發現之后的響應中有更明顯的反思模式。這種涌現行為值得進一步研究,該團隊表示目前正在進行詳細分析,以了解這種現象的潛在機制。

該團隊也研究了新模型在知識和指令遵從基準 MMLU_PRO 和 IFEval 上的泛化能力,結果見表 2。

可以看到,Open-Reasoner-Zero 32B 模型表現出了強大的泛化能力:無需任何額外的指令微調,在 MMLU、MMLU_PRO 基準上,通過純規模化強化學習訓練在面向推理的任務上顯著優于 Qwen2.5 Instruct 32B。

該團隊也進行了詳細的消融實驗,詳見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-06-06 09:50:03

蘋果收購交易iPhone

2019-12-23 16:57:26

搶票春運車次

2015-11-02 17:37:33

GartnerAWS數據庫

2025-03-13 11:07:30

2025-06-23 09:07:00

2025-03-11 01:00:00

GRPO算法模型

2025-02-19 08:00:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-05-28 02:25:00

2025-02-17 10:40:20

2025-03-11 13:07:58

2025-02-20 17:19:08

2022-11-14 10:22:12

訓練強化學習

2025-03-24 10:00:00

2025-02-19 08:33:18

2025-04-25 13:34:53

R1DeepSeekAgent

2025-10-10 08:33:49

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2021-06-11 09:28:04

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

日韩福利电影在线观看| 一区二区网站| 欧美国产乱子伦| 成人黄色短视频在线观看| 日韩在线中文字幕视频| 草莓视频一区二区三区| 一本大道av伊人久久综合| 亚洲欧美在线网| 亚洲国产精品久久久久久久 | 丁香六月激情婷婷| 国产视频第一页在线观看| 精品一区二区三区视频| 97色在线视频观看| 欧美性猛交xxxx乱大交少妇| 国产精品调教| 欧美剧在线免费观看网站| 免费观看国产精品视频| 欧美性天天影视| 91丨九色丨蝌蚪丨老版| 中国女人久久久| 亚洲电影激情视频网站| 日韩尤物视频| 亚洲av片一区二区三区| 国产一区二区免费在线| 国产成人激情视频| 国产精品美女毛片真酒店| 日韩在线看片| 亚洲人a成www在线影院| 美女伦理水蜜桃4| 日韩久久99| 色噜噜夜夜夜综合网| 国产xxxx振车| a视频在线免费看| 国产蜜臀av在线一区二区三区| 国产一区二区三区奇米久涩| 国产手机精品视频| 美女一区二区三区在线观看| 日本不卡视频在线播放| 日韩三级一区二区三区| 女人香蕉久久**毛片精品| 在线观看欧美成人| 中文字幕一区二区三区人妻| jizz性欧美2| 欧美一区二区福利在线| 手机看片福利日韩| 亚洲美女炮图| 精品日韩视频在线观看| 自拍日韩亚洲一区在线| 7777kkk亚洲综合欧美网站| 一区二区三区精品在线| 狠狠精品干练久久久无码中文字幕| 日本中文字幕电影在线免费观看| 欧美国产视频在线| 午夜精品电影在线观看| 阿v免费在线观看| 国产免费久久精品| 亚洲欧美日韩精品在线| 免费黄色在线| 亚洲女人的天堂| 久久久久久久久影视| 求av网址在线观看| 亚洲天堂免费在线观看视频| 日韩性感在线| 美女网站免费观看视频| 无码国产伦一区二区三区视频 | 免费在线亚洲欧美| 91精品国产高清自在线看超| 亚洲午夜18毛片在线看| 日韩精品久久久久久| 国产精品国产三级国产专播精品人 | 中文字幕免费高清| 日韩黄色大片| 蜜臀久久99精品久久久无需会员| 一区二区视频免费看| 好看不卡的中文字幕| 5252色成人免费视频| 精品久久久久久久久久久久久久久久| 日韩高清一区在线| 国产精品视频大全| 精品区在线观看| 91在线视频免费观看| 日韩精品电影网站| 黄色动漫在线| 午夜久久久影院| 一本久道中文无码字幕av| 婷婷成人av| 亚洲高清久久久久久| jizz中文字幕| 欧美.www| 青草青草久热精品视频在线网站| 久久精品99北条麻妃| 国精品**一区二区三区在线蜜桃| 99re视频在线| 男人的天堂在线视频| 亚洲欧美在线视频| aa在线观看视频| 欧美国产视频| 亚洲精品黄网在线观看| 99久久99久久精品免费| 亚洲视频狠狠| 国产美女久久久| 少妇人妻偷人精品一区二区| 欧美国产综合一区二区| 精品国产一区二区三区无码| 亚洲人一区二区| 国产女主播在线写真| 一区二区三区在线免费视频| 可以在线看的黄色网址| 欧洲精品99毛片免费高清观看| 日韩电影大全免费观看2023年上| 亚洲国产精品一区二区久久hs| 亚洲黄色在线| 91牛牛免费视频| 国产视频二区在线观看| 亚洲无人区一区| 永久免费的av网站| 中文字幕伦av一区二区邻居| 伦伦影院午夜日韩欧美限制| 免费无码国产精品| bt欧美亚洲午夜电影天堂| 中文字幕免费在线不卡| 台湾佬成人网| 亚洲国产精彩中文乱码av在线播放 | 亚洲精品久久久久久无码色欲四季| 久久久久久**毛片大全| 中国丰满熟妇xxxx性| 宅男噜噜噜66国产精品免费| 亚洲伦理中文字幕| xxxxxx国产| 国产激情一区二区三区桃花岛亚洲| 日本不卡一区| 欧美freesex黑人又粗又大| 欧美α欧美αv大片| 国产成人免费在线观看视频| 日韩中文字幕麻豆| 久久影视中文粉嫩av| 波多野结衣在线播放| 欧美一级久久久久久久大片| 日本裸体美女视频| 蜜桃久久久久久久| 欧美日韩在线一二三| 午夜影院在线播放| 日韩av网站大全| 日韩精品视频免费播放| 成人免费视频视频在线观看免费| 久久最新免费视频| 只有精品亚洲| 久久久精品免费| 国产又黄又粗又长| 成人欧美一区二区三区在线播放| 欧美第一页在线| 久久久久xxxx| 99久久这里只有精品| 国产精品一区二区三| 国产大片在线免费观看| 91久久精品一区二区三| 性猛交娇小69hd| 日本成人在线电影网| 午夜午夜精品一区二区三区文| 日本精品另类| 久久精品国产69国产精品亚洲| 91福利免费视频| 亚洲色图视频网站| 在线观看欧美一区二区| 精品999成人| 久久久精品有限公司| 美女福利一区二区| 中文字幕在线精品| 国产ts人妖调教重口男| 亚洲午夜免费视频| 国产黄色网址在线观看| 日韩电影免费一区| 一区精品视频| 亚洲精品v亚洲精品v日韩精品| 欧美精品aaa| 日本在线视频1区| 欧美三级日韩三级国产三级| 三级av在线免费观看| 大白屁股一区二区视频| 少妇无码av无码专区在线观看| 国产欧美日韩免费观看| 国产自产女人91一区在线观看| 日本电影在线观看| 亚洲男人第一网站| 国产伦精品一区二区三区视频痴汉 | 欧美黑人性猛交xxx| 福利一区二区在线| 国产三区在线视频| 亚洲一本二本| 九九九九精品九九九九| 国产第一精品| 久久久免费电影| 国产大片在线免费观看| 日韩一级免费观看| 日日噜噜噜噜人人爽亚洲精品| 国产精品短视频| 久久久久国产精品无码免费看| 奇米影视一区二区三区| 国产免费一区二区视频| 日本黄色精品| 九色综合日本| 亚洲免费视频二区| **女人18毛片一区二区| 国产三区二区一区久久| 久久婷婷五月综合色丁香| 久久久女人电视剧免费播放下载| 国产免费视频在线| 精品捆绑美女sm三区| 中文字幕乱码人妻无码久久| 香蕉加勒比综合久久| 男人在线观看视频| 久久色.com| 91精品又粗又猛又爽| 老司机精品视频在线| 波多野结衣家庭教师在线| 亚洲h色精品| 日韩精品久久久毛片一区二区| 99精品中文字幕在线不卡| 国产精品午夜视频| videos性欧美另类高清| 久久久久一本一区二区青青蜜月| 欧美18一19xxx性| 夜夜嗨av色一区二区不卡| 天堂а√在线8种子蜜桃视频 | 国产精品狼人色视频一区| 999av小视频在线| 色与欲影视天天看综合网| a天堂在线资源| 亚洲色图偷窥自拍| 美女欧美视频在线观看免费| 亚洲国产精品成人精品| 亚洲风情第一页| 欧美一级欧美一级在线播放| 在线观看中文字幕av| 91成人免费电影| 99超碰在线观看| 欧美午夜视频在线观看| 日本高清www免费视频| 亚洲午夜久久久久久久久久久| 免费在线黄色网| 亚洲日本在线视频观看| 永久免费未视频| 中文字幕亚洲不卡| 国产免费嫩草影院| 国产精品国产三级国产普通话蜜臀| 性欧美一区二区| 国产亚洲欧美一区在线观看| 免费污网站在线观看| 久久婷婷成人综合色| 亚洲一级中文字幕| 久久精品欧美一区二区三区麻豆 | 亚洲黄色小视频| avtt天堂在线| 亚洲午夜激情av| 日韩手机在线观看| 五月婷婷久久丁香| 成人免费视频毛片| 亚洲精品婷婷| 亚洲欧美日韩国产精品| 亚洲AV成人无码一二三区在线| 亚洲精品99久久久久中文字幕| 亚洲av片在线观看| 国产亚洲精品久久久优势| av在线日韩国产精品| 日韩在线www| 中文在线字幕免费观看| 久久久久久久久久婷婷| 久草在线资源福利站| 日本一区二区三区四区视频| 草民电影神马电影一区二区| 亚洲a成v人在线观看| 2021年精品国产福利在线| 精品视频在线观看| 精品一二三区| 黄色录像特级片| 国产精品乱看| 激情 小说 亚洲 图片: 伦| 激情小说亚洲一区| 日本道中文字幕| 欧美—级在线免费片| 久久国产美女视频| 精品久久久久久亚洲国产300| 亚洲第一区av| 日韩精品一区二区三区四区| 青青久草在线| 久热精品视频在线| 国产黄大片在线观看| 国产经典一区二区| 视频在线观看免费影院欧美meiju| 精品亚洲欧美日韩| 91综合网人人| 国产h视频在线播放| 久久精品国产久精国产| av免费观看不卡| 国产女人水真多18毛片18精品视频| 丰满少妇被猛烈进入一区二区| 大伊人狠狠躁夜夜躁av一区| 91国产免费视频| 日韩精品极品在线观看| 高清全集视频免费在线| 日韩av片免费在线观看| 日本亚州欧洲精品不卡| 日韩精品伦理第一区| 国产精品vip| 日本在线一二三区| 26uuu欧美日本| 青青草手机在线视频| 欧美午夜理伦三级在线观看| 蜜臀久久99精品久久久| 色先锋资源久久综合5566| 麻豆国产在线| 91色琪琪电影亚洲精品久久| 中文有码一区| 免费看毛片的网址| 国产一区二区日韩精品| 少妇一级黄色片| 日韩欧美一区二区在线| 亚洲国产精品久久久久久久| 精品国偷自产在线视频99| 手机看片久久| 精品在线观看一区二区| 午夜精品剧场| 在线播放av中文字幕| 中文字幕精品三区| 日韩女同互慰一区二区| 国产精品欧美久久久久天天影视| 精品中文视频在线| av在线不卡免费| 亚洲最大福利网| www.色多多| 久久只精品国产| 日韩免费av片| 精品国产123| 美女精品导航| 91禁男男在线观看| 91偷拍与自偷拍精品| 一区二区三区四区五区| 欧美优质美女网站| 男男电影完整版在线观看| 91国偷自产一区二区三区的观看方式| 欧美欧美在线| 九九久久九九久久| 国内精品国产成人| 成人免费视频网站入口::| 欧美欧美午夜aⅴ在线观看| av在线电影观看| 国产精品亚洲精品| 不卡中文字幕| 狠狠操狠狠干视频| 中文字幕一区日韩精品欧美| 伊人久久国产精品| 北条麻妃一区二区三区中文字幕| 欧美日韩在线精品一区二区三区激情综合 | 不卡欧美aaaaa| 天堂资源在线播放| 日韩电视剧在线观看免费网站| 黄在线观看免费网站ktv| 九九久久99| 日本视频在线一区| 日本裸体美女视频| 日韩欧美专区在线| www欧美xxxx| 麻豆久久久av免费| 免费在线欧美视频| 精品自拍偷拍视频| 亚洲国模精品一区| **在线精品| 一个色的综合| 国产精品一区二区三区四区| 国产中文字幕免费| 精品视频一区在线视频| 日本在线中文字幕一区二区三区| 国产福利片一区二区| 福利一区二区在线观看| 国产免费一级视频| 久久精品夜夜夜夜夜久久| 成人av动漫| 黑森林福利视频导航| 国产精品理伦片| 亚洲a视频在线| 国产成人福利网站| 综合久久99| 免费毛片视频网站| 在线成人av影院| 岛国av免费在线观看| 视频在线精品一区| 国产iv一区二区三区| 黄色av网站免费观看| 久久大大胆人体| 亚洲资源网你懂的| 亚洲第一天堂久久| 欧美日在线观看| 国产区在线看| 欧美一区二区综合| 国产传媒久久文化传媒| 中文字幕国产在线观看| 久久伊人91精品综合网站| 日韩av三区| 色欲无码人妻久久精品| 色综合中文字幕|