精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?

發(fā)布于 2025-6-26 01:02
瀏覽
0收藏

今天分享一篇來自NVIDIA的研究論文,標題為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》(ProRL:長時間強化學習拓展大型語言模型的推理邊界)。

這篇文章探討了強化學習(RL)是否真正能拓展LLM推理上限?還是僅僅優(yōu)化了其基礎模型中已有的高獎勵輸出的采樣效率,以及持續(xù)擴展RL計算是否能可靠地提高推理性能。作者通過引入ProRL(Prolonged Reinforcement Learning)訓練方法,證明了通過有效的RL方法能持續(xù)提升LLM的推理上限。

該方法特點總結(jié)如下:

1.訓練穩(wěn)定性與效率:ProRL通過引入KL散度控制、參考策略重置以及多樣化的任務集,實現(xiàn)了長期的穩(wěn)定訓練和持續(xù)的性能提升

2.卓越的性能表現(xiàn):訓練出的Nemotron-Research-Reasoning-Qwen-1.5B模型在各種Pass@k評估中持續(xù)優(yōu)于基礎模型,包括基礎模型完全失敗的場景。在多個基準測試上,其性能甚至超越或匹敵了更大的DeepSeek-R1-7B模型

3.泛化能力強:模型在訓練2000多步后仍持續(xù)改進,表明RL訓練能夠有效利用更多計算資源,并能很好地泛化到未見過的分布外(OOD)任務和難度更高的任務

4.證明有效的RL能提升LLM的推理上限:證明了延長RL訓練(ProRL)可以發(fā)現(xiàn)基礎模型中甚至通過廣泛采樣也無法獲得的新穎推理策略,從而真正擴展了模型的推理能力,而非僅僅優(yōu)化現(xiàn)有能力。

一、概述

?Title:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

?URL:https://arxiv.org/abs/2505.24864v1 (請注意,根據(jù)OCR內(nèi)容,此URL指向一個未來日期2025年5月,這可能是OCR的預印本占位符或特定排版,實際論文發(fā)表時URL可能會有所不同)

?Authors:Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

?Institution:NVIDIA

?Code:?? https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B??

1 Motivation

? 當前研究界普遍存在爭議,即強化學習(RL)是否真正擴展了語言模型的推理能力,還是僅僅增強了基礎模型中已有的高獎勵輸出的采樣效率。

?現(xiàn)有RL研究存在局限性:過度依賴數(shù)學等專業(yè)領域進行評估,模型在預訓練和后訓練階段可能過擬合,限制了探索潛力;以及RL訓練過早終止,通常僅進行數(shù)百步,模型未能充分探索和發(fā)展新的推理能力。

? 本文希望證明通過長時間的、穩(wěn)定的RL訓練,模型可以學習到基礎模型即使通過大量采樣也無法獲得的全新推理策略

2 Methods

省流版總結(jié):

論文提出了ProRL(Prolonged Reinforcement Learning),一種新穎的訓練方法,旨在通過長時間、穩(wěn)定的RL訓練來擴展大型語言模型的推理能力。其核心在于解決RL訓練中的熵崩潰和不穩(wěn)定性問題,并通過多樣化的任務和策略優(yōu)化手段,使模型能夠進行更深層次的探索和學習。

ProRL使得模型能夠進行2000步以上的長時間訓練,并在多樣化的任務上持續(xù)提升性能,最終開發(fā)出Nemotron-Research-Reasoning-Qwen-1.5B,一個在推理能力上顯著超越其基礎模型(DeepSeek-R1-1.5B)并匹敵甚至超越DeepSeek-R1-7B的模型。

詳細方法和步驟:

RL算法選擇啥?: 還是采用DeepSeek的GRPO,與PPO不同,GRPO移除了價值模型,而是基于組分數(shù)估計基線,并通過最大化其目標函數(shù)來進行優(yōu)化。

熵崩潰是什么?如何緩解熵崩潰策略? 針對RL訓練中常見的熵崩潰問題(模型輸出分布過早收斂,限制探索),ProRL采用了多項措施:

?高探索溫度:在rollout階段使用較高的采樣溫度,鼓勵初期探索。

?解耦剪裁(參考DAPO):引入DAPO算法的解耦剪裁機制,將PPO目標中的上下剪裁邊界作為獨立超參數(shù)(, )。提高值可以提升先前可能性較低的token的概率,鼓勵更廣泛的探索,有助于維持熵并減少過早的模式崩潰。

?動態(tài)采樣(參考DAPO):過濾掉模型能一致成功或失敗(準確率1或0)的Prompt,將訓練重點放在中等難度示例上,以維持多樣化的學習信號。

?KL正則化:引入KL散度懲罰項  到GRPO目標函數(shù)中。這不僅有助于維持熵,還能防止在線策略偏離穩(wěn)定參考策略過遠,從而穩(wěn)定學習并減輕對虛假獎勵信號的過擬合。

?ref model重置(當出現(xiàn)驗證集表現(xiàn)變差時,更新ref model):為解決KL項可能在訓練后期主導損失,導致策略更新減弱的問題,ProRL周期性地將參考策略模型硬重置為在線策略的最新快照(即減少最新的online model和ref model的差異,降低KL項的影響),并重新初始化優(yōu)化器狀態(tài)。這種策略允許模型在保持KL正則化優(yōu)勢的同時繼續(xù)改進,鼓勵長時間訓練。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?多樣化訓練數(shù)據(jù)集構建:構建了一個包含136K個問題的多樣化且可驗證的訓練數(shù)據(jù)集,涵蓋數(shù)學、代碼、STEM、邏輯謎題和指令遵循等五大任務領域。每種任務類型都配有清晰的獎勵信號(二元或連續(xù)),以實現(xiàn)訓練期間的可靠反饋,鼓勵泛化能力。

DAPO是啥?主要采用了哪些技術?

?Clip-Higher:該技術旨在提升系統(tǒng)的多樣性并避免熵崩潰。傳統(tǒng) PPO 的剪輯機制限制了策略的探索,Clip-Higher 通過解耦上下限剪輯范圍,允許更自由地增加低概率 token 的概率,從而鼓勵探索。

?Dynamic Sampling:動態(tài)采樣旨在提高訓練效率和穩(wěn)定性。它過采樣并過濾掉準確率等于 1 或 0 的 prompt,保留有效梯度的 prompt,并保持 batch 中 prompt 數(shù)量的穩(wěn)定。在訓練前,持續(xù)采樣直到 batch 被準確率非 0 或 1 的樣本填滿。

?Token-Level Policy Gradient Loss:token級策略梯度損失對于長 CoT (Chain-of-Thought) RL 場景至關重要。原始 GRPO 算法采用樣本級損失計算,長回復中的 token 對總損失的貢獻可能不成比例地降低。Token-Level Policy Gradient Loss 使得更長的序列對梯度更新有更多影響,并對每個 token 的獎勵變化做出響應。

?Overlong Reward Shaping:過長獎勵塑造旨在減少獎勵噪聲并穩(wěn)定訓練。對于被截斷的過長樣本,默認會分配懲罰性獎勵,但這會引入噪聲。論文提出了 Overlong Filtering 策略來屏蔽截斷樣本的損失,并提出了 Soft Overlong Punishment 機制,對超過預定義最大長度的回復施加長度感知懲罰,以引導模型避免過長的回復

實驗設置細節(jié)是啥?

? 使用??verl??框架進行RL訓練。

? 采用AdamW優(yōu)化器,學習率為??2e-6??。

? 在48個NVIDIA H100-80GB節(jié)點上進行訓練,總計約16k GPU小時。

? 通過混合驗證集密切監(jiān)控訓練進度。當驗證性能停滯或下降時,執(zhí)行參考模型和優(yōu)化器的硬重置。

? 在訓練的大部分時間里,將響應長度限制在8k token以內(nèi),以保持簡潔和穩(wěn)定的生成。在最后階段,將上下文窗口增加到16k token。

3 Conclusion

?RL確實能擴展推理邊界:長時間、穩(wěn)定的強化學習(ProRL)能夠使語言模型學習到其基礎模型中不存在的、全新的推理策略和解決方案。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?ProRL的有效性:ProRL訓練的模型(Nemotron-Research-Reasoning-Qwen-1.5B)在數(shù)學、編碼、STEM、邏輯謎題和指令遵循等多種任務上顯著優(yōu)于其基礎模型,并在某些情況下達到或超過了更大規(guī)模或領域?qū)S媚P偷男阅堋?/p>

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

?推理提升與初始能力和訓練時長相關:模型推理邊界的改進程度與基礎模型在該任務上的初始能力以及RL訓練的持續(xù)時間密切相關。RL在基礎模型表現(xiàn)較弱的領域能帶來更大的提升,且持續(xù)訓練能讓RL探索并填充新的解空間區(qū)域。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區(qū)

4 Limitation

?計算資源需求大:ProRL所涉及的長時間RL訓練過程需要大量的計算資源,這可能對預算有限的小型組織或研究者構成障礙。

?可擴展性問題:雖然在1.5B參數(shù)模型上取得了成功,但該方法是否能有效擴展到更大規(guī)模的模型(如百億或千億參數(shù))尚不明確,更大模型對計算資源的需求將更加顯著。

?訓練過程復雜性:ProRL依賴周期性的參考策略和優(yōu)化器硬重置來維持訓練穩(wěn)定性,這增加了訓練過程的復雜性,并可能導致與更穩(wěn)定訓練方法相比結(jié)果不一致。

?任務范圍局限性:盡管評估涵蓋了多樣化的領域,但訓練數(shù)據(jù)集仍只代表了所有可能推理任務的一個子集。模型在某些分布外任務上表現(xiàn)出有希望的泛化能力,但不能保證在所有未明確訓練的推理領域都有類似的改進。


二、總結(jié)

結(jié)論1: ProRL證明RL有效擴展了LLM的推理邊界。 通過長時間、穩(wěn)定的RL訓練,證明了模型能夠發(fā)現(xiàn)基礎模型中未曾出現(xiàn)的新穎推理策略,并在多項任務上實現(xiàn)了超越基礎模型的性能,包括在OOD任務上的強大泛化能力。

結(jié)論2: ProRL通過創(chuàng)新技術確保了RL訓練的穩(wěn)定性和效率。 針對RL訓練中常見的熵崩潰和不穩(wěn)定性問題,ProRL引入了KL散度控制、Ref Model周期性重置、解耦剪裁和動態(tài)采樣等機制。這些技術使得模型能夠在長時間訓練(超過2000步)中持續(xù)進步,有效利用計算資源,為長期RL在推理任務中的應用奠定了基礎。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-6-26 09:35:51修改
收藏
回復
舉報
回復
相關推薦
日韩熟女一区二区| 星空大象在线观看免费播放| 欧美性猛交xxx乱大交3蜜桃| 国产在线一区二区| 98精品国产高清在线xxxx天堂| 37p粉嫩大胆色噜噜噜| 日韩午夜视频在线| 五月天一区二区| 一本色道久久综合亚洲精品婷婷| 亚洲国产成人精品一区二区三区| 亚洲深夜av| 不卡av电影院| 男女做爰猛烈刺激| av成人app永久免费| av黄色在线看| 一级做a爰片久久| 日韩无码精品一区二区三区| 黑人操亚洲人| 亚洲成人久久久| 五月婷婷六月丁香激情| 天堂在线中文网官网| 亚洲欧美日韩精品久久久久| 精品视频第一区| 国产白浆在线观看| 日本成人在线一区| 57pao成人国产永久免费| 国产大片免费看| 日韩精品网站| 国产一区二区三区四区福利| 中文字幕人妻一区| 韩国三级大全久久网站| 欧美性xxxx在线播放| av日韩在线看| free性欧美hd另类精品| 中文字幕av一区二区三区高| 欧美精品在线一区| 四虎影院在线域名免费观看| 国产·精品毛片| 亚洲一区二区三区香蕉| 中文字幕第315页| 天堂一区二区在线| 欧美怡春院一区二区三区| 久久久久久天堂| 性欧美69xoxoxoxo| 久久视频免费在线播放| 黄色av片三级三级三级免费看| 欧美人妖在线| 亚洲女人天堂av| 日韩精品一区二区三区高清免费| 久久久久高潮毛片免费全部播放| 日韩亚洲欧美一区| 超级砰砰砰97免费观看最新一期 | 白白色 亚洲乱淫| 亚洲一区二区久久久久久| 国产又粗又黄又爽| 国产一区二区三区免费| 亚洲最大福利网| va婷婷在线免费观看| 国产精品一卡二卡| av在线不卡一区| 黄色av免费观看| 99精品久久99久久久久| 欧美国产综合视频| 超碰在线国产| 综合久久综合久久| 日本精品福利视频| av在线私库| 日韩欧美999| 亚洲 欧美 日韩系列| 国产亚洲精彩久久| 欧美一二三四在线| 国产精品手机在线观看| 在线观看欧美理论a影院| 亚洲午夜av久久乱码| 麻豆网址在线观看| 亚洲私人影院| 日本韩国欧美精品大片卡二| 国产精品无码一区| 国产乱子伦视频一区二区三区| 99热99热| 国产精品一区二区三区四区色| 中文一区二区在线观看| 黄网站色视频免费观看| 美女网站在线看| 欧美日韩亚洲不卡| 亚洲精品乱码久久| 成人区精品一区二区婷婷| 欧美区二区三区| 中文字字幕在线中文| 日韩av不卡一区二区| 亚洲精品日韩av| 免费在线一级视频| 亚洲免费av在线| 九九九九免费视频| 国产精品亚洲欧美日韩一区在线| 亚洲精品福利在线观看| 天堂av免费在线| 9久re热视频在线精品| 国产伦精品免费视频| 亚洲黄色精品视频| 国产精品国产自产拍高清av王其| 免费毛片网站在线观看| 日韩大陆av| 日韩av网站电影| 黄色录像二级片| 麻豆亚洲精品| 国产精品久久国产三级国电话系列| 男女网站在线观看| 性做久久久久久| 91小视频在线播放| 欧美人妖在线| 韩剧1988免费观看全集| 99国产精品久久久久久久成人| xnxx国产精品| 无码日本精品xxxxxxxxx| 岛国精品在线| 亚洲色图欧美制服丝袜另类第一页| www.色小姐com| 久久电影网电视剧免费观看| 麻豆久久久av免费| 99riav视频在线观看| 欧美日韩日日骚| 亚洲AV无码国产成人久久| 亚洲激情不卡| 成人国产1314www色视频| 日本免费在线观看| 在线观看一区不卡| aaaaaav| 亚洲茄子视频| 高清国产在线一区| 日韩123区| 欧美一区二区三区婷婷月色| 久久久久人妻一区精品色| 日韩精品一级二级| 茄子视频成人在线观看 | 婷婷久久综合九色国产成人| 日本黄色一级网站| 91精品亚洲| 亚洲一区二区三区成人在线视频精品| 色综合久久影院| 欧美日韩免费不卡视频一区二区三区| 国产精品成人无码免费| 久久aⅴ国产紧身牛仔裤| 久久99国产精品99久久| 国产乱码精品一区二三赶尸艳谈| 精品久久久久99| 国产一级免费av| 成人久久久精品乱码一区二区三区| 日本一道在线观看| 亚洲日本va午夜在线电影| 美女啪啪无遮挡免费久久网站| 国产手机视频在线| 一区二区三区精品在线| 在线中文字日产幕| 亚洲久久视频| 免费中文日韩| 久久麻豆视频| 久久91亚洲人成电影网站 | 亚洲国产天堂网精品网站| 国产乡下妇女做爰| 337p粉嫩大胆色噜噜噜噜亚洲| 欧美日韩亚洲一| 国产区精品区| 国产精自产拍久久久久久蜜| 国产福利在线播放麻豆| 精品国产一二三| 亚洲第一在线播放| 国产欧美日韩激情| 三日本三级少妇三级99| 欧美视频亚洲视频| 精品国产福利| 日本欧美一区| 九九九久久国产免费| 婷婷丁香花五月天| 欧美在线一二三| 破处女黄色一级片| 99re成人精品视频| 国产又黄又猛又粗又爽的视频| 亚洲中无吗在线| 国产偷国产偷亚洲高清97cao| 成人av观看| 不卡中文字幕av| 亚洲日本中文字幕在线| 欧美色图12p| 精品无码免费视频| 国产欧美日韩另类视频免费观看 | 91网页版在线| 中文字幕永久有效| 在线电影一区| 一区二区三区精品国产| 国产精品x8x8一区二区| 国产精品草莓在线免费观看| av在线播放观看| 亚洲欧美综合精品久久成人| 国产精品高潮呻吟久久久| 午夜精品久久一牛影视| 国精品人伦一区二区三区蜜桃| 国产 欧美在线| 中文字幕av专区| 99国产精品视频免费观看一公开 | 国产精品无码一区二区三区免费 | 日本一区二区三区免费乱视频| www.com操| 亚洲精品传媒| 欧美一二三区精品| 秋霞av一区二区三区| 夜夜精品视频一区二区| 黄色三级生活片| 99久久免费视频.com| 亚洲激情在线看| 神马久久高清| 成人v精品蜜桃久久一区| 午夜精品久久久内射近拍高清| 日韩欧美精品综合| 久久99精品久久久久久久久久| 色婷婷成人网| 国产aⅴ夜夜欢一区二区三区| 国产盗摄一区二区| 大胆人体色综合| 欧美成人性生活视频| 亚洲色图激情小说| 色视频免费在线观看| 欧美电影精品一区二区| 91精品在线视频观看| 日韩欧美黄色动漫| 日本少妇激情视频| 亚洲一级二级在线| 久久久久久久久久久97| 亚洲人被黑人高潮完整版| 国产精品视频在| 国产女主播一区| 摸摸摸bbb毛毛毛片| 国产亚洲视频系列| 中文字幕狠狠干| 久久久亚洲欧洲日产国码αv| 无码人妻精品一区二区三| 国产二区国产一区在线观看| jizz18女人| 精品在线播放午夜| 国产精品视频中文字幕| 蜜乳av一区二区| 欧美特级aaa| 精品一区二区三区免费播放| 91女神在线观看| 国模娜娜一区二区三区| 欧美在线aaa| 精品无人码麻豆乱码1区2区| www.久久av.com| 国产乱一区二区| 亚洲av无一区二区三区久久| 国产激情一区二区三区| 国产a级片视频| 91亚洲精品久久久蜜桃网站| 偷拍女澡堂一区二区三区| 久久一夜天堂av一区二区三区| 日本黄色特级片| 国产亚洲一区二区三区四区 | 一级aaaa毛片| 4438x亚洲最大成人网| 国产精品美女一区| 日韩视频一区二区三区| 午夜小视频在线播放| 亚洲免费av片| 午夜免费福利在线观看| 久久久精品久久| 国产精品—色呦呦| 日本三级韩国三级久久| 婷婷成人av| 国产精品免费视频一区二区| 最新亚洲精品| 国产精品美女在线播放| 亚洲高清久久| 国产成人手机视频| 国产一区二区三区四| 精品熟女一区二区三区| 国产视频亚洲色图| 麻豆疯狂做受xxxx高潮视频| 黄色一区二区在线| 亚洲一区在线观| 欧美xxxxx牲另类人与| 全色精品综合影院| 精品国产区一区二区三区在线观看 | 色综合.com| 国模一区二区三区私拍视频| 欧美亚洲精品在线| 天天做天天躁天天躁| 久久久www| 95视频在线观看| 国产精品美女www爽爽爽| 动漫精品一区一码二码三码四码| 色婷婷久久久亚洲一区二区三区| 国产精品一级视频| 亚洲精品一区中文| 三级网站视频在在线播放| 日韩美女免费观看| 91精品丝袜国产高跟在线| 日韩在线电影一区| 亚洲麻豆av| 在线观看中文av| 国产欧美日本一区二区三区| 久久免费播放视频| 欧美乱熟臀69xxxxxx| 十九岁完整版在线观看好看云免费| 久久亚洲国产精品| 日韩毛片一区| 精品久久中出| 国产精品hd| 亚洲精品成人在线播放| 26uuu国产电影一区二区| 国产一级二级三级| 91.成人天堂一区| 成人高清免费观看mv| 69久久夜色精品国产69| 99精品中文字幕在线不卡| 一区二区三区的久久的视频| 水野朝阳av一区二区三区| 在线观看亚洲免费视频| 亚洲精品ww久久久久久p站| 99在线观看视频| 色欲av永久无码精品无码蜜桃| 一区二区在线视频| 绿色成人影院| 99理论电影网| 小处雏高清一区二区三区| 久草综合在线观看| 91免费看`日韩一区二区| 九九热精彩视频| 欧美一级高清片| 快射av在线播放一区| 国产精品免费一区二区三区都可以| 老牛精品亚洲成av人片| 日本阿v视频在线观看| 国产成人综合在线播放| 1024手机在线视频| 欧美一区二区三区思思人| 免费a级毛片在线播放| 国产在线观看不卡| 欧美电影《睫毛膏》| 天天综合网日韩| 国产精品日产欧美久久久久| 日本视频免费观看| 亚洲欧美日韩中文在线制服| 中文在线免费二区三区| 精品国产乱码久久久久久108| 在线成人h网| 人妻丰满熟妇av无码久久洗澡| 午夜精品爽啪视频| 日韩a在线观看| 国产suv精品一区二区三区88区| 免费观看久久av| 国产精品igao| 国产精品免费视频观看| 中文字幕在线视频第一页| 最新国产精品亚洲| 国产精品色婷婷在线观看| 国产911在线观看| 福利一区二区在线观看| 日韩av一二三区| 精品无人区太爽高潮在线播放 | 日韩mv欧美mv国产网站| 午夜精品久久久久久久无码| 久久综合九色综合欧美98| 69视频免费看| 久久精品亚洲精品| 高清欧美性猛交xxxx黑人猛| av之家在线观看| 欧美国产精品一区二区| 97在线公开视频| 久久露脸国产精品| 国产剧情一区| 亚洲天堂一区二区在线观看| 亚洲一区二区三区在线看| 亚洲日本在线播放| 国产免费一区二区三区在线观看| 亚洲天天综合| 精品夜夜澡人妻无码av| 欧美中文字幕一区| 日本动漫理论片在线观看网站 | 欧美一级淫片播放口| 日韩在线高清| www.啪啪.com| 欧美日韩中文精品| 国产理论电影在线| 无码免费一区二区三区免费播放| 激情丁香综合五月| 中文字幕国产在线观看| 久久精品久久久久久| 日韩精品社区| 久久久久无码精品| 色偷偷88欧美精品久久久| 国产精品扒开做爽爽爽的视频| 国产精品久久一区二区三区| 日韩电影免费在线看| 久久黄色免费网站| 日韩专区中文字幕| 亚洲自拍电影| 年下总裁被打光屁股sp| 欧美色窝79yyyycom| 久草在线资源站手机版| 秋霞在线一区二区|