精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達揭示RL Scaling魔力!訓練步數翻倍=推理能力質變,小模型突破推理極限

人工智能 新聞
這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

強化學習(RL)到底是語言模型能力進化的「發動機」,還是只是更努力地背題、換個方式答題?這個問題,學界爭論已久:RL 真能讓模型學會新的推理技能嗎,還是只是提高了已有知識的調用效率?

過去的研究多數持悲觀態度:認為 RL 帶來的收益非常有限,有時甚至會讓模型「同質化」加重,失去多樣性。然而,來自英偉達的這項研究指出,造成這一現象的根本原因在于:數學、編程等任務在 base model 的訓練數據中被過度呈現,以及 RL 訓練步數不足。

圖片

  • 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
  • 鏈接:https://arxiv.org/pdf/2505.24864

ProRL 來了!長期訓練 = 推理能力質變!

由 NVIDIA 團隊提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結果令人震驚:

  • 原本完全不會做的邏輯謎題,ProRL 模型的 pass@k 能達到 100%
  • 創造力指標(Creativity Index)飆升,模型能主動生成全新解題路徑
  • 不再是「蒙對答案」,而是真正「開竅」了!

圖片

這一突破主要來自于穩定長期的強化學習,然而,長期 RL 訓練并不容易,容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此,團隊構建了完整的技術組合拳:

  • 多樣化可驗證獎勵任

引入了數學、編程、科學問答(STEM)、邏輯謎題、指令遵循等多領域數據,這些任務具有程序化可驗證的正確答案,為 RL 訓練提供了可靠、客觀的監督信號,不再依賴「易被騙」的獎勵模型。

  • 改進算法組合:GRPO + DAPO

在 GRPO(Group Relative Policy Optimization)框架基礎上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關鍵的解耦裁剪(Decoupled Clipping)來避免策略更新失衡,以及動態采樣(Dynamic Sampling)來過濾掉「太容易」或「完全不會」的無效樣本,提升訓練效率。

  • KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反,本論文發現適度 KL 懲罰是穩定訓練的關鍵。同時引入參考策略重置機制:當 KL 驟增或性能下滑時,重置參考策略為當前模型副本,并重置優化器,讓訓練「重啟」。這個簡單機制有效打破訓練停滯,使模型持續進化。

基于 ProRL 技術,團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現出驚人的性能優勢:

  • 在數學任務中提升 14.7%,趕超 7B 模型
  • 在代碼生成上領先 DeepCoder-1.5B 達 6.5%
  • 在邏輯推理方面,準確率提升高達 54.8%

圖片

ProRL 真的能夠拓寬模型能力邊界

近來,對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題,并且發現,長期穩定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題,文章主要揭示了三個方面的發現:

  • RL 模型能解出 base model 無論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機波動,而是新能力的誕生。
  • 強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務(初始 pass@k 較低),RL 展現出極強的「推理邊界擴展」能力。
    而在本身已經很強的領域,如數學和代碼(這些任務的「創造力指數」較低),ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務,作者觀察到一個共同特征:這些任務在預訓練數據中已被充分覆蓋,缺乏進一步擴展的空間,因此 RL 提供的增益有限。

圖片

  • 模型不僅「答對」,還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估,發現:訓練步數越長,模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路,而是展現出更豐富、更具創造性的推理策略。

總結

這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

通過 ProRL,我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」,甚至跑贏大模型。而這種進步,不靠更多數據、不靠更大模型,只靠更長、更穩、更聰明的訓練流程。

未來,如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型,ProRL 可能正是那把鑰匙。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-18 14:46:51

2025-10-27 09:08:20

2025-07-14 14:38:45

視覺模型AI

2025-05-12 14:23:42

AI算法訓練

2022-06-01 16:47:53

AI模型開源

2025-03-12 09:48:19

2025-07-28 09:12:00

2025-02-17 09:33:00

AI算法模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-06-12 01:00:00

2023-01-05 09:33:37

視覺模型訓練

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-08-11 08:00:00

2025-05-07 10:12:52

英偉達模型AI

2023-09-11 12:58:00

AI訓練

2025-02-27 09:09:45

2024-09-13 06:32:25

2024-06-17 13:34:54

2025-04-22 09:12:00

AI模型數據

2025-02-18 15:02:13

點贊
收藏

51CTO技術棧公眾號

国产女同91疯狂高潮互磨| 微拍福利一区二区| 成人影院在线播放| 99精品欧美一区| 国产大片精品免费永久看nba| 999福利视频| 国产主播性色av福利精品一区| 日韩欧美有码在线| 在线视频一二三区| 天天综合网在线观看| 美美哒免费高清在线观看视频一区二区 | 久久久久久久一| 日韩丰满少妇无码内射| 免费看一区二区三区| 日韩欧美999| 国产一级片91| 国产色在线 com| 成人中文字幕电影| 国产精品日韩电影| 国产福利拍拍拍| 欧美在线视屏| 91伊人久久大香线蕉| 精品综合久久久久久8888| 欧美高清自拍一区| 国产毛片欧美毛片久久久| 97久久精品| 欧美精品第1页| 成人精品视频一区二区| 国产三线在线| 一区在线中文字幕| 日本成人三级电影网站| 韩国中文字幕hd久久精品| 免费成人美女在线观看| 91po在线观看91精品国产性色 | 99国产精品久久久久99打野战| 国产精品嫩草99av在线| 欧美成aaa人片在线观看蜜臀| 毛片aaaaaa| 精品在线99| 日韩av在线免费观看| 少妇欧美激情一区二区三区| 欧美综合影院| 欧美日韩中文精品| 国产一区亚洲二区三区| 日本在线影院| 亚洲大片精品永久免费| 无码日本精品xxxxxxxxx| 免费在线观看黄色网| 国产日韩欧美不卡| 欧美日韩在线精品一区二区三区| 午夜小视频免费| 成人美女在线观看| 91九色蝌蚪嫩草| 国产精品亚洲欧美在线播放| 久久se精品一区二区| 国产精品一区二区久久久| 制服丝袜在线一区| 日本不卡一区二区三区高清视频| 国产a∨精品一区二区三区不卡| 91精品国产综合久久久蜜臀九色| 99精品国产在热久久婷婷| 欧美精品第一页在线播放| 国产一级片久久| 雨宫琴音一区二区在线| 午夜美女久久久久爽久久| 91av在线免费视频| 久久激情视频| 国产精品久久久精品| 最近日韩免费视频| 精品一区二区三区久久久| 成人在线播放av| 国内精品国产成人国产三级| 国产成人午夜高潮毛片| 加勒比在线一区二区三区观看| 色综合久久久久久| 91一区二区三区在线播放| 欧美日韩免费精品| av免费观看一区二区| 亚洲欧美视频在线观看视频| 91亚洲精品国产| 国产乱码精品一区二三赶尸艳谈| 五月婷婷色综合| 欧美激情精品久久久久久小说| 成人在线视频免费| 日韩欧美你懂的| 水蜜桃av无码| 欧美军人男男激情gay| 日韩中文字幕在线视频| 免费在线观看黄视频| a91a精品视频在线观看| 国产精品视频自在线| 午夜精品在线播放| 久久视频一区二区| 中文字幕综合在线观看| a级片免费在线观看| 91九色最新地址| 天天爽夜夜爽视频| 欧美日韩播放| 欧美片一区二区三区| 日韩精品一区二区亚洲av| 美女网站一区二区| 国产在线观看一区| 日本在线观看视频| 亚洲国产精品嫩草影院| 亚洲色图 在线视频| 超碰精品在线观看| 在线视频亚洲欧美| 国产在线一区视频| 免费在线欧美视频| 精品网站在线看| 麻豆影院在线| 欧美性xxxx极品hd满灌| 日本特黄在线观看| 成人免费av| 91成人在线观看国产| 国产精品视频无码| 国产色一区二区| 青青青青草视频| 精品一区二区三区中文字幕视频 | 亚洲网站在线| 国产在线拍揄自揄视频不卡99| 天天色棕合合合合合合合| 自拍偷拍亚洲综合| 天堂av在线网站| 日韩av网站在线免费观看| 久久久久北条麻妃免费看| 精品国产xxx| 不卡电影一区二区三区| 免费看污污视频| 欧美成人三级| 亚洲一区二区福利| 成人午夜视频在线播放| 国产宾馆实践打屁股91| 五月天男人天堂| 成人精品国产亚洲| 亚洲色无码播放| av黄色在线看| 99免费精品视频| 久久99久久久久久| 中文字幕区一区二区三| 久久夜色撩人精品| 亚洲性生活大片| 国产精品免费aⅴ片在线观看| 精品免费国产一区二区| 亚洲精品亚洲人成在线| 欧美孕妇性xx| 全部免费毛片在线播放网站| 欧美日韩一区二区三区| 人妻av一区二区| 亚洲国产美女| 精品在线一区| 中国字幕a在线看韩国电影| 亚洲国产精品大全| 国产精品第9页| 97超碰欧美中文字幕| 欧美大片在线播放| 日韩影视高清在线观看| 国产91精品久久久久久久| 亚洲av成人精品一区二区三区在线播放| 亚洲综合久久久久| 欧洲熟妇的性久久久久久| 精品av久久久久电影| 国产一区精品视频| 三级在线看中文字幕完整版| 精品福利二区三区| 五月婷婷中文字幕| 久久久久9999亚洲精品| 精品久久久久久中文字幕2017| 欧美日韩一二| 91在线播放国产| 麻豆蜜桃在线| 日韩成人在线网站| 亚洲国产精品无码久久久| 国产精品视频你懂的| 中文字幕12页| 亚洲视频狠狠| 欧美激情导航| 少妇高潮一区二区三区99| 欧美精品在线网站| 天天综合天天色| 欧洲精品在线观看| 麻豆明星ai换脸视频| 不卡电影免费在线播放一区| 欧美女人性生活视频| 日韩欧美大片| 国产aⅴ精品一区二区三区黄| 9765激情中文在线| 国产亚洲欧美日韩美女| 99国产精品99| 日韩欧美视频一区二区三区| 污污视频网站在线免费观看| 国产成人在线影院| 黄色片一级视频| 亚洲精品91| 久久久久无码国产精品一区| 亚洲资源在线| 欧美中文在线观看| 黄色av电影在线播放| 日韩高清有码在线| 97人妻一区二区精品免费视频| 亚洲成人免费电影| 五月婷婷综合激情网| 99久久精品免费看国产免费软件| 九九热99视频| 国产精品亚洲综合久久| av磁力番号网| 国产麻豆一区二区三区精品视频| 99国产视频在线| 亚洲一区二区三区四区| 欧美激情一区二区三区久久久| 国产三级视频在线播放线观看| 欧美一级理论片| 天天天天天天天干| 亚洲成人福利片| caoporn91| 国产精品毛片大码女人| 成人免费av片| 成人综合婷婷国产精品久久| 欧美成年人视频在线观看| 99精品视频免费观看视频| 天天爱天天做天天操| 国产欧美日韩精品高清二区综合区| 91久色国产| 亚洲老司机网| 国产精品视频久久久久| 伊人久久视频| 57pao国产精品一区| 国产精品蜜臀| 九九久久国产精品| 免费在线看黄网站| 日韩亚洲精品视频| av在线免费一区| 亚洲免费小视频| 天堂v视频永久在线播放| 欧美一区二区视频观看视频| 97成人在线观看| 色婷婷综合视频在线观看| 亚洲免费在线观看av| 亚洲成人免费电影| 日本一区二区不卡在线| 亚洲国产一区二区在线播放| 麻豆亚洲av熟女国产一区二 | 婷婷五月色综合| 无码日韩精品一区二区免费| 国产在线精品一区二区三区| 成人爽a毛片免费啪啪红桃视频| 99热在线播放| 91麻豆精品激情在线观看最新| 亚洲综合中文字幕在线观看| 精品中文在线| ts人妖另类在线| jazzjazz国产精品久久| 不卡视频一区二区| 中文字幕区一区二区三| 国产九色91| 欧美精品中文字幕亚洲专区| 久久精品日产第一区二区三区乱码| 精品视频高潮| 欧美18视频| 国产一区二区三区不卡视频网站| 日本一区二区精品| 欧美精选视频在线观看| 亚洲自拍偷拍二区| 中文不卡在线| 精品无码国模私拍视频| av成人国产| 国产三级三级三级看三级| 免费在线观看精品| 香蕉视频xxxx| 不卡一区二区在线| 丝袜美腿中文字幕| 中文字幕第一区| 久久中文免费视频| 同产精品九九九| 中国女人真人一级毛片| 欧美人成免费网站| 黑人操亚洲女人| 亚洲另类激情图| 日本电影在线观看网站| 欧美精品免费在线观看| 日本三级一区| 91精品久久久久久久| 97青娱国产盛宴精品视频| 久久久免费看| 小小影院久久| 无码专区aaaaaa免费视频| 日本免费在线视频不卡一不卡二| 欧美一级视频在线| 成人av高清在线| 国产三级在线观看完整版| 一区二区三区**美女毛片| 波多野结衣国产| 欧美一级爆毛片| 天天干天天做天天操| 精品国模在线视频| 日韩欧美一中文字暮专区| 国产日韩av高清| 亚洲裸色大胆大尺寸艺术写真| 亚洲一区二区三区涩| 亚洲三级毛片| 亚洲黄色片免费看| 久久久精品天堂| 久草福利资源在线观看| 91国产免费看| 亚洲第一精品网站| 色999日韩欧美国产| 成年人国产在线观看| 国产一区红桃视频| 日韩精品丝袜美腿| 一级黄色片播放| 奇米精品一区二区三区在线观看 | 中文一区二区三区四区| 日本高清不卡一区二区三| 影音先锋久久久| 亚洲美女性囗交| 久久久国际精品| 国产无码精品在线观看| 91精品国产色综合久久| 国产最新视频在线观看| 午夜伦理精品一区| 日本在线一区二区三区| 亚洲欧洲精品一区二区三区波多野1战4| 亚洲黄色大片| 人妻精品久久久久中文字幕69| 国产欧美日韩不卡免费| 91精品国产高清一区二区三密臀| 精品日韩av一区二区| 黄色免费在线观看| 国产欧美久久一区二区| 国产亚洲欧美日韩在线观看一区二区| 欧美一级视频在线播放| 国产91精品一区二区麻豆网站 | 成人女保姆的销魂服务| 国产一区二区三区91| 国产淫片av片久久久久久| 91看片淫黄大片一级| 日本一二三区不卡| 欧美精品一区二区三区高清aⅴ| 怡红院在线观看| 91免费国产视频| 久久久久久久久久久妇女| 日本高清久久久| 中文字幕一区在线观看视频| 中文字幕日本人妻久久久免费 | 久久精品亚洲| 精品少妇一区二区三区免费观| 舔着乳尖日韩一区| 亚州男人的天堂| 欧美性资源免费| 色综合综合网| 香港日本韩国三级网站| 国产精品久久福利| 国产精品探花视频| 久久综合九色九九| 日韩中文在线| 精品无码一区二区三区爱欲| www.在线欧美| 精品国产xxx| 在线播放日韩欧美| 欧美视频免费看| a级黄色片网站| 国产精品一区二区三区四区| 久久在线视频精品| 亚洲精品视频中文字幕| 97精品国产综合久久久动漫日韩| 一区二区冒白浆视频| 国产美女在线精品| 国产无套粉嫩白浆内谢| 亚洲精品一二区| 国产91欧美| 男人添女人下部视频免费| 99久久国产综合精品女不卡| 五月婷婷激情视频| 日韩中文字幕网址| 99久久香蕉| 妓院一钑片免看黄大片| 中文字幕一区二区三区不卡| 亚洲av永久纯肉无码精品动漫| 欧美一级在线亚洲天堂| 久久资源中文字幕| 大桥未久恸哭の女教师| 一本到不卡精品视频在线观看| 亚洲图片88| 国产精品久久九九| 视频一区视频二区在线观看| 尤物在线免费视频| 亚洲国产毛片完整版| 日韩一区二区三区免费| 美女av免费观看| 久久综合久久综合久久| 国产精品视频a| 国产91精品久久久| 一区二区电影| 一二三不卡视频| 日韩欧美在线影院| 偷拍视频一区二区三区| 日本一道在线观看| 国产亚洲精品免费| 欧美一区二区三区成人片在线| 国产精品久久久久国产a级|