精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

人工智能 新聞
研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論。

僅通過強化學習,就能超越DeepSeek!

上海AI Lab提出了基于結果獎勵的強化學習新范式——

從Qwen2.5-32B-Base模型出發,僅通過微調和基于結果反饋的強化學習,在不蒸餾超大模型如DeepSeek-R1的情況下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超強數學推理性能。

團隊發現,當前大模型數學推理任務面臨”三重門”困局:

  • 稀疏獎勵困境:最終答案對錯的二元反饋,使復雜推理的優化變得困難
  • 局部正確陷阱:長思維鏈中部分正確步驟反而可能誤導模型學習
  • 規模依賴魔咒:傳統蒸餾方法迫使研究者陷入”參數規模軍備競賽”

因此,研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論:

  • 對于正樣本:在二元反饋環境下,通過最佳軌跡采樣(BoN)的行為克隆即可學習最優策略
  • 對于負樣本:需要使用獎勵重塑來維護策略優化目標的一致性
  • 對于長序列:不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函數,這個函數可以通過結果獎勵習得

通俗來說,就是通過對正確樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規模的模型(例如DeepSeek-R1)進行蒸餾,僅通過強化學習即可達到驚人的效果。

除此之外,團隊也對不同起點模型進行了強化學習訓練對比和分析,發現強化學習的起點模型訓練數據分布對最終的模型效果也很重要。因此,研究團隊將RL訓練的數據、起點和最終模型一起完整開源,來推動社區的公平比較和進一步研究。項目鏈接已放文末。

從頭設計結果獎勵強化學習

針對數學推理任務中強化學習面臨的稀疏獎勵局部正確難題,團隊提出新的策略優化框架OREAL

通過理論創新實現針對性的算法改進,在用實驗說明“怎么做更好”之前,首先論證“為什么這么做更好”

正負樣本獎勵重塑,解決稀疏獎勵困境

在數學推理任務的采樣流程中,團隊經過理論分析推導,提出核心見解:在二元反饋機制下,采樣任意數量包含正確答案的BoN(Best-of-N)設置,其正確軌跡的分布具有一致性特征。這一發現表明,通過直接行為克隆(behaviorcloning)采樣得到的正確軌跡,已經構成了正樣本訓練中的最優設置。

在對正樣本做模仿學習的基礎上,團隊提出直接懲罰負樣本會導致梯度偏差問題,對負樣本的訓練原則應當是維護優化梯度形式與學習BoN分布一致。通過深入分析正負樣本的訓練梯度,研究者們提出了基于平均準確率p的獎勵重塑因子來維護上述一致性,為GRPO等算法的改進提供了理論依據。這種設置使模型既能有效吸收成功經驗,又能精確識別關鍵錯誤邊界,對訓練性能有明顯幫助。

結果獎勵「因果溯源」,跳出局部正確陷阱

針對復雜的長推理鏈問題,OREAL創新性地設計了token重要性估計器。通過構建序列累計形式的獎勵函數,我們將結果獎勵逆向分解到每個推理步驟(見下面的token-level RM熱力圖)。這種方法能夠精確定位核心錯誤步驟,在訓練時實現更精細的梯度更新,顯著提升了模型在長序列任務中的表現。

OREAL框架

將幾項認知組合起來,團隊提出的最優強化學習策略可以概括為:在正確樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

通過合理的分析和實踐,一步步將強化學習性能推到最佳水平。

強化學習超越蒸餾,擺脫規模依賴魔咒

團隊在7B和32B兩個規模的模型上僅使用4千條高質量訓練樣本進行了訓練和測試,

在7B量級上,Oreal-7B在MATH-500上取得了91.0的pass@1準確率。這是首次通過強化學習而非蒸餾方法達到了如此高的精度。這一成績不僅為基于RL的方法樹立了新的里程碑,還超越了更大參數量的模型,包括QWQ-32B-Preview和OpenAI-O1-Mini。

此外,將Oreal應用于此前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,創下了7B模型的記錄。千問的基座,經過DeepSeek的蒸餾訓練,再經過上海AI Lab的強化學習訓練,達到了中國原創新高度。

對于32B模型,Oreal-32B在MATH-500上也達到了95.0的分數,超越了同級別的DeepSeek-r1-Distill-Qwen-32B,實現32B模型的新SOTA。

One More Thing

最后,研究團隊還對比了不同基座模型下的性能表現,發現不同性能起點的策略模型RL后性能上限是不同的,起點模型越強,RL后的性能越好。

并且,盡管在多個基座模型上,大部分benchmark性能都會在RL后有所提升,偶爾也會出現持平(OREAL-32B在AIME2025-I)或者性能下降(相比于DSR1-Distill-Qwen-7B在AIME2024)。

研究認為,這些情況的出現可能與訓練語料的質量、難度和數量等方面準備的不夠充分有關,這也給未來的研究留下了空間。

因此,除了強大的RL算法,團隊還提出兩個關鍵因素對于RL在數學推理任務中的成功至關重要:

強大的起點模型是RL可以有效激發模型潛在能力的前提。

在RL階段使用的數據也必須在質量、難度、數量和多樣性方面都得到充分保證。高質量的數據集能夠讓模型通過面對廣泛的挑戰和學習機會,充分發揮其潛力。

模型數據全面開源,助力強化學習研究

研究團隊同時也注意到,盡管DeepSeek-R1的出現引發了社區對于大語言模型強化學習的學習和研究熱情,大家使用的訓練起點模型、訓練數據、訓練算法和超參細節都不盡相同,影響了算法和模型性能的清晰比較。

因此,研究團隊將整個RL訓練過程中用到的訓練數據、起點模型和RL后模型都進行了全面開源,訓練代碼也將開源到XTuner。

歡迎下載體驗:

項目鏈接:
https://github.com/InternLM/OREAL
論文地址:
https://arxiv.org/abs/2502.06781
RL 訓練數據鏈接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-27 12:30:07

2025-02-12 12:12:59

2025-05-27 15:40:34

模型AI訓練

2025-02-20 15:32:28

2025-04-22 09:12:00

AI模型數據

2025-07-08 08:53:00

2025-09-26 10:59:55

AI模型數據

2025-07-14 13:47:29

2025-09-18 08:05:39

2025-01-21 11:53:53

2025-02-11 16:11:12

2025-03-06 10:14:39

2025-09-08 09:06:16

2025-01-21 09:36:51

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-07-04 09:08:00

AI模型架構

2025-01-26 08:40:00

AI模型預測

2025-04-21 08:42:00

模型開源AI

2025-03-06 09:55:49

點贊
收藏

51CTO技術棧公眾號

91福利在线尤物| 亚洲第一成年人网站| 欧美天天综合| 欧美日韩国产成人在线免费| 超碰在线免费观看97| 亚洲女人18毛片水真多| 国产午夜精品一区二区三区欧美| 亚洲欧美日韩一区在线| 国产乱码一区二区三区四区| 国产精品国精产品一二| 久久婷婷成人综合色| 国产原创欧美精品| 久久高清免费视频| 精品视频黄色| 日韩精品一区二区在线| 日本黄色三级大片| 成人日韩欧美| 久久亚洲一级片| 91免费国产网站| 久热这里只有精品6| 国产精品二区不卡| 日韩精品在线影院| 人妻换人妻仑乱| 香蕉成人av| 亚洲综合在线观看视频| 色一情一乱一伦一区二区三欧美| 亚洲乱色熟女一区二区三区| 日韩av中文字幕一区二区| 欧美激情免费看| 国产福利在线导航| 亚洲综合图色| 精品免费日韩av| 999在线观看| 午夜不卡影院| 亚洲一级电影视频| 一本一本a久久| 欧美伦理影视网| 成人在线视频一区二区| 国产精品揄拍一区二区| 久久久精品福利| 国产精品jizz在线观看美国| 日韩一区在线视频| 国产精品20p| 日本久久成人网| 欧美mv日韩mv| av在线免费看片| 国产精品久久久久久久久久齐齐| 五月天中文字幕一区二区| 天天爱天天做天天操| www.亚洲视频| 日本一区二区三区视频视频| 久久99蜜桃综合影院免费观看| 99国产精品99| 精品一二三四在线| 国产日韩av在线| 国产精品久久久久久久久夜色| 99精品国产一区二区青青牛奶| 九九精品在线播放| 国语对白在线播放| 我不卡影院28| 久久影院模特热| 精品少妇一区二区三区密爱| 久久精品国产www456c0m| 亚洲一区999| 免费在线观看污| 中文字幕精品影院| 亚洲色图美腿丝袜| 国产精品免费无码| av资源久久| 国产午夜一区二区| 国产在线综合视频| 久久影院100000精品| 日韩亚洲精品电影| 神马午夜精品91| 永久91嫩草亚洲精品人人| 久久综合免费视频影院| 欧美日韩在线观看成人| 欧美日韩三区| 91国产精品视频在线| 中文字幕日韩一级| 久久黄色影院| 国产欧美婷婷中文| 99久久国产免费| 成人午夜伦理影院| 麻豆精品传媒视频| 成人午夜影视| 亚洲色图视频网| 妺妺窝人体色www看人体| 国产精品蜜臀| 色婷婷av久久久久久久| 中文字幕永久有效| 亚洲乱码一区| 日韩精品中文字幕久久臀| av永久免费观看| 欧美国产免费| 欧美一级大片视频| 波多野结衣黄色| 国产麻豆视频一区| 久久99精品久久久久久青青日本 | 91精品小视频| 郴州新闻综合频道在线直播| 欧美成人午夜免费视在线看片 | 国产精品手机播放| av一区二区三| 久久久精品免费网站| 中文字幕一区二区三区四区五区人 | 亚洲国产一区在线观看| 欧美成人免费高清视频| 国产精品一区二区三区av| 亚洲精品久久久久久久久| 色综合99久久久无码国产精品| 影视一区二区| 国产精品成人一区二区| 二区三区在线视频| 国产精品美女久久久久av爽李琼 | 免费国产在线视频| 综合av第一页| 日韩一级在线免费观看| 日韩视频一区二区三区四区| 亚洲区中文字幕| 欧美精品色哟哟| 免费观看在线综合色| 国产一区二区三区高清视频| 欧美成人精品一区二区男人看| 精品久久久久久亚洲国产300| av噜噜在线观看| 九九综合在线| 国产69精品久久久| 国产精品久久久久久久久久久久久久久久久久 | 欧美一级在线视频| 欧美三级视频网站| 香蕉成人久久| 国产精品一区二区三区不卡| 麻豆电影在线播放| 欧美羞羞免费网站| 中文字幕无码人妻少妇免费| 一二三区不卡| 国产欧美一区二区三区视频| 久草在现在线| 日韩欧美在线中文字幕| 在线xxxxx| 91精品蜜臀一区二区三区在线| 国产成人小视频在线观看| 国产成人三级在线播放 | 波多野结衣爱爱视频| 老司机精品视频在线| 日韩欧美亚洲精品| 亚洲wwww| 亚洲午夜激情免费视频| av大全在线观看| 99精品视频在线播放观看| www.国产在线播放| av男人一区| 欧美国产视频一区二区| www.午夜激情| 亚洲一级二级三级在线免费观看| 欧美xxxx日本和非洲| 欧美日韩国产高清| 超碰97在线资源| 国产精品—色呦呦| 亚洲国产精品久久久久| 欧美日韩成人免费观看| 成人午夜短视频| 人妻无码久久一区二区三区免费 | 欧美一区二区三区精品| 丝袜 亚洲 另类 欧美 重口| 国产精品一区专区| 97中文字幕在线| 国产精品毛片av| 久久乐国产精品| 亚洲av激情无码专区在线播放| 欧美日韩国产影院| 欧美黄色一级生活片| 蜜臀精品一区二区三区在线观看| 在线视频不卡国产| 精品久久国产一区| 国内外成人免费激情在线视频网站| 色哟哟国产精品色哟哟| 色综合久久久久久久久| 最新日韩免费视频| 国产成人在线影院| 亚洲精品无码国产| 一区二区三区日本久久久| 国产精品成人一区二区| 91亚洲天堂| 日韩精品在线播放| 亚洲手机在线观看| 一区二区理论电影在线观看| 欧美 变态 另类 人妖| 日韩va亚洲va欧美va久久| 国产一级黄色录像片| 激情小说一区| 国产精品自拍网| 啦啦啦中文在线观看日本| 亚洲精品日韩久久久| 一区不卡在线观看| 亚洲成a人片在线不卡一二三区 | 亚洲色图20p| 国产伦精品一区三区精东| 麻豆精品网站| 一二三四中文字幕| 欧美人与牛zoz0性行为| 91福利视频导航| 欧美电影免费观看| 欧美黄色三级网站| 国产一区二区三区福利| 欧美一级二级在线观看| 久久久久久久久黄色| 亚洲男人的天堂av| 先锋影音av在线| 成人综合在线观看| 中文字幕精品一区二区三区在线| 日韩亚洲精品在线| 欧美大片免费播放| 国产精品一国产精品| 国产免费一区二区三区| 中文字幕日韩亚洲| 国产精品黄视频| 91福利在线尤物| 久久伊人精品天天| 中国日本在线视频中文字幕| 亚洲高清福利视频| 国产乱码精品一区二三区蜜臂| 欧美性极品xxxx娇小| 欧美日韩免费一区二区| 国产精品美女www爽爽爽| 一出一进一爽一粗一大视频| 国产成人在线影院| 亚洲综合在线一区二区| 久久精品国产免费| 999香蕉视频| 一区二区91| 日韩精品在线视频免费观看| 中文字幕一区二区三三| 伊人久久大香线蕉av一区| 极品美女一区二区三区| 久久精品欧美| 久久久免费毛片| 丁香五月网久久综合| 欧洲亚洲精品| 国产精品天天狠天天看| 日韩高清中文字幕一区二区| 欧美一区二三区| 美女91在线看| 午夜精品免费视频| 黄色成人在线网| 欧美人在线视频| 中文在线手机av| 成年人精品视频| 国产一二区在线观看| www.日韩欧美| 国产盗摄在线观看| 久久国产精品久久国产精品| 在线视频中文字幕第一页| 久久久999精品免费| 欧美69xxx| 久久久999精品视频| 国内外激情在线| 久久久www成人免费精品| 美女隐私在线观看| 久久av在线看| 国产99re66在线视频| 久久久久免费视频| freexxx性亚洲精品| 久久久久久网址| 乱人伦视频在线| 国产精品高清在线| 激情亚洲小说| 亚洲一区二区三区成人在线视频精品| 成人在线日韩| 国产成人精品免费视频大全最热 | 91精品国产美女浴室洗澡无遮挡| 国产精品女同一区二区| 日韩女优制服丝袜电影| 欧美自拍第一页| 亚洲欧美另类人妖| 2017亚洲天堂1024| 久久国产精品首页| 爱草tv视频在线观看992| 欧美亚洲国产视频小说| 日韩经典一区| 91大片在线观看| 蜜乳av综合| 亚洲乱码一区二区三区| 综合激情网站| 国模吧无码一区二区三区| 日产国产欧美视频一区精品| 日本一二三四区视频| 99re热视频这里只精品| 中文字幕欧美激情极品| 亚洲精品国产第一综合99久久 | 无码一区二区三区视频| 91.com在线| 日韩制服丝袜av| 免费黄色在线播放| 久久伊99综合婷婷久久伊| 日本裸体美女视频| 天天做天天摸天天爽国产一区| 在线观看国产精品入口男同| 亚洲成人在线视频播放| 高清毛片在线看| 欧美大片免费看| 我爱我色成人网| 99精彩视频| 精品午夜久久| 亚洲 自拍 另类小说综合图区| 日韩精品电影一区亚洲| 精品人妻二区中文字幕| 日本一区二区三区在线观看| 国产精品免费av一区二区| 在线不卡a资源高清| 台湾av在线二三区观看| 色综合天天综合网国产成人网| 国产91欧美| 久久久久久九九| 国产精品99一区二区| 色婷婷一区二区三区av免费看| 91在线视频播放地址| 2021亚洲天堂| 欧美日产在线观看| 黄色在线网站| 91精品国产高清久久久久久91| 久久丁香四色| 一区二区免费电影| 久久狠狠婷婷| 日本xxx在线播放| 亚洲午夜电影在线观看| 国产免费黄色网址| 中文字幕日韩免费视频| 国模冰冰炮一区二区| 国产一区二区三区四区五区加勒比| 999国产精品永久免费视频app| 免费在线观看的毛片| 99视频有精品| 国产无遮挡aaa片爽爽| 日韩一区二区三区在线| 麻豆tv入口在线看| 国产精品一区二区性色av| 国产一区二区三区站长工具| 夫妻免费无码v看片| 成人激情免费网站| 久久99久久久| 日韩欧美国产一区二区在线播放| 激情在线小视频| 91精品国产自产在线老师啪| 欧美丝袜激情| 中文字幕在线综合| 国产精品久久久久久久午夜片 | www.免费av| 午夜电影一区二区三区| 黄色av免费观看| 久久久久中文字幕2018| 福利电影一区| av在线播放亚洲| 91麻豆文化传媒在线观看| 国产欧美一区二区三区在线看蜜臂| 亚洲第一中文字幕在线观看| 1区2区3区在线| 精品国产一二| 麻豆精品网站| 亚洲天堂av中文字幕| 在线播放91灌醉迷j高跟美女 | 91网址在线看| 天堂网免费视频| 在线观看久久久久久| 欧美成人免费全部网站| 91制片厂免费观看| 国产乱码精品一区二区三区av | 九九视频精品在线观看| 国产日韩欧美在线一区| 在线免费观看av片| 久久人人爽人人爽人人片亚洲| 日韩欧美中文在线观看| 免费看欧美黑人毛片| 91首页免费视频| 亚洲中文字幕无码爆乳av | 中文字幕av观看| 在线亚洲一区二区| 男人天堂久久久| 国产精品视频入口| 性伦欧美刺激片在线观看| 最新中文字幕av| 日韩欧美不卡一区| 亚洲同志男男gay1069网站| 亚洲国产精品久久久久婷婷老年| 黄网站免费久久| 国产成人无码一区二区三区在线| 国产亚洲精品久久久久久牛牛| 97精品资源在线观看| 成年人午夜免费视频| 中文字幕av不卡| 成人爽a毛片一区二区| 国产精品7m视频| 欧美精品九九| 熟女少妇内射日韩亚洲| 日韩精品专区在线影院观看| 在线免费日韩片| 欧美少妇在线观看| 久久综合五月天婷婷伊人| 国产一区二区波多野结衣|