精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

人工智能 新聞
強化學習訓練數據越多,模型推理能力就越強?新研究提出LIM方法,揭示提升推理能力的關鍵在于優化數據質量,而不是數據規模。該方法在小模型上優勢盡顯。從此,強化學習Scaling Law可能要被改寫了!

DeepSeek-R1帶火了使用強化學習訓練LLM。在訓練中,AI靈機一動,讓作者耳目一新,甚至因此驚嘆到:這就是強化學習的力與美!

DeepSeek-R1-Zero驚艷了研究人員

然而,對RL訓練的理解存在空白:這些工作的訓練數據的透明度有限,誰知道是方法好還是數據集質量好?

剛剛出爐的新論文揭示了RL訓練的另一面,探討了一個核心問題:

在提升語言模型推理能力方面,什么真正決定了強化學習(RL)訓練數據的有效性?

研究團隊對「擴大RL訓練數據規模,就能提升模型性能」這一觀念提出了挑戰。

核心發現是,訓練樣本的質量和相關性遠比數量重要。

通過廣泛的實證分析,新研究得出了一些令人驚訝的觀察結果,這些結果從根本上改變了對RL訓練動態的理解:

  1. 經過精心挑選的1389個RL訓練樣本子集,可以實現和8523個樣本的完整數據集相當甚至更優的性能。
  2. 新方法「學習影響測量」(LIM),可以有效地預測哪些樣本對模型改進的貢獻最大,消除了手動樣本管理的需要,而且易于擴展。
  3. 通往更好推理能力的道路,可能不在于簡單地擴大RL訓練數據規模,而在于更具選擇性地使用哪些樣本。

項目地址:https://github.com/GAIR-NLP/LIMR

Scaling Law適用于強化學習訓練嗎

在這項工作中,在一個基本場景,探索RL訓練數據的Scaling Law:直接從沒有經過知識蒸餾的基礎模型開始(類似于Deepseek R1-zero的設置)。

對RL訓練數據需求的理解不足,面臨下列難題:

  1. 由于缺乏明確的數據規模基準,必須依賴反復試驗,導致資源利用效率低下,而結果也可能不是最優的。
  2. 樣本數量如何影響模型性能,該領域缺乏對該問題的系統分析,很難做出資源分配的明智決策。

更重要的是,這種不確定性提出了關鍵問題:

擴大RL訓練數據規模真的是提高模型性能的關鍵嗎?


或者是否忽略了更基本的因素,例如樣本質量和選擇標準?

學習影響測量

學習影響測量(Learning Impact Measurement,LIM),是一種系統的方法,用于量化和優化強化學習中訓練數據的價值。

新方法通過分析學習動態,識別最有效的訓練樣本,從而應對強化學習訓練中數據效率的關鍵挑戰。

RL訓練中的學習動態

為了理解訓練數據和模型改進之間的關系,使用MATH-FULL數據集進行了廣泛的分析,數據集包含8,523個難度級別不同的數學問題。

初步研究表明,不同的訓練樣本對模型學習的貢獻是不平等的,這與將所有樣本統一對待的傳統方法相反。

如圖2a所示,觀察到不同的學習軌跡:一些樣本表現出穩定的性能模式,而另一些樣本則顯示出復雜的學習動態,這些動態似乎驅動了顯著的模型改進。

圖a解題獎勵軌跡揭示了不同的模式:保持接近零獎勵的樣本、快速獲得高獎勵的樣本,以及顯示出具有不同改進率的動態學習進展的樣本。

圖b表明較高的LIM分數反映了與模型學習軌跡更好的對齊,其中顯示出相似增長模式的軌跡獲得更高的分數。

圖2:(a)MATH-FULL數據集中訓練樣本在不同epoch的學習動態分析。(b)樣本學習軌跡與平均獎勵曲線(紅色)的比較。

這些觀察結果引出了核心見解:檢查單個樣本與模型的整體學習進程的對齊程度,可以系統地衡量強化學習訓練中數據的價值

這種理解構成了新方法LIM的基礎。

學習影響測量(LIM)

LIM的核心是模型對齊的軌跡分析。

它根據訓練樣本對模型學習的貢獻,來評估它們的價值。

新研究的主要發現是,學習模式與模型整體性能軌跡互補的樣本往往對優化更有價值。

學習影響測量(LIM)主要分為兩步:(1)分析模型對齊的軌跡;(2)計算一個歸一化對齊分數。

考慮到神經網絡學習通常遵循對數增長模式,使用模型的平均獎勵曲線,作為衡量樣本有效性的參考(圖2b):

其中:r_k^i表示樣本i在epoch k的獎勵;N是樣本總數;K是總的epoch數。

對于每個樣本,LIM計算一個歸一化對齊分數:

本質上,這個公式是在平均獎勵變化趨勢上,比較單個樣本與整體的相似程度。

如果一個樣本的獎勵變化趨勢與整體趨勢高度一致(即,當整體獎勵上升時,該樣本的獎勵也上升,反之亦然),那么它的對齊分數就會較高。

反之,如果一個樣本的獎勵變化趨勢與整體趨勢差異較大,那么它的對齊分數就會較低。

該分數量化了樣本的學習模式與模型整體學習軌跡的對齊程度,分數越高表示對齊程度越好。

尋找「黃金」樣本

基于對齊分數,LIM采用了選擇性抽樣策略:s_i>θ,其中θ作為質量閾值,可以根據具體要求進行調整。在實驗中,研究人員設置θ=0.6產生了優化的數據集 (LIMR),其中包含來自原始數據集的1,389個高價值樣本。

基線數據選擇方法

在開發核心方法時,研究人員探索了幾種替代方法,有助于最終方法的形成和驗證。

這些方法為強化學習中的數據選擇提供了寶貴的見解。

  • 隨機抽樣基線(RAND):從MATH-FULL中隨機選擇1389個樣本,以匹配主要方法的大小,為評估選擇性抽樣的有效性提供了一個基本的參考點。
  • 線性進展分析方法(LINEAR):根據在訓練周期中持續顯示穩步改進的一致性,來評估樣本。雖然這種方法捕獲了逐漸進展的樣本,但它經常錯過有快速早期收益然后趨于穩定的有價值的樣本。使用閾值θ=0.7,此方法產生1189個樣本。

獎勵設計

與Deepseek R1類似,使用基于規則的獎勵函數。

具體來說,對于正確答案,獎勵為1;對于不正確但格式正確的答案,獎勵為-0.5;對于格式錯誤的答案,獎勵為-1。形式上,這可以表示為:

實驗結果

為了驗證LIMR方法的有效性,研究團隊開展了一系列實驗。

在實驗設置上,訓練環節采用OpenRLHF框架中實現的近端策略優化(PPO)算法,以Qwen2.5-Math-7B為初始策略模型。

評估環節選擇了多個具有挑戰性的基準測試,包括MATH500、AIME2024和AMC2023。為提高評估效率,借助vLLM框架進行評估。

從不同數據選擇策略的對比來看,直接在Qwen-Math-7B上使用MATH-FULL數據集進行強化學習訓練,模型性能有顯著提升。

使用MATH-RAND數據集訓練,與完整數據集相比,平均準確率下降8.1%;MATH-LINEAR的準確率損失為2%。

而LIMR盡管數據集規模減少了80%,但性能與MATH-FULL幾乎相當。這充分證明在強化學習中,真正起關鍵作用的往往只是一小部分問題。

進一步分析訓練過程中的各項指標演變,發現LIMR和MATH-FULL的準確率曲線近乎一致,且均明顯優于MATH-RAND。

在序列長度方面,MATH-FULL的訓練曲線不穩定,而LIMR的曲線先下降后逐漸上升。訓練獎勵方面,LIMR的獎勵曲線上升更快,最終接近1.0,這表明模型在訓練過程中能夠更有效地利用LIMR數據集進行學習。

圖4展示了在三個具有挑戰性的基準測試上模型性能的對比分析。結果表明,LIMR在所有三個基準測試上的性能都與MATH-FULL相當,同時顯著優于MATH-RAND。

值得注意的是,LIMR在AIME24和AMC23數據集上表現出色,有力證明了其性能提升并非歸因于對單個數據集的過擬合,而是反映了模型數學推理能力的真正提高。

RL的數據效率優于SFT

研究者發現,對于數據稀疏且模型較小的情況,強化學習>監督微調

研究者用來自s1的1000條數據和來自LIMO的817條數據,通過監督微調對Qwen-2.5-Math-7B進行訓練,并與LIMR進行比較。

實驗結果表明,在相同的約1000個問題下,與LIMO和s1相比,LIMR在AIME上的相對提升超過100%,在AMC23和MATH500上的準確率提高了10%以上。

這進一步強調了選擇適合模型的數據,而不是盲目選擇更具挑戰性的數據的重要性。在數據稀疏的場景以及小模型應用中,強化學習結合有效的數據選擇策略,能有效地提升模型的推理能力。

本文的方法不僅為研究人員提供了一種高效、可擴展的RL訓練解決方案,還揭示了提升推理能力的關鍵可能在于優化數據質量,而非單純增加數據量。

與監督微調(SFT)的對比實驗表明,當RL結合高效的數據選擇策略時,在數據有限的小模型上表現尤為突出。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-14 14:00:00

AI模型

2025-10-20 09:05:00

2022-11-02 14:02:02

強化學習訓練

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2025-09-30 08:53:51

2025-04-25 09:20:00

數據模型AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-01-21 09:00:00

2025-02-20 09:21:51

2025-11-12 08:56:15

2023-11-13 07:51:58

ChatGPT研究

2023-11-07 07:13:31

推薦系統多任務學習

2025-10-11 09:02:40

2025-04-27 09:23:00

模型訓練AI

2025-06-25 09:28:38

2020-11-12 19:31:41

強化學習人工智能機器學習

2024-04-03 07:56:50

推薦系統多任務推薦

2025-05-08 09:16:00

模型強化學習訓練

2021-09-17 15:54:41

深度學習機器學習人工智能
點贊
收藏

51CTO技術棧公眾號

麻豆精品精品国产自在97香蕉| 美国一区二区| 亚洲少妇中出一区| 成人欧美一区二区三区视频| 午夜偷拍福利视频| 中国av一区| 欧美精品国产精品| www.av毛片| 香蕉视频在线免费看| 国产馆精品极品| 777777777亚洲妇女| 中文字幕av久久爽一区| 欧洲精品99毛片免费高清观看| 亚洲成人你懂的| 五月婷婷一区| 五月婷婷综合久久| 韩国av一区二区三区| 57pao成人永久免费视频| 182在线观看视频| 亚洲精品进入| 欧美mv日韩mv国产网站app| 欧美性猛交xxx乱久交| 欧美人与牲禽动交com| 欧美国产视频在线| 久久国产精品免费一区| 国产成人精品一区二区无码呦 | 无码人妻h动漫| 理论片午午伦夜理片在线播放| 99re成人精品视频| 亚洲影院高清在线| 中文字幕欧美人妻精品| 国产精品免费看| 久久久久国产精品www| 亚洲欧美综合7777色婷婷| 中文字幕精品影院| 亚洲国产免费av| 国产吃瓜黑料一区二区| 香蕉久久一区| 欧美性做爰猛烈叫床潮| 91国视频在线| 春色校园综合激情亚洲| 亚洲欧美日韩久久精品| 一区二区三区在线视频看| 精品无吗乱吗av国产爱色| www.欧美亚洲| 国产精品视频福利| 高h调教冰块play男男双性文| 黄色资源网久久资源365| 国产精品久久国产精品99gif| 免费观看一区二区三区毛片 | 国产精品午夜春色av| 欧美日韩无遮挡| 欧美美乳在线| 国产视频亚洲色图| 日韩av一级大片| 国产天堂在线| 欧美国产一区二区| 亚洲国产婷婷香蕉久久久久久99| 国产资源在线观看| 国产亚洲成aⅴ人片在线观看| 精品一区久久久| 外国精品视频在线观看 | 亚洲女人av| 欧美亚洲成人xxx| 欧产日产国产69| 日韩激情中文字幕| 国产精品影片在线观看| 91午夜交换视频| 国内精品伊人久久久久影院对白| 国产一区玩具在线观看| 国产99久久九九精品无码免费| 国产成人在线观看免费网站| 国产超碰91| 日韩欧美电影在线观看| 国产片一区二区三区| 夜夜爽99久久国产综合精品女不卡| 日本在线视频网| 一二三四区精品视频| www.com毛片| 91在线成人| 日韩三区在线观看| 97伦伦午夜电影理伦片| 日韩在线理论| 欧美肥臀大乳一区二区免费视频| 国产精品白浆一区二小说| 国产精品综合色区在线观看| 国产精品一区二区电影| 亚洲AV无码一区二区三区性| 97精品久久久久中文字幕| 日韩高清国产精品| 粗大黑人巨茎大战欧美成人| 亚洲图片自拍偷拍| 国产熟人av一二三区| 国产精品亚洲欧美日韩一区在线 | 免费人成又黄又爽又色| 99久久www免费| 久久久久这里只有精品| 成人h动漫精品一区二区下载| 紧缚奴在线一区二区三区| 国产精品一级久久久| 国产日本在线| 亚洲国产精品精华液网站| 成年人黄色片视频| а天堂中文最新一区二区三区| 亚洲第一国产精品| 久久精品在线观看视频| 亚洲国产综合在线看不卡| 国产精品视频区1| 天堂中文网在线| 亚洲欧洲av一区二区三区久久| 精品成在人线av无码免费看| www.26天天久久天堂| 亚洲成人精品久久| 日本免费网站视频| 久久精品免费| 国产精品国产亚洲精品看不卡15| av在线播放免费| 天天综合日日夜夜精品| 肉色超薄丝袜脚交| 禁果av一区二区三区| 久久久久久亚洲精品不卡| 中日韩av在线| 2017欧美狠狠色| 国产成年人在线观看| 午夜av成人| 亚洲女人被黑人巨大进入al| 久久久久无码国产精品| 免费观看成人av| 欧美日韩国产三区| 僵尸再翻生在线观看| 日韩精品一区二区三区中文精品| 欧美乱大交做爰xxxⅹ小说| 久久一区激情| 另类视频在线观看+1080p| 91破解版在线观看| 欧美成人一区二区三区在线观看| 永久免费看片直接| 美日韩一区二区| 色视频一区二区三区| 日韩av大片站长工具| 日韩成人在线电影网| 国产无遮挡aaa片爽爽| 国产馆精品极品| av日韩在线看| 成人偷拍自拍| 久久久久中文字幕2018| 亚洲精品国产av| 亚洲综合免费观看高清完整版 | 天堂在线精品| 欧美一级电影久久| 日韩偷拍自拍| 91成人免费网站| 性猛交娇小69hd| 日本午夜精品视频在线观看| 奇米精品在线| 亚洲日本在线观看视频| 亚洲性生活视频| 在线视频精品免费| 国产精品久久一卡二卡| 亚洲欧美日韩精品一区| 一区二区三区在线电影| 亚洲综合日韩在线| av成人福利| 亚洲人成欧美中文字幕| 中文字幕二区三区| 亚洲人成电影网站色mp4| 久草福利在线观看| 亚洲精品激情| 日产精品久久久一区二区| 国产一区二区三区朝在线观看| 伊人av综合网| 国产精品国产av| 亚洲福利一区二区三区| 黄色短视频在线观看| 日韩精品电影在线观看| 中国成人亚色综合网站| 97se亚洲国产一区二区三区| 午夜欧美不卡精品aaaaa| 精品欧美不卡一区二区在线观看 | 日本在线看片免费人成视1000| 欧美视频一二三区| 69av.com| 91久色porny| 女人高潮一级片| 91久久视频| 亚洲精品国产精品久久| 日韩一区二区三区精品| 日韩美女免费观看| a级影片在线| 亚洲精品中文字幕av| 午夜视频网站在线观看| 伊人性伊人情综合网| 国产精品一区二区入口九绯色| 老司机精品视频在线| 人妻av无码专区| 郴州新闻综合频道在线直播| 成人免费在线看片| 国产日韩另类视频一区| 九九热精品视频国产| 免费a在线观看| 日韩欧美国产系列| 天天射天天干天天| 亚洲一区二区视频在线| 在线观看亚洲大片短视频| 国产成人日日夜夜| 三上悠亚在线一区二区| 亚洲日产国产精品| av不卡在线免费观看| 国产亚洲一区| 国产伦精品一区二区三区免费视频| 国产精品久久久久久久久久齐齐| 91国偷自产一区二区三区的观看方式| 午夜视频在线观看免费视频| 亚洲精品久久久一区二区三区| 国产美女三级无套内谢| 一本到高清视频免费精品| 久久久久97国产| 亚洲欧美精品午睡沙发| 熟女少妇内射日韩亚洲| 97成人超碰视| 日批视频免费看| 国产综合久久久久影院| 日日噜噜夜夜狠狠| 久久午夜av| 国产精品无码人妻一区二区在线| 中文字幕一区二区三区欧美日韩| 日韩午夜视频在线观看| 免费成人结看片| 精品一区二区不卡| 国产精品久久久久久久久久白浆| 91网站免费观看| 日韩毛片免费看| 国产欧美在线播放| 国产第一精品| 国产精品igao视频| 国产免费不卡| 欧美有码在线观看| 女人让男人操自己视频在线观看 | 国产亚洲欧美在线精品| 午夜精品一区在线观看| 国产一级中文字幕| 亚洲线精品一区二区三区八戒| 午夜免费激情视频| 亚洲欧美日韩国产中文在线| 成人免费视频国产免费观看| 国产精品久久午夜| 国产精品1区2区3区4区| 欧美经典一区二区| 久久视频一区二区三区| 国产精品免费视频观看| 亚洲一级理论片| 中文字幕一区二区不卡| 亚洲人做受高潮| **性色生活片久久毛片| www欧美com| 亚洲电影第三页| 在线观看免费av片| 一本大道久久a久久精品综合| 欧美男人亚洲天堂| 欧美在线|欧美| 91国偷自产中文字幕久久| 制服.丝袜.亚洲.中文.综合| av观看在线免费| 亚洲成人在线网| 天堂√在线中文官网在线| 亚洲精品自产拍| 日本视频在线观看| 欧美精品免费看| a√中文在线观看| 国产精品999999| 99久久久成人国产精品| 丁香五月网久久综合| 窝窝社区一区二区| 亚洲精品在线免费| 欧美人与禽猛交乱配视频| 久久久性生活视频| 日韩精彩视频在线观看| 在线视频日韩欧美| 成人a区在线观看| 免费看黄色的视频| 亚洲乱码日产精品bd| 国产精品500部| 欧美日韩和欧美的一区二区| 亚洲xxxx天美| 一本一道久久a久久精品逆3p| 毛片av在线| 91av视频在线| 成人永久在线| 蜜桃999成人看片在线观看| 日韩电影免费网址| 日韩视频在线视频| 美女精品一区二区| 国产精品福利导航| 中文字幕在线不卡一区二区三区| 久久免费视频播放| 欧美最猛黑人xxxxx猛交| www.国产视频| 在线看日韩欧美| 136福利第一导航国产在线| 国产精品高潮视频| 精品精品国产毛片在线看| 亚洲色图自拍| 久久成人国产| 日本美女视频网站| 中文字幕亚洲一区二区av在线 | 日本三级在线观看网站| 国产97在线播放| 国产精东传媒成人av电影| 亚洲在线色站| 久久久亚洲一区| 这里只有精品在线观看视频 | 亚洲精品小视频| av电影高清在线观看| 国产精品美女免费| 日韩极品在线| 中文字幕人妻熟女人妻洋洋| 美女在线观看视频一区二区| 中文人妻一区二区三区| 一区二区三区在线观看视频| 中文字幕 国产| 亚洲精品一区二三区不卡| 久操av在线| 51国产成人精品午夜福中文下载 | 免费看日b视频| 美国十次了思思久久精品导航| 熟女少妇一区二区三区| 亚洲国产欧美日韩另类综合| 国产免费一区二区三区免费视频| 亚洲性视频网站| 中文字幕在线视频久| 国产精品一区在线播放| 国产精品sm| 人妻巨大乳一二三区| 亚洲人精品午夜| 99热这里只有精品在线观看| 日韩亚洲欧美中文在线| 欧美成人精品三级网站| 免费在线观看一区二区| 在线综合欧美| 欧美大喷水吹潮合集在线观看| 亚洲成人综合视频| 日本wwwxxxx| 91精品国产成人www| 牛牛精品成人免费视频| 无码播放一区二区三区| 91丝袜美腿高跟国产极品老师 | caoporn免费在线| 91深夜福利视频| 欧美99久久| 伊人av在线播放| 亚洲高清视频在线| 欧美一级淫片aaaaaa| 国产综合在线视频| 欧美人体视频| 欧美丰满熟妇xxxxx| 欧美极品另类videosde| 一级特黄aaa大片| 超在线视频97| jizz18欧美18| 1024av视频| 国产精品免费免费| 国产又粗又长又大视频| 欧美国产视频一区二区| 国产精品网址| 成人在线激情网| 国产精品电影一区二区三区| 国产aⅴ爽av久久久久成人| 久久久久久美女| 国产成人黄色| 手机在线免费毛片| 狠狠久久五月精品中文字幕| 第一福利在线| 亚洲一区二区自拍| 亚洲久久一区| a级黄色免费视频| 日韩精品中文字幕一区 | 日韩亚洲在线| 国产在线综合视频| 日韩一区二区三| 性国裸体高清亚洲| 一区二区三区一级片| 99久久精品情趣| 中文字幕 国产精品| 美女扒开尿口让男人操亚洲视频网站| 国产精品videossex| 免费激情视频在线观看| 亚洲综合在线观看视频| 国产一级网站视频在线| 亚洲伊人一本大道中文字幕| 销魂美女一区二区三区视频在线| 久久日免费视频| 亚洲风情亚aⅴ在线发布| 91天天综合| 日韩国产欧美亚洲| 中文字幕中文字幕一区二区| 手机在线观看毛片| 成人高清视频观看www| 国产视频一区三区| 黄视频网站免费看| 亚洲欧洲在线免费|