精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型強化學習新發現:刪減84%數據反提升效果

人工智能 新聞
提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

在人工智能領域,"更大即更強" 的理念一直主導著大模型強化學習的發展方向。特別是在提升大語言模型的推理能力方面,業界普遍認為需要海量的強化學習訓練數據才能獲得突破。然而,最新研究卻給出了一個令人驚喜的發現:在強化學習訓練中,數據的學習影響力遠比數量重要。通過分析模型的學習軌跡,研究發現精心選擇的 1,389 個高影響力樣本,就能超越完整的 8,523 個樣本數據集的效果。這一發現不僅挑戰了傳統認知,更揭示了一個關鍵事實:提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

  • 論文標題:LIMR: Less is More for RL Scaling
  • 論文地址:https://arxiv.org/pdf/2502.11886
  • 代碼地址:https://github.com/GAIR-NLP/LIMR
  • 數據集地址:https://huggingface.co/datasets/GAIR/LIMR
  • 模型地址:https://huggingface.co/GAIR/LIMR

一、挑戰傳統:重新思考強化學習的數據策略

近期,強化學習在提升大語言模型的推理能力方面取得了顯著成效。從 OpenAI 的 o1 到 Deepseek R1,再到 Kimi1.5,這些模型都展示了強化學習在培養模型的自我驗證、反思和擴展思維鏈等復雜推理行為方面的巨大潛力。這些成功案例似乎在暗示:要獲得更強的推理能力,就需要更多的強化學習訓練數據。

然而,這些開創性工作留下了一個關鍵問題:到底需要多少訓練數據才能有效提升模型的推理能力?目前的研究從 8000 到 150000 數據量不等,卻沒有一個明確的答案。更重要的是,這種數據規模的不透明性帶來了兩個根本性挑戰:

  • 研究團隊只能依靠反復試錯來確定數據量,這導致了大量計算資源的浪費
  • 領域內缺乏對樣本數量如何影響模型性能的系統性分析,使得難以做出合理的資源分配決策

這種情況促使研究團隊提出一個更本質的問題:是否存在一種方法,能夠識別出真正對模型學習有幫助的訓練數據?研究從一個基礎場景開始探索:直接從基座模型出發,不借助任何數據蒸餾(類似 Deepseek R1-zero 的設置)。通過深入研究模型在強化學習過程中的學習軌跡,研究發現:并非所有訓練數據都對模型的進步貢獻相同。有些數據能夠顯著推動模型的學習,而有些則幾乎沒有影響。

這一發現促使研究團隊開發了學習影響力度量(Learning Impact Measurement, LIM)方法。通過分析模型的學習曲線,LIM 可以自動識別那些與模型學習進程高度匹配的 "黃金樣本"。實驗結果證明了這一方法的有效性:

  • 精選的 1,389 個樣本就能達到甚至超越使用 8,523 個樣本的效果。

精選 1,389 個樣本就能達到全量數據的效果,在小模型上強化學習優于監督微調

這些發現更新了學術界對強化學習擴展的認知:提升模型性能的關鍵不在于簡單地增加數據量,而在于如何找到那些真正能促進模型學習的高質量樣本。更重要的是,這項研究提供了一種自動化的方法來識別這些樣本,使得高效的強化學習訓練成為可能。

二、尋找 "黃金" 樣本:數據的學習影響力測量(LIM)

要找到真正有價值的訓練樣本,研究團隊深入分析了模型在強化學習過程中的學習動態。通過對 MATH-FULL 數據集(包含 8,523 個不同難度級別的數學問題)的分析,研究者發現了一個有趣的現象:不同的訓練樣本對模型學習的貢獻存在顯著差異。

學習軌跡的差異性

在仔細觀察模型訓練過程中的表現時,研究者發現了三種典型的學習模式:

  • 部分樣本的獎勵值始終接近零,表明模型對這些問題始終難以掌握
  • 某些樣本能迅速達到高獎勵值,顯示模型很快就掌握了解決方法
  • 最有趣的是那些展現出動態學習進展的樣本,它們的獎勵值呈現不同的提升速率

這一發現引發了一個關鍵思考:如果能夠找到那些最匹配模型整體學習軌跡的樣本,是否就能實現更高效的訓練?

(a) 不同訓練樣本在訓練過程中展現出的多樣化學習模式。(b) 樣本學習軌跡與平均獎勵曲線(紅色)的比較。

LIM:一種自動化的樣本評估方法

基于上述觀察,研究團隊開發了學習影響力測量(Learning Impact Measurement, LIM)方法。LIM 的核心思想是:好的訓練樣本應該與模型的整體學習進程保持同步。具體來說:

1. 計算參考曲線

首先,計算模型在所有樣本上的平均獎勵曲線作為參考:

這條曲線反映了模型的整體學習軌跡。

2. 評估樣本對齊度

接著,為每個樣本計算一個歸一化的對齊分數:

這個分數衡量了樣本的學習模式與整體學習軌跡的匹配程度。分數越高,表示該樣本越 "有價值"。

3. 篩選高價值樣本

最后,設定一個質量閾值 θ,選取那些對齊分數超過閾值的樣本。在實驗中,設置 θ = 0.6 篩選出了 1,389 個高價值樣本,構成了優化后的 LIMR 數據集。

對比與驗證

為了驗證 LIM 方法的有效性,研究團隊設計了兩個基線方法:

1. 隨機采樣(RAND):從原始數據集中隨機選擇 1,389 個樣本

2. 線性進度分析(LINEAR):專注于那些顯示穩定改進的樣本

這些對照實驗幫助我們理解了 LIM 的優勢:它不僅能捕獲穩定進步的樣本,還能識別那些在早期快速提升后趨于穩定的有價值樣本。

獎勵設計

對于獎勵機制的設計,研究團隊借鑒了 Deepseek R1 的經驗,采用了簡單而有效的規則型獎勵函數:

  • 當答案完全正確時,給予 + 1 的正向獎勵
  • 當答案錯誤但格式正確時,給予 - 0.5 的負向獎勵
  • 當答案存在格式錯誤時,給予 - 1 的負向獎勵

這種三級分明的獎勵機制不僅能準確反映模型的解題能力,還能引導模型注意答案的規范性。

三、實驗驗證:少即是多的力量

實驗設置與基準

研究團隊采用 PPO 算法在 Qwen2.5-Math-7B 基座模型上進行了強化學習訓練,并在多個具有挑戰性的數學基準上進行了評估,包括 MATH500、AIME2024 和 AMC2023 等競賽級數據集。

主要發現

實驗結果令人振奮。使用 LIMR 精選的 1,389 個樣本,模型不僅達到了使用全量 8,523 個樣本訓練的性能,在某些指標上甚至取得了更好的表現:

  • 在 AIME2024 上達到了 32.5% 的準確率
  • 在 MATH500 上達到了 78.0% 的準確率
  • 在 AMC2023 上達到了 63.8% 的準確率

相比之下,隨機選擇相同數量樣本的基線模型(RAND)表現顯著較差,這證實了 LIM 選擇策略的有效性。

三種數據選擇策略的性能對比:LIMR 以更少的數據達到更好的效果

LIMR 在三個數學基準測試上的訓練動態表現與全量數據相當,顯著優于隨機采樣

訓練動態分析

更有趣的是模型在訓練過程中表現出的動態特征。LIMR 不僅在準確率上表現出色,其訓練過程也展現出了更穩定的特征:

  • 準確率曲線與使用全量數據訓練的模型幾乎重合
  • 模型生成的序列長度變化更加合理,展現出了更好的學習模式
  • 訓練獎勵增長更快,最終也達到了更高的水平

這些結果不僅驗證了 LIM 方法的有效性,也表明通過精心選擇的訓練樣本,確實可以實現 "少即是多" 的效果。

LIMR 的訓練動態分析:從精選樣本中獲得更穩定的學習效果

四、數據稀缺場景下的新發現:RL 優于 SFT

在探索高效訓練策略的過程中,研究者們發現了一個令人深思的現象:在數據稀缺且模型規模較小的場景下,強化學習的效果顯著優于監督微調。

為了驗證這一發現,研究者們設計了一個精心的對比實驗:使用相同規模的數據(來自 s1 的 1000 條數據和來自 LIMO 的 817 條數據),分別通過監督微調和強化學習來訓練 Qwen-2.5-Math-7B 模型。結果令人印象深刻:

  • 在 AIME 測試中,LIMR 的表現較傳統監督微調提升超過 100%
  • 在 AMC23 和 MATH500 上,準確率提升均超過 10%
  • 這些提升是在使用相近數量訓練樣本的情況下實現的

小模型上的策略對比:強化學習的 LIMR 優于監督微調方法

這一發現具有重要意義。雖然 LIMO 和 s1 等方法已經證明了在 32B 規模模型上通過監督微調可以實現高效的推理能力,但研究表明,對于 7B 這樣的小型模型,強化學習可能是更優的選擇。

這個結果揭示了一個關鍵洞見:在資源受限的場景下,選擇合適的訓練策略比盲目追求更具挑戰性的數據更為重要。通過將強化學習與智能的數據選擇策略相結合,研究者們找到了一條提升小型模型性能的有效途徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-25 09:28:38

2025-06-09 09:32:35

2022-08-16 08:35:45

Black Hat網絡安全

2025-07-01 09:05:28

2016-10-09 13:19:43

2023-08-28 06:52:29

2019-03-25 22:04:19

編程PythonJava

2025-10-31 08:55:00

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動 出海

2025-10-10 09:02:16

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2023-04-23 10:12:14

算法強化學習

2013-02-28 10:24:18

2012-06-20 09:39:02

惡意網站

2025-10-21 09:06:00

2021-10-15 10:11:00

遠程管理監控數據中心

2023-05-05 13:11:16

2025-06-04 13:56:51

模型AI數據

2025-05-30 04:00:00

IBMRLVRGRPO
點贊
收藏

51CTO技術棧公眾號

色综合久久综合网欧美综合网 | 亚洲精品综合| 精品福利一二区| 日本黄色三级大片| 二区三区四区高清视频在线观看| 另类av一区二区| 久久色在线播放| 黄色正能量网站| 色综合久久久| 欧美性xxxx在线播放| 中文字幕综合在线观看| 天堂资源中文在线| 国产亚av手机在线观看| 免费观看成人在线| 最新中文字幕av| 一区二区视频| 欧美色爱综合网| 少妇人妻大乳在线视频| 日本激情视频在线观看| 91亚洲精品久久久蜜桃网站 | 波多野结衣a v在线| 婷婷丁香久久| 色成人在线视频| 精品一区二区三区无码视频| 国产鲁鲁视频在线观看免费| 成人av免费在线| 91天堂在线视频| 日韩乱码一区二区三区| 性感少妇一区| 97av在线播放| 国产一级aa大片毛片| 99久久夜色精品国产亚洲1000部| 51精品国自产在线| 日本黄网站免费| 高潮在线视频| 亚洲国产一区二区视频| 精品一区二区成人免费视频| 国产二区视频在线观看| 久久久亚洲精品一区二区三区| 国产精品爽黄69| 在线能看的av| 99av国产精品欲麻豆| 欧美成人中文字幕在线| 极品久久久久久| 欧美成人一品| 欧美成人午夜激情视频| a在线视频播放观看免费观看| 欧美交a欧美精品喷水| 555夜色666亚洲国产免| 污污视频在线免费| 日本一区二区三区播放| 日韩一区二区三区视频在线 | 成人三级高清视频在线看| 亚洲人成伊人成综合网小说| 亚洲一区二区不卡视频| 最新电影电视剧在线观看免费观看 | 欧美成人精品不卡视频在线观看| 激情av中文字幕| 国产66精品| 亚洲国产成人91精品| av网页在线观看| 杨幂一区二区三区免费看视频| 欧美日韩黄视频| 日本高清久久久| 日韩成人综合网站| 欧美一区二区三区免费观看视频| 国产主播在线看| 久久久人成影片一区二区三区在哪下载 | 国产精品日韩| 日本国产精品视频| 天天天天天天天干| 国产一区二区成人久久免费影院| 18性欧美xxxⅹ性满足| 国产在线观看黄色| 日韩影院精彩在线| 91老司机在线| 亚洲精品久久久久久久久久| 91欧美激情一区二区三区成人| 99精品99久久久久久宅男| 亚洲精品一区二区三区四区| 91美女在线视频| 亚洲一区二区在线观| 超碰在线无需免费| 五月天丁香久久| 久久国产这里只有精品| 91精品日本| 国产亚洲日本欧美韩国| 尤物在线免费视频| 国产精品社区| 91精品在线播放| 手机在线精品视频| 国产精品久久久久久亚洲伦 | 成人免费黄色网| 亚洲精品无遮挡| 久久精品夜夜夜夜久久| 黄频视频在线观看| 日本黄色免费在线| 欧美精品aⅴ在线视频| 无码国产69精品久久久久网站| 91精品久久久久久综合五月天| 56国语精品自产拍在线观看| jjzzjjzz欧美69巨大| 久久中文字幕av| 国产91|九色| 国内精品久久久久久久久久久| 蜜臀久久99精品久久久画质超高清 | 久久99精品一区二区三区三区| 国产精品av在线播放| 精品人妻一区二区三区蜜桃| 欧美激情一区二区三区| 激情五月宗合网| 秋霞午夜一区二区三区视频| 一区二区三欧美| 中文字幕精品三级久久久| 国产一区二区在线免费观看| 日韩在线第一区| 成人爽a毛片免费啪啪| 日韩精品影音先锋| 免费91在线观看| 天堂va蜜桃一区二区三区漫画版| 欧洲成人性视频| www.黄色小说.com| 日韩一区日韩二区| 91n.com在线观看| 香蕉久久99| 亚州欧美日韩中文视频| 成人av无码一区二区三区| 国产精品久久三| 成人3d动漫一区二区三区| 牛牛影视一区二区三区免费看| 亚洲天堂一区二区三区| 日本免费观看视| 东方aⅴ免费观看久久av| 91制片厂免费观看| 国产亚洲精彩久久| 一区二区三区高清国产| 国产免费av一区| 91老司机福利 在线| 69sex久久精品国产麻豆| 日韩三级精品| 欧美成人免费全部观看天天性色| 国产无人区码熟妇毛片多| 国产成人av在线影院| 精品免费久久久久久久| 精品91福利视频| 欧美成aaa人片免费看| 国产免费的av| 亚洲欧美日韩久久| 伦伦影院午夜理论片| 综合视频在线| 高清不卡日本v二区在线| 丝袜美女在线观看| 亚洲福利影片在线| 国产成人无码精品久在线观看| 视频在线观看一区| 欧美一区二区三区成人久久片| 亚洲性图自拍| 亚洲精品在线免费播放| 精品一区免费观看| 97久久精品人人做人人爽| 久久久亚洲精品无码| 琪琪久久久久日韩精品| 日韩av大片免费看| 色开心亚洲综合| 日韩亚洲欧美高清| 日韩免费一级片| 久久久久88色偷偷免费| 亚洲欧美久久久久| 欧美暴力喷水在线| 美日韩精品免费| 国产精成人品2018| 欧美老女人在线视频| 人人妻人人澡人人爽久久av| 色综合欧美在线| 999精品在线视频| 国产 日韩 欧美大片| 99999精品视频| 91精品国产视频| 国产乱码精品一区二区三区中文 | 丰满人妻妇伦又伦精品国产| 精品久久久久人成 | 久久综合九色综合久久久精品综合| 亚洲一区二区自拍偷拍| 91精品啪在线观看国产手机| 国产成人高潮免费观看精品| 91麻豆国产福利在线观看宅福利| 欧美日韩在线一区二区| 欧美国产日韩在线观看成人| www.一区二区| 国产一级片自拍| 一区二区三区精品视频在线观看| 国产一区自拍视频| 成人在线视频观看| 欧美精品18videos性欧| 精品视频三区| 日韩一本二本av| 午夜久久久久久久久久影院| 亚洲精品国产成人久久av盗摄| 中文字幕在线视频一区二区| 一区二区高清| 久久最新免费视频| 亚洲福利天堂| 国产高清精品一区二区三区| 成人在线黄色| 2021久久精品国产99国产精品| 青青久在线视频| 日韩午夜激情视频| 中文字幕一二区| 欧美性xxxx在线播放| 久久久久久久福利| 欧美国产丝袜视频| aaaaaav| 国产不卡视频在线观看| 亚洲a级黄色片| 日韩激情av在线| 亚洲熟妇av日韩熟妇在线| 欧美99在线视频观看| 午夜一区二区三区| 九九久久婷婷| 久久精品五月婷婷| 久久婷婷国产| 粉嫩av免费一区二区三区| 国产精品一区二区三区四区在线观看| 欧美乱人伦中文字幕在线| 四虎久久免费| 中文字幕日韩在线观看| 国产资源在线看| 日韩激情视频在线播放| 日本精品999| 精品国产一区二区三区av性色 | 欧美影片第一页| 亚洲免费在线观看av| 午夜精品福利视频网站| 国产一级二级毛片| 亚洲国产视频在线| 久操视频免费在线观看| 一区二区三区日韩在线观看| 日韩一级片大全| 亚洲欧美日韩在线| 老女人性淫交视频| 亚洲欧美日韩一区二区三区在线观看| 无码人妻精品一区二区三| 国产麻豆午夜三级精品| 91亚洲一区二区| 国产高清无密码一区二区三区| 免费成人在线视频网站| 亚洲欧洲一区二区天堂久久| 精品视频在线观看一区| 国产日韩1区| 精品国产成人av在线免| 日韩av一区二区在线影视| 国产三级三级三级看三级| 秋霞午夜鲁丝一区二区老狼| 日韩av播放器| 久久99精品视频| 欧美国产日韩在线视频| 国产精品123| 欧美xxxxx精品| 久久久久久久综合| 99久久99久久精品免费看小说.| 99久久国产综合色|国产精品| 天堂网在线免费观看| 久久国产视频网| 亚洲一区二区三区三州| 成人动漫视频在线| 久久一区二区电影| 中文字幕乱码日本亚洲一区二区 | 欧美黑人巨大videos精品| 久久一区二区精品| 日韩精品免费一区二区在线观看| 久久综合九色99| 精品一区二区三| 男女爱爱视频网站| 黄色亚洲精品| 能看的毛片网站| 国产在线观看一区二区| 欧美xxxx×黑人性爽| 欧美国产日韩亚洲一区| 日本少妇高清视频| 欧美性高潮在线| 国产精品一级视频| 亚洲第一网站男人都懂| 国产精品四虎| 欧美国产精品va在线观看| 中文字幕人成乱码在线观看| 成人黄色av网| 要久久爱电视剧全集完整观看| 国内视频一区| 欧美亚洲国产精品久久| 日韩精品免费一区| 日韩制服丝袜av| 四虎成人免费视频| 国产精品美女久久久久久| 久久亚洲成人av| 欧美亚洲丝袜传媒另类| 好吊色在线观看| xvideos亚洲人网站| 少妇视频一区| 96久久精品| 日韩成人综合| a√天堂在线观看| 国产精品一区久久久久| 日本xxxxxxxxx18| 亚洲大尺度视频在线观看| 亚洲视频一区二区三区四区| 日韩精品在线播放| 欧美xxxx免费虐| 国产又爽又黄的激情精品视频| 成人动漫视频在线观看| 欧美一区二区视频17c| 激情国产一区| 午夜激情影院在线观看| 欧美高清在线一区二区| www.中文字幕在线观看| 精品久久久久久久久久久久包黑料| 亚洲爱爱综合网| 中文字幕欧美精品在线| 人在线成免费视频| 国产专区一区二区| 亚洲午夜黄色| 久久久久亚洲av无码麻豆| 国产精品理论片| 伊人免费在线观看高清版| 国产视频自拍一区| 欧亚av在线| 久久精品二区| 国产亚洲一级| 亚洲激情 欧美| 亚洲1区2区3区4区| 女人18毛片一区二区三区| 久久久久久久色| 国产成人av毛片| bt天堂新版中文在线地址| 国产aⅴ精品一区二区三区色成熟| 3d动漫精品啪啪一区二区下载 | 亚洲精品国产精品国自产| 久久精品午夜| japanese中文字幕| 色偷偷成人一区二区三区91| 天堂国产一区二区三区| 国内伊人久久久久久网站视频| 欧美日韩成人影院| 欧美综合77777色婷婷| 久久三级视频| 韩国三级hd中文字幕| 91国产福利在线| a天堂在线资源| 国产精品久久久久国产a级| 精品国产中文字幕第一页| 另类小说第一页| 国产精品美女久久久久aⅴ| 一级黄色片免费| 久久久国产视频91| 日韩区一区二| 天天夜碰日日摸日日澡性色av| 久久av老司机精品网站导航| 波兰性xxxxx极品hd| 欧美一三区三区四区免费在线看 | 成人免费在线小视频| 久久综合九色欧美综合狠狠 | 成人18在线| 成人免费黄色网| 伊人久久综合| 中国美女乱淫免费看视频| 欧美亚洲日本国产| 国产精品一区二区三区视频网站| 国产精品igao视频| 欧美电影免费观看高清| 欧美性猛交xx| 狠狠色狠色综合曰曰| 欧洲综合视频| 国产一区二区在线免费| 亚洲一本视频| 精品无码国产污污污免费网站| 黄色精品在线看| 成人在线观看免费| 92国产精品视频| 亚洲影音一区| 四虎永久免费在线| 亚洲美女久久久| 成人在线啊v| 男人天堂999| 亚洲日本丝袜连裤袜办公室| 日韩一级片免费观看| 国产精品久久久久久亚洲影视| 一本色道久久综合亚洲精品酒店 | 日韩精品一区二区三区四区视频| 在线播放麻豆| 高清国产一区| 捆绑紧缚一区二区三区视频| av资源吧首页| 日韩视频在线免费| 久久草在线视频| 三区视频在线观看| 一本到一区二区三区| 综合久久2019| 亚洲综合第一| 久久蜜桃av一区精品变态类天堂 | 日韩福利一区二区三区| 国产精品资源网站|