精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性

發布于 2025-5-6 07:12
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇來自清華的文章,標題為:“Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (強化學習真的能激勵大型語言模型(LLM)產生超越基礎模型本身的推理能力嗎?)。

這篇文章研究的問題:可驗證獎勵的強化學習(RLVR)真能夠使LLM持續自我改進,獲得超越其對應基礎模型的新推理能力嗎?(即強化學習能提高base基座模型的天花板嗎?)。研究者通過使用pass@k指標(在k次嘗試中通過的比例)并采用非常大的k值,來探索模型在多種模型家族、RL算法和數學/編程基準上的推理能力邊界。

結論令人驚訝:

1. RLVR訓練并未引發根本上新的推理模式。雖然RL訓練的模型在較小的k值(如k=1)下表現優于基礎模型,但在足夠大的k值下,基礎模型能夠達到甚至超過其RL對應模型的pass@k分數。這表明RL訓練出的模型所使用的推理路徑實際上已經存在于基礎模型的采樣分布中。

2. RL訓練通過將模型輸出分布偏向于更有可能獲得獎勵的路徑來提高性能(提升采樣效率),但這同時也限制了模型的探索能力,導致其推理能力邊界相較于基礎模型反而更窄。

3. 與RLVR不同,蒸餾(distillation)能夠真正地為模型引入新知識。

這些發現揭示了RLVR在提升LLM推理能力方面的關鍵局限性,提示我們需要重新思考RL訓練在推理LLM中的作用,并可能需要尋找更好的訓練范式。

一、概述

?Title:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

?URL: https://arxiv.org/abs/2504.13837

?Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清華大學 LeapLab, 上海交通大學)

?Project Page: https://limit-of-RLVR.github.io

1 Motivation

?挑戰普遍認知:當前普遍認為RLVR能讓LLM獲得超越基礎模型的新推理能力。本文旨在嚴格驗證這一假設是否成立。

?評估方法局限:傳統的評估指標(如pass@1或小k值的平均成功率)可能只反映了模型的平均表現,而低估了基礎模型在更多嘗試下的潛在推理能力上限。

?探究能力邊界:需要一種更嚴格的方法來評估和比較基礎模型與RL訓練后模型的推理能力邊界,即模型理論上能解決的問題范圍。

2 Methods

省流版總結:

本文通過在數學、代碼生成、視覺推理等多個任務上,使用大k值的pass@k指標,系統比較了多種基礎LLM(如Qwen-2.5, LLaMA-3.1)與其經過RLVR(使用PPO、GRPO等算法)訓練后的版本。核心發現是:基礎模型只要采樣次數足夠多(k足夠大),就能解決那些之前被認為只有RL模型能解決的問題。RLVR的主要作用是提高采樣效率(更容易采樣到正確答案,pass@1更高),但代價是犧牲了探索性,導致其能解決的問題集合(推理邊界)反而小于基礎模型(pass@大k值更低)。研究還利用困惑度分析證明RL模型的推理路徑很可能已包含在基礎模型的分布中,并對比了RLVR與蒸餾,發現蒸餾更能引入新知識。

詳細方法和步驟:

為了深入探究強化學習(RLVR)對大型語言模型(LLM)推理能力的確切影響,其設計了一套嚴謹的實驗方法。

1) 核心在于使用大k值的pass@k指標來評估模型的推理能力邊界,即模型在多次嘗試下解決問題的理論上限,而非僅看單次嘗試的平均表現。實驗覆蓋了多種主流LLM基礎模型及其對應的RLVR訓練版本,涉及數學、代碼生成和視覺推理等多個任務領域。為確保結果的可靠性,研究不僅采用了統一的評估流程,

2)進行了思維鏈(CoT)的有效性驗證以排除偶然猜對答案的情況,并運用困惑度分析來探究RL訓練后模型與基礎模型輸出分布的關系。

3)研究還系統比較了不同RL算法的效果、RL訓練步數的影響,并將RLVR與模型蒸餾的效果進行了直接對比。

詳細內容整理如下:

方法論要素

詳細說明

核心評估指標

Pass@k (at large k):

 使用極大的嘗試次數k(如256, 1024+)來衡量模型解決問題的能力上限或覆蓋范圍,而非平均性能。采用無偏估計法計算。

實驗對象與范圍

模型:

 Qwen-2.5系列 (7B/14B/32B Base), LLaMA-3.1-8B Base及其對應的RL訓練版本。
RL算法: GRPO, PPO, Reinforce++, RLOO, ReMax, DAPO等。
任務: 數學推理 (GSM8K, MATH, AIME24等), 代碼生成 (LiveCodeBench, HumanEval+), 視覺推理 (MathVista)。

評估流程

統一使用Zero-shot prompt進行評估,采樣溫度0.6,top-p 0.95,避免few-shot提示干擾。

結果有效性驗證

CoT檢查:

 對高難度問題(如AIME24),手動檢查多次采樣得到的正確答案其思維鏈(CoT)是否合理有效。
問題過濾: 移除容易通過直接猜測解決的問題。

機理分析工具

困惑度分析 (Perplexity Analysis):

 比較RL模型生成內容在基礎模型下的困惑度,與基礎模型自身生成內容的困惑度分布,以判斷推理路徑是否源于基礎模型。

對比實驗

RL算法比較:

 在統一框架下比較不同RL算法的性能,并引入采樣效率差距(ΔSE)指標。
訓練步數影響: 分析不同訓練時長對pass@1和pass@k(大k)的影響。
RL vs 蒸餾: 對比RLVR和模型蒸餾(Distillation)在擴展模型推理邊界上的效果差異。

3 Conclusion

1.RLVR未引入新推理能力:RLVR訓練的模型所能解決的問題的推理路徑,基本上都已存在于原始基礎模型的潛在輸出中。RLVR沒有激發根本性的新推理模式。

2.RLVR提升效率但犧牲邊界:RLVR通過偏置采樣分布,提高了采樣到正確答案的效率(表現為pass@k在小k值時更高),但這種優化是以犧牲探索性為代價的,導致模型的推理能力邊界(能解決的問題集合上限,表現為pass@k在大k值時更低)相較于基礎模型反而縮小了。

3.基礎模型潛力被低估:只要給予足夠多的嘗試次數(大k值),基礎模型在解決復雜推理問題上的上限可能與甚至超過經過RLVR訓練的模型。

4.RL算法局限與蒸餾的優勢:當前主流RLVR算法在該問題上表現類似,距離理論最優采樣效率(由基礎模型邊界定義)仍有較大差距。相比之下,蒸餾可以將更強教師模型的知識注入基礎模型,從而真正擴展其推理能力邊界。

4 Limitation

1.任務范圍:研究主要集中在具有可驗證獎勵的任務(數學、代碼)。其結論是否能推廣到基于偏好模型進行對齊的RLHF任務(如提升無害性、遵循指令等)尚需進一步研究。

2.CoT檢查:手動檢查CoT的有效性雖然進行了,但僅限于問題子集和樣本子集,并非完全覆蓋。

3.解決方案探索不足:論文指出了當前RLVR的局限性,并暗示需要新的范式(如更好的探索機制),但并未提出具體的解決方案來克服這種邊界限制。

4.評估成本:使用極大k值的pass@k進行評估計算成本非常高,這限制了能夠在實驗中測試的模型和數據集的規模。

5.基礎模型依賴:既然RL效果受限于基礎模型,那么如何提升基礎模型本身的潛能(pretraining階段)變得更加重要。

二、詳細內容 (圖表總結)

1 RL與Base模型推理效果對比

?問題A:RL提升了找到正確路徑的效率;

?問題B:RL可能丟失基礎模型中存在的正確路徑,導致探索范圍縮小。

? 右圖:隨著RL訓練進行,pass@1(平均性能)提升,但pass@256(能力邊界)下降。

2 多個數學基準上不同模型Base與RL效果對比

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

結論:一致顯示:RL在低k時占優,Base在高k時追上甚至反超RL。

3 Base模型與RL推理模式對比 & 蒸餾模型與RL以及Base模型對比

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

?(左)困惑度分析: RL模型生成的響應(Y_RL)在Base模型下的困惑度分布,與Base模型自身生成響應(Y_Base)的分布中低困惑度的部分重合,說明Y_RL是Base模型本就“傾向于”生成的路徑,RL并沒有給Base模型帶來新的推理Pattern。

?(右)Base, Instruct, RL, Distilled模型在AIME24和Minerva上的pass@k對比: Distilled模型曲線顯著高于Base模型,而RL模型在高k時低于或接近Base模型。證明蒸餾能擴展邊界,RLVR不能。

4 不同RL算法以及不同step的影響

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

?(上)不同RL算法 (GRPO, PPO等) 的pass@k對比及采樣效率差距(ΔSE)。顯示各算法效果差異不大,且ΔSE普遍較大,表明離基礎模型的理論上限還很遠。

?(下)不同RL訓練步數 (150 vs 300 vs 450) 的影響。pass@1隨步數增加而提升(尤其在訓練集上),但pass@256下降,表明推理邊界在縮小,可能存在過擬合。

三、總結

本文核心觀點: 當前廣泛應用的RLVR(帶可驗證獎勵的強化學習)方法,并不能真正賦予LLM超越其基礎模型固有的、新的推理能力。它的主要作用是提高模型采樣到其本身就能生成的正確推理路徑的效率,但這往往以犧牲探索性、縮小推理能力邊界為代價。

結論1: RLVR 訓練主要提高了 LLM 的采樣效率,使其更容易在少量嘗試內找到正確答案,但并未帶來超越基礎模型的新的推理能力或擴展可解決問題的范圍。 論文通過 pass@k 指標在大 k 值下的評估,以及對生成的思維鏈和困惑度的分析,有力地支持了這一發現,挑戰了 RLVR 能夠持續提升 LLM 推理上限的普遍觀點。

結論2: 現有的 RL 算法在提高 LLM 采樣效率方面仍有很大提升空間,且不同的主流 RL 算法(如 PPO, GRPO 等)在效果上差異不大。 研究通過在統一框架下對比多種算法,并量化了采樣效率差距,指出了當前 RL 方法的局限性。同時,增加訓練步數可能導致模型過擬合訓練集并進一步限制其探索能力和推理邊界。

結論3: 與 RLVR 不同,蒸餾是一種能夠引入新知識并有效擴展 LLM 推理能力邊界的訓練范式。 論文通過對比蒸餾模型與基礎模型和 RLVR 模型的 pass@k 曲線,展示了蒸餾模型能夠解決基礎模型無法解決的問題,這提示未來的研究可能需要探索 RL 與其他方法的結合,或者尋找全新的訓練范式來真正推動 LLM 推理能力的發展。

本文轉載自?????NLP PaperWeekly?????,作者:NLP PaperWeekly


收藏
回復
舉報
回復
相關推薦
久久久久久久久久久久久久久99| 亚洲天堂偷拍| 欧美日韩国产另类一区| 路边理发店露脸熟妇泻火| 精品人妻一区二区三区含羞草| 黄色精品网站| 国产亚洲欧美视频| 国产又黄又嫩又滑又白| 成人免费看视频网站| 国产精品你懂的| 国产麻豆乱码精品一区二区三区| 波多野结衣激情视频| 午夜国产欧美理论在线播放 | 欧美国产精品中文字幕| 亚洲一区二区三区乱码aⅴ蜜桃女| 青青操免费在线视频| 日本一区二区免费高清| 亚洲福利视频在线| 中文字幕 91| 538在线视频| 中文字幕一区二区日韩精品绯色| 精品欧美一区二区三区久久久| 久久久蜜桃一区二区| 国产综合视频| 色偷偷噜噜噜亚洲男人| 特级西西人体wwwww| 欧美三级一区| 精品婷婷伊人一区三区三| 69sex久久精品国产麻豆| 成a人片在线观看www视频| aaa亚洲精品一二三区| 亚洲最大福利视频| 91tv国产成人福利| 日韩精品一级二级| 欧美精品成人在线| 无码黑人精品一区二区| 欧美亚洲国产精品久久| 亚洲精品一区二区三区婷婷月| 无码人妻一区二区三区一| 日韩黄色三级| 欧美午夜影院一区| 欧美xxxxx在线视频| 韩日毛片在线观看| 亚洲国产精品影院| 肉大捧一出免费观看网站在线播放| 在线免费看av| 亚洲国产精品99久久久久久久久| 久久久久久久久一区| 欧美性猛交 xxxx| 成人免费高清在线| 国产福利一区二区三区在线观看| 国产特级aaaaaa大片| 久久国产精品免费| 国产欧美日韩丝袜精品一区| 免费在线不卡av| 日韩和欧美的一区| 国产精品三级久久久久久电影| 无码免费一区二区三区| 国产农村妇女精品一二区| 2019中文字幕在线免费观看| 欧美一级视频免费观看| 国产精品久久777777毛茸茸| 18一19gay欧美视频网站| 日韩欧美视频在线免费观看| 亚洲日本视频| 欧美在线观看一区二区三区| 欧美三日本三级少妇99| 亚洲在线成人| 国产精品99久久久久久白浆小说| 无码人妻精品一区二区三区9厂| 久久久精品网| 国产精品无av码在线观看| 国产精品久久久久久久久久久久久久久久| 久久99久久99| 91久久大香伊蕉在人线| 黄色一级大片在线免费看国产| 成人视屏免费看| 久久精品日产第一区二区三区乱码 | 91成年人网站| 日韩中文首页| 欧美第一黄色网| 日本免费观看视| 日韩和欧美一区二区三区| 国产美女主播一区| 亚洲a视频在线| 久久一区二区三区国产精品| 视频一区视频二区视频三区视频四区国产 | 日韩av免费播放| 蜜乳av一区二区三区| 91久久国产综合久久91精品网站 | 最近免费观看高清韩国日本大全| 国产高清在线a视频大全| 色综合久久久久久久| 中文字幕久久av| 伊人久久大香线蕉av超碰| 亚洲精品视频免费| 欧美日韩黄色网| 国产精品日韩久久久| 国产日韩亚洲欧美| 色欲av伊人久久大香线蕉影院| 久久久精品国产免大香伊| 特级西西人体www高清大胆| 亚洲欧洲自拍| 欧美一级免费大片| 精品人妻互换一区二区三区| 欧美激情1区2区| 日韩免费av一区二区| 亚洲xxx在线| 中文字幕成人av| 免费超爽大片黄| 四虎国产精品成人免费影视| 日韩成人av一区| 外国一级黄色片| 天堂va蜜桃一区二区三区漫画版 | 亚洲乱码在线观看| 国产精品污网站| 你懂的av在线| 亚洲日本va午夜在线电影| 在线观看91久久久久久| 国产精品久久久免费视频| 国产伦精品一区二区三区视频青涩| 欧美激情第六页| a级片免费在线观看| 在线91免费看| 美国美女黄色片| 午夜在线一区| 国产一区精品在线| 香蕉成人app免费看片| 欧美日本在线播放| 免费一级特黄3大片视频| 国产一区二区三区的电影| 国产精品麻豆免费版| av网站在线免费看推荐| 欧美日韩视频在线第一区| 人妻无码一区二区三区| 日韩亚洲在线| 国产日韩一区二区| 国内在线视频| 亚洲成人激情在线| 久久国产精品波多野结衣| 国产一区视频网站| 不卡中文字幕在线| 亚洲欧美久久精品| 按摩亚洲人久久| 中文字幕在线日亚洲9| 国产午夜精品在线观看| 国产精品无码专区av在线播放| 欧美成人基地| 国产69久久精品成人| 色呦呦中文字幕| 精品女同一区二区三区在线播放| 性猛交╳xxx乱大交| 欧美日韩视频一区二区三区| 91精品久久久久久蜜桃| 四季久久免费一区二区三区四区| 911精品产国品一二三产区| 在线免费看av网站| 国产米奇在线777精品观看| 一区二区三区四区免费观看| 成人综合日日夜夜| 久久国产加勒比精品无码| 99热这里精品| 亚洲午夜久久久久久久久电影网 | 成人午夜免费福利| 亚洲国产欧美另类丝袜| 一级国产黄色片| 性色一区二区三区| 手机在线观看国产精品| 免费日韩成人| 欧美日韩电影在线观看| 亚洲女人18毛片水真多| 精品日韩中文字幕| 少妇太紧太爽又黄又硬又爽小说 | 在线观看一区| 久久久久久久久久久一区| 久久亚洲精品爱爱| 久久视频在线直播| 人妻少妇一区二区三区| 色综合视频一区二区三区高清| 亚洲黄色免费视频| 国产呦精品一区二区三区网站| 欧美a级免费视频| 亚洲人和日本人hd| 91精品啪aⅴ在线观看国产| 欧美1234区| 亚洲三级免费看| 97人妻精品一区二区三区软件| 亚洲影视在线播放| 日本乱子伦xxxx| 东方欧美亚洲色图在线| 亚洲成熟丰满熟妇高潮xxxxx| 99热在线成人| 国产综合动作在线观看| 激情小说亚洲| 午夜精品久久久久久久男人的天堂| 国产小视频在线| 欧美一区二区成人| 国产三级精品三级在线观看| 亚洲婷婷国产精品电影人久久| 性色av蜜臀av浪潮av老女人| 美日韩一级片在线观看| 久艹视频在线免费观看| 久久高清免费| 久久福利电影| 日韩精品亚洲专区在线观看| 国产成人亚洲综合| gogo高清午夜人体在线| 日韩视频免费观看| 欧美色图另类| 精品国产sm最大网站| 国产精品久久久久久免费播放| 婷婷一区二区三区| 紧身裙女教师波多野结衣| 国产亚洲一区二区三区四区| 免费观看污网站| 精品一区二区三区免费播放 | 美女网站视频一区| 久久久久久久国产| av观看在线| 日韩在线观看免费高清完整版| 视频一区二区三区在线看免费看| 91精选在线观看| 日韩久久久久久久久久| 欧美日韩精品中文字幕| 久久免费黄色网址| 亚洲视频在线一区| 亚洲一级片在线播放| 久久久久久影视| 国产精品一级黄片| 成人av在线电影| 免费看91视频| 国产电影精品久久禁18| av亚洲天堂网| 麻豆国产91在线播放| 国产精品天天av精麻传媒| 一区二区三区高清视频在线观看| 四虎精品欧美一区二区免费| 国产精品久久久久久| 神马影院午夜我不卡| 欧美人妖在线| 日本不卡一区二区三区视频| 午夜先锋成人动漫在线| 精品日产一区2区三区黄免费 | 国产成人精品影视| 亚洲天堂网站在线| 国模无码大尺度一区二区三区| 久久久精品麻豆| 免费观看在线综合色| 美女网站视频黄色| 热久久免费视频| 久久久久久久久久久久91| 日韩激情av在线| 奇米影视四色在线| 久草这里只有精品视频| 亚洲黄色av片| 国产一区二区精品久久91| 婷婷激情综合五月天| 紧缚捆绑精品一区二区| 国产精品久久久久野外| 粉嫩久久99精品久久久久久夜| 黑人玩弄人妻一区二区三区| 成人久久视频在线观看| 黄色av网址在线观看| 91女厕偷拍女厕偷拍高清| 中文字幕5566| 欧美国产丝袜视频| 强制高潮抽搐sm调教高h| 亚洲欧美日韩中文播放| 久久久久97国产| 精品欧美国产一区二区三区| 国产熟妇一区二区三区四区| 欧美丰满一区二区免费视频| www.色呦呦| 亚洲精品一二区| 99精品老司机免费视频| 欧美第一黄色网| 欧洲一区二区三区精品| 国产一区红桃视频| 大陆精大陆国产国语精品| 蜜桃91精品入口| 99国产精品一区二区| 国产乱淫av片杨贵妃| 美女精品一区| 中文字幕亚洲影院| www.日韩av| 久草福利资源在线| 亚洲国产欧美另类丝袜| 中文字幕 视频一区| 日韩一区二区三免费高清| 性插视频在线观看| 日韩在线观看网址| 激情视频网站在线播放色| 国产精品网站入口| 欧美调教视频| 亚洲自拍偷拍二区| 亚洲专区免费| √天堂资源在线| 久久伊人蜜桃av一区二区| 性生交大片免费全黄| 黄网动漫久久久| 国产浮力第一页| 亚洲日韩中文字幕| 成人性生交大片免费看网站| 国产免费一区视频观看免费| 成人爽a毛片| 中文字幕色一区二区| 亚洲一区区二区| 又大又长粗又爽又黄少妇视频| 亚洲国产精品成人综合| 久热这里只有精品6| 欧美一级片在线观看| 最新97超碰在线| 欧美一级高清免费播放| 亚洲一区二区三区四区电影| 视频一区视频二区视频三区视频四区国产 | 国产乱人伦真实精品视频| 久久亚洲道色| 国产在线拍揄自揄拍无码| 日韩av中文字幕一区二区三区| 无码国产精品一区二区免费式直播| **网站欧美大片在线观看| 中文字幕一区二区人妻视频| 亚洲国产天堂久久综合| 影音先锋在线视频| 成人久久18免费网站图片| 精品日产免费二区日产免费二区| 黄色免费观看视频网站| 顶级嫩模精品视频在线看| 亚洲天堂一级片| 欧美群妇大交群的观看方式 | 欧美成人在线网站| 日本成人在线网站| 午夜精品一区二区在线观看| 美女爽到呻吟久久久久| 在线观看日韩精品视频| 亚欧色一区w666天堂| www国产一区| 欧美刺激性大交免费视频| 精品国产鲁一鲁****| 不卡中文字幕在线| 国产一区二区三区在线观看免费 | a国产在线视频| 国产一级精品aaaaa看| 亚洲经典三级| 星空大象在线观看免费播放| 亚洲大片精品永久免费| 日本免费不卡视频| 韩国国内大量揄拍精品视频| 国产精品视屏| 俄罗斯av网站| 久久综合久久综合亚洲| 天堂网中文字幕| 一区二区欧美日韩视频| 国产一区二区精品调教| 亚洲精品在线免费看| 九一九一国产精品| 欧美丰满熟妇bbbbbb| 欧美一二区视频| 人人超在线公开视频| 国产美女99p| 肉肉av福利一精品导航| 国产精品一区二区亚洲| 日韩色在线观看| 日韩影院在线| 日韩女优中文字幕| 精品影视av免费| 久久精品人妻一区二区三区| 日韩av在线导航| 91国内外精品自在线播放| 在线观看成人av电影| 国产成人精品免费一区二区| 91在线看视频| 这里只有精品在线播放| 精品视频在线观看免费观看| 国产 日韩 欧美在线| 久久久国产精品不卡| 国产又爽又黄又嫩又猛又粗| 欧美日韩不卡合集视频| 精品在线观看入口| 欧美一级特黄aaa| 五月婷婷综合在线| a天堂在线资源| 成人片在线免费看| 日韩精品视频网站| 欧美日韩免费做爰视频| 亚洲美女久久久| 精品欧美视频| av网站在线观看不卡| 亚洲欧美aⅴ...| 日本天堂在线| 51国偷自产一区二区三区的来源| 亚洲精品视频啊美女在线直播| 9.1片黄在线观看| 亚洲激情成人网| 涩涩涩久久久成人精品| 99蜜桃臀久久久欧美精品网站| 专区另类欧美日韩| 色视频免费在线观看| 91中文在线视频| 久久亚洲风情|