精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華團隊深度實證:RL 真能讓大模型進化嗎?能力邊界仍被基座“鎖死”!

開發 測試
近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

強化學習(RL)真的能讓大模型獲得超越基礎模型的新推理能力嗎?

近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

論文地址:https://arxiv.org/pdf/2504.13837論文地址:https://arxiv.org/pdf/2504.13837

論文標題翻譯過來是:強化學習(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結論是:RLVR提升的,其實只是采樣效率,而不是讓模型學會了真正全新的推理能力。

換句話說:RLVR只是把基礎模型本來就會的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗知識”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數學、代碼等需要推理的任務上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績一騎絕塵。原理很簡單:先有個基礎大模型→用RLVR強化一下→通過自動判分(比如答案對不對、代碼測不測得過)給獎勵。

理論上,它能自我提升,學到以前沒見過的新解題套路。于是,這幾年,大家都在說,RLVR能讓大模型“自我進化”,推理能力突破天花板。

清華團隊的“靈魂拷問”:RLVR,真能越過基座嗎?

清華團隊這篇論文,直接拋出了“靈魂三問”:

  • RLVR強化訓練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?
  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?
  • 我們是否過于高估了RLVR的“自我進化”魔力?

對于上述三個問題,作者用pass@k作為研究方法的核心。因為傳統的模型評測,大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到,這種評估方式其實低估”了模型的潛力。原因是:有些難題,模型可能前幾次都答錯,但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了pass@k這個指標:對于每道題,采樣k次,只要有一次答對,就算成功。k越大,越能“榨干”模型內在的推理極限。

核心邏輯是:如果RLVR真能帶來新能力,那在k再大時,它也應該比基座模型更能解出難題。

實驗結果有點顛覆大家認知——

RLVR訓練的模型,在k小的時候表現更好,但k大了以后,基礎模型能超過它!

也就是:RLVR訓練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數學推理

以AIME24數學競賽題為例,RLVR模型一開始比基座模型高出30%的準確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。

圖片圖片

案例2:代碼生成

在LiveCodeBench等編程基準上,RLVR模型單采樣表現亮眼,但當k采樣數提升到128時,基座模型解題覆蓋率反超RLVR。

圖片圖片

案例3:視覺推理

多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率,卻沒讓模型產生全新的多模態推理路徑。

圖片圖片

RLVR的“聰明”,其實是把基礎模型會的東西,輸出概率調高了,真正的新推理路徑?并沒有,基礎模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導致極限覆蓋沒基礎模型廣。

無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢都是一樣:RLVR提升了單次成功率,但大采樣下基礎模型能覆蓋更多難題。

為什么會這樣?

清華的這篇論文認為有兩點原因:

一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動作空間(語言的組合爆炸),靠獎勵信號很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩”,但也更“保守”,輸出熵降低,探索新解法的能力變弱。

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”,不是“能力進化”。

怎么解決?

論文做了一個實驗,把更強的模型的推理鏈條喂給小模型,小模型能真的學到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進一步,靠RLVR遠遠不夠,得靠知識蒸餾“老師帶學生”那一套。

即“讓模型變聰明”的關鍵,或許在于“注入新知識”(如蒸餾),而不是單純靠獎勵強化。

或者探索“更強的探索范式”,比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。

圖源:清華大學LeapLab實驗室官網

責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2025-04-25 09:22:44

2023-02-08 08:00:00

算法人工智能大數據

2023-09-05 14:43:15

2025-02-10 09:35:00

2025-11-21 12:02:41

2023-05-31 15:15:53

2023-10-07 08:28:06

語言模型代碼技術

2023-09-06 13:17:00

AI數據

2024-02-27 09:14:01

AI模型

2025-10-13 09:08:00

2025-10-08 10:44:16

2024-07-22 08:10:00

數據模型

2025-04-27 09:23:00

模型訓練AI

2021-02-07 10:01:31

AI 數據人工智能

2025-11-13 09:05:00

2024-12-10 07:00:00

大模型密度定律人工智能

2023-11-15 15:37:21

大模型人工智能

2023-03-15 09:36:14

模型

2011-02-22 14:49:23

vsftpdsubsys

2024-12-09 17:20:29

點贊
收藏

51CTO技術棧公眾號

日韩欧美在线中文字幕| 日本欧美一区二区三区乱码| 欧美伊人久久久久久久久影院| 日本精品一区二区三区不卡无字幕| 97人妻一区二区精品视频| 视频一区国产| 亚洲图片一区二区| 久久国产精品99久久久久久丝袜| 国产精品不卡av| 网曝91综合精品门事件在线| 色香蕉成人二区免费| 蜜桃成人在线| 中文字幕人成人乱码亚洲电影| 日韩一级毛片| 日韩视频免费直播| 欧美成人xxxxx| av电影在线观看网址| 精品一区二区三区在线观看| 久久久久亚洲精品| 色综合99久久久无码国产精品| 久久久免费人体| 亚洲一区二区三区小说| 欧美精品在线一区| 国产一区二区自拍视频| 伊人蜜桃色噜噜激情综合| 日韩国产高清视频在线| 在线免费观看av的网站| 色呦呦在线看| 久久久91精品国产一区二区三区| 国产精品影片在线观看| 久久av高潮av无码av喷吹| 免费电影一区二区三区| 日韩一区二区电影| 97视频在线免费播放| 麻豆电影在线播放| 91丝袜美腿高跟国产极品老师 | 精品1区2区在线观看| 成年人免费大片| 国产蜜臀在线| 国产精品三级av| 国产欧美一区二区三区不卡高清| 特级西西444www高清大视频| 亚洲视频狠狠| 一夜七次郎国产精品亚洲| 日本一区二区免费视频| 韩国精品主播一区二区在线观看| 一区二区三区在线免费观看| 日韩在线电影一区| 国产资源在线看| 91免费版在线| 乱色588欧美| 亚洲 国产 欧美 日韩| 成人高清视频在线观看| 成人免费视频视频在| 国产人妻精品一区二区三| 久久99久久99| 91人成网站www| 一卡二卡三卡在线| 免费视频一区| 欧美重口另类videos人妖| 久草手机在线观看| 国产精品综合色区在线观看| 午夜精品视频网站| av大片免费观看| 国产免费成人| 国产成人精品综合| 精品乱码一区内射人妻无码| 蜜臀精品久久久久久蜜臀| 国产精品久久久久久久久久免费| 午夜视频网站在线观看| 蜜桃91丨九色丨蝌蚪91桃色| 91精品美女在线| 99这里有精品视频| 成人一区二区三区在线观看 | 全国精品免费看| 精品性高朝久久久久久久| av网站免费在线看| 成人影视亚洲图片在线| 久久香蕉国产线看观看av| 劲爆欧美第一页| 亚洲毛片网站| 国产精品美女久久久久久免费| ,一级淫片a看免费| 国产成人h网站| 久久亚洲国产精品日日av夜夜| 欧美色视频免费| 国产精品欧美一级免费| 国产 国语对白 露脸| www视频在线观看| 在线视频综合导航| 久久综合桃花网| 天堂99x99es久久精品免费| 亚洲久久久久久久久久| 5566中文字幕| 亚洲日本国产| 国产精品一区二区三| 亚洲av色香蕉一区二区三区| 91丝袜国产在线播放| 一本一道久久a久久精品综合| а√天堂资源地址在线下载| 午夜一区二区三区在线观看| 91日韩视频在线观看| h视频久久久| 中文字幕日韩免费视频| 亚欧洲精品在线视频| 日韩av一级片| 91久久国产自产拍夜夜嗨| 能在线看的av| 一区二区三区不卡视频在线观看 | 一个人www视频在线免费观看| 欧美日韩一区高清| 风间由美一二三区av片| 亚洲精品一区二区妖精| 91av在线免费观看| 国产人妻精品一区二区三| 久久久精品欧美丰满| 欧美一级中文字幕| 91精品美女| 亚洲精品电影在线观看| 青青操在线视频观看| 亚洲综合二区| 成人资源视频网站免费| 午夜视频成人| 欧美性猛交xxxx富婆弯腰| 4438x全国最大成人| 第一会所亚洲原创| 欧美中文在线视频| 免费观看黄一级视频| 综合在线观看色| 男人搞女人网站| 欧美亚洲色图校园春色| 欧美极品美女电影一区| 国产精品羞羞答答在线| 中文字幕不卡在线| 久草精品在线播放| 欧美影院天天5g天天爽| 欧美精品电影在线| 精品国产乱码久久久久久蜜臀网站| 中文av一区特黄| 国产主播在线看| 国产成人一二| 欧美激情视频一区| 国产女同91疯狂高潮互磨| 日本一区二区不卡视频| 不要播放器的av网站| 精品福利一区| 韩日欧美一区二区| 丰满人妻av一区二区三区| 亚洲精品高清视频在线观看| 九九九久久久久久久| 亚洲xxx拳头交| 亚洲综合日韩在线| www.欧美日本韩国| 欧美一二三四区在线| 紧身裙女教师波多野结衣| 国产专区欧美精品| 国内精品国产三级国产99| 99精品女人在线观看免费视频| 丝袜美腿亚洲一区二区| 一区二区三区www污污污网站| 欧美精彩视频一区二区三区| 日本999视频| 精品国产不卡| 国产精品专区第二| 黄色大片在线播放| 日韩欧美一区二区不卡| 麻豆影视在线播放| 成人h动漫精品| 国产免费一区二区三区视频| 欧洲毛片在线视频免费观看| 国产美女搞久久| 污网站在线免费看| 亚洲精品99999| 亚洲国产成人精品女人久久| 日本一区二区三区免费乱视频| 91女神在线观看| 欧美在线高清| 国产一级精品aaaaa看| 欧美成人性网| xxxx欧美18另类的高清| 朝桐光av在线一区二区三区| 天天综合天天做天天综合| 精品无码国产污污污免费网站| 美国一区二区三区在线播放| 国产又粗又爽又黄的视频| 大陆精大陆国产国语精品| 日韩av三级在线观看| 日本中文字幕在线看| 精品国产成人在线影院| 亚洲第一网站在线观看| 亚洲欧美激情在线| 免费的av网站| 另类欧美日韩国产在线| 成人小视频在线观看免费| 国产乱码精品一区二区亚洲 | 久久精品视频网| 午夜免费福利网站| 久久久久久婷| 国产资源第一页| 免费一区二区| 超碰97在线播放| 国产极品久久久久久久久波多结野 | 国产91对白在线播放| 九义人在线观看完整免费版电视剧| 精品少妇一区二区三区| 久久午夜鲁丝片| 亚洲妇女屁股眼交7| 情侣偷拍对白清晰饥渴难耐| 99精品久久久久久| 伊人免费视频二| 日本中文字幕一区| 久久黄色片视频| 亚洲综合婷婷| 亚洲综合欧美日韩| 另类在线视频| 99在线高清视频在线播放| 唐人社导航福利精品| 韩国三级日本三级少妇99| 一区二区三区视频在线观看视频| 日韩精品在线影院| 亚洲免费一级片| 欧美一区二区三区免费大片 | 亚洲综合日本| 国产传媒久久久| 亚洲国产精品久久久天堂| 午夜精品福利一区二区| 亚洲免费专区| 精品乱码一区二区三区| 亚洲精品午夜| 亚洲va久久久噜噜噜| 欧美男女视频| 国产精品日韩欧美综合| 天堂av中文在线观看| 久久久亚洲影院| 污污片在线免费视频| 欧美成人免费在线视频| 免费黄色在线看| www.久久久久| 91社区在线| 中文日韩在线视频| 高清福利在线观看| 亚洲视频电影图片偷拍一区| 手机看片一区二区| 亚洲成av人乱码色午夜| 亚洲成a人片在线| 欧美一级日韩免费不卡| 国产成人麻豆精品午夜在线| 欧美精品一级二级| 国产免费av电影| 日韩三级av在线播放| 国产特黄一级片| 日韩亚洲欧美高清| 亚洲av无码国产精品久久不卡 | 91成人影院| 四虎永久免费网站| 欧美在线观看天堂一区二区三区| 中文字幕免费高| 欧美成熟视频| 国产精品又粗又长| 噜噜噜91成人网| 少妇一级淫免费放| 国产一区在线精品| 日本精品一二三| 91亚洲精品一区二区乱码| 亚洲第一香蕉网| 亚洲国产精华液网站w| 亚洲女同二女同志奶水| 亚洲精品欧美激情| 五月天婷婷综合网| 在线观看一区日韩| 国产精品无码久久av| 亚洲а∨天堂久久精品喷水| 亚洲 国产 欧美 日韩| 国产亚洲视频中文字幕视频| 在线观看黄色av| 久久97精品久久久久久久不卡| 51精品在线| 国产精品久久久999| 久久99成人| 久久综合九色综合网站| 欧美一区二区三| 日韩中文字幕亚洲精品欧美| 亚洲三级电影在线观看| 另类小说第一页| 国产激情精品久久久第一区二区| 你懂的在线观看网站| 日本一区二区三区免费乱视频| av激情在线观看| 欧美日韩在线免费观看| 亚洲一区二区人妻| 精品国产一二三| a天堂中文在线| 久久久综合av| 久久亚洲精品人成综合网| 国产免费一区二区| 日韩中文首页| 你真棒插曲来救救我在线观看| 日本一不卡视频| 老司机免费视频| 中文字幕中文在线不卡住| 日本在线小视频| 欧美日韩精品欧美日韩精品一综合| 风流少妇一区二区三区91| 中文字幕免费精品一区高清| 高端美女服务在线视频播放| 91精品久久久久久久久久另类| 亚洲春色h网| 免费网站永久免费观看| 日本不卡免费在线视频| 亚洲成人av免费在线观看| 亚洲色图都市小说| 成人毛片一区二区三区| 精品日韩成人av| 免费**毛片在线| 日韩美女免费视频| 开心激情综合| 成年在线观看视频| 精品一区二区三区欧美| 欧美黄色一级生活片| 午夜精品123| www.色呦呦| 精品国产一区二区三区四区在线观看| gay欧美网站| 精品麻豆av| 亚洲网站视频| 国产精品无码自拍| 亚洲丝袜精品丝袜在线| 影音先锋国产资源| 在线视频日本亚洲性| 日本免费久久| 蜜桃av久久久亚洲精品| 99精品99| 国产a级黄色片| 亚洲电影一区二区三区| 草逼视频免费看| 九九久久综合网站| 久久精品九色| 天天综合五月天| 国精产品一区一区三区mba桃花| 国产激情av在线| 欧美视频精品在线| 成年人在线免费观看| 国产精品99久久久久久白浆小说| 神马日本精品| 成人免费观看视频在线观看| 久久综合色一综合色88| 日日摸天天添天天添破| 亚洲精品资源美女情侣酒店| 少妇视频一区| 日本免费一区二区三区| 日本在线不卡一区| 99成人在线观看| 欧美一级在线免费| 日本成人不卡| 国产精品国产一区二区| 亚洲激情自拍| 亚洲av无码一区二区二三区| 日韩欧美在线视频观看| 黄色av网址在线免费观看| 国产精品极品在线| 色狮一区二区三区四区视频| 男人的天堂最新网址| 亚洲精品高清在线| 亚洲精品国偷拍自产在线观看蜜桃| 九九热99久久久国产盗摄| 成人爽a毛片免费啪啪红桃视频| 免费人成在线观看视频播放| eeuss影院一区二区三区| 免费观看成人毛片| 中文字幕亚洲无线码a| 日韩五码电影| 欧美日韩福利在线| 久久久久久久一区| 在线免费av片| 欧美华人在线视频| 曰本一区二区三区视频| jizz大全欧美jizzcom| 亚洲乱码国产乱码精品精98午夜| 国产 欧美 自拍| 日韩av片免费在线观看| 午夜激情久久| 欧产日产国产精品98| 欧美亚洲综合网| 影院在线观看全集免费观看| 国内不卡一区二区三区| 另类综合日韩欧美亚洲| 国产在线观看成人| 国产一区二区三区高清在线观看| 国产精品日本一区二区三区在线| 亚洲欧美成人一区二区在线电影| 黄色一级视频免费| 日韩大陆毛片av| 成人午夜在线| 欧美亚洲色图视频| 国产亚洲欧美中文| www.狠狠干| 国产精品久久久久久久久免费| 在线电影一区二区| 免费在线观看你懂的| 日韩欧美成人一区|