精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

更長思維并不等于更強推理性能,強化學習可以很簡潔

人工智能 新聞
第二輪強化學習(僅使用一些有時可解的問題)可以縮短回答時間,同時保持甚至提高準確度。這對部署效率具有重大意義。

今天早些時候,著名研究者和技術作家 Sebastian Raschka 發布了一條推文,解讀了一篇來自 Wand AI 的強化學習研究,其中分析了推理模型生成較長響應的原因。

他寫到:「眾所周知,推理模型通常會生成較長的響應,這會增加計算成本?,F在,這篇新論文表明,這種行為源于強化學習的訓練過程,而并非更高的準確度實際需要更長的答案。當模型獲得負獎勵時,強化學習損失函數就傾向于生成較長的響應,我認為這能解釋純強化學習訓練為什么會導致出現頓悟時刻和更長思維鏈?!?/span>

圖片

也就是說,如果模型獲得負獎勵(即答案是錯的),PPO 背后的數學原理會導致響應變長,這樣平均每個 token 的損失就更小一些。因此,模型會間接地收到鼓勵,從而使其響應更長。即使這些額外的 token 對解決問題沒有實際幫助,也會出現這種情況。

響應長度與損失有什么關系呢?當使用負獎勵時,更長的響應可以稀釋每個 token 的懲罰,從而讓損失值更低(即更好 —— 即使模型仍然會得出錯誤的答案。

圖片

因此,模型會「學習」到:即使較長的回答對正確性沒有幫助,也能減少懲罰。

此外,研究人員還表明,第二輪強化學習(僅使用一些有時可解的問題)可以縮短回答時間,同時保持甚至提高準確度。這對部署效率具有重大意義。

以下是該論文得到的三大關鍵發現:

  • 簡潔性與準確度之間的相關性:該團隊證明,在推理和非推理模型的推斷(inference)過程中,簡潔的推理往往與更高的準確度密切相關。
  • 對 PPO 損失函數的動態分析:該團隊通過數學分析,建立了響應正確性與 PPO 損失函數之間的聯系。具體而言,研究表明,錯誤的答案往往會導致響應較長,而正確的答案則傾向于簡潔。
  • 有限的數據:該團隊通過實驗證明,即使在非常小的數據集上,強化學習的后訓練階段仍然有效,這一結果與文獻中的當前趨勢相悖,并且強化學習后訓練在資源受限的場景下也是可行的。

有研究者認為這項研究揭示了強化學習存在的一個普遍問題:訓練的目標只是為了獲得獎勵,而并非是解決問題。

圖片

下面我們就來具體看看這篇論文。

圖片

  • 論文標題:Concise Reasoning via Reinforcement Learning 
  • 論文地址:https://arxiv.org/abs/2504.05185

響應更長≠性能更好

下表展示了使用不同模型在不同基準測試上,答案正確或錯誤時的平均響應長度。藍色小字表示用于計算所得平均值的樣本數。

圖片

由此可知,更長響應不一定能帶來更好的性能。

于是問題來了:使用 RL 訓練的 LLM 傾向于在什么時候增加響應長度?原因又是為何?

每個推理問題都是一個 MDP

從根本上講,每個推理問題(例如,數學問題)都構成了一個馬爾可夫決策過程 (MDP),而不僅僅是一個靜態樣本。

MDP 由狀態空間 S、動作空間 A、轉換函數 T、獎勵函數 R、初始狀態分布 P_0 和折扣因子 γ 組成。

在語言建模中,每個 token 位置 k 處的狀態由直到 k 為止并包括 k 的所有 token(或其嵌入)組成,另外還包括上下文信息(例如問題陳述)。動作空間對應于可能 token 的詞匯表。轉換函數可確定性地將新的 token 附加到序列中。除了最后一步之外,所有步驟的獎勵函數都為零。在最后一步,正確性根據最終答案和格式進行評估。初始狀態取決于提示詞,其中可能包含問題陳述和指令(例如,「逐步求解并將最終答案放入方框中」)。強化學習的目標是最大化預期回報,預期回報定義為根據 γ 折扣后的未來獎勵之和。在 LLM 的后訓練中,通常將 γ 設置為 1。

為了在僅提供最終答案的情況下解決問題,需要一個能夠偶爾得出正確答案的基礎模型。在對多個問題進行訓練時,整體 MDP 由多個初始狀態和更新的獎勵函數組成。添加更多問題會修改 P_0 和 R,但會保留基本的 MDP 結構。

這會引入兩個重要的考慮因素:(1) 更大的問題集會增加 MDP 的復雜性,但這可能會使所學技術具有更高的泛化能力。(2) 原理上看,即使是單個問題(或一小組問題)也足以使強化學習訓練生效,盡管這可能會引發過擬合的問題。

過擬合是監督學習中的一個問題,因為模型會記住具體的例子,而不是進行泛化。相比之下,在線強化學習則不會受到這個問題的影響。與依賴靜態訓練數據的監督學習不同,在線強化學習會持續生成新的響應軌跡,從而使模型能夠動態地改進其推理能力。此外,在線強化學習不僅僅是模仿預先定義的解答;它還會主動探索各種推理策略,并強化那些能夠得出正確答案的策略。

兩種關鍵機制促成了這種穩健性:(1) 采樣技術(例如非零溫度)可確保生成的響應具有變化性;(2) 訓練期間持續的模型更新會隨著時間的推移引入新的響應分布,從而防止訓練停滯和過擬合。

這能解釋在小規模問題集上進行強化學習訓練會保持有效性的原因。該團隊表示,之前還沒有人報告過將強化學習訓練應用于極小數據集的研究,這也是本研究的貢獻之一。

除了數據大小的考慮之外,需要強調的是,強化學習的唯一目標是最小化損失,這也就相當于最大化預期回報。從這個角度來看,強化學習訓練過程中響應長度的任何顯著變化都必然是由損失最小化驅動的,而非模型進行更廣泛推理的固有傾向。

為了進一步研究這一點,該團隊基于 DeepSeek-R1-Distill-Qwen-1.5B 基礎模型,使用近端策略優化 (PPO) 算法進行了強化學習訓練。訓練數據是從 OlympiadBench 數據集中選擇的四個問題。

之所以特意選擇這些問題,是因為即使進行了廣泛的采樣,基礎模型也始終無法解決這些問題,導致終端獎勵恒定為 -0.5。其上下文大小限制為 20K token,該團隊繪制了策略損失與響應長度的關系圖(參見圖 1)。

圖片

結果清楚地表明,響應長度和損失之間存在很強的相關性:隨著響應長度的增加,損失持續下降。這直接證明:損失最小化(而非模型產生更長響應的內在趨勢)才是驅動響應長度增長的主要動力。

對于 PPO 對響應長度的影響,該團隊也從數學角度進行了解釋。詳見原論文。

一種兩階段強化學習策略

該團隊的分析突出了幾個要點。

  • 當在極其困難的問題訓練時,響應長度往往會增加,因為較長的響應更有可能受到 PPO 的青睞,因為模型難以獲得正回報。
  • 當在偶爾可解的問題上訓練時,響應長度預計會縮短。
  • 在大規模訓練場景中,響應長度的動態會變得非常復雜,并會受到底層問題難度的巨大影響。

該團隊認為,由于大多數問題至少偶爾可解,因此平均響應長度最終會減少。值得注意的是,該團隊目前的分析不適用于 GRPO,對此類方法的精確分析還留待未來研究。盡管如此,由于簡潔性與更高準確度之間的相關性,該團隊推測:如果訓練持續足夠長的時間,這種增長最終可能會停止并開始逆轉。

如果數據集包含過多無法解決的問題,那么從「鼓勵響應更長」到「鼓勵簡潔性」的轉變可能會大幅延遲且成本高昂。

為了解決這個問題,該團隊提出了一種新方法:通過一個后續強化學習訓練階段來強制實現簡潔性,該階段使用了偶爾可解問題的數據集。于是,就能得到一種兩階段的強化學習訓練方法:

在第一階段,用高難度問題訓練模型。此階段的目標是增強模型解決問題的能力,由于 PPO 主要會遇到負獎勵,從而促使模型產生更長的響應,因此響應長度預計會增加。值得注意的是,第一階段也可被視為現有推理模型的強化學習訓練。

在第二階段,使用非零 p_a(偶爾可解)的問題繼續訓練。此階段能在保持甚至提高準確度的同時提升簡潔性。值得注意的是,正如后面將看到的,它還能顯著提高模型對降低溫度值的穩健性 —— 即使在有限的采樣量下也能確保卓越的性能。

從 MDP 的角度,該團隊得到了一個關鍵洞察:即使問題集很小,也可以實現有效的強化學習訓練,盡管這可能會降低泛化能力。尤其要指出,在訓練的第二階段 —— 此時模型已經具備泛化能力,即使僅有只包含少量問題的極小數據集也可使用 PPO。

實驗結果

該團隊也通過實驗檢驗了新提出的兩階段強化學習訓練方法。

問題難度如何影響準確度-響應長度的相關性

圖 2 給出了準確度和響應長度隨訓練步數的變化。

圖片

可以看到,在所有問題集中,準確度的提高與響應長度的縮短相一致 —— 這表明隨著模型準確度的提高,其響應長度也隨之縮短。此外,對于更簡單的問題集,響應長度縮短得更快。最后,對于最難的數據集,由于問題很少能夠解決,因此響應長度有所增加。

響應長度減少

圖 3 展示了在不同的測試數據集(AIME 2024、AMC 2023 和 MATH-500)上,經過后訓練的 1.5B 和 7B 模型的準確度和響應長度隨訓練步數的變化情況。

圖片

可以看到,新提出的兩階段強化學習訓練方法會讓響應長度顯著下降,同時準確度會保持穩定。而右圖在 MMLU_STEM 上的結果更是表明:僅使用 8 個樣本,強化學習后訓練也能帶來準確度提升。

性能和穩健性的提升

前面的實驗結果已經證明:進一步的強化學習后訓練可以在保持準確度的同時縮短響應長度。該團隊進一步研究發現:進一步的強化學習后訓練也能提升模型的穩健性和性能。

為了評估模型的穩健性,該團隊檢查了它們對溫度設置的敏感性。將溫度設置為零會大幅降低 R1 等推理模型的準確度。然而,諸如 pass@1 之類的標準指標依賴于非零溫度下的多個樣本,這通常會掩蓋在小型數據集上進行二次強化學習后訓練的優勢。

該團隊使用 0 和 0.6 的溫度值進行了實驗,結果見表 3。

圖片

可以看到,當溫度設置為 0 時,經過后訓練的模型的表現顯著優于基線模型,這表明經過后訓練的模型與基線模型相比更加穩健。

該團隊還表明,在有限數量的樣本上進行進一步的強化學習訓練可以顯著提升準確度。這種效果取決于先前在類似(甚至相同)問題上進行過的強化學習訓練程度。如果模型已經進行過大量強化學習訓練,可能就更難以進一步提升準確度。

為了探究這一點,該團隊基于 Qwen-Math-v2.5 使用了在線強化學習進行實驗,訓練樣本是來自 MATH 數據集的 4 個樣本。不同于 R1,該模型之前并沒有經過強化學習訓練,而是僅在大量數學數據上進行了 token completion 訓練。結果見表 4。

圖片

可以看到,提升很驚人!在 1.5B 模型上,提升高達 30%。這表明,就算僅使用 4 個問題進行強化學習后訓練,也能得到顯著的準確度提升,尤其是當模型之前未進行過強化學習推理優化訓練時。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-21 09:07:00

2012-02-03 14:39:12

Java

2025-04-27 09:19:00

強化學習模型AI

2015-08-12 10:04:24

2025-09-03 10:02:19

2021-09-17 12:54:05

AI 數據人工智能

2024-08-16 14:15:00

AI訓練

2025-06-04 08:35:00

2021-09-06 15:29:16

大數據防疫信息安全

2010-04-28 14:38:26

云計算

2024-12-09 13:40:26

2024-11-21 14:00:00

模型AI

2025-08-04 08:40:00

2017-02-28 16:26:52

網易云新東方精雕細刻

2023-11-30 18:25:57

數據訓練

2025-04-07 09:00:00

數據測試工具

2017-06-29 08:45:06

MySQLNOT INNOT EXISTS

2010-10-18 10:51:00

蘋果

2024-12-02 12:37:42

2022-11-07 07:28:39

大腦創傷功能
點贊
收藏

51CTO技術棧公眾號

日韩精品一区二区三区中文在线 | 欧美激情成人| 欧美揉bbbbb揉bbbbb| 日本三日本三级少妇三级66| 欧美一级特黄aaaaaa大片在线观看| 亚洲欧美日韩视频二区| 久久精品国产2020观看福利| 亚洲の无码国产の无码步美| 国产精品99| 亚洲va在线va天堂| 亚洲视频导航| 天堂a√在线| 精品在线播放视频| 波多野结衣亚洲| 亚洲精品中文字幕乱码三区| 免费成人在线观看av| 国产乱淫a∨片免费观看| 国产免费成人| 欧美激情一区二区三区久久久| 日本一二三不卡视频| 国产乱人伦丫前精品视频| 欧美日韩电影在线| 欧美牲交a欧美牲交aⅴ免费真 | 久久精品66| 91精品国产91久久久久久最新毛片| 免费在线观看亚洲视频| 成人日韩欧美| 欧美国产精品v| 久久青青草原| 日韩专区第一页| 国产麻豆精品在线观看| 国产精品自在线| 天天干天天操天天爱| 精品9999| 欧美日产国产成人免费图片| 国产精品99久久久久久成人| 精品一区二区三区在线 | 97视频在线观看网站| av午夜精品一区二区三区| 97免费资源站| 99热这里只有精品1| 久88久久88久久久| 国产欧美中文字幕| 中日韩av在线| 奇米色一区二区| 国产精品91久久| 东京热一区二区三区四区| 国产精品亚洲综合色区韩国| 亚洲91av视频| 国产欧美一区二区在线播放| 任我爽在线视频| 色爱综合网欧美| 自拍偷拍亚洲精品| 特级西西人体高清大胆| 日韩欧美大片| 久久精品电影一区二区| 波多野结衣在线网址| 自拍偷拍欧美| 欧美黑人性视频| 青娱乐国产精品| 韩国av一区| 国内精品在线一区| 中文字幕在线观看免费视频| 亚洲一区二区伦理| 国产xxx69麻豆国语对白| www.久久久久久久| 日本亚洲三级在线| 国产一区二区视频在线观看| 国产精品乱码一区二区| 国产一区二区三区免费观看| 国产精品swag| 婷婷在线免费观看| 久久先锋影音av鲁色资源网| 亚洲v国产v在线观看| 国产乱色在线观看| 亚洲线精品一区二区三区| 欧美 国产 日本| 国产精品成人国产| 日韩免费观看高清完整版| 国产性生活毛片| 精品国产一区二区三区久久久樱花 | 1区2区3区欧美| 国产精品无码免费专区午夜| 91超碰在线| 欧美午夜一区二区三区免费大片| 中文字幕一区久久| 久久国产精品免费精品3p| 国产小视频国产精品| 欧美大片xxxx| 午夜一区不卡| 亚洲free嫩bbb| 天堂在线观看视频| 久久久久久免费| 国产树林野战在线播放| 免费在线小视频| 777a∨成人精品桃花网| 欧美一区二区三区视频免费播放 | 久久午夜影院| 在线精品高清中文字幕| 久草网在线观看| 丝袜美腿亚洲色图| 成人动漫在线视频| 成人福利在线| 亚洲动漫第一页| 91视频这里只有精品| 美女一区二区在线观看| 日韩亚洲成人av在线| wwwwww国产| 国产99精品视频| 亚洲欧美日产图| 中文字幕 在线观看| 日韩一级成人av| 毛片久久久久久| 一区二区三区四区五区精品视频 | a级片在线视频| 久久久久国产精品厨房| 隔壁人妻偷人bd中字| 久久婷婷五月综合色丁香| 亚洲黄色av女优在线观看 | 欧美视频在线免费| 可以看的av网址| 日韩免费一区| 国产精品成人av在线| 无码精品视频一区二区三区 | 亚洲精品午夜国产va久久成人| 国产在线不卡视频| 亚洲国产婷婷香蕉久久久久久99 | 91久久久国产精品| a黄色在线观看| 色香蕉成人二区免费| 国产精品麻豆入口| 韩日在线一区| 99热最新在线| 国产在线看片| 欧美一区二区三区四区视频| 欧美a级片免费看| 老牛影视一区二区三区| 欧美日韩在线播放一区二区| 国产调教在线| 亚洲精品国产成人| 欧美成年人视频| 日韩av片在线免费观看| 久久久人人人| 欧美一级爱爱| 欧美日韩视频网站| 亚洲午夜av电影| 日本久久综合网| 国产日韩欧美麻豆| 九九热免费精品视频| 国产欧美一区| 国产精品爽黄69天堂a| 777电影在线观看| 欧美精品一卡二卡| 波多野结衣不卡视频| 国产精品一二三| 高清无码视频直接看| a看欧美黄色女同性恋| 久久人人爽人人爽人人片av高请 | 亚洲欧美日韩国产精品| 香蕉污视频在线观看| 中文成人综合网| 国产欧美精品一二三| 女生裸体视频一区二区三区| 成人资源av| 亚洲国产欧美日本视频| 一区二区欧美亚洲| 国产麻豆91视频| 亚洲综合图片区| 国产乱了高清露脸对白| 国产一区二区三区的电影| 国产亚洲情侣一区二区无 | 91免费版网站入口| 欧美aaaaaaa| 日韩精品免费综合视频在线播放| 日本免费精品视频| 中文字幕一区日韩精品欧美| 四虎国产精品永久免费观看视频| 亚洲一级片在线播放| 免费人成网站在线观看欧美高清| 一区二区三区四区五区精品| 欧洲精品99毛片免费高清观看 | 成人精品鲁一区一区二区| 黄色av网址在线播放| 欧美三级伦理在线| 成人欧美一区二区| 成人天堂yy6080亚洲高清| 久久亚洲精品中文字幕冲田杏梨| 免费看日韩av| 欧美三级视频在线播放| 久草中文在线视频| 国产日韩欧美高清在线| 九色91porny| 老司机午夜精品视频在线观看| 欧美 日韩 国产 在线观看| 久久动漫网址| 成人a视频在线观看| av中文字幕在线观看第一页| 国产一区二区三区精品久久久| 国产手机精品视频| 91黄色免费观看| 黄色小视频在线免费看| 中文字幕欧美日韩一区| 久久久久亚洲av成人网人人软件| 日一区二区三区| 欧美性受xxxx黑人xyx| 色一情一乱一伦一区二区三区日本| 91精品国产视频| 日本视频一区二区不卡| 精品丝袜久久| 91久久久久久久久久久| 欧美日韩123区| 高清在线视频日韩欧美| 男人和女人做事情在线视频网站免费观看| 亚洲国产精久久久久久久| 国产精品视频一区二区三区,| 欧美日韩中文字幕日韩欧美| 美女毛片在线观看| 成人欧美一区二区三区白人 | 成年人三级黄色片| 香蕉精品999视频一区二区| 国产夫妻自拍一区| 91成人免费| 亚洲乱码一区二区三区三上悠亚| 亚洲影院天堂中文av色| 国语精品中文字幕| 成人av综合网| 97碰碰视频| 国产乱码精品一区二区三区亚洲人| 国产精品久久久久av免费| 亚洲国产成人二区| 欧美洲成人男女午夜视频| 国产丝袜视频在线播放| 九色91av视频| 男女免费观看在线爽爽爽视频| www.xxxx欧美| 视频免费一区| 亚洲欧美在线免费观看| 男人av在线| 国产视频丨精品|在线观看| 天堂网av2014| 日韩国产一区三区| 亚洲欧洲精品视频| 日韩高清av在线| 欧美精品a∨在线观看不卡| 亚洲男子天堂网| 男人的天堂在线视频| 亚洲三级 欧美三级| 国产小视频福利在线| 亚洲夜晚福利在线观看| 美女喷白浆视频| 日韩亚洲一区在线| 亚洲日本无吗高清不卡| 99成人超碰| av 日韩 人妻 黑人 综合 无码| 欧美影视一区| 日本精品久久久久久久久久| 亚洲深夜激情| 国产成人无码av在线播放dvd| 欧美专区在线| 婷婷免费在线观看| 精品亚洲欧美一区| 色偷偷中文字幕| 不卡av电影在线播放| 9.1成人看片免费版| 欧美激情综合在线| 乱老熟女一区二区三区| 亚洲激情欧美激情| 精品91久久久| 欧美在线高清视频| 国产剧情精品在线| 亚洲黄色免费三级| 五月婷婷六月丁香综合| 一本一道久久a久久精品逆3p| 欧洲视频一区二区三区| 538任你躁精品视频网免费| 久久精彩视频| 日韩欧美高清在线播放| 国产成人亚洲综合无码| 国产精品视频| 亚洲激情在线看| www.爱久久.com| 免费黄色在线网址| 亚洲综合色自拍一区| 久久精品视频7| 欧美丰满少妇xxxxx高潮对白 | 国产精品免费aⅴ片在线观看| 丰满少妇一区二区| 国产精品久久久久久久久久免费看| 国产suv一区二区三区| 欧美日韩性生活视频| 在线观看一二三区| 亚洲国产欧美一区二区三区同亚洲 | 美女在线观看视频一区二区| 性高潮久久久久久| 国产亚洲一二三区| 欧美毛片在线观看| 日本精品一级二级| www夜片内射视频日韩精品成人| 亚洲精品一区av在线播放| av电影免费在线观看| 欧美一区二区三区……| 欧美片网站免费| 欧美重口乱码一区二区| 欧美区亚洲区| 国产又大又黄又粗又爽| 成人国产在线观看| 97在线观看视频免费| 欧美性xxxxxxx| 亚洲免费黄色片| 日韩中文在线观看| 免费成人在线电影| 成人一区二区在线| 亚洲精品在线观看91| 亚洲少妇第一页| 97成人超碰视| 国产无码精品一区二区| 欧美美女一区二区在线观看| 欧美色视频免费| 欧美激情免费在线| 国产一区一区| 伊人久久青草| 日韩av中文字幕一区二区| 91av在线免费| 午夜亚洲国产au精品一区二区| 国产精品-色哟哟| 尤物九九久久国产精品的特点 | 欧美写真视频网站| 亚洲色图21p| 韩国三级日本三级少妇99| 888av在线视频| 91免费精品视频| 国产精品久久观看| 天天干天天爽天天射| 久久蜜桃av一区二区天堂| 久久久精品免费看| 亚洲精品v欧美精品v日韩精品| 天堂成人av| 99免费在线观看视频| 国产在线不卡| 最新版天堂资源在线| 亚洲国产成人av网| 欧美一区二区黄片| 91国产视频在线播放| 麻豆一区一区三区四区| 久久精品国产sm调教网站演员| 国产suv精品一区二区883| avove在线观看| 黄色成人免费网| 美乳视频一区二区| 国产精品永久| 中文字幕av网址| 一本色道久久综合亚洲91| 欧美777四色影视在线| 日韩av高清不卡| 成人影视亚洲图片在线| 91亚洲精品久久久蜜桃借种| 亚洲欧美在线aaa| www.激情五月.com| 国内精品美女av在线播放| 一道本一区二区三区 | 美女任你摸久久| 久久99久久99精品免费看小说| 欧美久久免费观看| 污影院在线观看| 久久99精品久久久久久水蜜桃| 香蕉久久夜色精品| 欧美色图17p| 欧美成人a在线| 中文字幕21页在线看| 一本一道久久久a久久久精品91 | 国产一区免费在线| 六月婷婷一区| 成人涩涩小片视频日本| 精品99999| xxxxx.日韩| 国产乱子伦精品无码专区| 久久综合av免费| 97超碰人人草| 91精品国产91久久久久久| 成人写真视频| 日本一区二区免费视频| 色老头久久综合| 免费污视频在线观看| 日本一区二区精品| 国产成人日日夜夜| 波多野结衣视频在线观看| 欧美成人免费网| 欧美肥妇bbwbbw| 精品国产sm最大网站免费看| 韩国三级一区| 日韩在线视频在线| 国产欧美日韩三级| 亚洲国产精品久久久久爰性色| 国产97在线观看| 激情六月综合| 国产天堂av在线| 亚洲女人天堂视频| 日韩中文字幕在线一区| 亚洲视频在线观看一区二区三区| 亚洲综合视频网|