精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習帶來的改進只是「噪音」?最新研究預警:冷靜看待推理模型的進展

人工智能 新聞
受推理領域越來越多不一致的經驗說法的推動,我們對推理基準的現狀進行了嚴格的調查,特別關注了數學推理領域評估算法進展最廣泛使用的測試平臺之一 HuggingFaceH4,2024;AI - MO。

「推理」已成為語言模型的下一個主要前沿領域,近期學術界和工業界都取得了突飛猛進的進展。

在探索的過程中,一個核心的議題是:對于模型推理性能的提升來說,什么有效?什么無效?

DeepSeek - R1 論文曾提到:「我們發現將強化學習應用于這些蒸餾模型可以獲得顯著的進一步提升」。3 月 20 日,論文《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》再次驗證了 RL 對于蒸餾模型是有效的。

盡管這些論文的結論統統指向了強化學習帶來的顯著性能提升,但來自圖賓根大學和劍橋大學的研究者發現,強化學習導致的許多「改進」可能只是噪音。

圖片

  • 論文標題:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility 
  • 論文鏈接:https://arxiv.org/pdf/2504.07086

「受推理領域越來越多不一致的經驗說法的推動,我們對推理基準的現狀進行了嚴格的調查,特別關注了數學推理領域評估算法進展最廣泛使用的測試平臺之一 HuggingFaceH4,2024;AI - MO?!?/span>

論文指出,在 AIME24 等小型基準測試中,結果極不穩定:僅僅改變一個隨機種子就足以使得分發生幾個百分點的變化。 當在更可控和標準化的設置下評估強化學習模型時,其收益會比最初報告的要小得多,而且通常不具有統計顯著性。

然而,一些使用強化學習訓練的模型確實表現出了適度的改進,但這些改進通常比監督微調所取得的成果更弱,而且它們通常不能很好地推廣到新的基準。

圖片

研究者系統分析了造成這種不穩定性的根本原因,包括采樣差異、解碼配置、評估框架和硬件異質性。我們表明,如果不仔細控制,這些因素會嚴重扭曲結論。與此同時,研究者提出了一套最佳實踐,旨在提高推理基準的可重復性和嚴謹性。

AI 研究者 Sebastian Raschka 表示:「盡管強化學習在某些情況下可能有助于改進較小的蒸餾模型,但它的好處被夸大了,需要更好的評估標準來了解哪些方法真正有效。此外,這不僅僅是強化學習和推理模型的問題,我認為 LLM 研究整體上都受到了影響。」

圖片

探索推理的設計空間:什么最重要?

最近的以推理為重點的語言模型是在非常不同的條件下進行評估的,包括評估框架和硬件、隨機種子數量、溫度和核采樣參數(top_p)的差異(見表 1)。

圖片

雖然此前的研究已經考察了采樣參數在多選題和編碼任務中的影響,但這些選擇對開放式推理模型(特別是那些用強化學習訓練的模型)的影響仍未得到充分探索。

本文的研究者系統地評估了這些設計選擇如何影響性能,并強調了對結果可靠性影響最大的變異來源。

評估中的種子方差

研究者首先分析了評估過程中使用的隨機種子所引起的方差,這是基準測試實踐中經常被忽視的一個方面。近期的工作盡管要求統計的嚴謹性(如使用誤差棒和多次運行),但評估經常依賴于單種子運行,從而掩蓋了潛在的變異性。本文評估了九種模型中,每種模型在 20 次獨立評估運行中種子引起的變異。結果如圖 2 所示。

圖片

可以看到,Pass@1 值的標準偏差出奇地高,各種子的標準偏差從 5 個百分點到 15 個百分點不等。這一問題在 AIME'24 和 AMC'23 中尤為嚴重,這兩個考試分別只有 30 和 40 個測試樣本。僅一個問題的變化就會使 Pass@1 偏移 2.5 - 3.3 個百分點。

硬件和軟件因素造成的差異

硬件和評估框架等非顯而易見的因素也會造成性能差異,但這一點很少得到承認。模型通常在異構系統上進行測試,并使用不同的工具鏈進行評估。

  • 硬件差異

研究者在五個不同的計算集群上對同一模型進行了評估,每個集群的 GPU 類型和內存配置各不相同。

如圖 8 所示,在 AIME'24 上,OpenRS - 1.5B 的性能差異高達 8%,DeepSeek - R1 - Distill - 7B 的性能差異為 6%,在 AMC'23 上也觀察到了類似的趨勢。眾所周知,vLLM 等推理引擎對硬件差異非常敏感,而 PyTorch 或 CUDA 中的底層優化可能會引入非確定性,但結果表明,即使對多個種子進行平均,這些影響也會對基準精度產生顯著影響。

截屏2025-04-13 10.43.00.png

  • 不同 Python 框架下的評估

為了評估這種影響,研究者對 lighteval 和 evalchemy 進行了比較,同時保持所有其他變量固定不變:模型、數據集、硬件、解碼參數和隨機種子(每個模型 3 個)。

為了進行公平比較,研究者在單個 GPU 上以默認溫度和 top_p 參數值對 DeepSeek - R1 - Distill - 1.5B 和 S1.1 - 7B 這兩個模型進行了評估。為了提高魯棒性,本文給出了三個種子的平均結果。

如表 2 所示,框架引起的差異通常很?。? - 2pp),但在緊密聚類的情況下仍會影響模型排名。

截屏2025-04-13 09.38.28.png

Prompt 格式和上下文長度的影響

最大輸出 token。如圖 9 所示,減少 max_new_tokens 會降低性能,尤其是在長表單問題上。這種敏感度因模型和數據集而異。雖然減少這一設置可以降低成本,但可能會導致過早停止,從而導致錯誤答案。

Prompt 格式。提示格式對準確性有顯著影響。如圖 10 所示,模型在使用數學特定 Prompt 及其本地聊天模板時表現最佳。省略模板會導致性能下降,特別是對于經過指令調優的模型。

圖片

(一級)怎么解決?答案是「評估的標準化」

在本節中,研究者將對評估框架進行標準化,并對現有方法進行全面評估。關鍵結論如下:

  • 大多數通過強化學習(RL)訓練的 DeepSeek R1 - Distill 模型的變體未能顯著提高性能(DeepscaleR 除外),這表明仍缺乏可靠和可擴展的強化學習訓練方案。
  • 盡管通過強化學習訓練的方法通常能顯著改善基礎模型的性能,但指令調優依然優于強化學習訓練的方法(Open Reasoner Zero 除外),這再次表明仍缺乏可靠和可擴展的強化學習訓練方案。
  • 在較大模型的推理軌跡上進行監督微調可在基準測試中獲得顯著且可推廣的提升,且隨著時間推移進展得以成功復制——這突顯了其作為訓練范式的穩健性和成熟性。
  • 當前基于強化學習的方法非常容易過擬合,強調了需要更嚴格的異域基準測試。相比之下,SFT(監督微調)模型表現出更強的泛化能力和韌性。
  • 較長的響應與較高的錯誤概率相關聯,響應長度在 consensus@k 中是識別低置信度或失敗生成的一種實用啟發式思路。
  • 準解碼策略似乎足以捕捉模型在有效推理路徑上的完整分布,反駁了多樣性坍縮假說。

清醒的觀察:結果

表 3 展示了實驗結果,并對結果的不同方面進行了分析。

截屏2025-04-13 09.09.15.png

研究者在標準化評估環境中,對六個數學推理基準測試進行了模型評估,并針對這些模型的 Pass@1 準確率(均值 ± 標準差)進行了報告。在 AIME 和 AMC 基準測試中,結果采用了十個隨機種子的平均值,而其他基準測試則使用了三個隨機種子的平均值。研究者采用了 LightEval 框架,并為每種方法調試了最佳超參數。

需要指出的是,除了數學模型的上下文長度為 4096 之外,其他模型的上下文長度均設定為 32768,并使用了適宜的提示模板。同時,基于強化學習(RL)和監督微調(SFT)的模型變體分別針對各自的基礎模型或指令調優模型進行了評估。

主要結論如下:

  • 通過強化學習訓練的方法未能顯著提升性能。
  • 在推理路徑上,SFT 展現了顯著的泛化能力。

發現的現象是否可復現?詳細分析

研究者進一步調查了最近注意到的兩種現象,以驗證它們是否在實驗中得以復現:

  • 響應長度與性能之間的關系。
  • 以推理為重點的訓練后,響應的多樣性是否有所下降。

1、錯誤響應是否更長?

較長的響應是否意味著錯誤答案的可能性更高?他們比較了在六個數據集(AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench)中正確和錯誤答案的響應長度分布,并在每個模型的隨機種子上進行了平均。

 圖 11 展示了按響應長度分組的每個種子的平均響應數量直方圖。

圖片

數據顯示了一個明顯趨勢:較短的響應更可能是正確的,而較長的響應則逐漸表現出更高的錯誤率。這一模式在所有種子中都保持一致,特別是在超過 10000 個 token 的響應中表現得最為顯著。研究者就此提出兩個關鍵問題:

Q1:這一模式是否同時適用于基于 RL 和 SFT 訓練的模型?

分析結果表明,這一趨勢在 RL 和 SFT 訓練的模型中均存在。具體而言:

  • RL 訓練模型(左側顯示)中這一效應更為顯著
  • SFT 訓練模型(右側顯示)中這一效應相對較弱
  • Qwen 2.5 Math 基礎模型也表現出輕微的長度相關性,但這種相關性在 R1 - distill 及后續的 RL 訓練模型中更為突出

Q2. 這種現象是否主要由截斷或不完整的響應導致?

盡管接近 32000 token 限制的響應幾乎總是錯誤的(由上下文長度限制所致),但即便是較短的完整響應,這一趨勢依然存在——較長的響應與較高的錯誤概率相關。

2、在推理訓練中是否存在多樣性坍縮?

為了驗證這些主張,研究者比較了 RL 訓練模型在所有數據集中的 Pass@k 性能(對于 k∈1, 5, 10)與其相應的基礎模型(如 DeepSeek - R1 - Distill - Qwen - 1.5B)。表 4 呈現了各方法的 Pass@k 相對于基礎模型的變化情況。

截屏2025-04-13 09.16.26.png

結果顯示,并未觀察到一致的多樣性坍縮現象。Pass@1 的提升通常伴隨著 Pass@k 的整體改善,盡管不同指標的提升幅度存在差異。在 Pass@k 性能下降的情況下,這種下降往往與 Pass@1 的偶發性下降同時出現,而非獨立發生,這一發現并不支持多樣性坍縮的假設。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-01 08:00:00

2025-10-10 09:02:16

2025-06-23 09:07:00

2025-05-30 04:00:00

IBMRLVRGRPO

2024-07-26 09:33:22

2025-05-26 09:16:00

2025-04-02 09:00:00

模型開源AI

2025-04-27 09:19:00

強化學習模型AI

2025-10-20 01:00:00

強化學習AI人工智能

2025-06-05 08:40:00

2025-05-14 09:03:00

2025-06-03 08:49:00

2024-01-26 08:31:49

2025-06-27 10:10:43

AI模型技術

2025-08-07 09:16:41

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-10-11 04:00:00

2025-05-30 02:00:00

獎勵模型RRMAI
點贊
收藏

51CTO技術棧公眾號

人妻少妇被粗大爽9797pw| 亚洲jizzjizz日本少妇| 日韩精品卡通动漫网站| 在线日本欧美| 综合久久久久综合| 国产视频在线观看一区| 波多野结衣视频免费观看| www成人免费| av图片在线观看| 国产精品毛片久久| 亚洲国产精品久久久久秋霞蜜臀| 久久久久久香蕉| 羞羞污视频在线观看| 久久久三级国产网站| 亚洲精品欧美日韩| 国产一区二区视频免费| 一本一道久久a久久精品蜜桃| 亚洲精品v天堂中文字幕| 污色网站在线观看| 在线女人免费视频| 亚洲精品成人在线| 亚洲日本japanese丝袜| 亚洲av片在线观看| 国产成人日日夜夜| 国产欧美精品va在线观看| 香蕉视频一区二区| 国产精品88久久久久久| 亚洲嫩模很污视频| 蜜臀视频在线观看| 一区在线不卡| 欧美无人高清视频在线观看| xxxx18hd亚洲hd捆绑| av免费在线免费| 国产精品全国免费观看高清| 久久久久久草| 天堂网av2014| 成人美女视频在线看| 91在线网站视频| 中文字幕人妻一区二区在线视频| 亚洲一区二区毛片| 97精品视频在线| 免费一级片视频| 亚洲欧美一级二级三级| 日韩中文字幕av| 免费看污片的网站| 激情综合网五月| 亚洲精品在线91| 国产视频久久久久久| 天堂va欧美ⅴa亚洲va一国产| 91麻豆精品国产91久久久 | 欧美福利视频| 久久夜色撩人精品| 小向美奈子av| 欧美第一精品| 久久精品夜夜夜夜夜久久| 18精品爽国产三级网站| 欧美韩国日本在线观看| 日韩一区二区久久久| 日本一级片免费| 亚洲精品成人无限看| 久久精品国产亚洲| 欧美手机在线观看| 欧美激情视频一区二区三区免费| 欧美成人合集magnet| 久草网在线观看| av成人毛片| 欧美在线中文字幕| 成人公开免费视频| 蜜桃av一区二区| 91欧美视频网站| 午夜精品小视频| 成人午夜激情在线| 免费精品视频一区二区三区| 国产在线观看高清视频| 国产精品免费av| 91精品国产吴梦梦| 麻豆成全视频免费观看在线看| 福利精品视频在线| 亚洲综合日韩欧美| 日本亚州欧洲精品不卡| 亚洲国产美女久久久久| 亚洲码无人客一区二区三区| 日本久久综合| 九九热精品在线| 久久夜精品va视频免费观看| 亚洲国产av一区| 99精品在线观看| 久久99精品视频一区97| 亚洲熟妇无码乱子av电影| 91福利区在线观看| 精品一区在线看| 91国产在线播放| 日本一区高清| 成人欧美一区二区三区小说| 男的插女的下面视频| 视频二区不卡| 日韩女优电影在线观看| 女人被狂躁c到高潮| 日韩影院二区| 97视频在线播放| 国产一区二区三区在线观看| 99视频国产精品| 一卡二卡3卡四卡高清精品视频| 国内在线视频| 欧美日韩一区二区在线观看| 挪威xxxx性hd极品| 日韩午夜电影网| 97色在线视频| 国产黄色一区二区| 欧美国产日韩一二三区| 日韩免费在线观看av| 丝袜老师在线| 精品少妇一区二区三区免费观看| 国产午夜福利一区| 在线亚洲伦理| 97碰碰视频| 久香视频在线观看| 亚洲午夜电影在线观看| 一起操在线视频| 伊人春色精品| 97视频国产在线| 国产高清视频免费观看| 中文字幕在线观看一区| 国产男女无遮挡| 成人av综合网| 欧美另类第一页| 国产一区二区三区成人| 欧美激情一区二区三区蜜桃视频| 久久国产午夜精品理论片最新版本| 四虎成人精品一区二区免费网站| 亚洲欧洲日韩国产| 你懂的国产视频| 成人精品国产免费网站| 久久观看最新视频| 国产精品亚洲综合在线观看 | aaaaa黄色片| 亚洲精品亚洲人成在线观看| 欧美精品久久久久久久| av网站在线免费看| 亚洲欧美另类久久久精品2019| 亚洲天堂2018av| 日韩欧美网站| 成人做爰www免费看视频网站| 成人性生交大片免费看午夜| 色狠狠一区二区| 国产手机在线观看| 美女精品网站| 日本一区二区在线视频| 怡红院成人在线| 正在播放国产一区| 中文字幕一区二区三区免费看 | 亚洲最大的黄色网址| 久久99精品久久久| 18视频在线观看娇喘| 免费观看亚洲天堂| 欧美激情精品久久久久| 亚洲春色一区二区三区| 亚洲伊人色欲综合网| 影音先锋资源av| 亚洲免费成人| 欧美综合激情| 成人一区视频| 久久精品中文字幕电影| 亚洲av综合色区无码一区爱av| 一区二区三区波多野结衣在线观看| 亚洲最大视频网| 亚洲国产欧美国产综合一区| 久久综合一区| 91亚洲精品| 久久久精品一区二区| 亚洲奶汁xxxx哺乳期| 精品久久中文字幕久久av| 成人性生交大免费看| 免费观看久久久4p| 亚洲视频在线一区| 欧美 日韩 国产在线观看| 日韩av三区| 欧美mv日韩mv亚洲| 国产无遮挡又黄又爽| 91伊人久久大香线蕉| 色一情一乱一伦一区二区三区日本| av在线不卡顿| 91亚洲精品丁香在线观看| 成人三级小说| 一本色道久久综合狠狠躁篇怎么玩| 中文字幕在线日亚洲9| 亚洲另类色综合网站| 国产老熟女伦老熟妇露脸| 日韩激情视频网站| 欧美一区二区三区综合| 亚洲成在人线免费观看| 成人信息集中地欧美| 国产在线观看www| 日韩中文字幕精品| 五月婷婷六月丁香| 91超碰这里只有精品国产| 日韩av综合在线| 国产精品三级久久久久三级| 国产精品久久久久久亚洲av| 麻豆精品新av中文字幕| 极品美女扒开粉嫩小泬| 99久久久久| 欧美一区二区福利| 日本精品在线播放 | 肉大捧一出免费观看网站在线播放 | 国产欧美亚洲日本| 亚瑟国产精品| 欧美综合国产精品久久丁香| 肉体视频在线| 中文字幕日韩欧美在线| 熟妇人妻中文av无码| 51精品久久久久久久蜜臀| 亚洲成人av影片| 亚洲不卡av一区二区三区| 国产黄色录像片| 国产亚洲精品福利| 老司机免费视频| 国产成人精品三级| 亚洲精品www.| 日日夜夜精品视频免费| 国产视频一视频二| 欧美网站在线| 中国一级黄色录像| 久久一本综合| 亚洲开发第一视频在线播放| 日韩精品a在线观看91| 99久久久久国产精品免费| 免费视频观看成人| 国产精品高潮呻吟久久av野狼| 爱草tv视频在线观看992| 欧美国产精品人人做人人爱| 麻豆网站在线免费观看| 中文字幕日韩免费视频| 第一视频专区在线| 夜夜躁日日躁狠狠久久88av| 免费观看成年在线视频网站| 日韩成人在线视频网站| 少妇一级淫片免费看| 欧美xxxxxxxx| 亚洲免费国产视频| 精品999久久久| 黄色av免费观看| 精品福利一区二区三区免费视频| av中文在线观看| 欧美一区二区三区人| 99精品视频在线播放免费| 欧美一区二区三区四区五区 | 国产suv精品一区二区三区| 91香蕉国产线在线观看| 国产一区激情在线| 中文 日韩 欧美| 国产精品一区二区91| 亚洲成人av免费观看| 国产成+人+日韩+欧美+亚洲| 精品久久久久久无码人妻| 成人午夜电影久久影院| www国产视频| 久久女同精品一区二区| jizz中文字幕| 日韩毛片高清在线播放| 情侣偷拍对白清晰饥渴难耐| 亚洲综合在线观看视频| 日本少妇毛茸茸高潮| 欧美日韩中文字幕日韩欧美| 天堂网中文字幕| 欧美日韩一区成人| www日本视频| 亚洲精品久久视频| 国产理论电影在线观看| 久久久国产91| 黄色在线看片| 国产精品com| 亚洲伦理一区二区| 国产精品国产一区二区| 杨幂一区二区三区免费看视频| 日韩黄色影视| 欧美1区2区3区| 欧美,日韩,国产在线| 日韩av中文字幕一区二区| 女人高潮一级片| 99re热这里只有精品免费视频| 阿v天堂2014| 一区二区三区中文在线观看| 久久99国产综合精品免费| 欧美日韩免费观看一区三区| 国内老熟妇对白xxxxhd| 亚洲美女视频网站| 成人看av片| 欧美在线视频a| 国产精品视频一区二区三区| 久久精品国产一区二区三区日韩| 日韩精品一卡| 97国产精东麻豆人妻电影| 精品在线一区二区| 成人精品999| 亚洲综合色噜噜狠狠| 欧美brazzers| 亚洲第一福利网| 午夜在线视频| 91av在线免费观看视频| 99久久久成人国产精品| 欧美日韩三区四区| 欧美日韩中文| 亚洲一级免费在线观看| 91免费在线视频观看| 粉嫩av性色av蜜臀av网站| 色综合色狠狠综合色| 亚洲精品视频网| www.日韩系列| 日本成人伦理电影| 极品尤物一区二区三区| 亚洲精品成人无限看| 午夜欧美福利视频| 99精品国产热久久91蜜凸| 欧美极品视频在线观看| 欧美日韩免费视频| 国产午夜视频在线观看| 91精品国产乱码久久久久久久久| 国产一区二区视频在线看| 午夜精品一区二区三区在线观看 | 国产精品视频久久| 婷婷综合成人| 极品美女扒开粉嫩小泬| 高清视频一区二区| 男人的天堂久久久| 欧美精品一二三四| aⅴ在线视频男人的天堂| 日本精品视频在线| 日韩欧美在线精品| www插插插无码视频网站| 国产精品一区一区| 日本在线一级片| 欧美精品在线一区二区| 超碰免费在线| 国产日韩精品入口| 第一sis亚洲原创| 蜜臀av免费观看| 国产女人水真多18毛片18精品视频| 成人免费毛片男人用品| 亚洲乱码国产乱码精品精| 在线能看的av网址| 欧美精品尤物在线| 久久久久久黄| 九一在线免费观看| 欧美影院一区二区| 在线视频二区| 成人欧美在线视频| 亚洲成人国产| 国产又黄又嫩又滑又白| 亚洲综合视频网| 五月婷婷伊人网| 日韩免费观看网站| 欧美少妇xxxx| 在线黄色免费看| 日韩毛片一二三区| 亚洲黄色在线免费观看| 久久久久成人网| 欧美人妖视频| 日韩av播放器| 国产精品国产自产拍在线| 国产精品久久久久久久久毛片| 久久亚洲电影天堂| 亚洲精品视频一二三区| 黄色片网址在线观看| 久久久午夜精品理论片中文字幕| 中国黄色一级视频| 久久这里只有精品99| 丁香一区二区| 91淫黄看大片| 亚洲精品综合在线| 色婷婷av一区二区三| 国产精品久久久久久久久久东京| 午夜影院欧美| 国产婷婷在线观看| 欧美性大战久久久| 成人在线免费看片| 看高清中日韩色视频| 日本成人在线视频网站| 日本老熟俱乐部h0930| 亚洲国产三级网| 天堂综合在线播放| 少妇人妻大乳在线视频| 中文一区二区在线观看| www.色呦呦| 国产精品6699| 亚洲无毛电影| b站大片免费直播| 日韩视频在线你懂得| 久久精品女人天堂av免费观看 | 在线不卡免费av| 55av亚洲| 一区二区三区国| av在线不卡网| 国产麻豆免费视频| 国产福利视频一区| 国内视频精品| 黄色录像一级片| 亚洲欧美国内爽妇网| 日韩三级久久| 日本不卡一区在线|