精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

拒絕“熵崩塌”和“熵爆炸”!這項研究讓大模型學會“精確探索”,推理成績飆升

人工智能 新聞
團隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

大語言模型在RLVR訓練中面臨的“熵困境”,有解了!

2024年以來,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數學、代碼和科學推理任務上取得了顯著突破。這些進展很大程度上得益于一種名為RLVR (基于可驗證獎勵的強化學習)的方法。

該方法通過數學驗證、單元測試等可自動判斷對錯的方式提供訓練信號,替代了傳統依賴人類評判的流程,使模型能夠進行大規模、高效率的自我改進。

然而,RLVR在實踐中始終面臨“探索機制極易失衡”這一關鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發熵爆炸。

為突破這一瓶頸,來自上海人工智能實驗室和復旦大學等機構的研究團隊提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。

實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

下面詳細來看——

核心困境:探索的“兩難陷阱”

在RLVR訓練中,研究人員期望模型能夠持續探索多樣化的解題路徑,以避免過早陷入局部最優。

一個自然的想法是:引入熵正則化(entropy regularization)。

這是強化學習中鼓勵探索的經典手段。其核心思想很簡單:在優化目標中加入一項,鼓勵模型在每一步生成時保持一定的“不確定性”,不要過早把概率全壓在少數幾個詞上。

具體來說,就是計算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓練目標里,用一個系數??控制探索強度。

以下公式分別為:熵的計算公式及熵正則的優化目標。

然而,這一策略在大型推理模型(LRM)的復雜場景下卻極易走向兩個極端:

  • 探索受限(熵崩塌)

當??太小,熵項幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發生熵崩塌。幾輪訓練后,所有回答都高度相似,陷入“舒適區”。這種熵崩塌現象不僅扼殺了模型的多樣性,也使其推理能力在訓練早期就觸及天花板,無法充分釋放潛力。

  • 探索失控(熵爆炸)

反之,當??稍大,模型便極易在龐大的動作空間(數十萬個token)與超長的推理軌跡(上千步生成)中失控。根據熵的定義,當概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點點概率質量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

更糟的是,在自回歸生成中,這種不確定性會沿著軌跡逐步累積——早期幾步的微小混亂,會迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個位置、對每個token都分配一點概率,導致生成內容充斥無意義符號,邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

傳統方法會失效的根本原因在于:熵正則化的激勵是“無差別”的——它假設所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結構性:

  • 在每個生成步驟上,僅有概率排名靠前的少數token具備語義合理性,其余絕大多數token概率趨近于零且無實際意義;
  • 在整個生成序列中,僅有少數承擔邏輯樞紐作用的關鍵詞(如邏輯連接詞、變量名、結論引導詞)真正影響推理走向,而大量用于句法填充的常規詞則應保持高確定性,以維持推理連貫性。

正因忽略了這種“探索價值的非均勻分布”,傳統熵正則化不僅難以有效引導探索,反而容易引發訓練不穩定,甚至背離提升推理能力的初衷。

下圖表明,訓練前模型的概率分布高度集中,且只有少量位置在邏輯上關鍵,值得探索;過度探索后概率被攤薄,生成內容混亂。

破局之道:為探索裝上“精準導航”

針對傳統方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結構化約束實現探索過程的精細調控。SIREN包含三個核心機制:

1、劃定探索范圍(Top-p掩碼, Top-P Mask)

在每個生成步驟中,將熵的計算范圍嚴格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進行,避免無效探索。

2、識別關鍵決策點(峰值熵掩碼,Peak-entropy Mask)

自動識別生成序列中熵值顯著高于平均水平的邏輯關鍵詞(如推理連接詞、假設引導詞等),并將探索激勵集中作用于這些關鍵位置。

3、穩定訓練過程(自錨定正則化, Self-anchored Regularization)

將熵值目標從最大化調整為維持合理區間,通過動態錨定機制使探索強度始終處于可控范圍,避免訓練失穩。

這一方法首次在RLVR框架中實現了對探索范圍、位置和強度的三重精準控制,為大規模推理模型的穩定訓練提供了可靠解決方案。

下圖為SIREN的方法流程:

實驗驗證:有效探索促進性能提升

實驗結果顯示,SIREN在不同模型和數據集上均取得顯著提升。

以下為SIREN在Qwen2.5-Math-7B上的實驗結果:

以及SIREN在其他基座模型上的實驗結果:

上述結果表明:

  • 在Qwen2.5-Math-7B上,SIREN平均maj@k達54.6%,超越最強基線4.8%
  • 在最具挑戰的AIME24/25上,提升均達6.6%
  • 在1.5B到8B不同規模、不同基座的模型上均穩定有效。

那么,這些性能提升從何而來?

分析表明,這正是有效探索帶來的根本性改變。與傳統的熵正則方法相比,SIREN展現出更合理有效的探索模式。

下圖中,SIREN展現出較高的pass@k,探索邊界顯著擴展:

還能避免困惑度坍縮,SIREN將答案多樣性保持良好:

下圖表明,先加大探索再緩慢收斂,訓練過程平穩可控:

小結

這項研究致力于解決大語言模型在RLVR訓練中面臨的策略探索難題

通過系統的實證分析,研究人員發現傳統的探索機制在大規模動作空間和長序列生成中極易失衡,導致模型陷入熵崩塌和熵爆炸的困境。

為突破這一瓶頸,團隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

團隊表示,展望未來,隨著強化學習成為大模型后訓練的主流方法,如何實現穩定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調控機制,為探索的精細化提供了一種可行的解決方案。

團隊期待這項工作能為下一代推理模型的訓練范式提供啟發,推動大模型在數學、代碼、科學推理等復雜任務以及其他更廣闊的應用領域走得更遠。

論文鏈接:https://arxiv.org/abs/2509.25133

項目主頁:https://github.com/Linn3a/siren

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-03 08:41:00

AI模型推理

2025-07-08 03:11:00

2025-10-29 09:25:34

LLM模型訓練

2025-10-27 09:03:00

2010-08-17 11:18:19

BISAP商業智能

2025-11-12 11:03:03

2023-06-12 12:21:27

研究框架

2023-01-05 09:33:37

視覺模型訓練

2021-04-02 09:40:06

量子計算芯片超算

2025-08-14 09:00:00

模型訓練數據

2025-05-26 08:40:00

2024-07-19 09:59:31

2025-06-06 09:13:00

2024-07-10 13:20:45

2025-04-14 00:10:00

人工智能AIAI 模型

2015-12-02 09:58:01

大數據臨界

2025-07-11 11:59:33

LLM模型AI

2025-02-12 09:20:12

2024-01-26 13:18:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

视频一区视频二区视频| 欧美日本精品在线| 五月激情五月婷婷| 在线免费观看污| 成人高清在线视频| 欧美在线观看日本一区| 羞羞在线观看视频| 红杏视频成人| 欧美日韩国产小视频在线观看| 国产一区一区三区| 欧美黄色小说| 国产一区三区三区| 国产成人激情视频| 九九热最新地址| 三级精品视频| 欧美一区二区三区四区五区| 免费黄色福利视频| bestiality新另类大全| 久久久久久久综合日本| 亚洲自拍偷拍在线| 欧美男人亚洲天堂| 亚洲欧美综合国产精品一区| 国产午夜精品全部视频播放 | 好了av在线| 97se亚洲国产综合自在线不卡| 91精品国产自产在线老师啪| 亚欧视频在线观看| 中文字幕日韩欧美精品高清在线| 亚洲欧洲国产精品| 黄色污在线观看| 一区二区三区国产好| 欧美三级视频在线| 超碰97人人射妻| 888av在线视频| 综合中文字幕亚洲| 日韩免费中文专区| 视频一区二区三区在线看免费看| 国产精品系列在线播放| 国产欧美一区二区三区在线看 | 国产欧美黑人| 国产精品美女一区二区三区 | 精品成人乱色一区二区| 久久国产精品免费观看| 2021av在线| 国产欧美一区二区在线| 国产伦精品一区二区三区视频黑人| 97在线公开视频| 久久精品国产久精国产爱| 国产成人av在线| 日韩 国产 欧美| 亚欧成人精品| 18一19gay欧美视频网站| 国产香蕉在线视频| 亚洲乱码视频| 韩国三级电影久久久久久| 青娱乐91视频| 亚洲黄色av| 久久久久一本一区二区青青蜜月| 妺妺窝人体色www婷婷| 欧美国产三级| 国精产品一区一区三区有限在线| 破处女黄色一级片| 欧美精品午夜| 欧美极品第一页| 日本系列第一页| 日韩一级大片| 欧洲成人在线观看| 日韩国产亚洲欧美| 久久成人免费网| 91免费人成网站在线观看18| 国产同性人妖ts口直男| 国产伦精品一区二区三区视频青涩 | 亚洲高清在线播放| 麻豆传媒视频在线观看免费| 亚洲精品美国一| 性一交一乱一伧国产女士spa| xxx.xxx欧美| 欧美性开放视频| 精品免费国产一区二区| 99久久综合国产精品二区| 欧美日韩精品电影| 又色又爽又黄18网站| 久久精品福利| 亚洲视频在线播放| 日本精品在线免费观看| 亚洲第一黄色| 国产精品日韩在线播放| 99国产精品一区二区三区| 成人久久视频在线观看| 免费在线成人av电影| 中文字幕日本在线观看| 亚洲无人区一区| 日韩一级免费在线观看| 精品视频成人| 日韩精品极品毛片系列视频| 天天躁日日躁aaaxxⅹ| 91亚洲国产高清| 午夜精品一区二区三区在线视频| 久久精品久久久久久久| 国产精品18久久久久久久网站| 国产一区二区视频在线免费观看| 成人在线视频成人| 亚洲一本大道在线| 亚洲激情在线观看视频| 亚洲一区二区免费在线观看| 亚洲午夜未删减在线观看 | 麻豆tv入口在线看| 欧美日韩国产精品一区二区不卡中文| 国产小视频精品| 国内精品国产成人国产三级粉色| 中文字幕日韩欧美在线视频| 久久精品人妻一区二区三区| 老司机精品视频在线| 久久99精品国产一区二区三区| 91精彩视频在线播放| 午夜精品影院在线观看| 中文字幕亚洲影院| 精品国产欧美日韩| 午夜精品久久久久久久99热浪潮| 国产精品久久久久久免费播放| 91麻豆国产香蕉久久精品| 4444在线观看| 国产91欧美| 亚洲摸下面视频| 日韩精品一区二区不卡| 国产精品影视网| 中文字幕人成一区| 成人精品国产亚洲| 亚洲欧美日韩一区二区三区在线| 久久精品美女视频| 国产成人综合在线观看| 日本三级福利片| 欧美美女被草| 正在播放欧美一区| 亚洲大尺度在线观看| 91在线高清观看| 1024av视频| 国内露脸中年夫妇交换精品| 精品中文字幕在线2019| 国产精品一区二区免费视频| 国产精品系列在线| 国产一线二线三线在线观看| 久久97视频| 日本高清+成人网在线观看| 色哟哟国产精品色哟哟| 亚洲国产日韩精品| 深夜视频在线观看| 在线不卡欧美| 精品视频第一区| 欧美裸体视频| 精品丝袜一区二区三区| 欧美一区二区激情视频| 92国产精品观看| 丝袜老师办公室里做好紧好爽 | 亚洲国产另类 国产精品国产免费| 欧美日韩在线视频免费| 国产精品一级片在线观看| 日本高清xxxx| 99久久香蕉| 97视频免费观看| 青青草在线播放| 欧美影视一区二区三区| ass极品国模人体欣赏| 麻豆91在线观看| 中国 免费 av| 白白在线精品| 日本精品一区二区三区在线播放视频 | 亚洲黄色网址| 在线观看欧美日韩| 国产精品色综合| 亚洲综合免费观看高清完整版| 中文在线观看免费视频| 亚洲综合好骚| 亚洲图片欧洲图片日韩av| 国产精品麻豆| 久久久久久久久久久亚洲| 色资源在线观看| 欧美专区在线观看一区| 东方av正在进入| 成a人片亚洲日本久久| 日本wwww视频| 在线国产一区| 国产精品高清一区二区三区| 成人直播视频| 久热99视频在线观看| 成人久久精品人妻一区二区三区| 黑人巨大精品欧美一区二区免费| 精品国产aaa| 国产ts人妖一区二区| 男人天堂999| 亚洲精品va| 久热国产精品视频一区二区三区| 成人免费毛片嘿嘿连载视频…| 久久久精品美女| 天天av综合网| 717成人午夜免费福利电影| 九九热国产视频| 中文字幕乱码日本亚洲一区二区| 黄色片免费网址| 模特精品在线| 国产女教师bbwbbwbbw| 久久99久久人婷婷精品综合 | 色综合www| 亚洲bt天天射| 欧美日韩五区| 国语自产精品视频在免费| 国产视频第一页在线观看| 日韩美女天天操| 国产精品露脸视频| 天天操天天综合网| 青青草在线观看视频| 国产精品无人区| 中文字幕日韩三级片| 国产精品一二一区| 手机在线成人免费视频| 亚洲主播在线| 国产欧美日韩小视频| 天天av综合| 国产欧美日产一区| 国产精品女主播视频| 日本片在线看| 中文字幕亚洲综合久久| 日韩av视屏| 精品国产sm最大网站免费看| 一级特黄录像免费看| 一本大道久久a久久精二百| 久久久久久久久久久久久久久久久| 中文字幕免费不卡在线| 免费在线观看你懂的| 懂色av中文字幕一区二区三区| 高潮一区二区三区| 日本午夜一本久久久综合| 免费成人午夜视频| 国产主播精品| 台湾无码一区二区| 欧美激情麻豆| 欧洲精品视频在线| 888久久久| 中文字幕一区二区三区最新| 成人综合一区| 日韩欧美一区二区视频在线播放 | 潘金莲一级黄色片| 国产精品视频第一区| 在线免费观看日韩av| 97国产精品videossex| 182在线视频| 成人毛片在线观看| 黄色网址在线视频| 99久久精品免费观看| 国产精品成人99一区无码| 懂色av一区二区三区蜜臀 | a看欧美黄色女同性恋| 99久久伊人精品影院| 视频二区欧美| 国产欧美精品一区二区三区| 91麻豆精品激情在线观看最新| yellow视频在线观看一区二区| 亚洲精品aⅴ| 国产精品日韩一区二区三区| 国产精品极品国产中出| 国产精品久久久久久久久婷婷| 国产精品白浆| 精品欧美日韩在线| 国产欧美一区二区三区精品观看| 日本不卡免费新一二三区| 不卡视频在线| 免费在线观看污污视频| 欧美成人嫩草网站| 日韩视频免费播放| 久久av最新网址| 国产又大又黄又粗又爽| 国产一区二区在线观看免费| 三上悠亚 电影| 91在线一区二区三区| 在线观看国产精品一区| 国产精品白丝在线| 91视频免费在线看| 欧美香蕉大胸在线视频观看| 中文字幕+乱码+中文字幕明步| 欧美日韩国产成人在线免费| www.黄色国产| 日韩经典中文字幕| 麻豆视频在线免费观看| 欧美放荡办公室videos4k| 高清精品在线| 国产精品尤物福利片在线观看| 高清一区二区中文字幕| 国产亚洲欧美另类一区二区三区| 精品久久影视| 嫩草影院中文字幕| 久久精品天堂| 少妇性l交大片7724com| 91在线看国产| 5566中文字幕| 亚洲成人一区二区在线观看| 精人妻无码一区二区三区| 欧美一区二区视频网站| 欧美xxx.com| 久久91超碰青草是什么| 你懂得影院夜精品a| 99c视频在线| 青青草国产免费一区二区下载 | √天堂中文官网8在线| 亚洲va韩国va欧美va| 亚洲一区二区三区高清视频| 亚洲成在人线av| 黄页视频在线播放| 日韩免费在线播放| 99这里只有精品视频| 亚洲一区二区在线免费观看| 国产精品五区| 国产精品91av| 国产精品成人免费| 亚洲av无码精品一区二区| 欧美大片一区二区| 日本视频在线| 国产精品6699| 欧美日韩导航| 国产日本在线播放| 国产精一区二区三区| www成人啪啪18软件| 一本久道中文字幕精品亚洲嫩| 亚洲高清精品视频| 久久激情五月丁香伊人| 亚洲天堂一区二区| 精品久久一区二区三区蜜桃| 亚洲最大av| 亚洲18在线看污www麻豆| 国产日产精品一区| 91蜜桃视频在线观看| 欧美sm美女调教| 超碰在线免费播放| 国产日韩在线一区| 成人国产精品一级毛片视频| 能在线观看的av| 99久久免费视频.com| 国产精品99精品无码视| 日韩精品一区二区在线观看| 国产乱色在线观看| 成人网在线视频| 999国产精品永久免费视频app| 中文字幕在线观看第三页| 久久久精品综合| 男人天堂av在线播放| 亚洲欧美国产精品| 欧美激情喷水| 欧美性天天影院| 日韩中文字幕不卡| 人人爽人人爽人人片| 在线观看视频91| av在线播放av| 成人亲热视频网站| 夜间精品视频| 蜜桃视频无码区在线观看| 亚洲一区视频在线观看视频| 亚洲第一视频在线| 久久久久久亚洲精品不卡| 国产欧美自拍一区| 久久综合色视频| 欧美极品另类videosde| 中文在线a天堂| 日韩一区二区在线视频| 国产高清视频一区二区| 久久久国内精品| 不卡一区在线观看| 一级片中文字幕| 一夜七次郎国产精品亚洲| 国产第一亚洲| 加勒比海盗1在线观看免费国语版| 成人小视频免费观看| 日韩视频在线观看一区| 尤物精品国产第一福利三区| 国产aa精品| 久久久久久久午夜| 国产日韩欧美a| av 一区二区三区| 国内伊人久久久久久网站视频| 亚洲人成伊人成综合图片| 香蕉视频禁止18| 亚洲精品大片www| 偷拍自拍在线视频| 国产精品日韩在线播放| 国内在线观看一区二区三区| 熟女少妇一区二区三区| 精品视频1区2区3区| 欧美24videosex性欧美| 国产在线精品一区二区三区| 美女久久一区| 日本青青草视频| 亚洲日本aⅴ片在线观看香蕉| 欧美网站免费| 精品少妇在线视频| 国产性天天综合网| 性欧美8khd高清极品| 国产97在线|亚洲| 68国产成人综合久久精品| 人妻精品久久久久中文字幕| 欧美精品v日韩精品v韩国精品v| bbw在线视频| 一区二区在线中文字幕电影视频|