精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Qwen&清華團隊顛覆常識:大模型強化學習僅用20%關鍵token,比用全部token訓練還好

人工智能 新聞
在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

近期arxiv最熱門論文,Qwen&清華LeapLab團隊最新成果:

在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

圖片

團隊用這個發現在Qwen3-32B上創造了新的SOTA記錄:AIME’24上達到63.5分,AIME’25上達到56.7分,

這是600B參數以下直接從base模型訓練的最高分。

圖片

最大響應長度從20k延長到29k,AIME’24的分數更是飆升到了68.1分。

經典的二八法則(或帕累托法則)指出,通常80%的結果由20%的關鍵因素驅動,但剩下80%也是不能輕易舍棄的。

但是在大模型強化學習這里,80%低熵token不僅可以舍棄,甚至還可能起副作用,所以這篇論文被命名為“超越二八法則”。

此外,團隊還從token熵的角度探究了RL對LLM的主要影響,并進一步討論了RL與SFT的區別、LLM RL的特殊性與clip-higher相較于entropy bonus的優勢。

圖片

揭開Chain-of-Thought的熵分布密碼

要理解這項研究,需要先從一個有趣的觀察說起:

團隊發現,當大模型進行鏈式思考(Chain-of-Thought)推理時,token的熵分布呈現出一個獨特的模式:大部分token的熵都很低,只有少數token表現出高熵特征。

具體來說,超過50%的token熵值低于0.01,而只有20%的token熵值大于0.672。

圖片

更有意思的是,這些高熵token和低熵token在功能上有著本質區別。高熵token通常扮演著“邏輯連接器”的角色,比如“wait”、“however”、“thus”這些詞,它們在推理過程中起到轉折、遞進或因果連接的作用。

在數學推導中,“suppose”、“assume”、“given”這些引入假設或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數學表達式的組成部分,這些內容具有很高的確定性。

團隊形象地把這些高熵token稱為分叉token(forking tokens),如果將思維鏈比做走山路,高熵token就像分叉路口(fork),決定了接下來的方向;低熵token就像一面是山一面是懸崖的小路,只能沿著既定方向走下去。

圖片

為了驗證這些分叉token的重要性,團隊還設計了這樣的實驗:給不同的token設置不同的解碼溫度。

結果發現,適度提高高熵token的溫度能改善推理性能,而降低它們的溫度則會導致性能下降。這進一步證實了保持這些關鍵位置的高熵對推理的重要性。

圖片

只用20%的token,效果反而更好

既然發現了這些分叉token的特殊性,那么如果在強化學習訓練時只關注這些關鍵的少數token會怎樣?

在RLVR(Reinforcement Learning with Verifiable Rewards)訓練中,只保留top 20%高熵token的策略梯度,把剩下80%的梯度全部屏蔽掉

結果Qwen3-32B上,這種方法不僅沒有降低性能,反而帶來了顯著提升:AIME’24分數提升7.71分,AIME’25分數提升11.04分,平均響應長度增加約1378個token。

在Qwen3-14B上也有類似的提升效果,而在較小的Qwen3-8B上,性能也保持穩定。

圖片

更有趣的是反向實驗的結果:如果只用80%的低熵token訓練,模型性能急劇下降。

這說明低熵token對推理能力的提升貢獻微乎其微,甚至可能起到負面作用。

圖片

團隊分析認為,這可能與路徑探索有關。高熵token由于其不確定性,能夠幫助模型探索不同的推理路徑。而低熵token過于確定,反而限制了模型的探索能力。

從訓練過程中的整體熵變化也能看出端倪:使用20%高熵token訓練時,模型保持了較高的整體熵水平,而使用全部token或只用低熵token時,整體熵水平都會下降。

圖片

另一個重要發現是這種方法存在明顯的規模效應:模型越大,只用高熵token訓練的優勢就越明顯。在32B模型上的提升最大,14B次之,8B模型提升最小。這可能是因為更大的模型有更強的能力利用增強的探索性。

更令人驚喜的是,這種方法訓練出的模型在域外任務上也表現優異。團隊在數學數據集上訓練的模型,在編程任務LiveCodeBench上測試時,僅用20%高熵token訓練的模型依然大幅超越了使用全部token訓練的版本。

這暗示著高熵token可能與模型的泛化能力密切相關。通過聚焦這些關鍵的決策點,模型學到的可能是更本質的推理模式,而不是死記硬背特定領域的知識。

圖片

重新理解大模型強化學習

這項研究的意義不止于提升訓練效率,在深入研究RLVR(Reinforcement Learning with Verifiable Rewards)訓練過程后,團隊發現了一個令人意外的現象:RLVR并不是推倒重來,而是在base model的基礎上做精細調整。

通過追蹤訓練過程中熵模式的演變,發現即使在訓練收斂后(第1360步),模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預訓練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。

圖片

更有意思的是,RLVR的調整策略相當”偏心”。團隊計算了不同熵水平token在訓練前后的變化,發現了一個清晰的規律:

初始熵越高的token,在RLVR訓練后熵的增幅越大。而那些原本就很確定的低熵token,整個訓練過程中幾乎紋絲不動。

從熵的百分位變化圖中可以看到,越是高熵的token(比如90%、95%分位),訓練過程中的波動范圍越大;而低熵token(比如0%、5%分位)的變化微乎其微。

圖片

最后,基于以上所有這些發現,團隊還提出了幾個有趣的討論:

討論1:高熵token可能是解釋為什么強化學習能泛化而監督微調傾向于記憶而過擬合的關鍵。

強化學習傾向于保持甚至增加分叉token的熵,維持推理路徑的靈活性。而監督微調會把輸出logits推向one-hot分布,導致分叉token熵降低,失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務的關鍵因素。

討論2: 與傳統強化學習不同,大模型推理需整合先驗知識,且必須生成可讀性輸出。因此,大模型思維鏈(CoT)包含低熵的多數標記與高熵的少數標記,而傳統強化學習可假設整個過程中動作熵是均勻分布的。

討論3:在強化學習與可驗證獎勵算法(RLVR)中,熵獎勵(entropy bonus)可能并非最優選擇,因為它會增加低熵多數標記的熵值。相比之下,clip-higher方法能有效提升高熵少數標記的熵值。

論文
https://arxiv.org/abs/2506.01939

項目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-06-12 08:46:00

2024-11-01 13:30:56

2025-03-31 00:33:00

2023-08-28 06:52:29

2025-11-18 07:00:00

2025-07-22 09:05:00

強化學習AI模型

2023-10-06 20:30:33

大模型LLMtoken

2025-01-17 13:41:24

2025-07-03 14:58:16

模型開源AI

2025-04-27 09:23:00

模型訓練AI

2025-04-01 09:00:00

模型訓練開源

2023-10-14 13:07:52

訓練模型

2025-06-05 08:40:00

2025-04-02 09:00:00

模型開源AI

2025-11-12 08:56:15

2025-05-06 00:45:00

2025-06-09 09:32:35

2025-01-14 13:20:56

2025-06-18 08:51:28

點贊
收藏

51CTO技術棧公眾號

日韩在线观看免费av| 欧美一级黄视频| 精品国产_亚洲人成在线| 欧美日韩中文不卡| 成人片在线看| 99在线热播精品免费| 91大神在线播放精品| 人妻精品久久久久中文| 99精品女人在线观看免费视频| 一区二区视频免费在线观看| 精品一区二区国产| 国产又粗又黄又爽视频| 在线精品亚洲| 久久精品国产成人精品| 年下总裁被打光屁股sp| 成人av色网站| 午夜精品久久久久久久久久| 亚洲视频在线二区| 婷婷丁香一区二区三区| 精品亚洲成av人在线观看| 97久久精品视频| www.av成人| 欧美日韩黑人| 亚洲高清不卡av| 手机在线免费毛片| 成人h在线观看| 欧美日韩国产限制| a级网站在线观看| 第九色区av在线| 91色.com| 国产66精品久久久久999小说| 欧美日韩 一区二区三区| 影音先锋久久资源网| 久久综合伊人77777蜜臀| 中文字幕5566| 久9re热视频这里只有精品| 在线不卡免费av| 别急慢慢来1978如如2| 国产在线88av| 亚洲视频小说图片| 日韩精彩视频| 黄色在线免费观看大全| 99国产精品99久久久久久| 不卡视频一区二区三区| av无码精品一区二区三区宅噜噜| 欧美a级理论片| 国产成人+综合亚洲+天堂| 国产性猛交╳xxx乱大交| 精品999网站| 欧美激情视频一区二区| 综合五月激情网| 在线看片不卡| 久久国产精品久久久久久久久久| 国产小视频你懂的| 婷婷成人基地| 日韩中文字幕在线视频播放| 呻吟揉丰满对白91乃国产区| 菠萝蜜一区二区| 少妇高潮久久久久久潘金莲| 麻豆视频免费在线播放| 久久在线视频| 久久av在线播放| 欧美黄色一级网站| 亚洲精品孕妇| 97久久精品国产| 亚洲中文一区二区| 蜜桃视频一区二区三区 | 91欧美精品成人综合在线观看| 最近日韩免费视频| 老司机精品视频一区二区三区| 国产日韩欧美在线播放| 国产日韩欧美中文字幕| 国产成人99久久亚洲综合精品| 高清国产在线一区| 免费在线稳定资源站| 中文字幕+乱码+中文字幕一区| 一区二区视频在线免费| 污污在线观看| 精品久久久久久亚洲国产300 | 美女视频黄a大片欧美| 91精品中文在线| 亚洲欧美另类日韩| 91免费国产在线观看| 日韩wuma| 三级网站视频在在线播放| 婷婷综合久久一区二区三区| 国产精品涩涩涩视频网站| crdy在线观看欧美| 亚洲高清在线观看| 中文字幕精品亚洲| 在线观看的日韩av| 国产精品video| a级片在线视频| 91免费视频网| 成人手机在线播放| 中文字幕在线免费观看视频| 欧美精品v日韩精品v韩国精品v| 美国黄色一级视频| 日韩精品1区| 久久久久久久久久久av| 黄色av一区二区| 国产成人aaaa| 亚洲一区二区三区精品在线观看| 久操av在线| 欧美三级一区二区| 亚洲自拍偷拍精品| 91蜜臀精品国产自偷在线| 国色天香2019中文字幕在线观看| 99成人精品视频| 久久精品欧洲| 高清一区二区三区视频| 337p日本欧洲亚洲大胆鲁鲁| 亚洲大片在线观看| 999热精品视频| 国产一区二区三区天码| 国内精久久久久久久久久人| 91女人18毛片水多国产| 91丨porny丨户外露出| 麻豆传媒网站在线观看| 国产91在线播放精品| 亚洲成人亚洲激情| 青青草成人免费| 久久99精品久久只有精品| 久久综合九色综合久99| 污污网站在线看| 91精品国产欧美日韩| 色屁屁草草影院ccyy.com| 亚洲免费成人| 成人18视频| 粗大黑人巨茎大战欧美成人| 欧美色电影在线| 一级肉体全黄裸片| 新67194成人永久网站| 国产精选一区二区| 日本大胆在线观看| 日韩一级片在线观看| 久艹在线观看视频| 蜜桃av噜噜一区二区三区小说| 欧美日产一区二区三区在线观看| 高清精品在线| 亚洲丁香久久久| 久久久一区二区三区四区| 国产精品一区在线| 精品日韩在线播放| 日韩视频一二区| 欧美精品性视频| 国产巨乳在线观看| 97久久精品一区二区三区的观看方式| 久久99国产精品久久99| 日本一区二区在线视频观看| 涩涩av在线| 日韩成人av网址| 五月激情六月丁香| 2021国产精品久久精品| 草草久久久无码国产专区| 青青视频一区二区| 77777亚洲午夜久久多人| 人妻妺妺窝人体色www聚色窝| 一区二区三区.www| 91人妻一区二区| 亚洲成色精品| 老司机精品福利在线观看| sm性调教片在线观看| 日韩精品中文字幕久久臀| 精品成人av一区二区在线播放| 99久久国产综合精品女不卡| 亚洲乱码中文字幕久久孕妇黑人| 伊人久久大香线蕉av不卡| 欧美中文字幕在线视频| 成人在线视频成人| 欧美精品乱码久久久久久| 2025国产精品自拍| 成人黄色大片在线观看| 欧美黄色免费影院| 精品国产一区二区三区| 91日本在线视频| 另类视频在线| 亚洲欧美在线免费观看| 一区二区三区www污污污网站| 亚洲欧美激情在线| 7788色淫网站小说| 日韩av电影一区| 50度灰在线观看| 久久久久97| 国产精品都在这里| 亚洲色图美国十次| 日韩的一区二区| 一区二区视频免费| 亚洲综合免费观看高清完整版| 日本黄色免费观看| 日本成人在线视频网站| 欧美视频在线第一页| 五月国产精品| 成人网在线视频| 九色porny丨首页入口在线| 在线电影中文日韩| 六月丁香色婷婷| 欧美在线三级电影| 99热精品免费| 久久久亚洲午夜电影| 男人的天堂最新网址| 一本久道久久久| 曰韩不卡视频| 亚洲精品国产动漫| 亚洲自拍偷拍网址| 成人精品电影在线| 久久青草精品视频免费观看| 91伦理视频在线观看| 亚洲国产欧美在线成人app| 亚洲综合精品国产一区二区三区| 亚洲777理论| 久久免费看少妇高潮v片特黄| 91免费观看视频在线| 波多野结衣免费观看| 人妖欧美一区二区| 日本网站免费在线观看| 午夜亚洲福利| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 麻豆成人入口| 国产成人成网站在线播放青青| 97欧美成人| 久久久免费在线观看| 成人直播在线| 社区色欧美激情 | 国产系列电影在线播放网址| 日韩精品视频三区| 国精品人妻无码一区二区三区喝尿| 欧美三级在线看| 亚洲精品毛片一区二区三区| 欧美日韩中文字幕综合视频| 国产精品白浆一区二小说| 日韩美女视频一区二区| 91成人精品一区二区| 国产亚洲人成网站| 超碰97在线资源站| k8久久久一区二区三区| av电影中文字幕| 国产精品一区久久久久| 国产欧美激情视频| 久久国产人妖系列| 高清av免费看| 免费在线看成人av| 五月婷婷狠狠操| 日韩不卡一区二区三区| 久久精品视频91| 久久久久免费| 日本三区在线观看| 手机精品视频在线观看| 欧美日韩亚洲一二三| 久久久亚洲人| 亚洲一区二区蜜桃| 麻豆精品精品国产自在97香蕉| 色婷婷综合久久久久中文字幕 | 日韩母乳在线| 久久精品成人一区二区三区蜜臀| 国产精品自在| 免费99视频| 欧美久久精品一级c片| 亚洲欧美日韩不卡一区二区三区| 成人三级视频| 在线播放 亚洲| 欧美精品aa| 欧美日韩福利在线| 久久aⅴ乱码一区二区三区| 日韩手机在线观看视频| 蜜臀av性久久久久av蜜臀妖精| 国产免费中文字幕| 国产a视频精品免费观看| 国产精品成人99一区无码| 91在线视频在线| www久久久久久久| 日韩码欧中文字| 黄色一级视频免费| 欧美日韩性生活视频| 国产精品欧美综合| 777奇米成人网| 蜜臀久久99精品久久久| 精品亚洲一区二区三区在线播放| 国产在线观看网站| 久久婷婷国产麻豆91天堂| 欧美寡妇性猛交xxx免费| 欧洲成人免费视频| 色综合视频一区二区三区日韩| 99热最新在线| 九一亚洲精品| 中国老女人av| 免费在线欧美黄色| www.色就是色.com| 99久久国产综合色|国产精品| 亚洲一级理论片| 亚洲国产精品视频| 丰满熟女人妻一区二区三| 日韩欧美www| 国产小视频在线播放| 欧美老少配视频| 日韩久久一区二区三区| 91黄色精品| 成人免费av| 欧美午夜性视频| 精品亚洲国产成人av制服丝袜| 国产chinese中国hdxxxx| 国产精品美女www爽爽爽| 精品无码一区二区三区电影桃花| 日本高清不卡视频| 亚洲第一免费视频| 在线日韩中文字幕| av2020不卡| 91久久精品国产91久久| 国产精品羞羞答答在线观看| 免费的av在线| 日韩**一区毛片| 欧美大片免费播放器| 亚洲免费av观看| 国产精品第6页| 日韩精品电影网| 蜜桃传媒在线观看免费进入 | 国产无套内射久久久国产| 国产精品一级黄| 国产精品一区二区亚洲| 日韩欧美在线视频日韩欧美在线视频| 国产高潮流白浆喷水视频| 色妞在线综合亚洲欧美| 97se综合| 久久精品美女| 亚洲黄色毛片| 麻豆tv在线观看| 亚洲日本一区二区三区| 中文字幕欧美人妻精品| 亚洲一区二区国产| 欧美一级大片| 久久99精品久久久水蜜桃| 极品中文字幕一区| japanese在线观看| 亚洲一区二区偷拍精品| 精品久久久久久亚洲综合网站| 日韩在线免费观看视频| av在线播放一区| 亚洲欧美日韩不卡一区二区三区| 日韩av一级片| 在线观看亚洲大片短视频| 色欧美日韩亚洲| 国产原创av在线| 国产精品狼人色视频一区| 欧美综合在线视频观看 | 欧美成人福利| 亚洲一区二区三区乱码| 看电视剧不卡顿的网站| 青青青视频在线播放| 欧美日韩精品一区二区天天拍小说 | 欧美在线一级| 一区二区三区四区视频在线| 美国一区二区三区在线播放| 永久免费av无码网站性色av| 欧美性xxxxxxxx| 求av网址在线观看| 成人激情视频免费在线| 欧美国产综合| 特级特黄刘亦菲aaa级| 亚洲大片免费看| 日本福利在线观看| 国产精品久久久久久久久久ktv | 成人国产一区二区三区| 国产成人免费xxxxxxxx| 久久精品亚洲无码| 日韩大陆欧美高清视频区| 成人自拍视频网| 一区二区三区国产福利| 国产激情视频一区二区三区欧美| 久久亚洲av午夜福利精品一区| 日韩av综合网站| 国产精品麻豆成人av电影艾秋| 四虎免费在线观看视频| 高清国产一区二区| 狠狠人妻久久久久久| 视频一区视频二区国产精品| 欧洲大片精品免费永久看nba| 国产主播自拍av| 国产蜜臀av在线一区二区三区| 91国内精品视频| 国模精品系列视频| 三区四区不卡| 国产a级黄色片| 欧美日韩一区二区三区免费看 | 亚洲精品乱码久久久久久9色| 性欧美疯狂xxxxbbbb| 国产福利电影在线| 99三级在线| 日本 国产 欧美色综合| xxxx 国产| 中文字幕亚洲精品| 在线观看视频一区二区三区| 999精品网站| 洋洋av久久久久久久一区| 韩国中文字幕2020精品| 亚洲自拍欧美另类| 日韩va欧美va亚洲va久久| 久久久久成人网站| 中文字幕亚洲一区在线观看| 第四色在线一区二区| 久久久久久蜜桃一区二区|