精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權重錯配

人工智能 新聞
近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

從ChatGPT到DeepSeek,強化學習(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓練的關鍵一環。

然而,隨著模型參數規模的不斷擴大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎

近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要

在強化學習中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數據」而不偏離目標分布。

在小規模強化學習中,這個理論確實有效;然而,在大語言模型的結果監督強化學習中,這一機制卻開始「失靈」。

研究團隊通過實驗證明:

在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發訓練不穩定的元兇。

研究者在實驗中對比了兩種做法:

  • 保留原始的IS權重;
  • 完全移除IS權重,將其全部設置為1.0。

結果令人驚訝:

  • 兩種方法在最終準確率上幾乎沒有差異;
  • 移除IS后的模型訓練曲線反而更加平滑、穩定;
  • 熵值下降速度放緩,重復率降低,KL散度更穩定。

為什么會出現這種現象?

其一,結果監督強化學習中的優勢值本身就是不準確的:一方面,不同token對最終答案的貢獻是不同的,它們的優勢值不應該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優勢值甚至是相反的。

其二,如下圖所示,正優勢token的平均IS權重高于負優勢token,學習高概率正優勢token導致熵下降。

上述分析說明,IS在結果監督強化學習算法中不再是「校正項」,而是變成了token級的權重

放大權重錯配的真相:被放大的「正樣本」

研究團隊進一步深入分析發現,IS權重在LLM場景下出現了非對稱性錯誤:

  • 對于負優勢token,IS權重的變化符合預期:在舊策略概率一定時,當前概率較高,其IS權重也較高,起到合理的抑制作用;
  • 但對于正優勢token,權重分布卻完全反了:在舊策略概率一定時,當前概率越高的token權重越高,概率越低的token權重越低

也就是說,模型在更新時,會進一步強化那些已經「高分」的token,而忽視那些仍然需要改進的低概率token。這種偏差不斷積累,形成一種自我強化循環(self-reinforcing loop),最終導致模型陷入局部最優、輸出重復、甚至熵崩塌

上述權重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當前高概率token的更新權重居高不下,而低概率token被壓制至幾乎無梯度更新。結果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。

核心思想:翻轉正樣本權重

ASPO的核心創新,正如其名所示,是一次「不對稱翻轉」(Asymmetric Importance Sampling,AIS)。

它將正優勢token的重要性采樣權重取倒數,讓低概率token得到更強的更新,而高概率token被適當削弱:

其中,sg(·)表示停止梯度操作。

在此基礎上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機制,用于裁剪掉翻轉正樣本權重后導致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導致的不穩定,又保留了正樣本梯度的有效流動。

此外,對于所有token,ASPO仍保留原有的硬裁剪機制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負樣本裁剪值和梯度。

通過梯度分析,研究者發現:

ASPO在梯度上翻轉了IS權重項,使梯度與token概率的倒數成正比,即概率越低的token,更新的梯度越大,增大低概率token的學習力度。

實驗結果:更強、更穩

在一系列數學推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準測試中,ASPO展現出顯著優勢:

  • 相比于base model,數學任務平均性能提升 12.5%,代碼生成任務平均性能提升 17.0%;
  • 訓練過程更平滑,無明顯熵坍塌;
  • 在代碼基準LiveCodeBench v5上,ASPO達到了31.5 avg@8 / 47.0 pass@8的成績,領先主流RL方法(DAPO、DeepScaleR、Nemotron等)。

訓練動力學分析

不僅如此,ASPO的訓練曲線也展現出前所未有的穩定性:

  • 熵下降更平緩——避免了傳統算法中的「熵坍縮」問題;
  • 重復率更低——輸出更加多樣;
  • KL散度與Clip Ratio穩定;
  • 訓練過程無明顯震蕩,表現出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-07-30 16:28:06

2023-10-24 11:07:57

2009-12-25 15:00:48

WPF軟件

2017-12-29 10:14:48

IT項目

2013-08-08 10:10:06

備份策略全備份增量備份

2020-08-27 07:00:00

代碼軟件應用程序

2009-12-23 15:57:40

WPF傳遞事件

2011-07-05 18:30:44

站內優化

2011-06-30 16:22:00

首選域

2016-08-29 20:31:17

2014-04-23 11:36:29

運維日志

2009-03-03 17:25:41

2010-07-05 14:27:30

UML各種圖形

2022-11-04 14:13:54

2010-01-20 18:45:44

VB.NET DoEv

2021-12-22 23:12:19

物聯網隱私安全

2009-09-28 13:23:00

CCNA學習方法CCNA

2009-11-25 17:36:38

PHP函數includ

2011-08-11 10:12:11

2013-08-23 14:07:45

磁盤分區
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲自拍| www.成人免费视频| 欧美午夜精品一区二区三区电影| 欧美影院一区二区| 日本三日本三级少妇三级66| 黑人精品一区二区三区| 狂野欧美一区| 久久成人精品视频| 中文字幕一区二区久久人妻网站 | 亚洲国产一区二区在线播放| 蜜桃av久久久亚洲精品| 一二三四区视频| 99国产精品99久久久久久粉嫩| 在线看片第一页欧美| 中文字幕avav| 日韩脚交footjobhd| 亚洲天堂精品视频| 精品日本一区二区三区在线观看| 亚洲精品国产精品乱码视色| 亚洲片区在线| 久久久www成人免费精品| 亚洲精品乱码久久久久久久| av成人在线网站| 一道本成人在线| 青青草视频国产| porn视频在线观看| 国产激情视频一区二区在线观看 | 国产视频一区二区三| 性8sex亚洲区入口| 欧美激情第6页| 少妇视频一区二区| 国产欧美高清视频在线| 亚洲大尺度美女在线| www.com久久久| 天然素人一区二区视频| 欧美日韩中文字幕| 妞干网视频在线观看| 黄色大片在线播放| 中文一区二区完整视频在线观看 | 911亚洲精选| 亚洲久草在线| 欧美日韩在线免费视频| 日韩精品一区二区三区久久| aa视频在线观看| 一区二区三区.www| 久久久天堂国产精品| 麻豆影院在线观看| 中文字幕亚洲不卡| 伊人色综合影院| 美女黄视频在线观看| 国产精品欧美一区二区三区| 亚洲高清在线播放| youjizz在线播放| 中文字幕欧美国产| 亚洲视频精品一区| 日本高清视频在线观看| 国产精品久线在线观看| 亚洲午夜在线观看| 麻豆传媒在线免费| 自拍偷拍欧美激情| 日本免费黄色小视频| 亚洲欧美成人影院| 亚洲国产cao| 99视频在线免费播放| 欧美aa在线| 狠狠色狠色综合曰曰| 国产成人久久婷婷精品流白浆| 亚洲人体影院| 欧美无砖砖区免费| 天天综合成人网| 中文一区二区三区四区| 亚洲国产精品久久久| 深爱五月激情网| 黄色在线播放网站| 中文av一区二区| 在线丝袜欧美日韩制服| www免费视频观看在线| 一级女性全黄久久生活片免费| 妞干网视频在线观看| 蜜桃麻豆影像在线观看| 日本乱人伦aⅴ精品| 三上悠亚在线一区二区| 精品99re| 亚洲精品国产电影| 国产在线综合视频| 91精品一区国产高清在线gif| 久久91精品国产91久久久| 国产一国产二国产三| 国产精品最新自拍| 国产精品免费久久久| 99久久精品国产色欲| 97久久久精品综合88久久| 欧美中文娱乐网| www免费在线观看| 欧美视频免费在线观看| 中文字幕资源在线观看| 久久男人av| 视频直播国产精品| 精品肉丝脚一区二区三区| 裸体一区二区| 成人在线免费观看视视频| 日本黄色一区二区三区| 国产精品久久久久永久免费观看 | 18网站在线观看| 欧美日韩美女在线| 日本一本在线视频| 国产调教一区二区三区| 九九久久综合网站| 国产精品尤物视频| 成人一区在线观看| 亚洲三区在线| 亚洲优女在线| 日韩午夜激情电影| 91狠狠综合久久久久久| 亚洲高清久久| 亚洲999一在线观看www| 蜜桃视频在线免费| 亚洲第一激情av| 亚洲制服中文字幕| 欧美少妇性xxxx| 97色在线视频| www.黄色片| 国产精品久久一级| www.日日操| 狼人精品一区二区三区在线| 欧美高清自拍一区| 夜夜嗨av禁果av粉嫩avhd| 26uuu国产一区二区三区 | 久久xxxx精品视频| 草莓视频一区| 26uuu亚洲电影在线观看| 欧美日韩国产小视频| 国产熟妇搡bbbb搡bbbb| 欧美aⅴ99久久黑人专区| 国产精品偷伦视频免费观看国产| 青青青手机在线视频观看| 午夜视频在线观看一区二区三区| 免费观看黄网站| 亚洲国产精品日韩专区av有中文| 国产免费成人av| 1769在线观看| 欧美午夜精品久久久| 国产aⅴ激情无码久久久无码| 99av国产精品欲麻豆| 国产综合18久久久久久| 女同视频在线观看| 日韩你懂的在线播放| 少妇被躁爽到高潮无码文| 老司机午夜精品| 偷拍视频一区二区| 国产精品诱惑| 日韩中文字幕在线精品| 国产精品爽爽久久| 亚洲女与黑人做爰| 一级黄色大片儿| 午夜精品av| 狠狠色噜噜狠狠色综合久 | 日韩精品2区| 国产精品丝袜久久久久久不卡| av网站在线免费观看| 欧美日韩国产综合一区二区 | 欧美色视频免费| 色综合久久久网| 精品人妻无码一区二区三区换脸| 狂野欧美性猛交xxxx巴西| 日本午夜精品电影| 激情小说亚洲| 久久成人精品视频| 国内爆初菊对白视频| 亚洲国产精品久久久久秋霞影院| v天堂中文在线| 久久精品导航| 亚洲一区三区| 99精品中文字幕在线不卡| 97人人做人人爱| 国产福利电影在线| 91精品婷婷国产综合久久竹菊| 国内偷拍精品视频| av资源网一区| 国产理论在线播放| 91精品国产乱码久久久久久| 国产精品二区在线| 在线人成日本视频| 日韩视频精品在线| 丰满少妇被猛烈进入| 色哟哟日韩精品| 永久免费看片直接| 91女厕偷拍女厕偷拍高清| 国产高潮免费视频| 黄色精品网站| 四虎影院一区二区三区| 97久久综合精品久久久综合| 国产suv精品一区二区三区88区| 欧美极品视频| 精品视频偷偷看在线观看| 国产一卡二卡三卡| 亚洲国产wwwccc36天堂| 日韩视频在线观看免费视频| 国产aⅴ精品一区二区三区色成熟| 欧美日韩在线视频一区二区三区| 五月激情久久久| 欧美日韩喷水| 99精品在免费线中文字幕网站一区 | 大香伊人久久| 色偷偷av亚洲男人的天堂| 天堂av一区二区三区| 欧美电影一区二区| 中文字幕免费观看| 亚洲一区二区三区爽爽爽爽爽| 日本一二三不卡视频| 99精品久久99久久久久| 香蕉视频xxxx| 免费精品视频最新在线| 18岁网站在线观看| 欧美+亚洲+精品+三区| 视频一区二区在线观看| 希岛爱理av免费一区二区| 亚洲影院在线看| 成人影院在线免费观看| 欧美性受xxx| 丁香花在线电影小说观看| 日韩亚洲欧美中文在线| 精品欧美不卡一区二区在线观看| 精品久久久久久久久久久院品网| 国产美女三级无套内谢| 欧美三级电影在线看| 日本a级c片免费看三区| 欧美性xxxxx| 日韩三级小视频| 亚洲一区二区3| 在线免费观看亚洲视频| 国产精品高清亚洲| 色婷婷国产精品免| 国产日韩欧美不卡| 中文字幕xxx| 91网站在线观看视频| 精品影片一区二区入口| 国产精品99久久久久久久vr| 日韩 国产 一区| 国产一区二区在线观看视频| 亚洲天堂国产视频| 麻豆国产欧美日韩综合精品二区| 欧美精品无码一区二区三区| 久久三级福利| 国产三级日本三级在线播放| 久久久噜噜噜久久狠狠50岁| 亚洲熟妇av一区二区三区| 亚洲一区二区三区高清不卡| 91丨porny丨探花| 亚洲影视一区二区三区| 超碰免费在线公开| 欧美在线国产| 亚洲乱码日产精品bd在线观看| 欧美va天堂| 欧美一区二区激情| 99国产精品自拍| 激情综合在线观看| 老司机午夜精品视频| 激情婷婷综合网| 麻豆精品一区二区综合av| 欧美美女一级片| 国产精品一级片在线观看| 韩国一区二区三区四区| 成人国产在线观看| 加勒比一区二区| 国产精品日产欧美久久久久| 登山的目的在线| 一区二区三区蜜桃网| 日本少妇全体裸体洗澡| 色综合久久天天综合网| 亚洲视频在线观看一区二区| 日韩一级二级三级精品视频| 黄色av免费观看| 一区二区在线视频播放| 成人免费看片| 亚州国产精品久久久| 日韩精选视频| 亚洲一区二区在线| 欧美激情99| 亚洲一二区在线| 在线观看日韩av电影| aaaaaa亚洲| 国产综合久久久久久鬼色| 国产av一区二区三区传媒| 久久久精品国产免大香伊| 亚洲精品久久久久久国| 午夜亚洲福利老司机| 国产男人搡女人免费视频| 日韩欧美国产三级电影视频| 日本免费一区二区三区最新| 久久精品成人欧美大片| 美女网站在线看| 亚洲free嫩bbb| 亚洲区小说区图片区qvod按摩| 国产91av视频在线观看| 亚洲深夜福利| 色婷婷激情视频| 久久久精品免费观看| 久久久99精品| 欧美丝袜丝交足nylons| 三级小视频在线观看| 久久精品欧美视频| 天堂在线中文网官网| 91在线观看网站| 欧美一区三区| 看av免费毛片手机播放| 国产美女精品人人做人人爽| 无码人妻精品一区二区中文| 一二三四区精品视频| 中文字幕人成人乱码亚洲电影| 亚洲激情视频在线播放| 在线观看的网站你懂的| 国产精品久久色| 亚洲宅男网av| 97中文字幕在线| 国产原创一区二区| 日韩精品无码一区二区三区久久久| 亚洲已满18点击进入久久| 亚洲中文一区二区三区| 亚洲欧美日韩一区二区在线| av福利在线导航| 99国产在线视频| 色天天综合网| 黑森林精品导航| 91天堂素人约啪| 日本三级午夜理伦三级三| 欧美一区二区视频网站| 免费看a在线观看| 国产精品日韩在线一区| 欧美日韩国产免费观看视频| 精品99在线视频| 91亚洲国产成人精品一区二区三| 激情综合五月网| 日韩三级电影网址| 久久黄色美女电影| 国产精品久久久久久久久久三级| 日韩a级大片| 女性女同性aⅴ免费观女性恋| 成人国产在线观看| 精品无码人妻一区二区三区品| 日韩一区国产二区欧美三区| 男人和女人做事情在线视频网站免费观看| 国产精品h片在线播放| 国产精品亚洲二区| 青青青在线视频免费观看| 国产欧美精品国产国产专区| 波多野结衣电车痴汉| 国产一区二区三区丝袜| www.26天天久久天堂| 四虎永久国产精品| 紧缚奴在线一区二区三区| 国产精品嫩草影院俄罗斯| 制服丝袜日韩国产| a级片国产精品自在拍在线播放| 亚洲一区二区少妇| 雨宫琴音一区二区在线| 免费a在线观看播放| 一本大道久久精品懂色aⅴ| 免费理论片在线观看播放老| 国产成人一区二区三区小说| av在线不卡顿| 中文字幕亚洲影院| 亚洲精品中文字幕乱码三区| 国精产品乱码一区一区三区四区| 午夜精品久久久久久久久久久久久| 日韩欧美黄色| 久热精品在线观看视频| 亚洲色欲色欲www| 黄色一级大片在线免费看国产| 97婷婷涩涩精品一区| 亚州精品视频| 中文字幕在线综合| 亚洲乱码中文字幕| 偷拍精品一区二区三区| 欧洲成人免费视频| 日韩电影一区| 日本美女视频网站| 日韩欧美国产激情| 久草中文在线观看| 国产精品污www一区二区三区| 久久国产99| 91香蕉视频在线播放| 日韩成人在线视频| 日本一区二区三区中文字幕| 黄色片免费在线观看视频| 97精品久久久午夜一区二区三区| 中文字幕 视频一区| 久久91亚洲精品中文字幕奶水| 欧美人妖视频| 日本中文字幕观看| 精品欧美激情精品一区| 亚洲乱亚洲乱妇| 激情小说综合网| 极品尤物av久久免费看| 精品免费囯产一区二区三区 | 免费观看久久久久| 精品免费日产一区一区三区免费| 久久成人免费网| 日韩一区二区视频在线| 久久福利视频导航|