精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式

發布于 2025-11-17 07:32
瀏覽
0收藏

在大語言模型(LLM)與強化學習(RL)深度融合的浪潮中,后訓練階段通常采用基于策略梯度的方法,如近端策略優化(PPO),以提升模型的推理能力。然而,傳統PPO采用對稱的actor-critic架構,即critic(價值函數)與actor(策略模型)規模相當,這在LLM尺度下帶來巨大的計算開銷和訓練不穩定問題。近年來,無critic的RLVR(Reinforcement Learning for LLM Reasoning)范式逐漸成為主流,例如GRPO(Group Policy Optimization)通過平均優勢基線替代critic,簡化了訓練流程,但犧牲了價值估計的魯棒性。這種趨勢引發了一個核心問題:「是否真的需要一個與策略模型規模相當的“巨型critic”?能否通過輕量化設計重新激發PPO的潛力?」

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里巴巴ROLL團隊、香港科技大學和Mila的最新研究《Asymmetric Proximal Policy Optimization: Mini-Critics Boost LLM Reasoning》(arXiv:2510.01656v3, 2025)對此給出了否定答案。論文提出的「Asymmetric PPO(AsyPPO)」 框架,首次系統性揭示了critic的參數規模與其價值估計能力并無必然關聯,通過一組輕量化的“mini-critics”實現了高效、穩定的RL4LLM訓練。本文將從背景、方法、實驗到最新趨勢,深度解讀這一突破性工作。

一、背景:RL4LLM的瓶頸與Critic的失落

傳統PPO在游戲、機器人控制等領域表現卓越,但其對稱架構在LLM尺度下面臨嚴峻挑戰。LLM的規模通常達數十億參數,直接應用PPO會導致:

  • 「計算開銷巨大」:訓練與actor規模相當的critic需要大量GPU內存和時間。
  • 「稀疏獎勵問題」:長推理鏈中獎勵稀疏,critic難以準確估計狀態價值。
  • 「訓練不穩定」:價值估計偏差易導致策略崩潰。

因此,RL4LLM社區轉向無critic方法,如GRPO、DAPO等,使用分組采樣或平均優勢基線簡化估計。但這類方法放棄了RL的核心思想——「魯棒的價值估計能緩解優勢偏差帶來的訓練崩潰」。論文指出,這本質上是架構問題而非算法局限,并質疑:能否通過不對稱設計實現輕量且魯棒的價值估計?

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 1直觀展示了問題:經典PPO(對稱架構)在LLM訓練中效率低下,而AsyPPO在恢復critic作用的同時,保持了輕量級開銷。這為重新思考架構提供了動機。

二、AsyPPO方法詳解:輕量化Critic與不確定性感知優化

AsyPPO的核心創新在于兩大組件:「輕量化mini-critics集合」和「基于不確定性的策略損失重構」。下面我們逐步解析。

1. 輕量化價值估計:從單小Critic到多樣性Ensemble

論文首先驗證了不對稱架構的可行性:即使小如Qwen3-0.6B的critic,也能為Qwen3-8B的actor提供有效指導(Figure 3左),這得益于預訓練模型提供的豐富表示能力。但單小critic受限于稀疏獎勵和長尾推理軌跡,價值估計不準確,性能不及對稱PPO。

「關鍵突破點」:通過ensemble提升估計魯棒性。然而,直接使用多個小critic(如兩個Qwen3-0.6B)效果有限,因為它們從相同預訓練 checkpoint 初始化,訓練數據重疊,導致行為同質化(Figure 3中右)。為此,論文提出了「組級非重疊數據分區策略」:

  • 將訓練數據(如5000個樣本)按提示(prompt)均勻劃分為不重疊子集,每個critic僅訓練于其分配的子集。
  • 這確保了每個critic接觸不同的獎勵分布和軌跡,促進功能多樣性,同時保持對同一提示的感知同步。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 4從語言學角度證實,ensemble校正后的價值估計鼓勵策略學習核心推理模式,如邏輯連接詞(“therefore”)的出現頻率提升。

2. 策略損失重構:利用Critic不確定性優化探索

AsyPPO的第二個創新是「將critic間的不確定性作為信號優化策略損失」。具體地,critic價值估計的標準差(value-std)反映了狀態的信息量:

  • 「低value-std(高一致性)」:狀態動態被充分建模,樣本信息量低,易導致過擬合。
  • 「高value-std(高分歧)」:狀態與最終獎勵耦合弱,可能對應推理無關模式(如副詞、感嘆詞),探索意義小。

基于此,論文重構了PPO損失:

  • 「優勢掩碼(Advantage Masking)」:對value-std最低的k%狀態(如20%),掩碼其優勢值,避免對低信息量樣本的過擬合。
  • 「熵過濾(Entropy Filtering)」:對value-std最高的h%狀態(如20%),從熵正則化中過濾,抑制虛假探索。

重構后的損失函數為:

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

其中掩碼指標I_t^A和過濾指標I_t^{\mathcal{H}}基于value-std σ_t設定。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 5顯示,在高效樣本復用(UTD=4)下,優勢掩碼顯著提升樣本效率(約6點增益),且value-std掩碼效果優于熵掩碼。Figure 6進一步揭示低value-std狀態與低熵高度相關,驗證了value-std作為不確定性度量的精確性。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

熵過濾機制同樣關鍵:Figure 7表明,過濾高value-std狀態后,策略熵保持穩定,避免了樸素熵正則化導致的崩潰(約7%提升)。統計顯示,被過濾的token多為推理無關詞匯(如副詞“very”),強化了探索的安全性。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

三、實驗結果:輕量化設計解鎖大型模型推理能力

論文在多個數學推理基準(如MATH-500、OlympiadBench)上驗證了AsyPPO,使用開源數據(僅5000樣本),演員模型涵蓋Qwen3-4B/8B/14B。

1. 泛化到大型模型(RQ1)

Figure 8顯示,AsyPPO(雙4B critics)在Qwen3-14B演員上相比GRPO提升約3%準確率,且內存開銷降低20%。單小critic(如1.7B)無法可靠指導14B演員,但AsyPPO通過ensemble突破了這一限制,彰顯了輕量化設計的威力。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

2. 消融研究(RQ2&3)

  • 「Critic規模與數量」:Figure 9a顯示,critic規模擴大(如從0.6B到4B)帶來性能提升,符合縮放定律;但雙critic已足夠(Figure 9b),更多critic收益不顯著。
  • 「超參數敏感性」:優勢掩碼比例20%(Figure 10左)、熵過濾比例20%(Figure 10中右)為最優平衡點。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

四、結合最新背景與未來展望

AsyPPO的提出正值RL4LLM技術快速演進期。2025年以來,無critic方法如GRPO、DAPO主導業界,但批評聲漸起:Yuan等人(2025b)指出衰減因子不適用于長鏈推理,Yue等人(2025)嘗試增強critic魯棒性。AsyPPO通過架構創新回應了這些挑戰,與同期工作如T-PPO(異步設置)、Implicit PRM(隱式獎勵模型)形成互補。

「最新趨勢聯系」:

  • 「輕量化部署需求」:隨著模型規模爆炸(如GPT-4o、Llama 3),計算效率成為核心瓶頸。AsyPPO的異步設計為邊緣設備部署RL4LLM提供了可能。
  • 「不確定性感知RL」:論文的價值std機制與經典RL的Bootstrapped DQN思想一脈相承,但適配了LLM特性。
  • 「開源生態推動」:論文基于ROLL框架實現,強調可復現性,契合開源社區對透明算法的需求。

「局限與未來工作」:實驗限于Qwen3系列,未來需擴展至Llama等模型;生成長度固定為8k token,超長推理下的泛化性待驗證。展望中,論文提出多個方向:異質critic ensemble、超參數對校準的影響、置信加權估計等。

五、結論

AsyPPO成功將RL4LLM的critic瓶頸重新定義為架構問題,通過雙輕量化mini-critics和數據分區策略,實現了魯棒價值估計和高效訓練。其不確定性感知損失重構進一步提升了樣本效率和探索安全性。實驗證明,該方法在多個基準上穩定提升性能,同時降低計算開銷,為RL4LLM的未來發展開辟了新路徑。在大型模型技術日新月異的背景下,這種輕量化設計有望成為后訓練階段的標準工具之一。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

通過本文的深度解讀,我們可以看到,AsyPPO不僅是技術上的突破,更是一種范式轉變:它證明在LLM時代,輕量化設計能釋放傳統RL算法的潛力,為AGI的推理能力優化提供了可持續路徑。

本文轉載自??AIGC深一度??,作者:一度

已于2025-11-17 07:32:46修改
收藏
回復
舉報
回復
相關推薦
欧美系列在线观看| 老鸭窝91久久精品色噜噜导演| 欧美日本视频在线| 成年在线观看视频| 亚洲色图狠狠干| 美女免费视频一区二区| 久久视频在线直播| www.88av| 图片一区二区| 偷拍一区二区三区四区| 神马一区二区影院| 二区三区在线视频| 日韩一区精品字幕| 欧美激情视频给我| 精品人妻中文无码av在线| 伊人久久大香| 一本到不卡免费一区二区| av不卡在线免费观看| 天堂网在线资源| 精品一区二区影视| 欧美一级片久久久久久久| 波多野结衣久久久久| 自拍欧美一区| 精品va天堂亚洲国产| 91极品视频在线观看| 电影k8一区二区三区久久| 久久久噜噜噜久久人人看| 日本成人一级片| xxxxxx黄色| 欧洲美女精品免费观看视频| 懂色av中文一区二区三区天美| 综合操久久久| 国产香蕉视频在线看| 风流少妇一区二区| 成人欧美一区二区三区在线| 日产精品久久久| 中文字幕在线欧美| 伊人狠狠色j香婷婷综合| 深夜福利一区二区| 无码人妻精品一区二区中文| 精品伊人久久久| 日韩女优av电影| 日本美女视频一区| 国内欧美日韩| 色8久久人人97超碰香蕉987| 日本a在线免费观看| sqte在线播放| 一区二区三区丝袜| 日本xxxxx18| 日本中文字幕电影在线免费观看| 国产日韩欧美激情| 日本在线免费观看一区| 黄色片在线免费观看| 91网站在线播放| 鲁片一区二区三区| 色就是色亚洲色图| 94色蜜桃网一区二区三区| 国产伦精品一区二区三区| va视频在线观看| 国产精品白丝jk白祙喷水网站| 国产日韩精品一区二区| 中文字幕人妻一区二区在线视频| 日本午夜精品一区二区三区电影| 国产a级全部精品| 91视频在线视频| 免费高清不卡av| 国产啪精品视频| 国产精品久久综合青草亚洲AV| 美国欧美日韩国产在线播放| 成人激情在线观看| 精品国产999久久久免费| 国产**成人网毛片九色| 鬼打鬼之黄金道士1992林正英| 囯产精品久久久久久| caoporn国产一区二区| 久久国产精品一区二区三区四区| 色播色播色播色播色播在线 | 国产美女裸体无遮挡免费视频| 免费观看久久久4p| 99超碰麻豆| 熟妇人妻av无码一区二区三区| 久久综合中文字幕| 亚洲午夜精品一区二区| 爆操欧美美女| 午夜国产不卡在线观看视频| 国产精品理论片在线观看| 欧美日韩免费在线视频| 日本999视频| 欧美一级免费| 欧美一级日韩不卡播放免费| 三上悠亚 电影| 视频福利一区| 日韩在线观看你懂的| 欧美人妻精品一区二区三区| 国产日韩欧美一区二区三区在线观看| 日韩免费黄色av| 国产精品国产一区二区三区四区| 国产成人福利片| 日本精品国语自产拍在线观看| 男人在线资源站| 亚洲18色成人| 国产免费毛卡片| 欧美国产视频| 日韩电视剧免费观看网站| 中文字幕精品亚洲| 亚洲国产高清一区| 国产精品igao视频| www.好吊色| 欧美激情一区二区三区全黄 | 国产日韩欧美一区二区东京热 | 免费黄网站在线播放| 亚洲成人高清在线| 一级做a爱视频| 免费视频亚洲| 久久久久久久影院| 一级黄在线观看| 91丝袜高跟美女视频| 人人妻人人澡人人爽精品欧美一区| 男人天堂视频在线观看| 欧美一区二区免费| 国产精品久久久视频| 99热免费精品| 国产精品久久久久久久小唯西川 | 中文字幕的久久| 可以在线看的av网站| 精品国产亚洲一区二区三区在线| 亚洲午夜精品久久久久久久久久久久 | 国产精品自在线拍| 久久亚洲精品中文字幕冲田杏梨| 日本久久综合网| www欧美成人18+| 日韩精品在线观看av| 精品一区二区三区在线观看视频 | 天堂va在线| 91麻豆精品91久久久久同性| 天天操天天干天天操天天干| 西西裸体人体做爰大胆久久久| 国产精品久久久久久久久婷婷| 91极品在线| 欧美一卡二卡在线| 国产精品嫩草影院俄罗斯| 男人操女人的视频在线观看欧美 | 中文字幕人成人乱码| 国产精品欧美日韩一区二区| 国产一二在线观看| 日韩欧美亚洲范冰冰与中字| 国产精品第七页| 99精品免费| 久久久国产精品一区二区三区| www中文字幕在线观看| 精品国产免费久久| 日韩成人免费在线观看| www..com久久爱| 99视频在线免费播放| 青青一区二区| 欧美在线性爱视频| 九色在线视频| 欧美三级在线播放| 国产精品久久久免费看| 久久草av在线| 国产又黄又爽免费视频| 日韩成人18| 性亚洲最疯狂xxxx高清| 三级做a全过程在线观看| 色香蕉成人二区免费| 日韩女同一区二区三区| 久久精品国产网站| 久久久99精品视频| 国内毛片久久| 国产经典一区二区| 麻豆传媒在线完整视频| 欧美成人精品3d动漫h| 国产在线综合网| 久久久无码精品亚洲日韩按摩| 青青在线视频免费| 久久久精品久久久久久96| 97netav| 黄色在线观看www| 亚洲天堂av在线免费观看| 国产孕妇孕交大片孕| 亚洲综合在线视频| 右手影院亚洲欧美| 久久精品国产亚洲高清剧情介绍 | 欧美一卡二卡三卡| 日本一区二区欧美| 国产亚洲女人久久久久毛片| 亚洲美女爱爱视频| 伊人影院久久| 日韩videos| 日本在线视频一区二区三区| 日韩av电影在线网| av网站在线免费看推荐| 日韩高清欧美高清| 亚洲视频一区在线播放| 亚洲一二三四区| 日本一道本视频| 国产成a人亚洲精| 超碰在线97免费| 亚洲国产免费看| 亚洲v欧美v另类v综合v日韩v| 日韩中文字幕一区二区高清99| 欧美亚洲日本黄色| 中国av在线播放| 亚洲天堂久久av| 亚洲奶汁xxxx哺乳期| 欧美揉bbbbb揉bbbbb| 日本三级片在线观看| 中文字幕亚洲电影| aaaaa一级片| 岛国一区二区三区| 日韩欧美国产片| 久久久久99| 免费看又黄又无码的网站| 久久久9色精品国产一区二区三区| 久久精品人人做人人爽电影| 亚洲成人影音| 成人动漫网站在线观看| 欧美magnet| 久久久噜噜噜久久中文字免| 麻豆电影在线播放| 日韩在线观看视频免费| 黄色网址在线播放| 日韩精品高清在线观看| 亚洲精品字幕在线| 91精品国产综合久久久久久久 | 欧美日本一区二区在线观看| 香蕉影院在线观看| 午夜精品一区二区三区电影天堂| 精品国产视频在线观看| 国产精品视频免费| 亚洲性猛交xxxx乱大交| 91美女片黄在线| 黄色激情在线观看| 成人永久看片免费视频天堂| 国产高清av片| 国产在线播放一区| 毛片毛片毛片毛| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲xxxx2d动漫1| 日本午夜精品一区二区三区电影| 国产成人无码av在线播放dvd| 亚洲欧美日本国产专区一区| 男人的天堂狠狠干| 99精品99| 亚洲中文字幕无码专区| 国产精品视区| 精品一卡二卡三卡| 男女精品网站| 一区二区成人网| 免费成人你懂的| 日韩av卡一卡二| 国内久久精品视频| 6080国产精品| 风间由美性色一区二区三区 | 中文字幕国产精品一区二区| 免费在线观看a视频| 国产欧美一区二区精品性色| 黄色三级生活片| 亚洲欧洲精品一区二区精品久久久| 国产在线观看免费视频软件| 亚洲欧美另类在线| 久久久久久福利| 偷拍与自拍一区| 婷婷激情五月综合| 欧美精品第1页| 亚洲国产欧美另类| 日韩av有码在线| 青青草娱乐在线| 日韩在线www| 1区2区在线观看| 91精品国产高清| 日韩一区二区三区在线免费观看 | 欧美人在线观看| freexxx性亚洲精品| 人人澡人人澡人人看欧美| 不卡亚洲精品| 超碰97在线人人| 综合国产视频| 在线观看欧美一区| 狠狠综合久久av一区二区老牛| 无码人妻少妇伦在线电影| 久久资源在线| www.国产福利| 91女厕偷拍女厕偷拍高清| 超薄肉色丝袜一二三| 亚洲激情五月婷婷| 久久夜色精品国产噜噜亚洲av| 欧美情侣在线播放| 日本成人动漫在线观看| 中文字幕精品一区久久久久| 性欧美video高清bbw| 日本一欧美一欧美一亚洲视频| 欧洲亚洲精品久久久久| 国产亚洲情侣一区二区无| 欧美午夜精彩| 99久久国产综合精品五月天喷水| 免费人成在线不卡| yy1111111| 亚洲色图欧美偷拍| 国产剧情在线视频| 精品福利二区三区| 18免费在线视频| 91精品国产色综合久久不卡98口| 日韩av懂色| 久久综合一区| 亚洲天堂成人| 中文字幕色网站| 国产网红主播福利一区二区| 国产在线免费视频| 欧美一区二区三区在线视频| 久久精品蜜桃| 午夜精品久久久久久久99热| 成人在线视频国产| 亚洲精品一区二区三区蜜桃久| 99亚洲视频| 少妇丰满尤物大尺度写真| 国产欧美精品一区二区色综合 | 欧美成人综合一区| 国产精品草草| √天堂资源在线| 国产精品女主播在线观看| 亚洲影院在线播放| 亚洲成人网在线观看| 羞羞视频在线观看免费| 91久久久久久久| 久久精品99久久无色码中文字幕| 免费无遮挡无码永久视频| 国产成人免费高清| 欧美丰满熟妇bbbbbb| 欧美美女一区二区三区| 国产大学生校花援交在线播放| 91福利视频在线观看| 成人av动漫| 欧美一级爱爱视频| 国产精品综合网| 2018天天弄| 日韩色视频在线观看| 久草免费在线观看| 国产日韩欧美视频在线| 日韩av在线播放网址| 五月婷婷丁香综合网| 国产日韩精品一区二区三区| 国产性生活视频| 中文字幕9999| 高清欧美日韩| 亚洲永久激情精品| 另类人妖一区二区av| 亚洲ⅴ国产v天堂a无码二区| 欧美日韩在线不卡| 欧洲不卡av| 3d蒂法精品啪啪一区二区免费| 欧美福利在线| fc2成人免费视频| 图片区小说区区亚洲影院| 日本大片在线观看| 国产成人精品免高潮在线观看| 国产欧美日韩视频在线| 亚洲性图一区二区| 亚洲三级久久久| 亚洲乱熟女一区二区| 68精品久久久久久欧美| 亚洲日产av中文字幕| 91香蕉视频污版| 亚洲视频1区2区| 天堂在线视频网站| 日本不卡视频在线播放| 日韩激情在线| 无码人妻一区二区三区在线视频| 亚洲综合无码一区二区| 天堂中文在线资源| 国产精品扒开腿做| 68国产成人综合久久精品| 精品人妻人人做人人爽夜夜爽| 午夜亚洲福利老司机| 伦理片一区二区三区| 成人美女免费网站视频| 在线日本高清免费不卡| 97超碰在线资源| 3d动漫精品啪啪一区二区竹菊| 青青青国内视频在线观看软件| 国新精品乱码一区二区三区18| 视频一区视频二区中文字幕| 欧美肥妇bbwbbw| 日韩成人xxxx| 91国产一区| 日韩a在线播放| 自拍偷拍亚洲综合| 日本高清中文字幕二区在线| 国产精品夜间视频香蕉| 亚洲三级色网| 亚洲一二三四五六区| 精品播放一区二区| 日本免费成人| www.日本在线播放| 亚洲欧美综合在线精品| 日本视频在线观看一区二区三区| 成人黄色中文字幕| 久久久久久网| 青娱乐av在线| 日韩有码在线电影|