精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大彭一杰教授課題組提出RiskPO,用風險度量優化重塑大模型后訓練

人工智能 新聞
北大團隊提出 RiskPO,核心突破在于將風險規避(risk-averse)理念融入優化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。

該項目由北京大學彭一杰教授課題組完成,第一作者為任韜,其他作者包括江金陽、楊暉等。

研究背景與挑戰:大模型后訓練陷入「均值陷阱」,推理能力難破界

當強化學習(RL)成為大模型后訓練的核心工具,「帶可驗證獎勵的強化學習(RLVR)」憑借客觀的二元反饋(如解題對錯),迅速成為提升推理能力的主流范式。從數學解題到代碼生成,RLVR 本應推動模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯 —— 但現實是,以 GRPO 為代表的主流方法正陷入「均值優化陷阱」。

這些基于均值的優化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:模型訓練早期就會出現熵坍縮,過早喪失探索能力;面對全錯的難題時,優勢函數直接歸零,模型在薄弱環節完全無法學習。最終結果是,大模型看似在 Pass@1 等短視指標上有提升,實則推理邊界從未拓寬,更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務。如何讓模型主動「啃硬骨頭」,成為大模型后訓練的關鍵瓶頸。

AIME2024 上的學習表現

技術方案概述:用「風險度量」破局,MVaR + 捆綁策略雙管齊下

為解決傳統均值優化的缺陷,北大團隊提出 RiskPO,核心突破在于將風險規避(risk-averse)理念融入優化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。

  • 論文鏈接:https://arxiv.org/abs/2510.00911v1
  • 代碼鏈接:https://github.com/RTkenny/RiskPO

這一思路的核心載體是「混合風險價值(MVaR)」目標函數。團隊首先基于區間風險價值(RVaR)構建基礎 —— 對于獎勵分布 ,其 α/β 分位數區間  內的 RVaR 定義為該區間內獎勵的條件期望,公式為:

在此基礎上,MVaR 通過引入權重參數 ,進一步放大左尾(低獎勵、難任務)的梯度信號,形成最終目標:

其中  即為對左尾區間  的額外關注權重,確保模型優先優化難任務。為讓該目標可落地,團隊還嚴謹推導了 MVaR 的梯度估計式子 —— 基于策略梯度的似然比求導方法,最終得到(式中  為捆綁后的總獎勵):

為配合 MVaR 目標,團隊提出「多問題捆綁」策略,將多個問題打包成 bundle 計算獎勵,把稀疏的二進制反饋轉化為更豐富的分布信號,徹底解決「難題零梯度」問題 —— 比如將 5 個數學題打包后,模型能從整體得分中捕捉到「部分正確」的學習信號,而非單個題目非對即錯的極端反饋。

算法架構圖

實驗:三大任務全面碾壓,難問題上優勢更顯著

好的技術方案,終要靠硬指標說話。北大團隊在數學推理、代碼生成、多模態推理三大領域的 10 余個數據集上,用數據證明了 RiskPO 的突破性 —— 尤其在最能體現推理能力的「硬任務」上,優勢遠超 GRPO 及其變體。

在數學推理領域,RiskPO 在 AIME24(美國數學邀請賽)任務上表現驚艷:Pass@32 得分比 GRPO 高出近 7 個百分點,比最強基線 DAPO 提升 6.7 個百分點;即便是相對簡單的 MATH500 數據集,其 Pass@1 也達到 81.8%,超出 GRPO 2.6 個百分點。

更關鍵的是,隨著評估指標從 Pass@1 轉向 Pass@8、Pass@16,RiskPO 的優勢持續擴大 —— 這意味著模型不僅能給出更優的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優化」的局限。

數學推理任務

Pass@k 學習曲線

在跨領域任務中,RiskPO 同樣穩定領先:代碼生成任務 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 個百分點;多模態幾何推理任務 Geo3K 上,準確率達到 54.5%,優于 DAPO 的 54.3%。這種「全場景增益」,證明了風險度量優化的泛化能力。

其他任務

理論 + 消融:熵坍縮緩解有依據,參數設計有章法

RiskPO 的性能突破,并非依賴工程調參,而是有扎實的理論支撐和嚴謹的消融實驗驗證。

高熵更新定理

從理論層面,團隊證明了「風險規避更新」能有效緩解熵坍縮:通過分析策略熵的變化機制,發現 RiskPO 的 MVaR 目標函數能降低「優勢 - 對數概率」的相關性 —— 相比 GRPO,模型不會過度強化已掌握的易任務,從而保持更高的熵值和探索能力。

實驗中也能清晰看到:訓練 500 步后,GRPO 的熵值已趨近于 0,而 RiskPO 仍能維持 0.2 以上的熵水平,確保對難任務的持續探索。

訓練集 DAPOMATH-17k 上的各項指標

值得注意的是,在訓練過程中,若僅觀察以均值為核心的指標曲線(如平均獎勵),GRPO 與 RiskPO 的表現幾乎難分伯仲,甚至 RiskPO 因更高的探索性還伴隨輕微波動;但切換到風險敏感指標(如下尾 RVaR、MVaR 獎勵)時,兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先,且隨訓練推進持續攀升。

這種「均值相近、風險指標懸殊」的現象,再結合最終測試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(如 AIME 競賽題)上的優勢,進一步印證了:均值目標只能讓模型在「已知能力范圍內優化采樣效率」,而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向。

不同風險偏好對比實驗

為進一步驗證風險規避目標的必要性,團隊還設計了「風險尋求(risk-seeking)」對比實驗:采用與 MVaR 結構對稱的風險尋求目標,即  ,重點關注獎勵分布的右尾(易任務)。

結果顯示,風險尋求模型的熵值在訓練早期就劇烈坍縮 —— 訓練 150 步后熵值已降至 0.1 以下,遠低于 RiskPO 的 0.2;性能上,風險尋求模型在訓練 50 步后便進入平臺期,MATH 數據集 Pass@1 僅從 52% 提升至 54%,而 RiskPO 則持續優化至 56%,實現 1.5 倍的提升幅度。

這一對比清晰證明,聚焦易任務的風險尋求策略會加速模型「固步自封」,只有風險規避才能驅動模型突破推理邊界。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-29 22:38:59

2023-11-27 13:51:00

模型訓練

2025-02-18 09:10:00

2025-08-26 09:07:00

2024-08-23 09:20:00

AI搜索

2023-11-07 11:50:14

AI訓練

2025-09-22 17:03:09

2023-11-29 14:00:00

AI數據

2024-09-12 12:46:36

2025-03-27 10:28:32

2022-10-26 13:44:12

訓練模型

2025-08-15 12:38:58

2020-04-07 13:06:07

AWS藥物篩選新冠病毒

2024-09-27 10:31:22

2024-09-30 13:50:00

2024-08-07 13:00:00

2025-04-16 02:30:00

2025-10-24 13:04:00

2025-05-19 14:57:44

架構模型AI

2023-12-09 15:21:47

模型分子
點贊
收藏

51CTO技術棧公眾號

国产私拍精品| 国产成人精品一区二三区| 羞羞视频在线观看一区二区| 亚洲欧美中日韩| 999热视频在线观看| 日本熟女一区二区| 欧美精品系列| 欧美一级夜夜爽| 男女猛烈激情xx00免费视频| av中文字幕在线| 国产成人综合精品三级| 26uuu亚洲伊人春色| 免费观看特级毛片| 久久亚洲道色| 欧美日韩国产片| 免费视频爱爱太爽了| 草碰在线视频| 成人动漫一区二区| 国产精品爽黄69| 国产在线拍揄自揄拍| 欧美美女视频| 欧美xxxxx牲另类人与| 无码人妻丰满熟妇区毛片18| 国产鲁鲁视频在线观看特色| 91影院在线免费观看| 96sao精品视频在线观看| 手机在线看片1024| 欧美日韩国产高清| 日韩网站免费观看| 日韩人妻无码一区二区三区| 久久丁香四色| 欧美三级在线视频| 国产肥臀一区二区福利视频| 羞羞网站在线看| 中文无字幕一区二区三区| 国产午夜精品在线| 精品久久久久成人码免费动漫| 视频一区二区欧美| 69视频在线免费观看| 麻豆疯狂做受xxxx高潮视频| 91视频综合| 国产亚洲精品日韩| 黄色短视频在线观看| 亚洲国产欧美国产第一区| 欧美人与z0zoxxxx视频| 国产成人精品视频ⅴa片软件竹菊| 青草视频在线免费直播| 亚洲图片激情小说| 亚洲女人毛片| aⅴ在线视频男人的天堂| 久久久另类综合| 国产综合欧美在线看| www.中文字幕| 国产伦精品一区二区三区免费迷| 国产美女久久精品| 一级黄色大片网站| 精品午夜久久福利影院| 91久热免费在线视频| 国产精品久久久久久久久久久久久久久久| 青娱乐精品视频在线| 国产精品日韩欧美大师| 一级片在线免费播放| 日本sm残虐另类| 国产精品中文在线| 国产美女主播在线观看| 国产一区二区三区香蕉| 亚洲综合日韩在线| 亚洲男人天堂久久| 99国产精品久久久久| 免费久久久一本精品久久区| 免费在线视频你懂得| 国产日产精品1区| 日韩成人av网站| av午夜在线| 亚洲天堂精品在线观看| 妺妺窝人体色www看人体| 成人女同在线观看| 日韩欧美第一页| 中文字幕天天干| 国产亚洲高清一区| 亚洲第一男人天堂| 青娱乐国产视频| 亚洲精品二区三区| 久久久影视精品| 久久久国产精品x99av | 污软件在线观看| 欧美激情第10页| 2018国产精品视频| 伊人网av在线| 成人小视频免费在线观看| 久久天天狠狠| 国产剧情在线| 精品久久久久久中文字幕大豆网| 成人亚洲视频在线观看| 国产日韩在线观看视频| 日韩福利在线播放| 91香蕉视频污在线观看| 亚洲人成高清| 成人av.网址在线网站| 男人天堂网在线视频| 日本一二三不卡| 日本男女交配视频| 国产美女久久| 亚洲精品美女久久久久| 91久久久久久久久久久久久久| 在线精品福利| 国产一区二区丝袜高跟鞋图片| 免费av网站在线播放| 国产精品久久久久一区二区三区共| 国产成人永久免费视频| 97精品国产综合久久久动漫日韩 | 亚洲精品久久久蜜桃| 国产原创中文在线观看| 国产精品1区| 亚洲欧美日韩图片| 日本三级视频在线| 韩国欧美一区二区| 欧美一区观看| а√在线中文网新版地址在线| 欧美另类videos死尸| 亚洲狠狠婷婷综合久久久久图片| 91精品国产乱码久久久久久久| 欧美伊久线香蕉线新在线| 国产黄频在线观看| 日韩一区欧美小说| 91淫黄看大片| 丝袜连裤袜欧美激情日韩| 欧美成人免费大片| 亚洲一区二区色| 久久精品人人做人人爽人人| 欧洲精品一区二区三区久久| 久久久久久久久久久久电影| 自拍偷拍亚洲精品| 香蕉污视频在线观看| 99re成人在线| r级无码视频在线观看| 欧美成人精品午夜一区二区| 久久精品99国产精品酒店日本| 无码人妻精品一区二区三区不卡| av高清久久久| 极品美女扒开粉嫩小泬| 成人爽a毛片免费啪啪红桃视频| 久久国产精品久久国产精品| 国产露脸91国语对白| 亚洲国产精品成人综合色在线婷婷 | 亚洲高清视频的网址| 91porn在线| 欧美成人综合| 成人免费视频观看视频| 欧美bbbxxxxx| 欧美精品一区二| 国产一级在线播放| 成人av在线播放网站| 欧美久久久久久久久久久久久 | 精品美女在线播放| 久草资源在线视频| 成人国产在线观看| 久久国产成人精品国产成人亚洲| 欧美18免费视频| 欧美又大又硬又粗bbbbb| 日本一二三区在线视频| 色av综合在线| 久久久久久久久福利| 久草热8精品视频在线观看| 中文字幕色一区二区| 香蕉大人久久国产成人av| 欧美风情在线观看| 少妇高潮久久久| 欧美性生交xxxxx久久久| 国精产品一区一区三区免费视频| 日韩高清中文字幕一区| 正在播放一区二区三区| 一区二区三区四区视频免费观看| 久久久久久久久综合| 五月婷婷丁香六月| 色999日韩国产欧美一区二区| 天天舔天天操天天干| 国产精品系列在线播放| 日本三日本三级少妇三级66| h视频久久久| 日韩女优人人人人射在线视频| jizzjizz在线观看| 日韩精品一区二区三区在线播放 | 91久久中文字幕| f2c人成在线观看免费视频| 亚洲免费精彩视频| 国产精品主播一区二区| 亚洲成人资源网| 蜜桃传媒一区二区亚洲| 国产乱子轮精品视频| 国产av天堂无码一区二区三区| 欧美美女视频| 国产区一区二区| 成人激情综合| 欧美激情手机在线视频 | 国产日产欧美一区二区三区| 午夜免费一级片| 一本综合精品| 在线视频一区观看| 亚洲国产国产| 亚洲精品欧美日韩| 国产精品一区二区av影院萌芽| 久久视频这里只有精品| 亚洲色图21p| 欧美猛男gaygay网站| 天堂中文在线网| 依依成人精品视频| 手机毛片在线观看| av网站一区二区三区| 亚洲精品在线网址| 日韩中文字幕不卡| 成人中文字幕在线播放| 欧美+亚洲+精品+三区| 日韩欧美视频一区二区| 成人爽a毛片免费啪啪红桃视频| 成人激情黄色网| 日日av拍夜夜添久久免费| 午夜精品视频在线| 成人av黄色| 中文字幕亚洲精品| 国产在线观看免费| 亚洲精品美女久久久久| 成人激情四射网| 欧美二区三区91| 欧美成人一区二区视频| 狠狠干狠狠久久| 精品视频久久久久| 亚洲人成人一区二区在线观看 | 国产精品一线天粉嫩av| 国产欧美欧洲| 国产厕拍一区| 99在线看视频| 国产精品日本一区二区不卡视频| 国产精品v片在线观看不卡| 国内精彩免费自拍视频在线观看网址| 久久精品视频免费播放| 91ph在线| 色老头一区二区三区| 国产三级在线| 亚洲日本中文字幕| 天天干在线观看| 亚洲精品www| 网站黄在线观看| 亚洲福利视频专区| 五月婷婷伊人网| 亚洲国产天堂网精品网站| 亚洲欧美激情另类| 欧美成人video| 亚洲精品久久久久久动漫器材一区| 56国语精品自产拍在线观看| 一级片aaaa| 欧美精品99久久久**| 91精品视频免费在线观看| 欧美三区在线观看| 国产精品国产精品国产专区| 欧美一区二区网站| 成 人片 黄 色 大 片| 日韩欧美在线1卡| 成人av免费播放| 亚洲国产日韩一区| 九色在线观看视频| 中文字幕日韩欧美在线视频| 午夜看片在线免费| 久热精品视频在线免费观看| 欧美6一10sex性hd| 国产91ⅴ在线精品免费观看| 成人性教育av免费网址| 国产精品国产亚洲伊人久久| 欧美v亚洲v综合v国产v仙踪林| 91免费综合在线| 久久久伦理片| 色一情一区二区三区四区 | 99在线热播精品免费| 国内精品久久99人妻无码| 国产三级三级三级精品8ⅰ区| 老司机精品免费视频| 一区二区成人在线视频| 国产精品免费av一区二区| 欧日韩精品视频| 国产精品探花视频| 亚洲国产欧美日韩精品| 成a人v在线播放| 精品少妇v888av| 中文字幕这里只有精品| 国产欧美婷婷中文| 成人av综合网| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 日韩av视屏| 日韩在线视频一区| 99久久精品免费看国产小宝寻花| 国产精品福利在线观看| 国产免费av国片精品草莓男男| 国产区二精品视| 99精品一区| 男人日女人逼逼| 精品在线一区二区三区| 国产一级伦理片| 国产精品国产a级| 成人精品在线看| 7777精品伊人久久久大香线蕉超级流畅| 免费观看黄色一级视频| 中文字幕日韩欧美在线 | 国产精品久久激情| 9l视频自拍蝌蚪9l视频成人| 深夜福利成人| 亚洲美女色禁图| 亚洲18在线看污www麻豆| 91免费观看视频在线| 久久久久亚洲av片无码| 欧美性少妇18aaaa视频| 亚洲精品国产手机| 久久久精品欧美| 欧美黑人巨大xxxxx| 成人动漫视频在线观看完整版 | 精品国产麻豆| 日本不卡一区| 99精品热视频只有精品10| 天天操夜夜操很很操| 欧美韩国日本综合| 亚洲黄色激情视频| 亚洲大胆人体在线| 91在线中字| 成人两性免费视频| 欧美日韩国产高清电影| av观看免费在线| 9色porny自拍视频一区二区| 69xx绿帽三人行| 91麻豆精品国产91久久久| eeuss影院在线播放| 日产精品99久久久久久| 欧美日韩大片免费观看| www.日本在线播放| 99视频精品全部免费在线| 国产亚洲精品女人久久久久久| 欧美精品少妇一区二区三区 | 欧美精彩视频一区二区三区| 日本高清不卡码| 日韩成人在线网站| jizz一区二区三区| 国产精品一区而去| 亚洲成人直播| 国产原创剧情av| 亚洲国产一区二区三区 | 亚洲天堂av网| av激情成人网| 视频在线99re| 麻豆久久久久久久| 黑人操日本美女| 欧美一级艳片视频免费观看| 69成人在线| 粉嫩av一区二区三区免费观看| 亚洲午夜激情在线| 日本少妇xxxx| 欧美日韩中文字幕在线| 欧洲天堂在线观看| 国产精品免费视频xxxx| 日韩在线观看电影完整版高清免费悬疑悬疑| 538在线视频观看| 国产精品久久久久久久久图文区| 91久久久久国产一区二区| 久久国产精品久久久久久| a看欧美黄色女同性恋| 国产原创popny丨九色| 国产亚洲欧美日韩日本| 一二区在线观看| 欧美成人精品激情在线观看| 一区二区三区在线免费看| 国产欧美日韩小视频| 99热99精品| 欧美成人手机视频| 日韩高清欧美高清| 69堂精品视频在线播放| 日韩欧美一区二区三区久久婷婷| 精品一区二区三区在线播放| 免费国产羞羞网站美图| 欧美日韩国产另类一区| 污视频网站免费在线观看| 99re在线| 久久婷婷丁香| 日本高清黄色片| 日韩视频在线你懂得| 91九色美女在线视频| 视频一区不卡| 国产中文一区二区三区| 永久免费看片在线播放| 尤物九九久久国产精品的分类 | 春色成人在线视频| 亚洲视频播放| 国产精品一区二区亚洲| 欧美www视频| 国产91亚洲精品久久久| 毛片av在线播放| 国产欧美在线观看一区| 国产精品人妻一区二区三区| 欧美一级黄色网| 日本一区二区高清不卡| 免费黄色三级网站| 欧美四级电影在线观看| 欧美成人精品一区二区男人看| 91视频婷婷|