精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS25高分論文|以判別式監督學習強化推理LLM,解決難度偏差和熵崩塌難題

人工智能 新聞
在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

作者介紹:德州農工大學博士生李港,專注于設計和應用高效算法到大規模機器學習和人工智能任務,包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發表數篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發布了針對不平衡分類任務的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對群體相對策略優化(GRPO)作為大型推理模型(LRM)強化學習方法的廣泛關注。

在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

基于這些分析發現,作者提出了一個新穎的判別式約束優化(DisCO)框架來強化大型推理模型。該框架基于判別式學習的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

與 GRPO 及其變體相比,DisCO 具有以下優勢:

  1. 它通過采用判別式優化目標完全消除了難度偏差;
  2. 通過使用非裁剪評分函數和約束優化方法,解決了 GRPO 及其變體的熵不穩定性,得到了長期穩定的訓練動態;
  3. 它允許結合先進的判別式學習技術來解決數據不平衡問題,例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

在增強大型模型的數學推理能力方面的實驗表明,DisCO 大幅優于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應長度(max response length)為 8k 的 DisCO 甚至優于最大響應長度為 32k 的 GRPO。

論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。

  • 論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
  • 論文地址:https://arxiv.org/abs/2505.12366
  • 開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
  • GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問題分析

GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優勢函數。當采用期望形式而非經驗平均時,其優化目標為:

其中,表示群體相對優勢函數,表示裁剪操作,是凍結的參考模型。在二元獎勵(binary reward)設置下,即獎勵函數時,上述目標可簡化為(暫時忽略 KL 項后):

其中:

  • 是正確答案概率
  • 是獎勵為 1 的輸出分布(正確答案)
  • 是獎勵為 0 的輸出分布(錯誤答案)
  • 是裁剪后的評分函數。

從上面的變式分析中,作者有兩個重要發現:

1. 與判別式監督學習的聯系

在上述優化目標中,最大化就是在增加正確答案的得分,同時減少錯誤答案的得分。這種優化目標與 AUC 最大化的判別式監督學習的思路不謀而合。

2. 難度偏差(Difficulty Bias)

在上述優化目標中,在每個問題上起到了加權作用,導致模型只重點學習「中等難度」的問題(如下圖 a 所示)。然而實際訓練過程有很多正確率相對較高或較低的問題卻不被重視,使得學習效率下降。

當作者移除進行實驗發現,沒有加權的變體「GRPO_RW」能夠在更多的問題上實現 100% 正確率和更少的問題上實現 0% 正確率(如下圖 c, d 所示),證實了不適當的加權的有害影響。

提出方法:判別式強化學習

1. 判別式目標函數(類似 AUC 優化)

基于上述與 AUC 最大化聯系的分析發現,作者直接從判別式學習的原則重新設計了新的判別式強化學習框架:

為了避免其他研究發現的由裁剪操作引起的熵崩塌現象,作者設計選擇非裁剪評分函數, 例如:

  • 對數似然 (log-L):
  • 似然比 (L-ratio):

2. 基于 DRO 的判別式目標函數(類似局部 AUC 優化)

基于判別式學習原則設計目標函數的一個優點是能夠利用文獻中先進監督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰就是稀疏獎勵,這導致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數量可能大大超過正確答案的數量,這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

為了解決這個問題,作者利用局部 AUC 優化設計了分布魯棒性優化(DRO)目標:

3. 約束優化(穩定訓練)

為了穩定訓練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優化問題:

  • DisCO-b:
  • DisCO:

不同于 TRPO 的二階優化方法,作者采用近期發展的一種非凸不等式約束優化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):

其中。 在適當條件下, 求解上述方形鉸鏈懲罰目標可保證滿足原始問題的 KKT 條件。

實驗結果與分析

測試效果對比

作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數學基準數據集上評估了 DisCO 和其他基線方法。

從下表觀察到,作者提出的 DisCO 方法始終顯著優于其他基線方法。值得注意的是,訓練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優于所有基線方法,比 GRPO 平均提高了 3.5%。

在上面這張表格中,作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓練或測試時使用的最大響應長度,限制模型能生成多長的推理結果。 其中用陰影標注的模型,是其他團隊所訓練的成果,相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結果要么來自現有模型的直接評估,要么是基于不同方法訓練后得到的結果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數據集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。

訓練動態對比

隨著大規模強化學習訓練成為改進推理模型的核心技術,學習算法的穩定性至關重要,因為學習穩定性決定了學習算法是否適用于大規模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態。

從下圖對 1.5B 和 7B 模型進行微調的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩定的生成熵。

相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩定,訓練獎勵不斷增加,生成熵保持相對穩定。

上圖展示不同方法在訓練過程中的動態表現:左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況,右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況,獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值(反映輸出的多樣性)隨訓練步數的變化趨勢。

消融實驗

作者通過單獨替換 DisCO 中的組件來分析每個組件的單獨貢獻。他們在 1.5B 模型上進行了實驗,與 (1) 去除困難負樣本權重的 DisCO-b 進行了比較;(2) 在 DisCO-b 中添加問題級權重偏差,(3) 在 DisCO-b 中使用 KL-divergence 正則化替換 KL-divergence 約束,以及 (4) 在 DisCO-b 中分別使用的裁剪評分函數。

從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數是至關重要的。

總結

在這項工作中,作者提出了一種新的判別式約束優化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數學推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優越性。

雖然這項工作主要關注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優化微調更大的模型或其他推理任務留作后續研究。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-06-12 14:04:45

深度學習人工智能

2020-08-14 11:00:44

機器學習人工智能機器人

2020-08-16 11:34:43

人工智能機器學習技術

2023-11-23 15:54:01

人工智能監督學習無監督學習

2020-04-28 17:26:04

監督學習無監督學習機器學習

2025-10-14 08:58:00

2025-10-29 09:25:34

LLM模型訓練

2025-07-09 01:22:00

AI強化學習監督學習

2015-10-12 10:37:42

學習算法檢測

2019-10-14 10:40:03

機器學習人工智能非監督學習

2025-10-13 09:10:00

2021-12-06 17:38:51

強化學習工具人工智能

2025-10-21 09:06:00

2022-02-07 15:08:58

視覺理解研究模型

2021-11-08 22:42:51

機器學習監督學習數據

2022-11-12 13:50:39

學習模型計算機算法

2025-07-03 01:45:00

LLMCoT思維鏈

2023-07-10 16:01:56

2022-02-15 09:04:44

機器學習人工智能監督學習

2025-07-09 07:52:59

點贊
收藏

51CTO技術棧公眾號

欧美日韩ab片| 3751色影院一区二区三区| 久久久久久精| ,亚洲人成毛片在线播放| 亚洲国产精品久久久天堂| 亚洲高清久久网| 黄色三级视频片| 亚洲h片在线看| 久久嫩草精品久久久精品| 国产伊人精品在线| 亚洲日本韩国在线| 性xxxx欧美老肥妇牲乱| 亚洲高清久久久久久| 亚洲精品自拍网| 美女视频在线免费| 亚洲欧洲99久久| 久久国产手机看片| 国产乱人乱偷精品视频a人人澡| 亚洲国产婷婷| 欧美成人激情在线| 亚洲性猛交xxxx乱大交| 日韩第一区第二区| 日本高清不卡一区| 黄色片网址在线观看| 69久久夜色| 久久精品亚洲一区二区三区浴池| 亚洲自拍另类欧美丝袜| 三级网站在线播放| 亚洲精品国产日韩| 久久在线视频在线| jizz18女人高潮| 亚洲另类春色校园小说| 精品日韩在线观看| 亚洲这里只有精品| 欧美日韩电影免费看| 亚洲高清在线精品| 日本免费黄色小视频| 日本蜜桃在线观看| 欧美国产丝袜视频| 久久久久久久久四区三区| 黄色av网站免费在线观看| 国内国产精品久久| 91精品在线观看视频| 亚洲中文无码av在线| 久久一区中文字幕| 欧美有码在线视频| 美日韩一二三区| 99香蕉国产精品偷在线观看 | 在线成人激情| 中文字幕国产精品| 欧美xxxx精品| 欧美一区三区| 中文字幕在线观看日韩| 欧美激情视频二区| 欧洲grand老妇人| 亚洲人成欧美中文字幕| 色婷婷av777| 日本欧美高清| 亚洲欧美综合另类中字| 午夜一区二区三区免费| 日韩影视高清在线观看| 亚洲精品不卡在线| 人妻少妇精品视频一区二区三区| 欧美一区二区三区红桃小说| 日韩av在线直播| 女尊高h男高潮呻吟| 亚洲都市激情| 在线观看日韩av| 午夜黄色福利视频| 日韩欧美网站| 欧美猛男性生活免费| 久久免费公开视频| 亚洲欧美日韩专区| 国产成人精品在线视频| 亚洲资源在线播放| 国产乱妇无码大片在线观看| 高清av免费一区中文字幕| 亚洲精品无码久久久| av激情综合网| 天天爽天天狠久久久| 国产福利视频在线观看| 亚洲一级在线观看| 91蝌蚪视频在线观看| 国产乱码精品一区二区三区亚洲人 | 国产伦精品一区二区三区免费视频 | 国产午夜久久久| 在线观看亚洲| 国产大片精品免费永久看nba| 中文字幕+乱码+中文乱码www| 国内精品伊人久久久久影院对白| 99免费在线观看视频| 四虎电影院在线观看| 国产精品每日更新| 拔插拔插海外华人免费| 黑人巨大精品| 日韩午夜中文字幕| 91视频免费观看网站| 天天色综合色| 4438全国亚洲精品在线观看视频| 一区二区三区免费观看视频| 不卡高清视频专区| 亚洲欧美精品在线观看| a级片在线免费| 欧美精品乱码久久久久久按摩| 野战少妇38p| 久久中文字幕二区| 98精品国产自产在线观看| 亚洲天堂狠狠干| a在线欧美一区| 久久免费视频2| 欧美男女交配| 精品国产99国产精品| 国产真人真事毛片视频| 亚洲精品视频啊美女在线直播| 国产精品啪视频| 日韩精品视频无播放器在线看| 亚洲情趣在线观看| 久久综合久久色| 极品国产人妖chinesets亚洲人妖| 亚洲网站在线观看| 久久露脸国语精品国产91| 久久国产精品露脸对白| 欧美一级片免费观看| 日本伦理一区二区| 欧美乱妇20p| 亚洲成人黄色av| av不卡在线看| 粉嫩精品一区二区三区在线观看| 欧洲不卡av| 91福利视频网站| 97人妻精品一区二区三区免| 国产一区二区三区四区老人| 亚洲一区二区三区sesese| 成人免费在线电影| 一本色道**综合亚洲精品蜜桃冫| 91成人在线观看喷潮蘑菇| 欧美大片aaaa| 国产精品入口尤物| 国产免费a∨片在线观看不卡| 午夜精品久久久久影视| 国产精品无码自拍| 欧美 日韩 国产 一区| 成人午夜高潮视频| 999在线视频| 在线观看国产91| 性高潮久久久久久久 | 日本精品www| 日本韩国欧美超级黄在线观看| 久久久久久久一区二区三区| 99久久久久久久| 亚洲天堂av一区| 精品亚洲视频在线| 国产精品福利在线观看播放| 国产精品综合久久久| 尤物网址在线观看| 欧美日免费三级在线| 99久久久无码国产精品不卡| 久久成人羞羞网站| 在线播放豆国产99亚洲| 粉嫩av国产一区二区三区| 久久视频在线直播| av网站免费播放| 一区二区三区成人在线视频| 中文字幕18页| 亚洲深夜av| 欧美人与物videos另类| 成人va天堂| 日韩在线视频网站| 99热这里只有精品99| 亚洲精品福利视频网站| 涩视频在线观看| 99精品国产99久久久久久福利| 久久国产日韩欧美| 超薄肉色丝袜脚交一区二区| 中文日韩电影网站| 国产黄色片av| 午夜激情综合网| 中字幕一区二区三区乱码| 捆绑调教一区二区三区| 亚洲色婷婷久久精品av蜜桃| 北条麻妃一区二区三区在线观看| 欧美一区二三区| 在线免费观看的av网站| 欧美一区二区三区人| 国产一级av毛片| 久久婷婷综合激情| 亚洲黄色片免费| 99成人在线| 一区二区在线观| av成人资源| 国产精品成熟老女人| 日本中文在线观看| 亚洲第一区中文99精品| 久久午夜鲁丝片| 一区二区激情视频| 法国伦理少妇愉情| 国产福利电影一区二区三区| 免费在线激情视频| 亚洲精彩视频| 欧美一进一出视频| aiss精品大尺度系列| 国产精品久久久久77777| 亚洲wwwww| 中文字幕亚洲精品| 午夜性色福利影院| 制服丝袜激情欧洲亚洲| 五月天激情国产综合婷婷婷| 亚洲精品一二三区| www在线观看免费视频| 岛国一区二区三区| 视色视频在线观看| 欧美中文日韩| 黄色片免费在线观看视频| 国产探花一区二区| av一本久道久久波多野结衣| 国产三级一区| 国产成人精品国内自产拍免费看| 美女精品导航| 久久影院中文字幕| av电影在线观看| 国产视频精品自拍| 午夜精品久久久久久久96蜜桃| 久久久久久久久免费视频| 一个色在线综合| 亚洲欧美精品久久| 91麻豆高清视频| 日本精品一二三区| 国产一区中文字幕| 在线观看的毛片| 裸体一区二区| 男女超爽视频免费播放| 女主播福利一区| 男人的天堂成人| 国产精品88久久久久久| 日韩欧美国产二区| 九九综合九九| 玖玖玖精品中文字幕| 成人搞黄视频| 成人片在线免费看| 涩涩屋成人免费视频软件| 91在线免费网站| 日日狠狠久久| 成人网欧美在线视频| 欧美久久久网站| 国产欧美日韩免费| 国产成人精品一区二区三区免费| 国产91免费观看| 国产精品伦理| 国产成人精品久久久| 桃花岛成人影院| 国产成一区二区| 久久av日韩| 91在线中文字幕| 日韩av综合| 国产亚洲精品美女久久久m| 中文在线免费一区三区| 国产99在线免费| 精品按摩偷拍| 欧美不卡1区2区3区| 免费看日本一区二区| 日韩欧美视频一区二区三区四区| 激情五月色综合国产精品| 日韩一区免费观看| 欧美freesextv| 日本精品免费视频| 欧美日本中文| 欧美日韩一道本| 日韩精品国产精品| 天天干天天爽天天射| 精东粉嫩av免费一区二区三区| 亚洲av毛片在线观看| 国产成人av一区二区三区在线| xfplay5566色资源网站| 26uuu国产日韩综合| 日本一二三不卡视频| 18欧美亚洲精品| 国产精品99无码一区二区| 日韩欧美国产网站| 又色又爽又黄无遮挡的免费视频| 欧美高清视频一二三区 | 日韩精品福利视频| 99精品视频精品精品视频| 亚洲天堂第一区| 午夜亚洲视频| 黄色片免费网址| 99久久夜色精品国产网站| 中文字幕在线观看免费高清 | 大桥未久一区二区| 亚洲激情午夜| 少妇一级淫免费放| 粉嫩一区二区三区在线看| 欧美亚一区二区三区| 亚洲私人黄色宅男| 日本黄色片视频| 欧美日韩二区三区| 日韩在线观看视频一区| 中文字幕国产日韩| 国产精品yjizz视频网| 国产精品日韩欧美综合| 国产91精品入| 亚洲国产精品www| 禁久久精品乱码| 午夜剧场在线免费观看| 久久综合久久鬼色中文字| 欧美第一页在线观看| 91国在线观看| 日本波多野结衣在线| 中文字幕精品一区二区精品| 欧美另类老肥妇| 91老司机在线| 国产一区二区观看| www.日本少妇| 激情六月婷婷久久| 91在线无精精品白丝| 偷拍亚洲欧洲综合| 国产女18毛片多18精品| 中文亚洲视频在线| 大胆人体一区二区| 超碰97人人在线| 久久久久久久久国产一区| 欧美精品一区二区三区免费播放| 丁香亚洲综合激情啪啪综合| 三级av在线免费观看| 在线观看中文字幕不卡| 无码国产精品一区二区色情男同| 久久av红桃一区二区小说| 国产成人午夜性a一级毛片| 欧美性大战久久久久| 亚洲高清电影| 熟女人妻一区二区三区免费看| 亚洲天堂a在线| 91国产精品一区| 中文字幕日韩av综合精品| 成人影院网站| 免费电影一区| 午夜在线视频一区二区区别| 久久久久久久无码| 亚洲图片欧美综合| 亚洲精品成人区在线观看| 久久综合久久88| 麻豆国产精品| 蜜桃视频一区二区在线观看| 国产精品影视在线| 极品久久久久久| 欧美一区二区视频网站| 国产精品刘玥久久一区| 91久久久久久久久久| 久久精品亚洲欧美日韩精品中文字幕| 国产原创精品在线| 国产精品不卡一区二区三区| 一级aaaa毛片| 久久中文字幕国产| 精品国产18久久久久久二百| 国产又粗又长又爽视频| 国产福利一区二区三区视频在线| 三级影片在线看| 日韩美女在线视频| av资源一区| 欧美国产二区| 免播放器亚洲一区| 91大神福利视频| 欧美一区二区啪啪| 女同视频在线观看| 久久精品日产第一区二区三区乱码| 亚洲精品九九| 欧美大波大乳巨大乳| 欧美日韩视频不卡| а√天堂官网中文在线| 国产精品区一区二区三在线播放| 亚洲国产影院| 国产精品扒开腿做爽爽| 欧美日韩成人在线一区| 欧美人体视频xxxxx| 久久久久久一区| 麻豆精品久久精品色综合| 亚洲一级生活片| 欧美精品一区二区三区在线| 亚洲欧美韩国| 一区二区三区免费看| 国产成人综合在线观看| 自拍偷拍欧美亚洲| 永久555www成人免费| 日韩有吗在线观看| av7777777| 国产精品传媒入口麻豆| 色丁香婷婷综合久久| 国产精品老牛影院在线观看| 欧美日韩国产综合网| 国产艳俗歌舞表演hd| 欧美精品自拍偷拍动漫精品| 国模雨婷捆绑高清在线| 日本成人黄色免费看| 国产一区二区成人久久免费影院| 日韩人妻无码一区二区三区99| 中文字幕av一区中文字幕天堂| 永久免费精品视频| 99视频精品免费| 一区二区三区欧美日韩| 国产黄在线看| 国产精品美女诱惑|