精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為什么明明很準,獎勵模型就是不work?新研究:準確度 is not all you need

人工智能 新聞
訓練狗時不僅要讓它知對錯,還要給予差異較大的、不同的獎勵誘導,設計 RLHF 的獎勵模型時也是一樣。

我們知道,一個 RLHF 算法是否成功的一大關鍵在于其獎勵模型(RM)的質量。但是,我們應該如何衡量 RM 的質量呢?近日,普林斯頓大學一個研究團隊發現,如果僅用準確度來衡量 RM 的質量,可能無法完全體現一個獎勵模型作為有效教師的特性。為此,他們選擇了從優化角度來研究這個問題。

圖片


  • 論文標題:What Makes a Reward Model a Good Teacher? An Optimization Perspective
  • 論文鏈接:https://arxiv.org/pdf/2503.15477

在這篇論文中,他們證明:無論獎勵模型有多準確,如果它會導致獎勵方差較低,那么 RLHF 目標優化起來就會比較緩慢。即使是完全準確的獎勵模型也會導致優化速度極其緩慢,性能表現趕不上會導致獎勵方差較高但準確度較低的模型。

他們還表明,對一種語言模型有效的獎勵模型可能會讓另一種語言模型的獎勵方差較低,從而導致優化過程變得緩慢。

這些結果說明:如果在設計獎勵模型時僅基于準確度或不考慮具體的語言模型,那么就會遭遇一些根本性的限制。總體而言,除了準確度之外,獎勵模型還需要誘導出足夠的方差才能實現有效優化。

考慮到強化學習與生物大腦學習機制具有一定的共通性,于是我們求助了 Claude,讓它通過「人訓練狗」的類比給我們提供了更為直觀易懂的解釋:

圖片

看起來這個解釋還不錯?

這項工作吸引了不少研究者的注意。其中,來自斯坦福大學的 AI 研究者Rajan Vivek 不止肯定了該工作的價值,還給出了一些讓獎勵更加細粒度(誘導獎勵方差)的技巧,包括:

  1. 在最小對比對上進行訓練:可以人工合成這些對比對,要求獎勵模型能夠可靠地為其中一個輸出賦予略高的分數。
  2. 從生成式獎勵模型中計算連續獎勵:通過取 token 概率和分數的加權和來實現。
  3. 結合監督微調(SFT)、均方誤差(MSE)和偏好損失:這些方法使模型能夠生成推理依據,優化其連續獎勵,并有效地從最小對比對中學習!

圖片

下面繼續來看原論文給出的更為技術化的描述。

從優化視角看如何設計優良的獎勵模型

該團隊研究的是通過策略梯度最大化 RLHF 目標(如下 (1) 式)時預期的真實獎勵 r_G 增加到所需量所需的時間。這個時間越短越好。

圖片

他們證明,如果獎勵模型 r_RM 會為初始策略引入較低的獎勵方差,則由于目標圖景平坦,r_RM 和 r_G 都會以較慢的速度增加。因此,為了實現高效優化,r_RM 需要確保獎勵方差不會太低。

之后,他們確立了獎勵方差和優化率之間關系的兩個主要含義。

1、由于獎勵方差與準確度沒有綁定,因此更準確的獎勵模型不一定是更好的教師。

2、由于相同的獎勵模型可能會給一種策略引入較高的獎勵方差,但為另一種策略引入較低的獎勵方差,因此對于不同的初始策略,使用不同的獎勵模型會有更好的效果。

圖 1 展示了準確度與獎勵方差對 RLHF 目標圖景的影響。

圖片

具體來說,準確度和獎勵方差體現了獎勵模型的不同方面:前者控制著與 ground truth 獎勵的對齊,而后者決定了目標圖景的平坦度。

準確度越低,獎勵模型越容易受到獎勵 hacking 攻擊 —— 獎勵模型認為有益的方向可能并不會提升 ground truth 獎勵。另一方面,即使獎勵模型完全準確,低獎勵方差也意味著平坦的圖景有礙策略梯度方法的效率。

低獎勵方差意味著最大化獎勵的速度緩慢

這里將預期獎勵所需的時間下限設為一個加法常數。定理 1 表明,這個時間的增長與 圖片 成反比,這是  r_RM 針對初始策略與訓練集 S 中的提示詞得到的平均獎勵方差。這樣一來,如果提示詞 x ∈ S 的圖片 較低(即當 r_RM 無法充分地分離在初始策略下可能的輸出時),則策略梯度就會出現優化速度慢的問題。

圖片

定理 1 是原論文中定理 4 的精簡版,對其的證明請訪問原論文附錄部分。

眾所周知,低獎勵方差意味著通過 softmax 產生下一 token 分布的策略出現了梯度消失現象。

具體而言,對于任何提示詞 x 和策略 π_θ,圖片 都會隨著 圖片 衰減。然而,僅憑這一點并不能得到令人滿意的獎勵最大化率下限,因為如果沒有進一步的知識,梯度范數可能會在訓練過程中迅速增加。

但研究表明情況并非如此:當獎勵方差較低時,RLHF 目標的高階導數會與梯度一起消失,從而阻止梯度范數的快速增加。這會限制策略參數 θ(t) 的移動,從而導致獎勵增長率的下限。

更準確的獎勵模型不一定是更好的教師

上一小節表明:低獎勵方差會阻礙策略梯度的效率。值得注意的是,獎勵方差與通常用于評估獎勵模型的指標(準確度)無關。準確度僅取決于獎勵模型如何排序不同的輸出,而不考慮其獎勵之間的分離程度,而獎勵方差則由這種分離程度決定。定理 2 確定的一個關鍵含義是:準確的獎勵模型 r_RM 也可能有較低的獎勵方差。

需要明確一下,定理 2 考慮了兩點:(i) 存在 r_RM 完全準確而 r′_RM 幾乎完全不準確的極端情況;(ii) 對于提示詞 x 和獎勵模型 r_RM,關于無序輸出對的均勻分布的準確度用 accx (rRM) 表示。關于該定理的詳細版本(定理 5)的證明請訪問原論文附錄。

圖片

該團隊指出,定理 2 并不意味著高準確度的獎勵模型就一定是糟糕的教師。事實上,在幾乎任何準確度水平上,一些獎勵模型都會導致優化低效,而其他獎勵模型則表現良好。定理 2 只是形式化了準確度本身不足以評估 RLHF 中的獎勵模型的原因。

盡管如此,準確度仍是一個需要努力追求的屬性,因為更準確的模型通常不太容易受到獎勵 hacking 攻擊。也就是說,當使用不完美的獎勵模型進行訓練時,由于兩個獎勵不匹配,最終 ground truth 獎勵可能會開始減少。因此,通常的做法是只運行幾個 epoch 的策略梯度。定理 2 體現到了這種情況,其中準確度較低的獎勵模型可以通過推動 ground truth 獎勵的更快增加而勝過更準確的獎勵模型。

準確度的作用取決于對齊方法。雖然準確度本身并不能保證 RLHF 的有效性,但其重要性因對齊方法而異。例如,在 Best-of-N 采樣中,很容易證明完全準確的獎勵模型始終是最佳的。

對于不同的初始策略,不同的獎勵模型更好

獎勵方差取決于獎勵模型和策略。特別是,對一個策略產生高獎勵方差的獎勵模型可能會對另一個策略產生低獎勵方差。因此,獎勵方差和優化之間的聯系意味著對于不同的初始策略,使用不同的獎勵模型會更好,見定理 3。這表明,為了忠實地評估 RLHF 的獎勵模型,需要考慮正在對齊的策略。

圖片

實驗結果

在實驗部分,作者驗證了從理論分析中得出的結論在實踐中是成立的。

首先,他們表明,在策略梯度期間,獎勵方差與獎勵最大化率密切相關。具體來說,在固定訓練預算下,更準確的獎勵模型如果產生較低的獎勵方差,反而可能導致性能下降。更令人意外的是,這一現象甚至適用于真實(ground truth)獎勵本身:作者發現,即使能夠直接獲取真實獎勵,在某些情況下使用代理獎勵模型反而能取得更好的效果。 

如下圖 2 所示,作者使用一些獎勵模型,通過策略梯度方法(RLOO)訓練了一個 Pythia-2.8B 語言模型。這些獎勵模型的特性如表 1 所示。作為對比,作者還直接使用真實獎勵進行了策略梯度訓練。圖 2 展示了代理獎勵(左圖,即用于訓練的獎勵)和真實獎勵(右圖)隨訓練輪數增加的變化情況。與定理 2 一致,一個完美、準確但導致低獎勵方差的獎勵模型(紅色標記)的表現不如一些準確度較低的模型。更有趣的是,在最初幾輪訓練中,使用代理獎勵模型的效果甚至優于直接優化真實獎勵。

圖片

圖片

圖 7 展示了一個這種差距更為明顯的實驗。

圖片

接下來,作者證明了對于不同的語言模型,不同的獎勵模型會帶來更高的真實獎勵。如下圖 3 所示,作者使用公開可用的獎勵模型,通過策略梯度方法(RLOO)在 UltraFeedback 的提示上訓練了不同的語言模型;獎勵模型的特性見表 9。圖中數據顯示,與定理 3 一致,能夠產生最高真實獎勵的獎勵模型會隨著初始策略的不同而變化。

圖片

圖片

有關這些實驗的更多詳情以及定理證明請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-30 18:05:51

訓練模型圖像

2022-04-27 09:33:01

EasyNLP開源框架

2022-01-24 15:07:59

量子

2025-06-09 09:04:00

2025-06-13 14:27:05

AI模型智能體

2024-06-20 10:52:27

2025-05-30 02:00:00

獎勵模型RRMAI

2024-10-14 14:10:00

大模型AI開源

2024-06-11 07:05:34

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2025-09-26 02:11:00

2023-12-19 13:28:06

2023-12-17 13:07:11

訓練數據

2020-09-24 06:41:33

通信IT行業

2022-01-11 10:30:22

惡意軟件樹莓派檢測系統

2025-03-31 10:00:00

AI模型預測

2024-10-08 13:38:56

2024-08-02 14:30:00

AI訓練

2024-12-05 12:26:53

點贊
收藏

51CTO技術棧公眾號

欧美猛男超大videosgay| 久久99精品国产| 日韩电影中文字幕| www.xxx亚洲| 黄色成年人视频在线观看| 国产成人午夜高潮毛片| 欧美一区二区三区图| 国产三级短视频| 一本色道69色精品综合久久| 色偷偷88欧美精品久久久| 亚洲欧美一二三| 好吊色一区二区| 蜜臀av一区二区在线观看| 久久免费国产精品1| 卡一卡二卡三在线观看| 国产精品xxxav免费视频| 欧美无砖专区一中文字| 日韩精品视频在线观看视频| 日本中文字幕在线2020| 99久久精品情趣| 伊人精品视频| 中文字幕精品久久| 在线免费看黄色片| 亚洲伦理久久| 91福利在线观看| 18岁网站在线观看| 日韩经典av| 亚洲日本丝袜连裤袜办公室| 欧美日韩在线观看一区| 日日躁夜夜躁白天躁晚上躁91| 精品无人区卡一卡二卡三乱码免费卡| 欧美专区国产专区| 久久精品国产亚洲AV无码男同 | 麻豆91av| 久久久久.com| 欧美国产日韩一区| 婷婷国产成人精品视频| 伊人成综合网yiren22| 精品欧美一区二区久久| 亚洲三级在线观看视频| 免费污视频在线一区| 欧美高清videos高潮hd| 久久影院理伦片| 国产免费久久久| 老**午夜毛片一区二区三区 | 国产福利视频在线观看| 四虎影视国产精品| 精品国产精品自拍| 成年人看的毛片| 日韩特级毛片| 亚洲精品伦理在线| 日本xxx免费| 二区三区在线观看| 亚洲精品国产无天堂网2021| 992tv成人免费观看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 国产91在线播放九色| 日韩欧美黄色| 亚洲精品乱码久久久久久按摩观| 中文字幕永久免费| aaa国产精品视频| 亚洲成人中文字幕| 无码精品a∨在线观看中文| 日韩a在线观看| jvid福利写真一区二区三区| 韩日成人在线| 亚洲成人在线网| 喷水视频在线观看| 欧美最顶级丰满的aⅴ艳星| 黄色一级视频播放| 91女主播在线观看| 日本三级久久| 欧美国产日韩亚洲一区| 久久草.com| 免费在线看v| 中文字幕免费一区| 天天干天天色天天爽| 天堂8中文在线| 亚洲国产尤物| 丰满白嫩尤物一区二区| 亚洲一区二区三区久久| www.国产欧美| 波多野结衣亚洲一区| 久久综合中文色婷婷| 成年人在线观看| 欧美mv日韩| 黑人巨大精品欧美一区免费视频 | 日韩一级毛片| 久久国产精品久久久久| 亚洲天堂日韩av| 久久精品国语| 国产精选久久久久久| 国产精品三级一区二区| 九九色在线视频| 高跟丝袜欧美一区| 成人不卡免费视频| 欧美理伦片在线播放| 日韩性生活视频| 五月天婷婷综合网| 麻豆成人91精品二区三区| 国产精品视频在线免费观看| 成人免费在线电影| 性久久久久久久| 一区二区三区欧美精品| 色综合www| 久久视频精品在线| 无码无套少妇毛多18pxxxx| 国产久卡久卡久卡久卡视频精品| 久久久免费看| 《视频一区视频二区| 97久久夜色精品国产九色| 天堂a√在线| 亚洲日本一区二区| 日本成人中文字幕在线| 大桥未久女教师av一区二区| 中文字幕视频在线免费欧美日韩综合在线看 | 欧美国产日韩一区二区在线观看 | 久久精品99久久久| 噜噜噜噜噜久久久久久91| 50度灰在线| 欧美色中文字幕| 90岁老太婆乱淫| 在线观看一区| 97se亚洲综合在线| 欧美成人视屏| 欧美色中文字幕| 欧美特级黄色录像| 国产日韩免费| 不卡视频一区二区| 超碰在线最新| 欧美年轻男男videosbes| 久久久亚洲av波多野结衣| 精久久久久久| 成人3d动漫一区二区三区91| a视频在线播放| 欧美久久一区二区| 精品在线观看一区| 精品综合免费视频观看| 四虎影视永久免费在线观看一区二区三区 | 91黄色在线视频| 国产精品天美传媒| 韩国视频一区二区三区| 欧美精品一二| 国产精品三级在线| 日本电影在线观看网站| 欧美日韩高清一区| 亚洲不卡在线播放| 国产一区二区三区香蕉| 在线看成人av电影| 中文字幕日韩亚洲| 免费99精品国产自在在线| 亚洲中文字幕一区二区| 亚洲日本电影在线| www.欧美com| 亚洲午夜电影| 九九九九九精品| 美女日韩欧美| 在线看福利67194| 91精品视频免费在线观看| 国产精品狼人久久影院观看方式| 久久婷五月综合| 欧美一区国产在线| 爱情岛论坛亚洲入口| 精精国产xxxx视频在线野外| 日韩激情第一页| 欧美男人亚洲天堂| 中文字幕一区二区三区四区不卡| 91丝袜超薄交口足| 在线播放一区| 看欧美日韩国产| 亚洲a∨精品一区二区三区导航| 中文字幕视频一区二区在线有码| 国产理论视频在线观看| 亚洲国产美国国产综合一区二区| 国产高清自拍视频| 免费看欧美女人艹b| 青青视频免费在线观看| 国产精品久久久网站| 国产97色在线|日韩| 精品美女在线观看视频在线观看| 日韩免费观看高清完整版| 国产精品第108页| 久久久国产精品不卡| 看看黄色一级片| 亚洲乱码久久| 永久久久久久| 精品网站aaa| 国产精品美女在线观看| 精品精品导航| 国产亚洲欧美一区| 国产高清免费观看| 日韩欧美黄色动漫| 国产稀缺精品盗摄盗拍| 91视频在线观看免费| 亚洲一区日韩精品| 一本色道久久综合亚洲精品不卡| 日韩影院一区| 美女av一区| 亚洲自拍偷拍一区| 亚洲成人不卡| 久久久久久亚洲精品中文字幕| a√在线中文网新版址在线| 欧美大片一区二区三区| 瑟瑟视频在线免费观看| 亚洲国产精品久久久久秋霞影院| 女人18毛片毛片毛片毛片区二| 成人午夜精品在线| 欧美三级午夜理伦三级富婆| 一区二区三区国产在线| 91免费网站视频| 青青草成人影院| 久久爱av电影| av毛片精品| 亚洲a在线播放| 日韩高清成人| 18一19gay欧美视频网站| 成人在线免费看黄| 中文字幕亚洲欧美日韩在线不卡| 少妇人妻精品一区二区三区| 91精品国产入口在线| 中文字幕久久久久| 色婷婷综合久久久久中文| 国产无套在线观看| 一区二区三区日韩在线观看| 无码人妻精品中文字幕| 中文字幕第一区第二区| 91网站免费入口| 99麻豆久久久国产精品免费| 性活交片大全免费看| 国产精品综合在线视频| 潘金莲激情呻吟欲求不满视频| 日本视频一区二区| 成年人黄色片视频| 亚洲一区二区毛片| 国产高清精品在线观看| 999亚洲国产精| 精品成在人线av无码免费看| 午夜日本精品| 大胆欧美熟妇xx| 欧美喷水视频| av 日韩 人妻 黑人 综合 无码| 亚洲精品中文字幕乱码| 中国 免费 av| 欧美va天堂| 黄色三级中文字幕| 国产一区欧美| 国产婷婷一区二区三区| 99riav1国产精品视频| a在线视频观看| 国产九九精品| 午夜视频你懂的| 久久精品国产99国产精品| 婷婷免费在线观看| 国精产品一区一区三区mba桃花| 久久久九九九热| 国产成人av电影在线| 亚洲少妇中文字幕| 99re这里只有精品6| 国产呦小j女精品视频| 久久久久久久国产精品影院| 少妇精品无码一区二区免费视频 | 91porn在线视频| 一区二区三区欧美亚洲| 欧美一级高潮片| 日韩欧美国产网站| 亚洲天堂777| 日韩一区二区中文字幕| 日韩一区二区三区在线观看视频| 亚洲精品国产精品乱码不99按摩| 久久精品色图| 日日噜噜噜夜夜爽亚洲精品| 在线观看男女av免费网址| 8050国产精品久久久久久| 忘忧草在线www成人影院| 国产在线观看91精品一区| 一区视频网站| 欧美精品在线一区| 亚州av乱码久久精品蜜桃| 日韩国产一级片| 日韩精品免费专区| 日韩av影视大全| 久久―日本道色综合久久| www.99re6| 亚洲不卡一区二区三区| 亚洲系列第一页| 亚洲激情久久久| 欧美精品videos另类| 韩国三级电影久久久久久| 欧美aaa级| 国严精品久久久久久亚洲影视| 波多野结衣一区| 成年人午夜免费视频| 久久精品99久久久| www.超碰97| 亚洲免费在线看| 337p粉嫩色噜噜噜大肥臀| 日韩精品一区二区三区swag| 高清在线观看av| 国模视频一区二区三区| 欧美亚洲综合视频| 久久久com| 极品av少妇一区二区| www.污污视频| 国产免费观看久久| 中国一级特黄毛片| 日韩欧美在线观看一区二区三区| 久蕉在线视频| 97超级碰碰人国产在线观看| 欧美二区观看| 亚洲精品一区国产精品| 亚洲一区视频| 波多野结衣办公室双飞| 18欧美亚洲精品| 中文字幕手机在线视频| 亚洲福利视频网| 日本性爱视频在线观看| 国产专区欧美专区| 成人3d精品动漫精品一二三| 亚洲 高清 成人 动漫| 成人一区二区三区| 国产又黄又爽又无遮挡| 欧美三级三级三级| 精品999视频| 午夜精品美女自拍福到在线| 亚洲五码在线| 亚洲激情免费视频| 国产在线不卡视频| 可以免费看av的网址| 在线影视一区二区三区| 欧美孕妇孕交| 欧美在线视频一区二区| 日韩一级电影| 久久久久久久久久久99| 成人精品一区二区三区四区| 国产又黄又爽又无遮挡| 91精品国产一区二区三区蜜臀| √天堂资源地址在线官网| 国产91在线视频| 精品国产一区二区三区av片| 草草草在线视频| 国产调教视频一区| 一级黄色在线观看| 尤物yw午夜国产精品视频明星| 桃色一区二区| 亚洲bbw性色大片| 蓝色福利精品导航| 国产精品精品软件男同| 91精品国产综合久久久久久漫画 | 97精品在线观看| 偷拍一区二区| 乱子伦视频在线看| 国产片一区二区三区| 中文字幕欧美色图| 日日噜噜噜夜夜爽亚洲精品 | 亚洲福利在线看| 18aaaa精品欧美大片h| 久久久久久亚洲精品不卡4k岛国 | 精品无码av一区二区三区| 一区二区三区精品| 免费的黄色av| 欧美中文字幕在线观看| 欧洲美女日日| 日本一二区免费| 一区二区三区国产精品| 蜜桃视频久久一区免费观看入口| 91chinesevideo永久地址| 九九久久成人| 久久久精品高清| 亚洲国产精品久久人人爱蜜臀| 免费一级在线观看播放网址| 国产日韩精品入口| 黄色亚洲精品| 免费看污片的网站| 欧美一区二区三区免费大片 | 91黄色免费观看| 麻豆tv在线| 国内一区二区在线视频观看| 天堂资源在线中文精品| 欧美日韩色视频| 亚洲精品国产精品国自产在线| 懂色aⅴ精品一区二区三区| www.成年人视频| 中文字幕av不卡| 欧美一区二区三区激情| 国产精品video| 国内精品福利| 丰满的亚洲女人毛茸茸| 欧美白人最猛性xxxxx69交| 国产精品亚洲一区二区三区在线观看| 在线看视频不卡| 久久蜜臀精品av| 精品欧美一区二区精品少妇| 茄子视频成人在线| 你懂的一区二区| 久久久久久久毛片| 欧美大片在线观看一区二区| www.26天天久久天堂| 在线观看污视频| 国产欧美日韩卡一| 四虎永久在线精品免费网址|