精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

周志華團隊新作:LLM中存在獎勵模型,首次理論證明RL對LLM有效性

人工智能 新聞
來自南京大學的研究者發現,一個強大的通用獎勵模型并非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在于通過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。

將大語言模型(LLMs)與復雜的人類價值觀對齊,仍然是 AI 面臨的一個核心挑戰。當前主要的方法是基于人類反饋的強化學習(RLHF)。該流程依賴于一個通過人類偏好訓練的獎勵模型來對模型輸出進行評分,最終對齊后的 LLM 的質量在根本上取決于該獎勵模型的質量。

因此,創建一個先進的獎勵模型需要建立龐大且高質量的人類偏好數據集,而這一過程通常既緩慢、昂貴,又難以擴展。 

這種對人類標注數據的依賴促使研究者探索其他對齊方法。一個重要的研究方向是基于 AI 反饋的強化學習(RLAIF)。該方法利用強大的專有大語言模型生成獎勵信號或偏好標簽,從而規避人類標注需求。雖然成本效益顯著,但這些方法缺乏嚴謹的理論基礎,且容易繼承評判模型本身的風格偏差與固有偏見。這引發了一個關鍵問題:高質量獎勵信號是否必須依賴外部來源?

來自南京大學的研究者發現,一個強大的通用獎勵模型并非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在于通過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。

本文的核心貢獻是為這一觀點提供嚴格的理論基礎。本文證明了可以從標準的下一個 Token 預測目標中恢復出一種特定形式的離線逆強化學習(IRL)獎勵函數,該目標用于預訓練和監督微調(SFT)。這一見解能夠超越啟發式方法,并建立一種原則性的方法,來引出語言模型在訓練過程中隱式學習到的獎勵函數。

具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數,通過逆 soft 貝爾曼算子可以從中恢復出獎勵函數。 

至關重要的是,這一理論聯系不僅僅提供了一種獎勵提取的方法。本文還證明了,使用模型自身的內源性獎勵進行微調可以使策略在誤差界限上優于基線模型。強化學習過程有效地修正了標準模仿學習(即下一個 Token 預測)中的累積誤差,將性能差距從任務視野的二次依賴關系 O (H2) 降低到優越的線性關系 O (H)。

據了解,這是首次理論證明強化學習在 LLM 中的有效性。廣泛實驗驗證了這一理論,表明這種內源性獎勵不僅優于現有的 LLM-as-a-judge 方法,而且可以超越那些通過昂貴的人類標注數據顯式訓練的獎勵模型的表現。

image.png

  • 論文標題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS 
  • 論文鏈接:https://arxiv.org/pdf/2506.23235

這篇論文提出了解決 LLM 的對齊問題,通過利用模型內部的獎勵機制,而不是依賴外部的人類反饋,這可能會改變未來 LLMs 的開發和應用方式。

本文在實驗中旨在評估以下核心問題:

Q1:在與啟發式基線方法和顯式訓練的最新獎勵模型對比時,免訓練內源性獎勵模型(EndoRM)在常見獎勵模型基準測試中的表現如何?

Q2:內源性獎勵是否具備強大的指令遵循能力,能否作為可通過提示詞調用的通用獎勵模型?

Q3:基于內源性獎勵的強化學習能否產生更優策略,實現理論預測的自我改進效果?

多樣偏好對上的獎勵準確率(Q1)

為回答 Q1,本研究通過預測 RM-Bench 中被選中的回復來評估獎勵模型性能。更高的準確率意味著獎勵質量更優。

由于本評估的方法無需訓練,因此本評估將其與其他無需訓練的方法進行對比:生成式驗證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。

所有基線方法及本評估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎模型以確保公平比較。此外,本評估還列出了四個顯式訓練的高性能獎勵模型的結果作為參考。

image.png

表 1 中的結果顯示,EndoRM 不僅顯著優于所有使用相同基礎模型的無需訓練基線方法,還以更高的平均得分超越了最先進的顯式訓練獎勵模型。

這一發現表明,EndoRM 相比依賴高成本偏好數據篩選和訓練的獎勵模型更具有效性。

圖 1 中進一步展示了 Multifaceted-Bench 的實驗結果,從中可以觀察到 EndoRM 在五個領域上始終優于所有基線方法??紤]到 Multifaceted-Bench 中可能包含數以千計的偏好對,這一結果證明了即使在任務復雜度和偏好多樣性增加的情況下,EndoRM 仍能實現可擴展的魯棒性。

這一發現進一步驗證了本評估的核心假設:強大的獎勵信號已潛在存在于基礎模型之中。

image.png

驗證指令遵循能力(Q2)

一個關鍵論點是內源性獎勵并非靜態的,而是可以通過提示來引導。

為驗證這一點,本文使用了 DSP 數據集,該數據集包含四個不同的領域。本評估通過將 DSP 論文中相應的系統提示作為輸入,創建了四個特定領域的版本的內源性獎勵。

然后,本評估測試每個特定領域的內源性獎勵在所有四個測試集上的響應分類準確率。

表 2 中的結果顯示出強烈的對角模式:每個 EndoRM 在其自身領域上表現最佳。例如,EndoRM-Academy 在學術數據上達到了其最高準確率(76.89%)。

這證實了內源性獎勵不是一個固定的評估器,而是一個動態的、可提示的評判器,繼承了基礎大型語言模型強大的指令遵循能力。

image.png

通過強化學習實現自我提升(Q3)

最后,本評估測試了定理 2 中的核心理論主張:帶有內源性獎勵的強化學習可以通過減輕復合誤差來改進基礎策略。

本評估在 MATH-lighteval 數據集上通過強化學習對基礎模型 Qwen2.5-Math-7B 進行訓練。內源性獎勵模型同樣是 Qwen2.5-Math-7B,在策略學習期間其參數保持固定。提示和響應的最大長度均設為 1024,KL 系數設為 0.01。

表 3 中的結果表明,帶有內源性獎勵的強化學習微調有助于模型在所有五個基準測試中一致地優于基礎模型。

本評估還在附錄 E 中給出了模型在強化學習前后的響應示例,從中可以看出,對于同一個問題,在基于內源性獎勵進行優化之前,模型無法解決問題,并且隨著響應的進行開始胡言亂語,甚至輸出 Python 代碼。

相比之下,本評估的方法提供了一個清晰簡潔的解決方案。

image.png

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-06 04:10:00

LLM人工標注RL

2025-05-29 09:14:17

2023-10-31 19:14:28

2025-02-13 09:10:00

2024-03-25 12:39:00

AI數據

2017-06-05 16:17:50

深度學習算法神經網絡

2021-03-08 10:48:04

AI

2025-04-23 09:36:23

2023-06-19 16:05:22

大型語言模型人工智能

2023-10-06 20:30:33

大模型LLMtoken

2024-10-14 09:25:00

2025-08-22 14:57:36

2024-01-02 13:19:00

AI模型

2025-06-03 09:02:00

2025-06-03 08:38:00

2010-07-19 15:07:23

SQL Server評

2023-06-01 17:06:49

模型思維

2025-07-28 08:53:00

2024-06-18 14:01:17

2025-02-13 11:00:30

點贊
收藏

51CTO技術棧公眾號

欧美jjzz| 涩涩涩久久久成人精品| 91玉足脚交白嫩脚丫在线播放| 91av在线影院| 国产探花视频在线| 成人激情自拍| 欧美亚洲高清一区二区三区不卡| 日韩中文字幕在线不卡| 四虎在线免费看| 精品在线一区二区三区| 91精品国产91久久久久久最新 | 国产精品18p| 免费成人结看片| 日韩欧美国产综合一区| 国产男女激情视频| 深夜国产在线播放| 欧美高清一级片在线观看| 国产精品夜夜夜一区二区三区尤| 波多野结衣视频免费观看| 欧美成人一区二免费视频软件| 国产丝袜一区视频在线观看| 91精品视频国产| 写真福利精品福利在线观看| 一区二区成人在线视频| 日韩成人av网站| 天天操天天干天天操| 国产在线麻豆精品观看| 国产精品旅馆在线| 特级毛片www| 尤物网精品视频| 蜜月aⅴ免费一区二区三区| 最新中文字幕av| 亚洲va久久| 亚洲精品一区二区三区影院| 国产大片一区二区三区| 国产精品久久乐| 色八戒一区二区三区| 丁香六月激情婷婷| 在线观看三级视频| 中文字幕在线一区免费| 天堂√在线观看一区二区| 四虎精品在线| 91在线高清观看| 精品综合久久久| 人妻一区二区三区| 国产不卡在线视频| 91九色露脸| 99久久精品国产一区二区成人| 蜜桃视频在线观看一区| 国产精品男人的天堂| 少妇久久久久久久| 久久婷婷久久| 国产成人综合一区二区三区| aaaaaa毛片| 日韩精品福利网| 国产激情999| 中国老头性行为xxxx| 老妇喷水一区二区三区| 欧美最近摘花xxxx摘花| 特级西西444www大精品视频免费看| 尤物在线精品| 欧美做受高潮电影o| 天天综合天天干| 久久精品一区二区国产| 国产成人avxxxxx在线看| 国产一区免费看| 日本不卡一二三区黄网| 国产精品免费久久久久影院 | 欧美mv日韩mv国产| 国产av一区二区三区传媒| 999国产精品一区| 亚洲精品白浆高清久久久久久| 大乳护士喂奶hd| 免费短视频成人日韩| 在线不卡国产精品| 日韩精品久久久久久久的张开腿让| 999久久久91| 操人视频在线观看欧美| 精品一级少妇久久久久久久| 亚洲一区二区免费看| 国产精品96久久久久久| 97人妻精品一区二区三区动漫| 国产黑丝在线一区二区三区| 国产精品成人一区二区三区| 亚洲精品一区二区三区不卡| 91亚洲精品久久久蜜桃| 亚洲国产欧美不卡在线观看| 久操视频在线观看| 亚洲国产精品久久不卡毛片| 男女曰b免费视频| 国产一区二区| 亚洲欧美一区二区精品久久久| 999精品久久久| 韩国在线视频一区| 国产成人免费av电影| av免费在线不卡| www.视频一区| 在线观看日韩羞羞视频| av电影院在线看| 欧美美女bb生活片| 亚洲av无码一区二区三区网址| 欧美电影一区| 97视频在线观看播放| 在线播放成人av| 成人一级片在线观看| 亚洲国产成人不卡| 久草在线视频资源| 欧美三级电影一区| 国产国语性生话播放| 综合色一区二区| 国产精品视频中文字幕91| 农村少妇久久久久久久| 亚洲视频一二三| 成人免费视频久久| 欧美人与动xxxxz0oz| 蜜臀久久99精品久久久无需会员| 国产精品视频一区在线观看| 成人在线视频首页| 性生活免费观看视频| 国产另类xxxxhd高清| 欧美tk丨vk视频| 日本高清一二三区| 日韩avvvv在线播放| 久久国产精品高清| 女囚岛在线观看| 欧美一级久久久久久久大片| 黑人と日本人の交わりビデオ| 亚洲一区久久| 国产中文一区二区| 中文字幕免费高清电视剧网站在线观看| 欧洲一区在线电影| 久久久久久久久久久国产精品| 韩国欧美一区| 91九色在线观看| av片在线观看网站| 538prom精品视频线放| 亚洲精品视频网址| 日韩av中文字幕一区二区| 精品午夜一区二区三区| a级片在线免费观看| 日韩你懂的在线观看| 少妇人妻丰满做爰xxx| 精品一区二区三区在线观看国产| 亚洲国产一区二区精品视频 | 91香蕉视频污在线观看| 美女久久久精品| 久久av免费一区| 七七久久电影网| 欧美电影精品一区二区| 国产视频三区四区| 国产亚洲精品自拍| 久久综合九九| 玛雅亚洲电影| 在线看国产精品| 亚洲影院一区二区三区| 亚洲欧洲国产日本综合| 在线观看免费不卡av| 91久久电影| 91传媒视频免费| 日本孕妇大胆孕交无码| 亚洲成人精品久久久| 久久午夜免费视频| 久久这里只有精品首页| 五月天婷婷激情视频| 久久精品播放| 99超碰麻豆| 91视频欧美| 亚洲人成电影网站色xx| 97精品人妻一区二区三区在线 | 国产午夜麻豆影院在线观看| 国产三级精品视频| 免费精品99久久国产综合精品应用| 68国产成人综合久久精品| 成人午夜电影在线播放| 看黄在线观看| 伊人伊成久久人综合网站| 91精东传媒理伦片在线观看| 一区二区免费视频| av直播在线观看| 久久国产三级精品| 日本免费成人网| 国产成人短视频在线观看| 国产精品入口免费视| 99视频免费在线观看| 日韩国产欧美精品一区二区三区| 成人一级免费视频| 亚洲精品水蜜桃| av网站免费在线播放| 麻豆传媒一区二区三区| 黄色激情在线视频| 欧洲毛片在线视频免费观看| 91福利视频导航| 美女18一级毛片一品久道久久综合| 综合国产在线视频| 乱色精品无码一区二区国产盗| 91高清视频在线| 久久影院一区二区| 国产日产欧美一区二区三区| 佐山爱在线视频| 久热精品视频| 日韩欧美一级在线| 精品美女久久久| 国产乱码精品一区二区三区中文 | 99视频一区| 色乱码一区二区三区熟女| 欧美激情影院| 114国产精品久久免费观看| 综合另类专区| 欧美国产激情18| 欧美18hd| 一区国产精品视频| 青青青草原在线| 日韩亚洲电影在线| 亚洲图片视频小说| 91久久久免费一区二区| 中文字幕在线字幕中文| 亚洲九九爱视频| 日本成人精品视频| 日本一区二区三级电影在线观看| 在线观看免费视频黄| 国产一二三精品| 色婷婷综合网站| 日韩影院免费视频| 国产特级黄色大片| 伊人激情综合| wwwwww欧美| 亚洲成人最新网站| 日本免费在线视频观看| 日韩电影在线视频| 色一情一区二区三区四区| 欧美色图五月天| 国产日韩欧美亚洲一区| 中文字幕视频精品一区二区三区| 亚洲free性xxxx护士白浆| 四虎地址8848精品| 成人xxxxx| 欧美视频第一| 成人久久一区二区三区| 欧美成人福利| 国产在线视频不卡| 亚洲精品乱码日韩| 国产日韩精品视频| 欧美高清影院| 成人激情在线观看| 国产一区二区三区免费观看在线 | 三区视频在线观看| 老司机免费视频一区二区| 人人干人人干人人| 蓝色福利精品导航| 一级黄色在线播放| 粉嫩一区二区三区在线看| 特级特黄刘亦菲aaa级| av电影天堂一区二区在线观看| 免费看毛片的网站| 99久久99精品久久久久久| 91视频啊啊啊| 久久精品人人做人人综合 | 国产对白叫床清晰在线播放| 亚洲午夜未满十八勿入免费观看全集 | 亚洲第一精品电影| 亚洲av成人精品毛片| 日韩精品极品视频| 国产有码在线| 日韩小视频在线| 日本在线视频中文有码| 高清一区二区三区日本久| 国产精品xx| 国产精品福利在线观看网址| 色综合视频一区二区三区日韩| 91免费版黄色| 西野翔中文久久精品字幕| 少妇特黄a一区二区三区| 国产精品福利在线观看播放| 日本五级黄色片| 午夜一区在线| 做a视频在线观看| 成人午夜碰碰视频| 亚洲国产日韩一区无码精品久久久| 国产精品毛片久久久久久| 国产精品白嫩白嫩大学美女| 精品女厕一区二区三区| 中文字幕+乱码+中文字幕明步| 日韩一区二区在线看| 香蕉视频免费看| 色诱女教师一区二区三区| 羞羞污视频在线观看| 日本精品久久久久久久| 亚洲伦理一区二区| 久久久久一区二区| 97人人精品| 国精产品一区一区三区视频| 奇米精品一区二区三区四区 | 欧美日韩国产成人在线观看| 成人性生交大片免费网站| 亚洲在线免费看| 最新亚洲精品| 高清无码视频直接看| 三级成人在线视频| 久久精品无码专区| 中文字幕制服丝袜一区二区三区| 日本中文字幕在线免费观看| 欧美精品久久一区| 日本一区高清| 九九九久久久久久| 搜成人激情视频| 国产在线播放一区二区| 91精品啪在线观看国产18| 激情网站五月天| 成人免费av网站| 杨钰莹一级淫片aaaaaa播放| 欧美视频在线观看一区| 天天在线女人的天堂视频| 久久99精品久久久久久青青91| 99热播精品免费| 麻豆精品视频| 亚洲精品看片| avtt中文字幕| 亚洲天堂精品视频| 丰满熟女人妻一区二区三| 亚洲精选中文字幕| 91黄页在线观看| 亚洲一区二区三| 欧美aaaa视频| 激情综合网俺也去| gogo大胆日本视频一区| 麻豆chinese极品少妇| 欧美日韩成人综合| a天堂中文在线| 国产成人高潮免费观看精品| 妖精视频一区二区三区免费观看| 日本阿v视频在线观看| 国产传媒欧美日韩成人| 精品国产视频在线观看| 欧美精品视频www在线观看 | 欧美日本中文字幕| 成人黄色91| 乱子伦一区二区| 狠狠色综合日日| 小嫩苞一区二区三区| 欧美日韩精品一区二区天天拍小说 | 色老头一区二区三区在线观看| 嫩草伊人久久精品少妇av杨幂| 欧美中文娱乐网| 日本欧美久久久久免费播放网| 在哪里可以看毛片| 在线免费观看不卡av| 丁香在线视频| 国产精品视频男人的天堂| 成久久久网站| 热久久久久久久久| 亚洲另类春色国产| 亚洲爱情岛论坛永久| 97国产一区二区精品久久呦| 欧美精品中文字幕亚洲专区| 日韩中文字幕在线视频观看| 久久一留热品黄| av首页在线观看| 日韩中文在线不卡| 国产视频一区二区在线播放| 欧美一区二区激情| av电影在线观看不卡| 黄色网址中文字幕| 久久精品国产96久久久香蕉| 久久免费精品| 欧美亚洲精品一区二区| 久久九九99视频| 国产欧美久久久精品免费| 欧美激情第三页| 日韩成人一级| 日本xxxx黄色| 亚洲精品一卡二卡| 午夜影院免费视频| 国产欧美精品一区二区三区介绍| 影视一区二区| av无码av天天av天天爽| 欧美性生活久久| 天堂av中文在线| 欧洲精品国产| 韩国v欧美v日本v亚洲v| 国产无遮挡免费视频| 亚洲午夜女主播在线直播| 欧美专区视频| 免费在线激情视频| 亚洲欧美在线观看| 欧美一区二区在线观看视频| 国产精品爱啪在线线免费观看| 66久久国产| 久久久久久久久久久久久久久| 8x福利精品第一导航| 国产h片在线观看| 亚洲精品一区二区毛豆| 国产不卡视频一区二区三区| 国产免费一级视频| 久久99国产精品自在自在app | 电影一区二区三区久久免费观看| 久无码久无码av无码| 国产精品欧美一级免费| 日本高清视频免费观看| 国产欧美日韩专区发布| 国产精品最新自拍|