精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從RLHF到DPO再到TDPO,大模型對齊算法已經是「token-level」

人工智能 新聞
來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法:TDPO。

在人工智能領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務于人類社會。早期的努力集中于通過人類反饋的強化學習方法(RLHF)來管理這些模型,成效顯著,標志著向更加人性化 AI 邁出的關鍵一步。

盡管 RLHF 取得了巨大成功,但是在訓練過程中 RLHF 非常消耗資源。因此,近段時間學者們在 RLHF 奠定的堅實基礎上,繼續探索更為簡單且高效的策略優化路徑,催生了直接偏好優化(DPO)的誕生。DPO 通過數學推理得到獎勵函數與最優策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好數據上優化策略模型,實現了從「反饋到策略」的直觀飛躍。這不僅減少了復雜度,還增強了算法的穩健性,迅速成為業界的新寵。

然而,DPO 主要關注在逆 KL 散度約束下的策略優化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升對齊性能方面表現出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管 DPO 從句子級的角度控制 KL 散度,模型的生成過程本質上是逐個 token 進行的。從句子級控制 KL 散度直觀上表明 DPO 在細粒度控制上存在限制,對 KL 散度的調節能力較弱,可能是 DPO 訓練過程中 LLM 的生成多樣性迅速下降的關鍵因素之一。

為此,來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法:TDPO。

圖片

  • 論文標題:Token-level Direct Preference Optimization
  • 論文地址:https://arxiv.org/abs/2404.11999
  • 代碼地址:https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

為了應對模型生成多樣性顯著下降的問題,TDPO 從 token-level 的角度重新定義了整個對齊流程的目標函數,并通過將 Bradley-Terry 模型轉換為優勢函數的形式,使得整個對齊流程能最終從 Token-level 層面進行分析和優化。相比于 DPO 而言,TDPO 的主要貢獻如下:

  • Token-level 的建模方式:TDPO 從 Token-level 的角度對問題進行了建模,對 RLHF 進行了更精細的分析;
  • 細粒度 KL 散度約束:在每個 token 處從理論上引入了前向 KL 散度約束,使方法能夠更好地約束模型優化;
  • 性能優勢明顯:相比于 DPO 而言,TDPO 能夠實現更好的對齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區別如下圖所示:

圖片

圖 1:DPO 的對齊優化方式。DPO 從 sentence-level 的角度進行建模

圖片

圖 2:TDPO 的對齊優化方式。TDPO 從 token-level 的角度進行建模,并在每個 token 處引入了額外的前向 KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時,充當了模型對齊的 baseline

下面介紹兩者方法的具體推導過程。

背景:直接偏好優化(DPO)

DPO 通過數學推導,得到了獎勵函數與最優策略之間的直接映射,消除了 RLHF 過程中的獎勵建模階段:

圖片

將公式 (1) 代入 Bradley-Terry (BT) 偏好模型中,得到直接策略優化(DPO)損失函數:

圖片

其中圖片是由來自偏好數據集 D 的 prompt、獲勝響應和失敗響應構成的偏好對。

TDPO

符號標注

為了建模語言模型順序的、自回歸的生成過程,TDPO 將生成回復表示成 T 個 token 組成的形式 圖片,其中圖片圖片表示字母表(詞匯表)。

當將文本生成建模為馬爾可夫決策過程時,狀態 state 定義為 prompt 和到當前 step 為止已生成的 token 的組合,表示為圖片,而動作 action 則對應于下一個生成的 token,表示為圖片,token 級獎勵定義為圖片

基于以上提供的定義,TDPO 為策略圖片建立了狀態 - 動作函數圖片、狀態值函數圖片和優勢函數圖片

圖片

其中,圖片表示折扣因子。

Token-level 角度的人類反饋強化學習

TDPO 理論上修改了 RLHF 的獎勵建模階段和 RL 微調階段,將它們擴展為了從 token-level 角度考慮的優化目標。

對于獎勵建模階段, TDPO 建立了 Bradley-Terry 模型和優勢函數之間的相關性:

圖片

對于 RL 微調階段,TDPO 定義了以下目標函數:

圖片

推導

從目標 (4) 出發,TDPO 在每個 token 上推導了最優策略圖片和狀態 - 動作函數圖片之間的映射關系:

圖片


其中,圖片表示配分函數。

將方程 (5) 代入方程 (3),我們得到:

圖片

其中,圖片表示策略模型圖片和參考模型圖片表示的隱式獎勵函數差異,表示為

圖片

圖片則表示圖片圖片的序列級前向 KL 散度差異,按圖片加權,表示為

圖片

基于方程 (8),TDPO 最大似然損失函數可以建模為:

圖片

考慮到在實際中,圖片損失傾向于增加圖片,放大圖片圖片之間的差異,TDPO 提出修改方程 (9) 為:

圖片

其中圖片是一個超參數,而

圖片

這里,圖片表示停止梯度傳播運算符。

我們將 TDPO 和 DPO 的損失函數總結如下:

圖片

由此可見,TDPO 在每個 token 處引入了這種前向 KL 散度控制,使得在優化過程中能夠更好地控制 KL 的變化,而不影響對齊性能,從而實現了更優的帕累托前沿。

實驗設置

TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個數據集上進行了實驗。

IMDb

在 IMDb 數據集上,該團隊采用了 GPT-2 作為基模型,然后用 siebert/sentiment-roberta-large-english 作為獎勵模型評估策略模型輸出,實驗結果如圖 3 所示。

圖片

從圖 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能夠達到比 DPO 更好的 reward-KL 的帕累托前沿,而從圖 3 (b)-(d) 則可以看出,TDPO 在 KL 散度控制方面表現極為出色,遠遠優于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數據集上,該團隊采用了 Pythia 2.8B 作為基模型,采用兩種方式評估模型生成的好壞:1)使用已有的指標;2)使用 GPT-4 評測。

對于第一種評估方式,該團隊評測了不同算法訓練的模型在對齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權衡,如表 1 所示。

圖片

可以看到 TDPO 算法不僅在對齊性能 (Accuracy) 上優于 DPO 和 f-DPO,在生成多樣性 (Entropy) 上也占據優勢,在這兩個大模型生成回復的關鍵指標上達到了更好的權衡。

而對于第二種評估方式,該團隊評測了不同算法訓練的模型和人類偏好的吻合度,與數據集中的獲勝響應作對比,如圖 4 所示。

圖片

DPO、TDPO1 和 TDPO2 算法在溫度系數為 0.75 的情況下均能夠達到對獲勝響應的勝率高于 50%,較好地符合人類偏好。

MT-Bench

在論文中的最后一個實驗上,該團隊采用了在 Anthropic HH 數據集上訓練好的 Pythia 2.8B 模型直接用于 MT-Bench 數據集評測,結果如圖 5 所示。

圖片

在 MT-Bench 上,TDPO 能夠達到比其他算法更高的獲勝概率,這充分說明了 TDPO 算法訓練的模型生成的響應的質量更高。

此外,有相關研究對 DPO、TDPO、SimPO 算法進行了對比,可參考鏈接:https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本,評測了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對齊算法 DPO、TDPO、SimPO 微調訓練得到的性能,以下是實驗的實驗結果:

圖片

表格 2:DPO,TDPO,SimPO 算法性能對比

了解更多結果,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 13:00:00

2024-11-26 09:33:44

2024-10-09 16:00:00

AI模型數據

2022-05-31 09:10:06

jQuery前端開發工具

2024-09-09 07:46:16

2025-01-26 15:35:01

AIOps人工運維ChatOps

2023-12-20 14:44:33

軟件開發DevOpsNoOps

2016-11-28 16:23:23

戴爾

2024-01-15 16:41:00

模型數據

2011-05-25 14:59:35

if elseswitch case

2023-08-22 13:21:07

AI算法

2020-12-24 19:01:27

戴爾

2025-03-31 00:33:00

2024-06-05 09:59:13

2021-07-12 14:40:59

以太坊區塊鏈ETH2.0

2020-05-17 13:59:37

物聯網工業物聯網工業4.0

2011-07-18 09:28:44

開源開放

2023-04-18 17:20:00

算法訓練

2024-11-11 17:16:44

點贊
收藏

51CTO技術棧公眾號

欧美成人一区二区在线| 永久免费毛片在线播放不卡 | 麻豆精品在线| 亚洲人吸女人奶水| 97碰碰视频| 韩国一区二区电影| 最近中文字幕一区二区| 婷婷在线视频观看| 国产老妇另类xxxxx| 久久久久久久久久久久久久久久久久av | 欧美中文字幕在线视频| 国产又黄又粗的视频| 久久精品超碰| 亚洲精品乱码久久久久| 国产精品一区免费观看| 久久久久99精品成人片我成大片| 国精一区二区| 欧美一区中文字幕| 99爱视频在线| 暖暖日本在线观看| 成人动漫视频在线| 国产精品电影在线观看| 四虎精品免费视频| 任我爽精品视频在线播放| 欧美午夜精品一区| 真实国产乱子伦对白视频| 亚洲欧美日韩动漫| 国内久久精品视频| 欧美一级高清免费播放| www.久久av| www.久久久久爱免| 欧美日韩一区二区免费视频| 亚洲一区二区在| 神马午夜一区二区| 视频一区二区三区在线| 欧美国产第一页| 亚洲精品国产一区黑色丝袜| 97se亚洲| 欧美日本精品一区二区三区| 国产最新免费视频| 在线观看av免费| 国产欧美一区二区三区在线老狼| 国产毛片精品视频| 久久精品在线视频| 巨胸大乳www视频免费观看| 亚洲ww精品| 色综合色综合色综合 | 三级在线视频观看| 国产777精品精品热热热一区二区| 国产免费观看久久| 久久草视频在线看| 可以免费观看的毛片| 久久av资源网| 国产精品www| 欧美日韩一二三四区| 亚洲香蕉网站| 欧美精品免费播放| 国产不卡在线观看视频| 久久99国内| 日韩电影中文字幕av| yjizz视频| 一区二区三区四区视频免费观看| 欧美三区在线观看| 最近免费中文字幕中文高清百度| 神马午夜在线视频| 欧美日韩国产区| 国产玉足脚交久久欧美| 国产区在线观看| 中文字幕一区二区三区精华液| 视频一区免费观看| 成人精品一区二区| 欧美激情一区二区三区蜜桃视频 | 在线观看中文字幕2021| 日韩高清不卡一区二区三区| 国产va免费精品高清在线| 国产成人免费观看视频| 亚洲高清激情| 91sa在线看| 青草视频在线观看免费| 亚洲第一会所| 欧美一区国产在线| 亚洲香蕉在线观看| 欧美激情 一区| 成人婷婷网色偷偷亚洲男人的天堂| 日韩成人中文电影| 亚洲天堂久久新| 国产一区二区三区探花| 中文字幕一区日韩电影| 日本一级免费视频| 久久麻豆精品| 欧美另类高清videos| 久久国产露脸精品国产| 国产亚洲综合精品| 国产精品va在线| 国产精品一二三四五区| 国产精品亚洲人在线观看| 痴汉一区二区三区| 日本激情一区二区三区| 久久人人爽爽爽人久久久| 蜜桃网站成人| 欧美日本高清| 亚洲无线码一区二区三区| 国产av天堂无码一区二区三区| 高潮一区二区| 欧美人妇做爰xxxⅹ性高电影| 在线观看视频在线观看| 噜噜噜狠狠夜夜躁精品仙踪林| 日韩成人中文字幕| 强制高潮抽搐sm调教高h| 久久密一区二区三区| 久久久久久69| 波多野结衣av无码| 国产成人在线视频网站| 久久久久一区二区| 免费黄网在线观看| 午夜久久久久久| 美女网站视频黄色| eeuss国产一区二区三区四区| 亚洲欧美日韩在线高清直播| 99视频只有精品| 久久久久国产精品一区三寸| 亚洲一区二区三区久久| 日本一卡二卡四卡精品| 亚洲欧美视频在线观看视频| 国产一区二区网| 亚洲ww精品| 亚洲男人的天堂在线| 午夜激情福利网| 久久亚洲精品伦理| 动漫精品视频| 免费高清在线观看| 乱插在线www| 一区二区三区中文在线观看| 国产福利视频在线播放| 视频国产精品| 最好看的2019年中文视频| 成人免费区一区二区三区| 美女精品自拍一二三四| 91美女片黄在线观| 成a人片在线观看www视频| 精品高清美女精品国产区| www.久久av.com| 午夜精品福利影院| 久久久久久久亚洲精品| 国产又黄又粗又猛又爽| 国产片一区二区三区| 日韩av三级在线| 日韩精品中文字幕一区二区| 色阁综合伊人av| 精品人妻一区二区色欲产成人| 国产91精品精华液一区二区三区 | 丁香六月综合| 日韩电影免费在线观看中文字幕| 精品欧美一区二区久久久久| 激情五月婷婷综合| 在线播放 亚洲| 国产精品99| 日韩精品久久久久| 日韩精品一区二区三| 国产成人av影院| 国产一级黄色录像片| 国产一区 二区| 国产精品毛片大码女人| 2019中文字幕在线观看| 亚洲精品国偷拍自产在线观看蜜桃| 中文字幕在线观看不卡视频| 欧美午夜aaaaaa免费视频| 久久综合欧美| 日本午夜在线亚洲.国产| 色视频在线观看免费| 午夜国产精品一区| 日本japanese极品少妇| 中文亚洲欧美| 欧美日韩综合网| 国产蜜臀一区二区打屁股调教| 日韩欧美国产精品一区| 九九九久久久久| 国产美女久久久久| 另类天堂视频在线观看| 黄色av一区二区| 国产女主播一区| 777一区二区| 国产精品久久占久久| 91九色综合久久| 在线观看的网站你懂的| 精品免费视频.| 日韩三级一区二区三区| 91论坛在线播放| 午夜dv内射一区二区| 色777狠狠狠综合伊人| 国产日韩在线一区| 粗大黑人巨茎大战欧美成人| 日韩欧美色电影| 日韩精品视频播放| 日本一区二区三区视频视频| 国产又黄又猛的视频| 欧美福利电影在线观看| 久久99精品国产99久久| 18video性欧美19sex高清| 亚洲人成77777在线观看网| 在线观看视频二区| 亚洲午夜私人影院| 实拍女处破www免费看| 久久99久久久久| 精品久久久久久无码中文野结衣| 久久成人av| 91中文在线观看| 蜜桃视频在线观看免费视频| 亚洲国产另类久久精品| 国产精品自拍第一页| **性色生活片久久毛片| 六十路息与子猛烈交尾| 免费成人在线观看视频| 日韩精品一区二区免费| 欧美人妻一区二区三区| 91成人看片| 成人欧美一区二区三区黑人免费| 五月天国产在线| 久久视频国产精品免费视频在线| 色婷婷在线视频| 欧美日韩国产美| 日韩大片免费在线观看| 一区在线观看免费| av无码av天天av天天爽| 久草精品在线观看| 久久综合色视频| 一区二区三区毛片免费| 国产女人水真多18毛片18精品| 巨胸喷奶水www久久久| 午夜精品在线观看| 91短视频版在线观看www免费| 日韩欧美一区在线| 国产美女激情视频| 亚洲一二三四在线观看| 911国产在线| 久久精品一区四区| 无码人妻一区二区三区免费n鬼沢| 奇米精品一区二区三区四区| 欧美精品自拍视频| 一区二区三区午夜视频| 欧美激情www| 国产精品极品国产中出| 2019国产精品视频| 日韩一二三区在线观看| 91丝袜美腿美女视频网站| 欧美成人一二区| 国产精品揄拍一区二区| 国产成人精品一区二区三区视频| 国产成人+综合亚洲+天堂| 桃花岛成人影院| 国产成人精品免高潮在线观看 | 精品国自产在线观看| 3751色影院一区二区三区| 国产永久免费视频| 欧美高清视频一二三区| 91精品国产乱码久久| 欧美视频一二三区| 一级片aaaa| 欧美高清视频在线高清观看mv色露露十八| 97caocao| 欧美一区二区二区| 农村少妇久久久久久久| 精品美女一区二区| 欧美一区二区黄片| 日韩高清免费观看| 久久久久久久久亚洲精品| 亚洲精品网址在线观看| 91青青在线视频| xxxxx成人.com| 欧美亚洲系列| 久久99热狠狠色一区二区| 国产免费黄色一级片| 一区二区三区四区五区精品视频| 国产在线青青草| 麻豆精品在线播放| 妖精视频在线观看| www.成人网.com| 中文幕无线码中文字蜜桃| 国产日韩精品一区二区浪潮av| 特级西西人体高清大胆| 一区二区三区在线观看视频| 亚洲黄色一区二区| 色狠狠一区二区| 国产精品毛片一区二区在线看舒淇| 日韩午夜在线影院| 天天综合网在线| 中文字幕日韩专区| 蜜臀av国内免费精品久久久夜夜| 97视频在线观看免费| 国产精品亲子伦av一区二区三区| 99视频国产精品免费观看| 亚洲高清极品| 欧美aaa在线观看| 国产精品毛片一区二区三区| 中文字幕网av| 成人免费毛片aaaaa**| 国产黄色大片免费看| 亚洲一区二区av电影| 一级久久久久久| 精品国产凹凸成av人导航| 国产视频精选在线| 欧美黑人狂野猛交老妇| 99欧美精品| 久久精品人人做人人爽电影| 91麻豆精品国产91久久久平台| 日韩极品视频在线观看| 美女视频免费一区| 国产老熟女伦老熟妇露脸| 亚洲三级免费电影| 成人一二三四区| 亚洲国产精品久久久久久| 黄网页免费在线观看| 欧美专区在线观看| www.爱久久| 日韩第一页在线观看| 天堂影院一区二区| 久久久久久久无码| 中文字幕21页在线看| 日本高清不卡在线| 波多野结衣在线一区二区| 亚洲成人一区二区三区| 亚洲理伦在线| 日本wwww色| 亚洲欧洲韩国日本视频| 伊人久久中文字幕| 亚洲精选一区二区| av中文在线资源库| 亚洲综合日韩中文字幕v在线| 清纯唯美日韩| 不要播放器的av网站| 99久久久久久| 国产一级特黄毛片| 日韩精品专区在线| 国产不卡在线| 91久久久在线| 天天综合久久| 日本中文字幕二区| 国产精品久久久久aaaa樱花| 国产寡妇亲子伦一区二区三区四区| 亚洲精品久久久久久久久久久久 | 99久久久久久久| 国产亚洲福利| 色综合色综合色综合色综合| 久久久久久久久久看片| 一级成人黄色片| 亚洲精品一区二区三区不| 精品三级久久| 久久国产精品免费一区| 在线亚洲激情| 久久丫精品国产亚洲av不卡| 欧美日韩国产中文精品字幕自在自线| 丰满人妻一区二区三区免费视频| 欧美激情亚洲一区| jizz性欧美23| 国产极品尤物在线| 91丨porny丨户外露出| 成人午夜淫片100集| 亚洲欧洲在线看| 91福利精品在线观看| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 99九九精品视频| 亚洲激情在线播放| 亚洲av无码国产综合专区| 国内精品久久久久| 日韩av中文字幕一区| 国产免费成人在线| 久久精品夜色噜噜亚洲aⅴ| 精品国产乱子伦| 综合国产在线视频| 麻豆视频久久| 日本欧美黄色片| 欧美国产禁国产网站cc| 国产一区二区在线不卡| 久久久久久久久久久久av| 亚洲欧洲av| 中文字幕第17页| 亚洲一级在线观看| 国产特黄在线| 亚洲www永久成人夜色| 国精品一区二区| 瑟瑟视频在线观看| 91麻豆精品国产91久久久使用方法| a视频在线免费看| 久久久久天天天天| 另类小说视频一区二区| 久久免费少妇高潮99精品| 亚洲精品一区二三区不卡| 日韩av黄色| 久久99久久99精品| 国产欧美一区二区三区鸳鸯浴| 国产成人精品白浆久久69| 精品国产乱码久久久久久久| 国产伦理精品| 亚洲国产精品一区二区第一页| 国产福利一区二区三区在线视频| 免费观看成人在线视频| 91精品综合久久久久久久久久久| 美女被艹视频网站| 日韩欧美成人精品| 国产高清一区二区三区视频|