精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

發布于 2024-5-27 12:15
瀏覽
0收藏

比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。


該方式在多項測試中性能都遠超DPO,還能讓8B模型戰勝Claude 3的超大杯Opus。

而且與DPO相比,訓練時間和GPU消耗也都大幅減少。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

這種方法叫做SimPO,Sim是Simple的簡寫,意在突出其簡便性。


與DPO相比,SimPO擺脫了對參考模型的需要,在簡化訓練流程的同時,還避免了訓練和推理不一致的問題。


對于這項成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:

和(SimPO方法調整出的)模型聊天感覺讓人難以置信。
Llama3-8B是現在最好的小模型,SimPO把它變得更好了。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

成果發布并開源后,大模型微調平臺Llama-Factory也迅速宣布引進。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

擺脫對參考模型的需要

陳丹琦團隊的SimPO,和斯坦福提出的DPO一樣,都是對RLHF中的獎勵函數進行優化。

在傳統的RLHF中,獎勵函數通常由一個獨立的獎勵模型提供,需要額外的訓練和推理;DPO利用人類偏好和模型輸出之間的關系,直接用語言模型的對數概率來構建獎勵函數,繞開了獎勵模型的訓練。


而和DPO相比,SimPO只基于當前優化的模型π_θ進行設計,完全擺脫了對參考模型π_ref的依賴。


具體來說,SimPO采用了長度歸一化的對數概率作為獎勵函數。


其中,β是一個正的縮放系數,|y|表示回復y的token長度,πθ(y|x)表示當前語言模型πθ生成回復y的概率。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

對數概率是衡量生成質量的常用指標,較高的對數概率意味著在當前模型看來,這個回復是高質量、自然、連貫的。


因此,這種獎勵方式可以讓模型生成的回復更加符合自身已有知識。


長度歸一化則是指,在函數當中,獎勵值除以了回復長度|y|,起到了“懲罰”過長回復的作用。


這樣做的原因是語言模型傾向于生成更長的文本,因為每個額外的token都會為總對數概率做貢獻,但過長的回復往往會降低可讀性和信息密度。


除以長度相當于計算平均每個token的對數概率,鼓勵模型用盡可能簡潔的方式表達完整的信息。


消融實驗結果也證實,如果不進行長度歸一化,模型很容易利用長度偏差,只有在生成文本較長時才有較好的表現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

除了使用對數概率和長度歸一化,SimPO還引入了獎勵差異項(公式中的γ)對目標函數進行改進。


引入γ相當于給正負樣本的差異設定了一個閾值,主要目的就是加強優化信號,促使模型學習更加鮮明地區分正負樣本。


在標準的Bradley-Terry損失中,只要正樣本的獎勵略高于負樣本,損失就會很低,導致模型對正負樣本的區分不夠清晰;加入γ項后,模型必須使正樣本的獎勵明顯高于負樣本,才能取得較好的優化效果。


當然如果γ過大則可能會給優化帶來困難,導致訓練不穩定或收斂速度變慢,作者通過實驗比較了不同γ值的效果,最終發現γ在0.8到1.6之間時SimPO可以取得最佳表現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

總體的消融實驗結果表明,長度歸一化和獎勵差異項的引入都是讓SimPO表現進一步提升的關鍵,無論是在AlpacaEval 2還是Arena-Hard當中,缺少兩項技術中的任意一項,都會造成表現下降。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

那么,SimPO的具體表現究竟怎樣呢?

表現超越各種“PO”,還讓8B模型戰勝Claude 3

作者首先在AlpacaEval 2基準上對SimPO調整后的Llama3-Instruct-8B模型和榜單上的先進模型進行了比較。


該測試的主要指標是Win Rate及加入長度控制(LC)后的Win Rate,即模型的回答被評判者認為比GPT-4 Turbo(1106)更好的比例(這里評判者也是GPT4-Turbo)。


結果,SimPO調整后的8B模型,表現已經超過了Claude 3的超大杯Opus;和DPO相比,勝率也有10%左右的提升。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

接著,作者又用AlpacaEval 2、Arena-Hard和MT-Bench基準,將SimPO的實際效果與一些其他PO進行了對比。


其中Arena-Hard與AlpacaEval 2類似都是比較勝率,但前者任務難度更大,需要多步推理和專業知識,此外baseline也換成了GPT4-0314。


MT-Bench則是一個多語言理解評測基準,評價方式是直接打分,裁判是GPT-4和GPT-4-Turbo。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

參與比較的其他PO如下表所示,其中ORPO和SimPO一樣都沒有使用參考模型。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

結果,在Arena-Hard與AlpacaEval 2上,調整Mistral-7B和Llama3-8B兩種模型時,無論是Base還是Instruct版本,SimPO的效果都顯著優于DPO等其他方式。


在MT-Bench測試當中,GPT-4-Turbo也都把最高分打給了SimPO,GPT-4給出的成績中SimPO也與最高分十分接近。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

另外SimPO的開銷也大幅減少,在8塊H100上,SimPO調整Llama3-8B的時間為60分鐘,比DPO減少了20%;GPU消耗峰值為69GB,也比DPO少了10%。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

但同時,作者也指出了SimPO還存在一些不足:

  • 一是未明確考慮安全性和誠實性,采用的獎勵函數主要關注了模型的表現,需要進一步加強安全措施;
  • 二是在GSM8k等需要密集推理的任務,特別是數學問題上的表現有所下降,未來會考慮集成一些正則化策略進行改進。


有網友也指出,讓一個8B模型取得超越Claude3-Opus的勝率,一定會有過擬合的現象出現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

對此作者表示確實存在這種可能,但也強調,在單獨一個標準上成績比Claude高,并不意味著全面超越,比如在Arena-Hard上的表現就不如Claude。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

不過無論如何,SimPO創新性運用到的長度歸一化和獎勵差異項,都可以給大模型從業者帶來新的啟發。


論文地址:???https://arxiv.org/abs/2405.14734??


本文轉自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/ZmoDjUUoP4w7j57qpYlodg??

收藏
回復
舉報
回復
相關推薦
国内自拍偷拍视频| 99re99热| 中文字幕精品一区二区精| 999国产精品视频| 日韩一区二区三区电影在线观看 | 亚洲三级久久久| 福利视频久久| 中文字幕第三页| 精品成人免费| 国产亚洲人成网站在线观看| av在线免费观看不卡| 中文在线а√在线8| 亚洲日穴在线视频| 日韩国产高清一区| 日本xxxx人| 蜜乳av一区二区三区| 久久乐国产精品| 极品色av影院| 欧美裸体在线版观看完整版| 精品国产三级电影在线观看| 最新国产黄色网址| 在线人成日本视频| 亚洲国产欧美一区二区三区丁香婷| 亚洲韩国在线| 日韩美女一级视频| 粉嫩绯色av一区二区在线观看| 国产精品九九九| 一级免费在线观看| 黄色在线一区| 久久成人综合视频| av激情久久| 日本不卡一区二区三区四区| 欧美一级特黄aaaaaa大片在线观看| 蜜桃av噜噜一区| 日韩美女写真福利在线观看| 动漫精品一区一码二码三码四码| 91久久国产| 夜夜嗨av一区二区三区四区| 五级黄高潮片90分钟视频| 中文字幕亚洲在线观看| 91精品国产一区二区三区| 在线看的黄色网址| 影音成人av| 色悠久久久久综合欧美99| 日本日本19xxxⅹhd乱影响| 色av手机在线| 亚洲综合色自拍一区| 欧洲xxxxx| 精品自拍一区| 亚洲欧美日韩人成在线播放| 亚洲欧洲精品一区| 午夜不卡视频| 亚洲色图一区二区| 欧美日韩一区二区三区电影| 麻豆91在线| 国产日韩欧美高清| 色一情一乱一伦一区二区三区丨| 二区三区在线| 国产精品久久久久国产精品日日 | 国产综合久久久| 亚洲日韩第一页| 欧洲av一区二区三区| 亚洲资源网你懂的| 亚洲欧美中文字幕| 久久免费手机视频| 亚洲综合中文| 欧美极品在线播放| 日韩在线视频免费播放| 日韩精品欧美精品| 国产中文日韩欧美| 国产wwwxxx| 不卡电影免费在线播放一区| 精品高清视频| 国产免费av高清在线| 国产精品久久久久久久久免费丝袜 | 国产一区二区三区中文字幕| 国产一区二区美女| 国产伦精品一区二区三区免费视频| 男人天堂av网| 久久久精品tv| 9l视频自拍9l视频自拍| 大桥未久在线播放| 色欧美88888久久久久久影院| 国产又黄又猛又粗又爽的视频| 日韩美女在线| 亚洲第一中文字幕在线观看| 亚洲专区区免费| 亚洲电影影音先锋| 136fldh精品导航福利| 亚洲毛片一区二区三区| 国产乱子伦视频一区二区三区| aa成人免费视频| 久久久久久女乱国产| 国产精品久久久久久久岛一牛影视 | 国产伦精品一区二区三区免费视频| 日韩大片b站免费观看直播| 亚洲国产精品成人综合| 国产爆乳无码一区二区麻豆| 成人欧美一区二区三区的电影| 欧美日韩精品一区二区三区蜜桃 | 中文字幕第一区第二区| 黄色网址在线免费看| 国产中文在线播放| 欧美日本乱大交xxxxx| 337p日本欧洲亚洲大胆张筱雨| 亚洲午夜激情影院| 三级成人黄色影院| 日韩一级欧美一级| 日本爱爱爱视频| 国一区二区在线观看| 国产精品h在线观看| 亚洲免费成人网| 欧美国产日本视频| 国产手机免费视频| 亚洲精品第一| 亚洲精选中文字幕| 久久久精品视频免费观看| 久久久蜜桃一区二区人| 91偷拍精品一区二区三区| 国产一级二级三级在线观看| 亚洲曰韩产成在线| 爱豆国产剧免费观看大全剧苏畅| 天天躁日日躁狠狠躁欧美| 九色成人免费视频| 一区二区日韩视频| 国产三级一区二区| 97成人在线免费视频| 欧美.com| 久久亚洲国产成人| 羞羞色院91蜜桃| 26uuu国产在线精品一区二区| 日本三级中文字幕在线观看| 97人人做人人爽香蕉精品| 亚洲精品999| 日本午夜精品理论片a级app发布| 国产精一区二区三区| 亚洲精品在线免费| 欧美精品总汇| 亚洲四色影视在线观看| 国产九色在线播放九色| av在线播放一区二区三区| 国产精品久久国产| 在这里有精品| 欧美激情亚洲自拍| 韩国av永久免费| 一区二区三区精密机械公司| 少妇高潮一69aⅹ| 91精品蜜臀一区二区三区在线| 国产欧美一区二区三区在线看| 国产69久久| 欧美系列一区二区| 国产精品久久免费观看| 日本欧美久久久久免费播放网| 日本精品一区二区三区视频 | 亚洲午夜影视影院在线观看| 两女双腿交缠激烈磨豆腐| 自拍欧美日韩| caoporn国产精品免费公开| 国产成人一区二区三区影院在线| 亚洲性色av| 精品国产麻豆免费人成网站| 久久久综合久久| www.一区二区| 欧美 日韩 国产在线观看| 色婷婷狠狠五月综合天色拍| 欧美一级在线播放| 国产对白叫床清晰在线播放| 欧美日韩电影在线| 欧洲猛交xxxx乱大交3| 国产不卡免费视频| 5月婷婷6月丁香| 成人高清av| 91亚洲精品一区| gogo高清在线播放免费| 亚洲精品美女在线观看| 无码视频一区二区三区| 国产精品另类一区| 四虎国产精品免费| 国产视频亚洲| 亚洲日本欧美在线| 成人av激情人伦小说| 欧美在线播放视频| 午夜视频在线观看网站| 日韩视频在线你懂得| 国产成人亚洲精品自产在线 | 三级一区在线视频先锋 | 亚洲一级高清| 日韩精品成人一区二区在线观看| 日韩成人精品一区二区三区| 欧美激情在线观看视频| 国产专区在线| 精品国产网站在线观看| 最近中文字幕免费观看| 亚洲黄色小说网站| av永久免费观看| 国产91在线|亚洲| 北条麻妃av高潮尖叫在线观看| 91精品国产视频| 欧美久久综合性欧美| 看亚洲a级一级毛片| 欧美一级高清免费播放| 怡红院在线播放| 亚洲天堂成人在线视频| 亚洲黄色在线观看视频| 欧美三级中文字幕在线观看| 国产一级二级三级| 国产精品拍天天在线| av不卡中文字幕| 狠狠色丁香久久婷婷综合_中| 青青青免费在线| 欧美日本不卡| 亚洲一区二区三区精品视频| 婷婷成人在线| 国产欧美精品一区二区三区| 久久天天久久| 欧美一级bbbbb性bbbb喷潮片| 超碰电影在线播放| 一本一道久久a久久精品逆3p | 国产情侣呻吟对白高潮| 亚洲国产美女搞黄色| www欧美com| 国产精品女人毛片| 欧美特级黄色录像| 99久久精品国产精品久久| 亚洲三级在线视频| 久久国产日韩欧美精品| 免费在线观看毛片网站| 日韩视频免费| www.国产在线播放| 亚洲精品电影| 中文字幕日韩精品一区二区| 国产欧美日韩精品一区二区三区| 国产亚洲情侣一区二区无| 8848成人影院| 91手机在线视频| 日韩欧美一级| 91pron在线| 国产欧美88| 在线观看国产一区二区| www.国产亚洲| 欧美成人精品| 看全色黄大色大片| 香蕉视频官网在线观看日本一区二区| 色女孩综合网| 日韩欧美一区二区三区免费看| 亚洲精品二区| 999国产精品视频| 特级黄色录像片| 欧美高清不卡| 人人妻人人做人人爽| 精品成人免费| 北条麻妃在线视频观看| 久久国产免费| 亚洲少妇第一页| 蜜桃精品视频在线| 手机版av在线| 国产一区二区三区美女| 手机在线免费毛片| 国产福利一区在线| 亚洲一区二区三区黄色| 99这里只有精品| 欧美老熟妇乱大交xxxxx| 国产欧美视频一区二区| 精品人体无码一区二区三区| 亚洲免费观看视频| 国产一级特黄a高潮片| 黑人巨大精品欧美一区二区免费| 在线观看日韩中文字幕| 91精品1区2区| 国产女无套免费视频| 欧美成人精品二区三区99精品| 内射无码专区久久亚洲| 精品亚洲一区二区三区在线播放| 黑人与亚洲人色ⅹvideos| 日韩在线中文字幕| 蜜乳av一区| 日韩免费在线视频| 亚洲欧洲一二区| 国产精品国产精品国产专区蜜臀ah| 美女福利一区| 午夜久久资源| 激情久久综合| 福利在线一区二区三区| 国产福利一区二区| 日本高清www| 日韩美女久久久| 国产毛片aaa| 6080国产精品一区二区| 香蕉久久国产av一区二区| 一区二区三区国产视频| 毛片网站在线看| 国产精品第七十二页| 激情久久免费视频| 麻豆成人小视频| 亚洲综合色网| 精品久久久噜噜噜噜久久图片| 国产麻豆欧美日韩一区| 男人天堂av电影| 一区二区三区国产精品| 国产精品无码粉嫩小泬| 欧美成人三级电影在线| seseavlu视频在线| 午夜精品久久久久久久久久久久| 91亚洲精品| 久久久久免费网| 欧美不卡视频| 欧美自拍小视频| 99国产一区二区三精品乱码| 激情无码人妻又粗又大| 第一福利永久视频精品| 精品人妻一区二区三区浪潮在线| 亚洲欧美中文日韩在线v日本| 免费在线观看的电影网站| 国产日韩欧美91| 国产欧美日韩| 成人在线免费观看av| 国产成人在线视频网站| 91高清免费观看| 欧美亚洲一区三区| 天堂av网在线| 久久久久久久久久国产精品| 成人网av.com/| 在线观看一区二区三区三州| 日一区二区三区| 97超碰在线资源| 欧美午夜www高清视频| 人妻视频一区二区三区| 欧美风情在线观看| 久久久久久亚洲精品美女| 亚洲激情啪啪| 日韩1区2区3区| 亚洲人成人无码网www国产| 亚洲va韩国va欧美va| 亚洲精品一区二区三区新线路| 久久综合网hezyo| 久久影视精品| 亚洲一区精彩视频| 日本女人一区二区三区| 欧美18—19性高清hd4k| 色综合久久久久| 欧美在线观看在线观看| 国产91成人在在线播放| 天堂99x99es久久精品免费| 日韩小视频在线播放| 成人av电影免费在线播放| 日本a在线观看| 亚洲аv电影天堂网| 欧美xxxhd| 欧美二区在线| 免费不卡在线视频| 特黄一区二区三区| 欧美精品丝袜久久久中文字幕| 最新97超碰在线| 成人欧美一区二区三区在线湿哒哒 | 97蜜桃久久| 好吊妞www.84com只有这里才有精品 | 国产麻豆精品在线| 欧美做爰啪啪xxxⅹ性| 欧美一级二级在线观看| 一色桃子av在线| 国产精品.com| 国产精品视频久久一区| 51妺嘿嘿午夜福利| 欧美三级日韩三级国产三级| 黄色网页在线免费看| 99理论电影网| 国产农村妇女毛片精品久久莱园子| 人妻丰满熟妇av无码久久洗澡| 色婷婷亚洲精品| 高h视频在线观看| 国产精品一区二区三区免费观看 | 国产成人一区二区三区| 成人羞羞视频播放网站| 色姑娘综合天天| 婷婷综合在线观看| 婷婷激情在线| 国产欧美一区二区在线播放| 久久久精品网| 手机在线中文字幕| 亚洲国产中文字幕在线观看| 日本少妇一区| 特级西西444| 久久午夜老司机| 一区二区www| 97热精品视频官网| 欧美成人激情| 日本护士做爰视频| 欧美疯狂做受xxxx富婆| 超碰资源在线| 亚洲精品无人区| 不卡电影一区二区三区| 中文字幕无码乱码人妻日韩精品| 欧美激情欧美激情| 国产99久久| 俄罗斯黄色录像| 欧美天堂亚洲电影院在线播放| 青草视频在线免费直播| 手机成人在线| 91在线丨porny丨国产| 国产精品视频无码|