精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UCLA華人提出全新自我對弈機制!LLM自己訓自己,效果碾壓GPT-4專家指導

人工智能
來自UCLA的華人團隊提出一種全新的LLM自我對弈系統,能夠讓LLM自我合成數據,自我微調提升性能,甚至超過了用GPT-4作為專家模型指導的效果。

合成數據已經成為了大語言模型進化之路上最重要的一塊基石了。

在去年底,有網友扒出前OpenAI首席科學家Ilya曾經在很多場合表示過,LLM的發展不存在數據瓶頸,合成數據可以解決大部分的問題。

圖片圖片

英偉達高級科學家Jim Fan在看了最近的一批論文后也認為,使用合成數據,再加上傳統用于游戲和圖像生成的技術思路,可以讓LLM完成大幅度的自我進化。

圖片圖片

而正式提出這個方法的論文,是由來自UCLA的華人團隊。

圖片圖片

論文地址:https://arxiv.org/abs/2401.01335v1

他們通過自我對弈機制(SPIN)生成合成數據,再通過自我微調的方法,不使用新的數據集,讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。

圖片

研究人員提出了一種名為SPIN的自我微調的方法,通過自我對弈的方式——LLM與其前一輪迭代版本進行對抗,從而逐步提升語言模型的性能。

圖片圖片

這樣就無需額外的人類標注數據或更高級語言模型的反饋,也能完成模型的自我進化。

主模型和對手模型的參數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為:

圖片圖片

自我對弈的訓練方式,總結起來思路大概是這樣:

通過訓練主模型來區分對手模型生成的響應和人類目標響應,對手模型是輪迭代獲得的語言模型,目標是生成盡可能難以區分的響應。

假設第t輪迭代得到的語言模型參數為θt,則在第t+1輪迭代中,使用θt作為對手玩家,針對監督微調數據集中每個prompt x,使用θt生成響應y'。

然后優化新語言模型參數θt+1,使其可以區分y'和監督微調數據集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分布。

這里,主模型的損失函數采用對數損失,考慮y和y'的函數值差。

對手模型加入KL散度正則化,防止模型參數偏離太多。

具體的對抗博弈訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的響應分布等于目標響應分布時,優化過程收斂。

如果使用對弈之后生成的合成數據進行訓練,再使用SPIN進行自我微調,能有效提高LLM的性能。

圖片圖片

但之后在初始的微調數據上再次簡單地微調卻又會導致性能下降。

而SPIN僅需要初始模型本身和現有的微調數據集,就能使得LLM通過SPIN獲得自我提升。

特別是,SPIN甚至超越了通過DPO使用額外的GPT-4偏好數據訓練的模型。

圖片圖片

而且實驗還表明,迭代訓練比更多epoch的訓練能更加有效地提升模型性能。

圖片圖片

延長單次迭代的訓練持續時間不會降低SPIN的性能,但會達到極限。

迭代次數越多,SPIN的效果的就越明顯。

網友在看完這篇論文之后感嘆:

合成數據將主宰大語言模型的發展,對于大語言模型的研究者來說將會是非常好的消息!

圖片圖片

自我對弈讓LLM能不斷提高

具體來說,研究人員開發的SPIN系統,是由兩個相互影響的模型相互促進的系統。

圖片表示的前一次迭代t的LLM,研究人員使用它來生成對人工注釋的SFT數據集中的提示x的響應y。

接下來的目標是找到一個新的LLM圖片,能夠區分圖片生成的響應y和人類生成的響應y'。

這個過程可以看作是一個兩人游戲:

主要玩家或新的LLM圖片試圖辨別對手玩家的響應和人類生成的響應,而對手或舊的LLM圖片生成響應與人工注釋的SFT數據集中的數據盡可能相似。

通過對舊的圖片進行微調而獲得的新LLM圖片更喜歡圖片的響應,從而產生與圖片更一致的分布圖片

在下一次迭代中,新獲得的LLM圖片成為響應生成的對手,自我對弈過程的目標是LLM最終收斂到圖片,使得最強的LLM不再能夠區分其先前生成的響應版本和人類生成的版本。

如何使用SPIN提升模型性能

研究人員設計了個兩人游戲,其中主要模型的目標是區分LLM生成的響應和人類生成的響應。與此同時,對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回復和人類的回復。

研究人員方法的核心是自我博弈機制,其中主玩家和對手都是相同的LLM,但來自不同的迭代。

更具體地說,對手是上一次迭代中的舊LLM,而主玩家是當前迭代中要學習的新LLM。在迭代t+1時包括以下兩個步驟:(1)訓練主模型,(2)更新對手模型。

訓練主模型

首先,研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分概率度量(IPM)的啟發,研究人員制定了目標函數:

圖片圖片

更新對手模型

對手模型的目標是找到更好的LLM,使其產生的響應與主模型的p數據無異。

實驗

SPIN有效提升基準性能

研究人員使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明 SPIN的有效性。

在下圖中,研究人員將經過0到3次迭代后通過SPIN微調的模型與基本模型zephyr-7b-sft-full的性能進行了比較。

研究人員可以觀察到,SPIN通過進一步利用SFT數據集,在提高模型性能方面表現出了顯著的效果,而基礎模型已經在該數據集上進行了充分的微調。

在第0次迭代中,模型響應是從zephyr-7b-sft-full生成的,研究人員觀察到平均得分總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中,這一改進尤其顯著,分別提高了超過5%和10%。

在迭代1中,研究人員采用迭代0中的LLM模型來生成SPIN的新響應,遵循算法1中概述的過程。

此迭代平均產生1.32%的進一步增強,在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨后的迭代延續了各種任務增量改進的趨勢。同時,迭代t+1時的改進自然更小

圖片圖片

zephyr-7b-beta是從zephyr-7b-sft-full衍生出來的模型,使用DPO在大約62k個偏好數據上訓練而成。

研究人員注意到,DPO需要人工輸入或高級語言模型反饋來確定偏好,因此數據生成是一個相當昂貴的過程。

相比之下,研究人員的SPIN只需要初始模型本身就可以。

此外,與需要新數據源的DPO不同,研究人員的方法完全利用現有的SFT數據集。

下圖顯示了SPIN在迭代0和1(采用50k SFT數據)與DPO訓練的性能比較。

圖片圖片

研究人員可以觀察到,雖然DPO利用了更多新來源的數據,但基于現有SFT數據的SPIN從迭代1開始,SPIN甚至超過了DPO的性能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

參考資料:

https://arxiv.org/abs/2401.01335v1

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-01-23 13:15:27

2023-06-05 12:32:48

模型論文

2023-05-22 15:17:02

谷歌AI

2024-07-09 12:54:57

2023-06-19 08:19:50

2023-10-13 13:12:44

2023-04-12 16:23:00

GPT-4代碼

2024-10-15 09:20:38

2023-05-05 09:42:12

2025-04-16 09:35:03

2023-03-27 18:18:47

GPT-4AI

2023-11-26 17:14:05

2023-05-31 14:23:44

人工智能

2024-04-02 11:38:31

模型訓練

2024-06-28 13:40:03

2024-07-02 01:09:02

2023-05-22 08:30:35

GPT-4智能編程助手

2023-04-04 11:20:40

GPT-4OpenAI

2024-03-28 13:15:00

化學專業Claude 3GPT-4

2023-05-30 13:29:25

點贊
收藏

51CTO技術棧公眾號

久久影院在线观看| 欧美日本在线播放| 日本免费高清不卡| 国产精品人人妻人人爽| 国语对白精品一区二区| 亚洲精品福利视频| www.激情小说.com| 国产后进白嫩翘臀在线观看视频| 26uuu久久综合| 国产日韩精品视频| 久草精品视频在线观看| 国产综合久久久| 日韩精品一区二区三区三区免费| 国产亚洲精品网站| 成人黄视频在线观看| 91首页免费视频| 亚洲尤物视频网| 三级网站在线播放| 国产综合视频| 最近2019中文字幕在线高清| 日韩av无码一区二区三区不卡| 国产v综合v| 亚洲午夜影视影院在线观看| 亚洲成人a**址| 手机在线不卡av| 国产一区二区不卡| 国产精品久久久久久av福利| 久久久久久久久久综合| 久久国产精品成人免费观看的软件| 精品成人免费观看| 亚洲免费成人在线视频| 欧美最新精品| 黄色成人在线播放| 成人一级生活片| 国产激情视频在线观看| 中文字幕欧美激情| 欧美日韩在线一二三| 全部免费毛片在线播放一个| 国产一区美女在线| 国产人妖伪娘一区91| 久操视频在线免费观看| 国产精品久久久久久模特| 九色精品美女在线| 久久国产精品国语对白| 欧美成人激情| 尤物精品国产第一福利三区| 成人网站免费观看| 久久悠悠精品综合网| 欧美成人性福生活免费看| 91热视频在线观看| 四虎国产精品成人免费影视| 欧美午夜精品久久久久久超碰| 精品视频一区二区在线| 中文在线中文资源| 色诱视频网站一区| 欧洲av无码放荡人妇网站| 正在播放日韩精品| 色综合久久精品| 国产精品亚洲二区在线观看| 在线天堂新版最新版在线8| 五月婷婷另类国产| 波多野结衣家庭教师在线播放| 福利小视频在线| 午夜精品福利一区二区三区av| 男人用嘴添女人下身免费视频| 性欧美freesex顶级少妇| 欧美日韩国产限制| 中文字幕无码不卡免费视频| 韩国女主播一区二区| 精品视频在线免费| 亚洲日本黄色片| 欧美不卡在线观看| 亚洲精品在线观看视频| 我和岳m愉情xxxⅹ视频| 欧美精品一区二区三区中文字幕| 中日韩美女免费视频网址在线观看| 国产精品1区2区3区4区| 2023国产精品久久久精品双| 欧美国产日韩一区| 六月丁香激情综合| 奇米四色…亚洲| 91在线免费网站| 日本激情一区二区三区| 91蝌蚪porny九色| 亚洲一区二区三区精品动漫| a视频在线免费看| 欧美日韩国产丝袜另类| www.这里只有精品| 亚洲三区欧美一区国产二区| 亚洲精品视频免费在线观看| 国产又粗又硬视频| 国产精品第十页| 午夜伦理精品一区 | 亚洲精品成人少妇| 免费国产a级片| 国内欧美日韩| 亚洲激情在线观看| 色哟哟一一国产精品| 在线不卡视频| 国产精品影院在线观看| 日本韩国在线观看| 国产精品福利一区| 久久久一本二本三本| 精品女同一区二区三区在线观看| 精品国产网站在线观看| 国产亚洲精品熟女国产成人| 欧美午夜在线| 国产日韩中文字幕在线| 三级网站在线看| 亚洲视频每日更新| 欧美黑人又粗又大又爽免费| 日韩有吗在线观看| 中文精品99久久国产香蕉| 国产精品2020| 国产一区二区美女诱惑| 日韩在线第一区| 九色porny自拍视频在线观看 | 一本岛在线视频| 国产美女撒尿一区二区| 久久精品国产一区二区三区| 欧美一级特黄视频| 国产精品99久久久| 亚洲永久激情精品| 欧美片第一页| 日韩成人在线电影网| 中文字幕在线2021| 蜜臀av性久久久久蜜臀aⅴ流畅| 精品九九九九| 超碰中文在线| 日韩欧美一区在线观看| 久久久99999| 日本在线不卡视频一二三区| 狠狠干一区二区| 日韩精品分区| 日韩一区二区影院| 亚洲精品久久久久久国| 人禽交欧美网站| 日本一区二区三区在线视频| 中文字幕在线直播| 亚洲精品videossex少妇| 久久无码精品丰满人妻| 国产乱子伦一区二区三区国色天香 | yw.139尤物在线精品视频| 无码免费一区二区三区| 久久理论电影网| 两根大肉大捧一进一出好爽视频| 久久九九热re6这里有精品| 欧美黄色免费网站| www.黄色一片| 亚洲线精品一区二区三区| 国产成人av片| 好吊视频一区二区三区四区| 粉嫩av一区二区三区免费观看| 五月天激情在线| 精品乱人伦一区二区三区| 久久久久久久蜜桃| av在线一区二区三区| 亚洲 高清 成人 动漫| 日韩电影在线观看完整免费观看| 2023亚洲男人天堂| 国内三级在线观看| 精品视频全国免费看| 亚洲二区在线观看| 中文字幕不卡每日更新1区2区| 成人亚洲视频| 日韩中文字幕不卡视频| 一区二区三区精| 综合精品久久久| 日本一区二区三区在线免费观看| 欧美暴力喷水在线| 国产精品视频在线免费观看| 少妇淫片在线影院| 一区二区三区精品99久久| 日韩不卡高清视频| 久久精品欧美一区二区三区麻豆| 国产成人精品视频免费看| 日韩av不卡一区| 国产精彩精品视频| 好吊日视频在线观看| 日韩精品一区二区三区swag| 日本一区二区不卡在线| 久久嫩草精品久久久精品一| the porn av| 无需播放器亚洲| 国产精品theporn88| 日本在线高清| 中文字幕亚洲无线码在线一区| hs视频在线观看| 精品电影在线观看| 女人裸体性做爰全过| 成人永久看片免费视频天堂| 欧美少妇性生活视频| 亚洲国产日韩欧美在线| 久久99精品久久久久久三级| 欧美伊人亚洲伊人色综合动图| 欧美黄色三级网站| 都市激情在线视频| 日韩精品影音先锋| 天堂免费在线视频| 亚洲香蕉伊在人在线观| 极品尤物一区二区| 91丨porny丨户外露出| 在线免费黄色网| 日韩精品一级中文字幕精品视频免费观看 | 精品中文字幕在线2019| 欧洲亚洲精品视频| 欧美一级搡bbbb搡bbbb| 日韩一级在线视频| 亚洲宅男天堂在线观看无病毒| 国产精品免费无码| 成人教育av在线| 性生生活大片免费看视频| 午夜在线精品偷拍| 毛片av在线播放| 日韩久久视频| 欧美高清视频一区| 操欧美女人视频| 成人在线中文字幕| 欧美与亚洲与日本直播| 97超碰国产精品女人人人爽| 成人黄视频在线观看| 中文字幕日韩视频| 第一福利在线| 亚洲欧美国产日韩中文字幕| 亚洲精品一区二区口爆| 在线不卡的av| 中文字幕黄色av| 色8久久人人97超碰香蕉987| 日本一区二区三区免费视频| 亚洲一区二区三区视频在线播放 | 国产精品1234| 涩涩视频在线| 午夜精品视频在线| av不卡高清| 久久久久国产视频| 伊人222成人综合网| 久久久91精品国产| 亚洲成人三级| 中文字幕一区二区三区电影| 国产高清在线看| 亚洲人成欧美中文字幕| 日本不卡视频一区二区| 国产丝袜一区二区三区| 深爱激情五月婷婷| 日韩成人在线电影网| 神马午夜精品95 | 成人资源www网在线最新版| 精品丝袜一区二区三区| 日本一卡二卡四卡精品| 精品香蕉一区二区三区| 欧美日韩激情视频一区二区三区| 日韩成人在线免费观看| 免费在线超碰| 亚洲片在线观看| 福利在线午夜| 综合国产在线观看| 日韩毛片久久久| 北条麻妃99精品青青久久| www视频在线看| 久久99久国产精品黄毛片入口| 色网在线观看| 97视频在线播放| 波多野结衣久久精品| 国产成人avxxxxx在线看| 91福利精品在线观看| 国产精品无av码在线观看| japansex久久高清精品| 成人午夜电影在线播放| 日韩精品欧美大片| 日本成人三级| 影音先锋日韩在线| 妞干网在线播放| 日韩一区二区免费看| 久久久精品在线视频| 蜜臀av一区二区在线免费观看| 樱花草www在线| 成人激情文学综合网| 成人影视免费观看| 一区在线播放视频| 国产在线视频99| 在线观看不卡视频| 国产av一区二区三区精品| 日韩av网站在线| 精品电影在线| 久久亚洲精品一区| 男人的天堂免费在线视频| 国产日产欧美a一级在线| 超碰一区二区三区| 日韩色妇久久av| 欧美一区影院| 91淫黄看大片| 国产99久久久国产精品免费看| 成人免费无码大片a毛片| 中文字幕久久午夜不卡| 国产污视频在线观看| 欧美综合色免费| 免费a视频在线观看| 一区二区三区视频免费在线观看| 91小视频xxxx网站在线| 日韩美女视频免费看| 国产一区2区在线观看| 久久国产精品久久精品国产| 色乱码一区二区三区网站| 每日在线观看av| 久久精品国产77777蜜臀| 三级视频网站在线观看| 日韩一区有码在线| 久热这里只有精品6| 8x福利精品第一导航| 欧美新色视频| 欧美精品成人在线| 国产精品久久久久久久久久久久久久久| 精品中文字幕一区| 欧美日韩网站| 日韩中文字幕a| 久久看人人爽人人| 懂色av.com| 欧美二区乱c少妇| 精品久久av| 9.1国产丝袜在线观看| 久久国产精品美女| 亚洲欧洲日韩综合二区| 裸体素人女欧美日韩| 丰满人妻一区二区三区免费视频棣| 国产精品无遮挡| 天堂中文字幕在线观看| 亚洲精品一区二区三区香蕉| 黄色av免费在线| 国产在线高清精品| 国产欧美日韩视频在线| 北条麻妃69av| 成人av在线网站| 国产真实乱偷精品视频| 日韩欧美一区二区久久婷婷| av在线官网| 91在线国产电影| 亚洲精品一区二区在线看| 色一情一区二区三区| 中国av一区二区三区| 欧美brazzers| 国产一区二区日韩| 91亚洲精品| 色综合电影网| 美女一区二区三区在线观看| 自拍偷拍你懂的| 欧美日韩免费高清一区色橹橹| 春暖花开成人亚洲区| 国产精品观看在线亚洲人成网| 国产一区二区精品久| 91香蕉视频污版| 欧美激情一区不卡| 国产一区二区波多野结衣| 久久精品成人一区二区三区| 一区在线不卡| 日本xxxxx18| 风流少妇一区二区| 男人的天堂一区二区| 亚洲精品资源在线| 国产精品字幕| 欧美h视频在线观看| 国产激情91久久精品导航| 九九热国产在线| 日韩国产精品视频| 精品成人免费一区二区在线播放| 先锋影音一区二区三区| 精品一区二区三区免费播放 | 瑟瑟在线观看| 日韩av123| 手机在线一区二区三区| 少妇愉情理伦片bd| 天天综合日日夜夜精品| 毛片网站在线| 国产精品中文字幕在线| 欧美在线亚洲| 波多野结衣先锋影音| 欧美色区777第一页| 污视频免费在线观看| 蜜桃成人免费视频| 久草中文综合在线| 国产一级片播放| 一区二区三区国产在线观看| 国产美女视频一区二区| 日韩欧美视频网站| 国产精品热久久久久夜色精品三区| 99国产在线播放| 欧美中文在线观看国产| 亚洲国产精品久久久天堂| 一区二区视频观看| 欧美日韩国产123区| 2021中文字幕在线| 亚洲一区bb| 99精品热视频| 国产精品热久久| 日本精品免费观看| 欧美激情一区| 欧洲性xxxx| 亚洲福利视频网| 91丨精品丨国产| 国产日韩一区二区在线| 亚洲精品成人少妇|