精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama 2打敗GPT-4!Meta讓大模型自我獎勵自迭代,再證合成數(shù)據是LLM終局

人工智能 新聞
AI訓AI必將成為一大趨勢。Meta和NYU團隊提出讓大模型「自我獎勵」的方法,讓Llama2一舉擊敗GPT-4 0613、Claude 2、Gemini Pro領先模型。

Llama 2-70B一夜之間打敗GPT-4,讓整個AI社區(qū)為之震驚!

甚至,在AlpacaEval 2.0排行榜中,微調后的模型勝率完全碾壓Claude 2、Gemini Pro等模型。

Meta和NYU研究團隊究竟提出了什么秘制配方,才能讓Llama 2-70B超強進化?

正如論文題目所言——「自我獎勵語言模型」,模型生成訓練數(shù)據,并評估這些數(shù)據的質量,然后用這些數(shù)據來自己訓練自己。

簡單來說,最新方法可以讓LLM在迭代訓練過程中不斷自我改進。

論文地址:https://arxiv.org/pdf/2401.10020.pdf

LeCun也轉贊了自家實驗室的研究。

圖片

RLAIF已經不是新鮮事了,之前包括Anthropic,谷歌都推出過自己的「AI訓AI」的技術,那么Meta的這項工作和之前的幾家的RLAIF區(qū)別在哪里呢?

我們先來了解一下Meta的自我獎勵語言模型的大概框架。

研究團隊開發(fā)了一個能夠遵循指令和自我評價回復質量的能力的模型。模型可以生成新的訓練數(shù)據,對生成的回復進行質量評分,從而不斷改進自己的輸出。

圖片

模型首先根據少量人工標注數(shù)據進行預訓練,獲得初始化模型。

然后模型生成新的指令和多個候選回復,并使用LLM-as-a-Judge的提示,讓模型對自己生成的回復打分。

根據打分形成新的訓練數(shù)據,繼續(xù)訓練模型。

這樣可以迭代訓練,在每次迭代中模型的遵循指令能力和打分能力都會提升。

研究人員從Llama 2 70B預訓練模型開始迭代訓練。

結果顯示在3次迭代中,模型遵循指令的能力有顯著提升,同時獎勵建模能力也在提高,評價結果與人工判斷的相關性更高。

圖片

這說明模型迭代過程中,不僅指令遵循能力提高,也更善于對自己生成的回復進行判斷。

迭代第三次的模型在AlpacaEval 2.0基準測試中,就戰(zhàn)勝了Claude 2、Gemini Pro、GPT-4 0613等模型。

Meta的這項工作與谷歌在去年9月發(fā)布的RLAIF論文相比,更近一步地使用了一個不斷進化的獎勵模型來不斷迭代訓練模型,而迭代后的模型也確實取得了明顯可見的性能提升。

圖片

可以說,Meta又將AI自我迭代大模型的前沿往前推進了一大步。

如何訓練「自我獎勵語言模型」

研究人員的方法首先假設可以訪問基本的預訓練語言模型和少量人工注釋的種子數(shù)據。

然后研究人員建立一個模型,讓它同時擁有兩種能力:

  1. 指令遵循:給出描述用戶請求的提示,能夠生成高質量、有幫助(且無害)的響應。
  2. 自指令創(chuàng)建:能夠按照示例生成和評估新指令,再添加到自己的訓練集中。

這兩個能力可以為了使模型能夠執(zhí)行自我對齊,即它們是用于使用人工智能反饋(AIF)迭代訓練自身的組件。

自指令創(chuàng)建包括生成候選響應,然后模型本身判斷其質量——充當自己的獎勵模型,取代外部獎勵模型。

這是通過LLM-as-a-Judge機制實現(xiàn)的:通過將響應評估制定為遵循指令的任務。

這個由模型自行創(chuàng)建的AIF偏好數(shù)據被用作訓練集來訓練模型。

整體自我對齊過程是一個不斷迭代過程,通過構建一系列此類模型來進行,目的是每個模型都比上一個模型有所改進。

重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過迭代過程來改進,這就不同于獎勵模型固定不變的傳統(tǒng)方法。

研究人員相信這樣可以提高這些學習模型未來自我改進的潛力上限,消除限制性瓶頸。

初始化

種子指令跟隨數(shù)據

研究人員獲得一組人工編寫的(指令提示、響應)一般指令。

他們使用這些示例從預訓練的基礎語言模型開始,用監(jiān)督微調 (SFT) 的方式進行訓練。

種子LLM-as-a-Judge指令跟隨數(shù)據

研究人員假設他們提供了一組種子(評估指令提示、評估結果響應)示例,這些示例也可用于訓練。

雖然這并不是絕對必要的,因為使用IFT數(shù)據的模型已經能夠訓練LLM成為judge,而且研究人員表明此類訓練數(shù)據可以提供改進的結果。

在這些數(shù)據中,輸入提示要求模型評估對特定指令的給定響應的質量。

提供的評估結果響應包括思路推理,然后是最終分數(shù)(在研究人員的實驗中,滿分 5 分)。

研究人員為這些提示選擇的格式如下圖2所示。作為LLM執(zhí)行獎勵模型角色的訓練數(shù)據。

這些數(shù)據被稱為評估微調(EFT)數(shù)據。

研究人員在訓練期間使用這兩個種子數(shù)據集。

再用3個步驟來創(chuàng)建自我指令:

-使用研究人員已經訓練好的模型,研究人員可以讓它自我修改自己的訓練集。具體來說,就是為下一次訓練迭代生成額外的訓練數(shù)據。

-生成候選響應:然后,對于給定的提示 x,研究人員生成 N 個不同的候選響應 {y, . 。。, y} 。

-評估候選響應:最后,研究人員使用同一模型的LLM-as-a-Judge能力來評估其自己的候選響應,得分為 r∈ [0, 5](見圖 2)。

圖片

指令遵循訓練

訓練最初是使用種子 IFT 和 EFT 數(shù)據進行的,這與獎勵模型固定的標準實踐不同。然后通過AI(自我)反饋添加附加數(shù)據。

AI反饋訓練

執(zhí)行自指令創(chuàng)建過程后,研究人員可以使用額外的訓練示例來擴充種子數(shù)據,研究人員將其稱為 AI 反饋訓練 (AIFT) 數(shù)據。

他們嘗試了此類反饋的兩種變體:

偏好對:研究人員構建以下形式的訓練數(shù)據(指令提示 x,獲勝響應 y,失敗響應 y)。為了形成獲勝和失敗對,研究人員從 N 個評估的候選答案中選取最高和最低得分的答案。

將這些對可用于通過偏好調整算法進行訓練。

僅正面示例:在此變體中,研究人員遵循其他方法,將模型策劃的(指令提示、響應)附加示例添加到種子集中,以進行監(jiān)督微調。

整體自對齊算法

迭代訓練

研究人員的整個過程訓練一系列模型。其中每個連續(xù)模型t使用由t ? 1模型創(chuàng)建的增強訓練數(shù)據。

因此,研究人員將AIFT(M)定義為使用模型M創(chuàng)建的AI反饋訓練數(shù)據。

M:基礎預訓練LLM,沒有微調。

M1:用M初始化,然后使用SFT對IFT+EFT種子數(shù)據進行微調。

M2:用M1初始化,然后使用DPO用AIFT(M1)數(shù)據進行訓練。

M3:用M2初始化,然后使用DPO用AIFT(M2)數(shù)據進行訓練。

實驗結果

如文章開始所提到的那張圖中,研究人員將微調后Llama 2-70B三個迭代版本與其他先進模型在AlpacaEval 2.0基準上進行了比較。

結果顯示,第三次迭代后的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。

圖片

此外,Llama 2-70B每個迭代版本比較,改進幾乎保持線性。

研究人員通過各種指標來評估作為評估者的大模型,這些指標衡量與保留的人類偏好數(shù)據的一致性。

自我獎勵迭代2(模型M2),使用從其先前迭代M1派生的自我獎勵模型進行訓練,其性能優(yōu)于迭代1(M1)。

而M1本身也優(yōu)于僅利用指令微調(IFT)數(shù)據訓練的標準SFT基準模型。迭代3(模型 M3)比迭代2有了進一步提高。

圖片

在這個框架之中,研究人員發(fā)現(xiàn),獎勵模型的性能也能隨著迭代不斷提高。

模型M2使用來自M1的獎勵模型進行訓練,與M1相比,在所有五個指標上都體現(xiàn)出了更好的性能。

例如,成對準確(pairwise accuracy)率從78.7%提高到 80.4%。M3繼續(xù)進一步改進了其中幾個指標。

研究人員猜測,是由于模型在指令遵循方面變得更好,因此它在LLM-as-a-Judge的任務方面也有所改進。

網友:讓開源再次偉大

Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。

圖片

俄亥俄州立大學計算機工程助理教授Yu Su表示,2024年才剛剛開始,我們已經從合成數(shù)據中看到了許多重要成果。我個人認為,這不僅僅是「數(shù)據增強」的改頭換面。以前的數(shù)據增強工作在很大程度上依賴于「人類工程」,而現(xiàn)在更像是LLM的「想象力」...

圖片

越來越多的研究表明,「人工訓練數(shù)據耗盡」不會阻止LLM的發(fā)展。

圖片

這是DPO的「Attention Is All You Need」的時刻。

圖片

還有人表示「令人驚訝的是,每次迭代的改進幾乎保持線性,僅在3次迭代之后,就已經接近GPT-4級別」。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-11 15:57:16

人工智能模型GPT-4

2024-07-31 15:38:00

2024-01-22 07:10:00

AI視頻

2024-10-14 09:25:00

2023-07-25 09:23:23

Llama 2GPT-4

2024-04-19 14:52:13

MetaGPT-4模型

2024-02-02 17:04:35

UCLALLMGPT-4

2024-04-22 08:40:00

LLM模型開源

2024-08-08 13:04:28

2023-09-11 13:28:00

AI模型

2025-01-23 09:15:00

數(shù)據技術模型

2023-06-21 13:37:41

模型研究

2023-11-03 13:07:00

AI模型

2023-11-06 12:46:00

AI數(shù)據

2023-10-11 13:09:52

訓練模型

2023-09-07 13:25:00

AI模型

2023-06-08 11:27:10

模型AI

2023-08-15 13:24:04

GPT-4AGI模型

2024-04-19 10:32:08

2024-04-19 09:17:33

AI模型
點贊
收藏

51CTO技術棧公眾號

特级毛片在线| 97**国产露脸精品国产| 国产精品一区二区在线| 精品人妻一区二区三区免费| 天天爱天天做天天爽| 99精品国产一区二区三区2021| 日本va欧美va瓶| 亚洲第一区第一页| 午夜久久久久久久久久久| 成人黄色三级视频| 夜夜躁狠狠躁日日躁2021日韩| 亚洲男同1069视频| 国产精品亚洲欧美导航| 欧美人与禽zozzo禽性配| 视频欧美精品| 国产精品丝袜久久久久久app| 8050国产精品久久久久久| 免费看日本黄色片| 粉嫩一区二区三区| 久久午夜羞羞影院免费观看| 欧美性资源免费| 黄色短视频在线观看| www在线看| 99久久免费视频.com| 久久人人97超碰精品888| 绯色av蜜臀vs少妇| 欧美videos另类精品| 国产成人啪免费观看软件| 久久中国妇女中文字幕| 午夜激情影院在线观看| 老司机在线永久免费观看| 99国产精品| 日韩电影中文字幕在线观看| 美女福利视频在线| 国产在线观看免费| 日韩精品91亚洲二区在线观看| 亚洲女人初尝黑人巨大| 免费黄色一级网站| 69久久精品| 国内精品伊人久久久久av影院 | www.天堂在线| 永久91嫩草亚洲精品人人| 欧美精品久久一区二区三区| 福利网在线观看| 超碰人人人人人人| 黄色小说综合网站| 国产欧美日韩免费看aⅴ视频| 国产精品综合激情| 国产精品亚洲综合在线观看| 亚洲精品va在线观看| 国产精品一区二区av| 一本一道无码中文字幕精品热| 欧美男男gaytwinkfreevideos| 欧美丝袜自拍制服另类| 九九久久精品一区| 国产又黄又猛的视频| 国产超级va在线视频| 丰满亚洲少妇av| 人体精品一二三区| 26uuu成人网| 欧美尿孔扩张虐视频| 欧美色精品在线视频| 久久www视频| 青青青免费视频在线2| 久久99国产精品免费| 久久久女女女女999久久| 青青草原在线免费观看视频| 午夜性色一区二区三区免费视频| 精品亚洲国产成av人片传媒| 青青草久久伊人| 久久人体av| 天天影视网天天综合色在线播放| 在线观看成人av| 性xxxxbbbb| 精品无人码麻豆乱码1区2区| 91久久精品国产| 久久99国产综合精品免费| 五月天久久777| 亚洲欧美日韩一区二区三区在线| 日本一级免费视频| 动漫av一区| 欧美一二三区在线| 亚洲最大综合网| 嗯~啊~轻一点视频日本在线观看| 中文字幕一区二区三区四区 | 欧美黑人极品猛少妇色xxxxx| 日本少妇毛茸茸| 亚洲精品无播放器在线播放| 欧美午夜激情视频| www.国产二区| 天堂中文在线播放| 亚洲高清视频在线| 欧美一级特黄aaaaaa在线看片| 国产精品麻豆一区二区三区| 99久久综合99久久综合网站| 欧美久久在线| 头脑特工队2在线播放| 国产凹凸在线观看一区二区| 久久综合九色综合网站| 好吊色在线观看| 国产精品 欧美精品| 国内不卡一区二区三区| 韩国av永久免费| 国产午夜精品福利| 欧洲精品久久| 你懂的视频在线| 久久综合av免费| 久久av喷吹av高潮av| 在线天堂资源www在线污| 欧美精品v国产精品v日韩精品| 97香蕉碰碰人妻国产欧美 | 黄色一级视频播放| 深夜成人影院| 日韩欧美aaa| 91网址在线观看精品| 国产成人黄色| 国产午夜精品免费一区二区三区| 丰满少妇一区二区| 国产一区二区欧美| 欧美极品欧美精品欧美视频 | 日本高清成人免费播放| 日韩激情免费视频| 在线精品亚洲欧美日韩国产| 欧美视频二区36p| 佐山爱在线视频| 久久人体视频| 欧美精品在线播放| 久久久久亚洲av无码专区| 狠狠入ady亚洲精品| 91禁外国网站| 99视频在线观看免费| 高清成人在线观看| 香蕉视频在线网址| 草莓视频成人appios| 正在播放亚洲一区| 中文字幕欧美视频| 人人狠狠综合久久亚洲婷婷| 精品久久久av| 国产大片中文字幕在线观看| 国产一区二区精品| 国产精品欧美激情| av无码精品一区二区三区宅噜噜| 国产女人18毛片水真多成人如厕| 在线观看亚洲视频啊啊啊啊| 一区二区视频免费完整版观看| 亚洲精品久久久久久下一站| 久久av无码精品人妻系列试探| 北条麻妃国产九九九精品小说 | 亚洲国产一区二区三区在线观看| 91精品国产高清一区二区三蜜臀| 亚洲国产免费看| 国产成人精品视频在线观看| 国产精品天天操| www.视频一区| 给我免费播放片在线观看| 日韩电影免费观| 亚洲欧美国产精品久久久久久久 | 国产欧美日韩一区二区三区在线| 成人午夜电影在线播放| 欧美一区二区三区少妇| 欧美日韩美女在线观看| 九九热免费在线观看| 欧美h版在线| 亚洲一区二区三区成人在线视频精品 | 中文字幕在线免费看线人| 999亚洲国产精| 久久资源亚洲| 国产精品.xx视频.xxtv| 精品国产伦一区二区三区观看方式| 精品无码人妻一区| 噜噜噜久久亚洲精品国产品小说| 91久久中文字幕| 18+视频在线观看| 欧洲生活片亚洲生活在线观看| 欧美一区二区三区影院| 欧美日韩久久精品| 97精品国产97久久久久久| 91精品视频免费在线观看| 92精品国产成人观看免费| ijzzijzzij亚洲大全| 欧美另类中文字幕| 色偷偷av一区二区三区乱| 97久久久久久久| 国产成人综合在线| 亚洲熟妇无码一区二区三区| 国产一区 二区| 欧美精品videossex性护士| 丝袜+亚洲+另类+欧美+变态| 欧美视频在线不卡| 久久视频免费看| 国产午夜亚洲精品午夜鲁丝片| 蜜臀一区二区三区精品免费视频| 欧美日本久久| 成人激情视频免费在线| 国产在线自天天| 欧美一区二区三区影视| 久久av红桃一区二区禁漫| 日韩综合在线视频| 亚洲成年人专区| 小说区图片区色综合区| 97国产在线视频| 免费在线午夜视频| 日韩经典一区二区三区| 97人人爽人人爽人人爽| 日韩欧美精品网址| 九九热精品在线观看| 久久久久久久久久久黄色| 精品中文字幕av| 91成人影院| 亚洲综合在线做性| 欧美男女交配| 欧美激情影音先锋| 免费网站成人| 亚洲人成在线观看| 欧美成人一区二区视频| 亚洲国产毛片aaaaa无费看| 国产日产在线观看| 国产综合色精品一区二区三区| 一区二区三区的久久的视频| 日韩有码欧美| 国产成人精品久久二区二区| 成人免费图片免费观看| 欧美成人激情视频| 在线观看黄av| 亚洲一二在线观看| 亚洲人成色777777精品音频| 欧美大片在线观看| 国产精品7777777| 久久一二三国产| 成年女人免费视频| 国产日韩欧美三区| 国内少妇毛片视频| 综合国产视频| 国产一区二区无遮挡| 97久久综合精品久久久综合| 亚洲精品欧美日韩| 成人污污视频| 亚洲xxxxx| 国产免费区一区二区三视频免费 | 久久久久毛片免费观看| 国产精品无码专区在线观看| 欧美特大特白屁股xxxx| 欧洲亚洲免费视频| 老司机成人影院| 欧美一区二粉嫩精品国产一线天| 蜜桃av在线| 色偷偷88888欧美精品久久久| 国产系列电影在线播放网址| 亚洲网址你懂得| 国产高清免费av在线| 中文日韩电影网站| 亚洲精品国产精品国| 一本到高清视频免费精品| 国产日产精品一区二区三区的介绍| 国产欧美视频在线观看| 日韩av片在线| 一区二区中文视频| 国产精品久久久久久亚洲色| 日韩av电影一区| 蜜臀av免费观看| 久久99国产精品免费网站| 超碰91在线播放| 粉嫩av一区二区三区| 国产二级一片内射视频播放| 99精品视频一区二区三区| 欧美亚一区二区三区| 国产欧美视频在线观看| 久久爱一区二区| 亚洲国产日韩a在线播放性色| 日本亚洲欧美在线| 国产精品久久久一本精品| 国产麻豆xxxvideo实拍| 26uuu另类欧美| 无码人妻丰满熟妇区毛片蜜桃精品| 国产乱子伦视频一区二区三区| 无码无遮挡又大又爽又黄的视频| 欧美国产91| 免费一级特黄毛片| 丝袜诱惑制服诱惑色一区在线观看 | 免费黄色av网址| 26uuu国产日韩综合| 中文字幕精品亚洲| 亚洲亚洲人成综合网络| 99热这里只有精品4| 亚洲精品视频在线观看网站| 欧美日韩乱国产| 欧美麻豆精品久久久久久| 亚洲乱码精品久久久久..| 亚洲人成电影网站色…| 成人短视频在线| 欧美亚洲激情在线| 亚洲人成777| 久久99精品国产99久久| 国产精品欧美大片| 日韩中文不卡| 精品一区二区三区在线 | 欧美群妇大交群中文字幕| 天码人妻一区二区三区在线看| 欧美在线观看视频一区二区| aaaa一级片| 尤物九九久久国产精品的特点| 日韩porn| 欧美成人sm免费视频| 欧美艳星kaydenkross| 91国产丝袜在线放| 精品久久久久久久久久岛国gif| 久久精品美女| 欧美一区二区三区久久精品茉莉花| 37pao成人国产永久免费视频| 国产毛片精品国产一区二区三区| 国产精品无码久久久久一区二区| 一区二区三区中文在线观看| 亚洲第一区av| 亚洲激情自拍图| 欧美亚洲天堂| 91亚洲国产成人久久精品网站| 久9久9色综合| 久草热视频在线观看| 久久国产成人| 欧美极品jizzhd欧美仙踪林| av电影在线观看一区| 国产a免费视频| 欧美最猛性xxxxx直播| 天堂a中文在线| 性色av一区二区三区在线观看 | 国内精品二区| 欧美午夜影院| 免费黄色在线播放| 亚洲人成在线观看一区二区| 岛国毛片在线观看| 欧美自拍偷拍一区| 你懂的在线看| 88国产精品欧美一区二区三区| 国产一区二区视频在线看| 伊人久久大香线蕉精品| 人人狠狠综合久久亚洲| 日韩av在线看免费观看| 色综合久久久久综合体桃花网| 天天综合网在线观看| 国产香蕉97碰碰久久人人| 麻豆视频在线观看免费网站黄| 国产精品美女诱惑| 亚洲视频精品| 中文字幕乱码一区| 亚洲成年人网站在线观看| 黄色三级网站在线观看| 欧美超级免费视 在线| 亚洲国产高清在线观看| 国产精品久久一区二区三区| 综合久久亚洲| 亚洲精品乱码久久久久久动漫| 亚洲视频每日更新| 精品国产一级片| 欧美精品九九久久| 国产美女撒尿一区二区| 欧美中日韩在线| jvid福利写真一区二区三区| 国产成人愉拍精品久久 | av色综合网| 西野翔中文久久精品字幕| 男人揉女人奶房视频60分 | 日本精品国语自产拍在线观看| 日韩精品五月天| 美女av免费看| 日韩欧美中文一区| 精精国产xxx在线视频app| 国产一区二区视频在线免费观看 | 日本韩国精品一区二区| 国产成人精品一区二区三区| 国产精品国内免费一区二区三区| 不卡的一区二区| 色婷婷综合五月| 麻豆视频在线观看免费网站| 成人片在线免费看| 久久激情网站| www.99re7| 色吊一区二区三区| 麻豆av免费在线观看| 国产精品久久久久久久小唯西川 | 91精品网站| 午夜在线精品| 婷婷五月精品中文字幕| 91久久精品网| 日本动漫理论片在线观看网站| 久久五月天婷婷| 精品一区二区影视| 国内免费精品视频| 视频在线一区二区| 国产精品zjzjzj在线观看| 91日韩视频在线观看| 一个色综合av| 国产高清在线观看视频| 欧美亚洲视频一区二区| 天天插综合网| 手机av免费看| 欧美成人性战久久| 欧美亚洲天堂| 亚洲国产一区二区三区在线播| 日本视频中文字幕一区二区三区| 特一级黄色录像|