精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta浙大校友讓評估模型「自學(xué)成才」,數(shù)據(jù)全合成無需人工標(biāo)注,訓(xùn)練Llama 3 70B超過405B

人工智能 新聞
隨著LLM不斷迭代,偏好和評估數(shù)據(jù)中大量的人工標(biāo)注逐漸成為模型擴(kuò)展的顯著障礙之一。Meta FAIR的團(tuán)隊(duì)最近提出了一種使用迭代式方法「自學(xué)成才」的評估模型訓(xùn)練方法,讓70B參數(shù)的Llama-3-Instruct模型分?jǐn)?shù)超過了Llama 3.1-405B。

 LLM在開發(fā)周期的每個(gè)階段都依賴強(qiáng)大的評估模型,比如訓(xùn)練階段用于對齊人類偏好或迭代自我改進(jìn)的獎勵模型,以及推理階段作為人類評估的替代方案。

構(gòu)建評估模型往往依賴大量的高質(zhì)量人類偏好數(shù)據(jù),不僅耗時(shí)長、成本高,而且在模型擴(kuò)展到新任務(wù)或評估標(biāo)準(zhǔn)時(shí)造成了阻礙。

此外,隨著新模型不斷迭代改進(jìn)時(shí),現(xiàn)有的標(biāo)注數(shù)據(jù)往往會過時(shí),因?yàn)槠渲械脑u估是基于舊有的、性能較差的模型相應(yīng)。這意味著需要不斷重復(fù)上述的數(shù)據(jù)標(biāo)注和收集流程。

最近,Meta FAIR發(fā)表的一篇研究就嘗試使用合成數(shù)據(jù)的方法來解決這個(gè)問題。他們提出了一種迭代的自我訓(xùn)練方法,在訓(xùn)練循環(huán)中完全不使用人類標(biāo)注的偏好數(shù)據(jù),而是純粹依賴合成數(shù)據(jù)。

圖片

論文地址:https://arxiv.org/abs/2408.02666

實(shí)驗(yàn)中,這種方法將Llama-3-70B-Instruct在RewardBench上的準(zhǔn)確率從75.4提升至88.7,超過了使用人類標(biāo)注數(shù)據(jù)的方法。

arXiv頁面顯示,這篇論文最后修訂于8月8日,目前作者還沒有公開相關(guān)代碼。

方法概述

整個(gè)pipeline的流程大致如下(圖1):

- 初始化:收集大量人類編寫的用戶指令,這在生產(chǎn)系統(tǒng)中較為常見,以及初始的種子LLM

- 指令選擇:用LLM從數(shù)據(jù)集中選擇出具有挑戰(zhàn)性的、平衡的用戶指令分布

- 響應(yīng)對構(gòu)建:對每個(gè)用戶指令,通過提示創(chuàng)建LLM模型響應(yīng)偏好對,讓其中一個(gè)的質(zhì)量(被拒絕響應(yīng))略低于另一個(gè)(被選擇響應(yīng))

- 迭代訓(xùn)練:每次迭代包括兩個(gè)步驟,判斷標(biāo)注和模型微調(diào)。

(i) 對每條數(shù)據(jù)采樣N個(gè)LLM-as-a-Judge生成的推理鏈和判斷結(jié)果。如果其中包含正確判斷,則將該數(shù)據(jù)加入訓(xùn)練集,否則丟棄這條數(shù)據(jù)。

(ii) 在本次迭代構(gòu)建的訓(xùn)練集上微調(diào)模型

圖片

值得注意的是,每次訓(xùn)練迭代中,訓(xùn)練集大小取決于當(dāng)前模型的質(zhì)量。預(yù)計(jì)隨著模型能力的提升,能夠生成更多正確的判斷,訓(xùn)練集大小也會逐步增加,從而構(gòu)成了一個(gè)自學(xué)過程。

指令選擇

之所以要進(jìn)行指令選擇,是因?yàn)樯a(chǎn)系統(tǒng)中收集的用戶數(shù)據(jù)可能存在大量噪音,模型響應(yīng)的主題、多樣性、難度和能力都有很大程度的不平衡。

因此,這一步驟的目標(biāo)是篩選出特定分布的指令子集,用于生成高質(zhì)量的響應(yīng)和判斷結(jié)果。

如圖7所示,先給出精確的提示讓LLM對每個(gè)輸入進(jìn)行分類,構(gòu)建數(shù)據(jù)集時(shí)就可以在這些類別中「按需取用」。

圖片

響應(yīng)對構(gòu)建

經(jīng)過前兩步我們得到了一個(gè)精心構(gòu)建的訓(xùn)練數(shù)據(jù)池。這一步驟就是要對其中每個(gè)輸入xi,生成涉及到兩個(gè)響應(yīng)yiw、yil的偏好數(shù)據(jù),其中前者yw(winning)的質(zhì)量預(yù)計(jì)會優(yōu)于后者yl(losing)。

但這一步完全使用合成數(shù)據(jù)而非依賴人工標(biāo)注,那么如何保證yw和yl的響應(yīng)質(zhì)量差異?

論文提出了一種比較巧妙的方法,即先讓LLM根據(jù)指令xi生成基線響應(yīng)yiw;然后指示模型生成一個(gè)「嘈雜」版本的指令xi′=??(xi) 。xi'與xi語義高度相關(guān)但不完全相同,之后生成對應(yīng)xi'的模型高質(zhì)量響應(yīng)yil

對于同一個(gè)指令xi而言,yil的質(zhì)量預(yù)計(jì)會低于yiw。由此,我們構(gòu)建出了一條完整的訓(xùn)練數(shù)據(jù):

ei := xi, yiA, yiB

其中,w=A或w=B是隨機(jī)分布的,且在最后的訓(xùn)練集構(gòu)建中保證兩種情況出現(xiàn)次數(shù)均衡,這對消除LLM-as-a-Judge的位置偏見非常重要。

判斷標(biāo)注

對于每條訓(xùn)練數(shù)據(jù)ei,LLM-as-a-Judge模型都會生成N個(gè)多樣化的評價(jià) ??:={ji1, …, jiN},然后應(yīng)用拒絕采樣過濾掉??中與事實(shí)標(biāo)簽不一致的判斷結(jié)果。實(shí)驗(yàn)中,N被設(shè)置為15。

若??過濾后為空,該條數(shù)據(jù)在本次迭代中直接被丟棄。

若??不為空,則從正確判決中隨機(jī)選擇一個(gè),構(gòu)建最終用于微調(diào)的訓(xùn)練數(shù)據(jù):

(xi, yiA, yiB, ji)

圖片

實(shí)驗(yàn)中還嘗試使用多數(shù)投票機(jī)制代替單個(gè)模型進(jìn)行LLM-as-a-Judge判斷,根據(jù)之前的研究結(jié)論,這可以帶來性能改進(jìn)。

實(shí)驗(yàn)及評估

初始模型M0從Llama-3-70B-Instruct進(jìn)行初始化,每輪迭代i=1,…T中,使用Mi-1生成偏好數(shù)據(jù)并作為LLM-as-a-Judge模型進(jìn)行判斷,然后再次微調(diào)M0模型(即Llama-3-70B-Instruct)。

其中,指令微調(diào)利用了fairseq2庫,并使用vLLM進(jìn)行推理。

大量人類編寫的指令數(shù)據(jù){xi}來自WildChat數(shù)據(jù)集,指令選擇步驟中使用Mixtral 22B×8進(jìn)行分類,共篩選出了20,582個(gè)有挑戰(zhàn)性的指令。響應(yīng)生成步驟同樣使用Mixtral 22B×8模型。

評估結(jié)果

在RewardBench上的分?jǐn)?shù)如表1所示。與種子模型相比,總分從75.4顯著提升至88.7,超過了GPT-4和Gemini 1.5 Pro,甚至也超過了405B參數(shù)的Llama模型,而且好于使用人類標(biāo)注數(shù)據(jù)集HelpSteer2的85.6分。

4個(gè)類別分別來看,Chat Hard和Safety的分?jǐn)?shù)隨著每輪迭代都有穩(wěn)步上升,但Reasoing和Chat類別較為波動。Chat類別在訓(xùn)練后的分?jǐn)?shù)甚至低于種子模型,作者推測,這是由于篩選的合成數(shù)據(jù)過于偏重困難任務(wù)。

此外可以發(fā)現(xiàn),在LLM-as-a-Judge模型生成判斷時(shí)使用32個(gè)樣本進(jìn)行多數(shù)投票的確可以提升整體性能。

圖片

HelpSteer2由英偉達(dá)和ScaleAI合作創(chuàng)建,是一個(gè)幫助模型響應(yīng)變得更加事實(shí)正確且連貫的開源數(shù)據(jù)集。

圖片

倉庫地址:https://huggingface.co/datasets/nvidia/HelpSteer2

在MT-Bench上的評估結(jié)果如表2所示。雖然分?jǐn)?shù)在第4輪迭代出現(xiàn)一些波動,但訓(xùn)練后的分?jǐn)?shù)依舊有小幅度提升,與GPT-4相當(dāng)。

圖片

根據(jù)在HelpSteer2上的評估結(jié)果(表3),在合成數(shù)據(jù)上的訓(xùn)練也提升了模型作為judge進(jìn)行判斷時(shí)的平均精度和位置一致精度,但似乎最佳結(jié)果出現(xiàn)在第4輪迭代,多一輪迭代后反而降低了性能。

圖片

結(jié)論

總體來看,本文提出了一種可擴(kuò)展的方法,在不使用任何人工標(biāo)注數(shù)據(jù)的情況下構(gòu)建響應(yīng)偏好對,在此基礎(chǔ)上訓(xùn)練的「自學(xué)評估模型」相比種子模型有顯著的性能提升。

作者提出,該研究還存在一些未討論的問題和局限:

- 第一輪訓(xùn)練迭代時(shí),直接使用種子模型生成第一批偏好數(shù)據(jù),但這背后的假設(shè)是Llama-3-70B-Instruct已經(jīng)有生成合理評估的能力;論文并沒有驗(yàn)證該假設(shè)是否成立

- 只使用了Llama-3-70B-Instruct作為種子模型進(jìn)行實(shí)驗(yàn),沒有探究該方法對較小模型的適用性

- 在LLM-as-a-Judge的判斷中,只研究了成對評估這一種模式;其實(shí)模型也可以直接評估單個(gè)響應(yīng)的指令的質(zhì)量

- 相比只輸出分?jǐn)?shù)的獎勵模型,生成式的LLM-as-a-Judge還需要輸出推理鏈,更長的輸出會提升推理成本

作者介紹

圖片

Tianlu是Meta FAIR的一名研究科學(xué)家,她本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)專業(yè),博士畢業(yè)于弗吉尼亞大學(xué)。Tianlu的研究主要關(guān)注機(jī)器學(xué)習(xí)模型中有關(guān)公平性、穩(wěn)健性和問責(zé)制的主題,特別是在計(jì)算機(jī)視覺和自然語言處理系統(tǒng)中。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-11-25 08:10:00

2024-07-23 09:20:35

2025-03-31 09:46:00

2017-01-10 14:59:03

開發(fā)者故事

2024-06-05 08:33:29

2024-11-13 15:00:42

2025-02-26 14:22:18

2025-01-08 09:30:00

Meta大模型訓(xùn)練

2024-09-09 09:20:00

2016-01-27 10:36:25

程序員自學(xué)

2020-01-21 22:00:34

程序員技能開發(fā)者

2011-04-02 10:50:36

WebHTML 5

2024-08-02 14:53:00

2024-05-30 12:50:05

2017-02-09 16:52:33

開發(fā)者優(yōu)勢劣勢

2020-11-04 10:21:37

機(jī)器學(xué)習(xí)技術(shù)人工智能

2024-04-19 10:32:08

2024-07-24 13:18:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

国产成人手机视频| 国产精品爽爽爽| 丝袜熟女一区二区三区| 涩涩视频在线| 国产精品情趣视频| 96国产粉嫩美女| 97免费在线观看视频| 欧美猛男男男激情videos| 欧美日韩电影在线播放| 黄色一级片在线看| 在线免费av电影| 国产1区2区3区精品美女| 欧美一级在线亚洲天堂| 国产一区二区三区视频播放| youjizz亚洲| 欧美中文字幕不卡| av无码久久久久久不卡网站| 岛国最新视频免费在线观看| 国产成人免费视| 国产精品视频自在线| 懂色av.com| 亚欧美无遮挡hd高清在线视频| 亚洲国产天堂网精品网站| 日本久久久久久久久久久久| 波多野结衣在线播放| 国产精品三级av在线播放| 国产精品播放| 国产又粗又大又黄| 久久福利精品| 久久久久久久久久久免费 | 欧美精品一区二区三区在线 | av中文字幕电影在线看| 中文一区二区完整视频在线观看| 狠狠色综合色区| 国产白浆在线观看| 麻豆精品一二三| 日本91av在线播放| 日韩欧美亚洲视频| 午夜久久美女| 久久精品国产亚洲精品| 国精产品一区二区三区| 欧美黑人做爰爽爽爽| 日韩亚洲欧美成人一区| www.这里只有精品| a∨色狠狠一区二区三区| 精品久久久久久久久久国产 | 超碰caoporn久久| 久久精品日韩一区二区三区| 精品产品国产在线不卡| 免费的黄色av| 高清不卡在线观看| 亚洲自拍偷拍区| 国产精品一区二区三区在线免费观看| 日韩av午夜在线观看| 日韩av成人在线观看| 午夜精品三级久久久有码| 在线看片成人| 97在线看福利| 久草视频在线观| 日韩一级不卡| 7777精品视频| 一区二区三区在线观看av| 香蕉精品999视频一区二区| 91精品国产91久久久久久不卡| www.99re7.com| 亚洲国产日本| 欧洲成人在线视频| 天天爱天天做天天爽| 日本中文一区二区三区| 国产精品主播视频| 国产精品久久久久久久久久久久久久久久久久 | 在线成人一区二区| 国产大屁股喷水视频在线观看| 欧美疯狂party性派对| 精品国产一区二区三区久久狼黑人 | av不卡一区二区三区| 久久精品国产一区二区三区不卡| 外国精品视频在线观看| 99精品在线观看视频| 欧美国产一区二区在线| www日韩tube| 亚洲欧洲美洲综合色网| 亚洲黄色网址在线观看| tube8在线hd| 色猫猫国产区一区二在线视频| 美女一区二区三区视频| 91精品网站在线观看| 日韩午夜中文字幕| 色噜噜在线观看| 精品一区不卡| 欧美精品一区二区免费| 麻豆久久久久久久久久| 看电视剧不卡顿的网站| 999精品视频一区二区三区| 午夜在线视频观看| 国产精品卡一卡二| 黄色www网站| 亚洲aⅴ网站| 亚洲国产精品人久久电影| 免费网站在线高清观看| 欧美激情第10页| 日本高清视频精品| av av片在线看| 久久久久久久久岛国免费| 青春草在线视频免费观看| av中文在线资源库| 精品视频全国免费看| 亚洲av无码专区在线播放中文| 精品午夜久久| 97久久精品人人澡人人爽缅北| 中文亚洲av片在线观看| 成人福利视频在线| 9999在线观看| 一级毛片久久久| 欧美www视频| 日韩一区二区三区四区视频| 亚洲综合丁香| av成人观看| 欧美性videos| 色噜噜狠狠色综合欧洲selulu| 四虎国产精品永久免费观看视频| 欧美男gay| 欧美激情性做爰免费视频| 在线观看毛片av| 久久久久国产精品免费免费搜索| bt天堂新版中文在线地址| 国产精品99精品一区二区三区∴| 亚洲精品黄网在线观看| 日韩在线中文字幕视频| 日韩va欧美va亚洲va久久| 久久99精品久久久久久青青日本| 五月天激情在线| 欧美区视频在线观看| 实拍女处破www免费看| 亚洲精品四区| 成人动漫在线观看视频| 国产高清一区二区三区视频| 欧美三级电影网| 受虐m奴xxx在线观看| 99热精品在线观看| 国产亚洲精品久久飘花| 亚洲丝袜一区| 制服丝袜国产精品| 91制片厂在线| 久久99精品一区二区三区| 色涩成人影视在线播放| 精品网站在线| 这里只有精品视频在线| 日本欧美www| 国产亚洲va综合人人澡精品| 国产无套内射久久久国产| 日韩精品丝袜美腿| 日本不卡高字幕在线2019| 亚洲人视频在线观看| 欧美视频在线观看免费网址| 欧美无人区码suv| 一二三区精品| 蜜桃91精品入口| 久久久久久久| 在线午夜精品自拍| 真实的国产乱xxxx在线91| 国产精品入口麻豆原神| 亚洲午夜激情影院| 欧美区一区二| 国产一区二区不卡视频在线观看| 69av成人| 亚洲欧美制服丝袜| 中文字幕天堂在线| 最近中文字幕一区二区三区| www.色.com| 亚洲成人在线| 女女同性女同一区二区三区91| 新片速递亚洲合集欧美合集| 中文字幕亚洲无线码a| 在线视频播放大全| 日韩深夜影院| 91精品网站在线观看| 精品国产乱码一区二区三区| 成人在线tv视频| 国产精品蜜臀| 欧美日韩三级| 7777精品伊久久久大香线蕉语言| 成人video亚洲精品| 精品欧美乱码久久久久久1区2区| 日韩免费黄色片| 97久久人人超碰| 国产野外作爱视频播放| 好男人www社区| 欧美特黄不卡| 欧美在线观看网址综合| 在线观看完整版免费| 精品蜜桃在线看| 高清乱码免费看污| 一区二区三区中文免费| 亚洲制服丝袜在线播放| 久久精品免费看| 免费看毛片的网址| 国产亚洲一区二区在线| 久久91亚洲人成电影网站 | 色94色欧美sute亚洲线路一久| 色屁屁草草影院ccyy.com| 国产美女av一区二区三区| 黄色国产一级视频| 日本精品三区| 精品高清视频| 久久九九精品视频| 日本不卡高字幕在线2019| 在线观看电影av| 国产一区二区激情| 免费av一级片| 欧美精品日日鲁夜夜添| 毛片在线免费视频| 亚洲男女一区二区三区| 免费人成又黄又爽又色| 成人自拍视频在线观看| 精品999在线| 国产亚洲在线| www插插插无码免费视频网站| 精品国产一区二区三区av片| 国产精品视频入口| 青青久久精品| 国产成人欧美在线观看| 黑人玩欧美人三根一起进| 一区二区三区韩国免费中文网站| 最近2019中文字幕在线高清| 天天爱天天干天天操| 欧美一区二区三区视频免费播放 | 色综合视频在线观看| 免费在线视频观看| 亚洲欧洲一区二区三区| 国产精品国产三级国产专业不| 99久久er热在这里只有精品15 | av激情综合网| 日本人dh亚洲人ⅹxx| 久久成人精品无人区| 爆乳熟妇一区二区三区霸乳| 香蕉精品999视频一区二区| 精品成在人线av无码免费看| 亚洲自拍偷拍网| 中文精品视频一区二区在线观看| 欧美精品乱码| 亚洲成**性毛茸茸| 91女神在线观看| 国产一区91| 99视频在线免费播放| 好看的亚洲午夜视频在线| 91九色国产ts另类人妖| 亚洲国产成人精品女人| 中国成人亚色综合网站| 99热在线成人| av磁力番号网| 亚洲国产一区二区在线观看 | 国产精品日韩欧美综合| 香蕉久久免费电影| 国产精品电影一区| 国产精成人品2018| 国产在线观看不卡| 麻豆精品国产| 国产精品theporn88| 欧洲亚洲视频| 六月婷婷久久| 国产亚洲一区二区三区啪| 欧洲精品在线一区| 成人久久电影| 青青草原国产免费| 欧美日韩理论| 国产日韩av网站| 国产日本久久| 在线亚洲高清视频| 男人天堂2024| 欧美午夜寂寞影院| 国产精品热久久| 日韩欧美国产一区二区在线播放| 亚洲黄色一级大片| 国产一区二区电影| 国产免费黄色小视频| 亚洲一区不卡| 少妇一级淫免费放| 国产精一区二区三区| 欧美极品jizzhd欧美仙踪林| 91首页免费视频| 波多野结衣一二三四区| 1024成人网| 欧美成人aaaaⅴ片在线看| 欧美日韩在线另类| 在线观看av大片| 日韩欧美国产一区二区三区| 天堂av在线免费观看| 国产一区二区黄| 美女91在线| 国产91免费看片| 精品国产一区二区三区性色av| 国产伦精品一区二区三区照片91| 国产探花一区| 日韩精品一区二区在线视频| 午夜亚洲性色福利视频| 羞羞的视频在线| 成人一道本在线| 国产三级在线观看完整版| 夜夜爽夜夜爽精品视频| 欧美日韩a v| 欧美成人精品福利| av电影在线网| 久久久久久久久久国产精品| 激情久久一区二区| 国产精品一区二区免费| 91日韩欧美| 国产日产欧美视频| 国产一区二区三区综合| 五级黄高潮片90分钟视频| 亚洲三级电影网站| 免费看日批视频| 精品乱人伦小说| 日韩成人影视| 国产成人亚洲综合青青| 白嫩白嫩国产精品| 大桥未久一区二区三区| 视频精品一区二区| 182在线视频| 樱花影视一区二区| 91黄色在线视频| 亚洲欧洲午夜一线一品| 国产白丝在线观看| 亚洲va久久久噜噜噜| 国产永久精品大片wwwapp| 天天夜碰日日摸日日澡性色av| 精品一区二区三区日韩| 亚洲v国产v欧美v久久久久久| 亚洲成年人影院| av中文字幕第一页| 精品国产视频在线| 日韩电影精品| 日本亚洲欧洲精品| 亚洲一区国产一区| 北京富婆泄欲对白| 一区二区欧美国产| 国产成人三级在线播放| 久久天天躁日日躁| 成年永久一区二区三区免费视频| 日本电影一区二区三区| 国产精品一区毛片| avtt香蕉久久| 欧美日韩一区二区三区| 天天射天天操天天干| 97人人做人人爱| 成人黄色av网址| 国产黄色片免费在线观看| 丰满少妇久久久久久久| 国产亚洲第一页| 亚洲精品在线观| 波多野结衣精品| 精品一区在线播放| 国产精品普通话对白| 亚洲欧美色图视频| 色综合久久综合| 二人午夜免费观看在线视频| 国产精品久久久久久亚洲影视 | 精品美女一区二区三区| 欧美人与性动交α欧美精品济南到 | 亚洲激情啪啪| 美美哒免费高清在线观看视频一区二区| 精品无码人妻一区二区免费蜜桃| 91黄视频在线| 香蕉视频在线播放| 亚洲一区久久久| 极品中文字幕一区| 懂色av粉嫩av蜜乳av| 在线观看亚洲精品视频| 在线观看二区| 亚洲xxx视频| 亚洲精品1234| 无码一区二区三区在线| 欧美在线观看视频在线| 黄色av免费在线| 国产精品久久久久久久久久久久午夜片| 亚洲国产网站| 亚洲综合网在线观看| 欧美亚洲一区三区| 在线黄色网页| 欧美精品在线一区| 久久精品久久精品| 免费看一级一片| 亚洲欧洲偷拍精品| 国产亚洲观看| 北条麻妃69av| 1000精品久久久久久久久| 国精品人妻无码一区二区三区喝尿 | 欧美精品第一页| 免费网站在线观看人| 欧美另类视频在线| 精品一区二区三区在线观看 | 欧美体内she精视频在线观看| 日本黄色片在线播放| 欧美日本韩国一区二区三区视频 | 日韩美女视频在线观看| 国产精品麻豆久久| 无遮挡aaaaa大片免费看| 欧美精品在线一区二区三区| 男人天堂视频在线观看| 一区二区不卡视频|