精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

24小時內、200美元復制RLHF過程,斯坦福開源「羊駝農場」

人工智能 新聞
平替不止模型,RLHF也有平替了。

2 月底,Meta 開源了一個大模型系列 LLaMA(直譯為羊駝),參數量從 70 億到 650 億不等,被稱為 Meta 版 ChatGPT 的雛形。之后斯坦福大學、加州大學伯克利分校等機構紛紛在 LLaMA 的基礎上進行「二創」,陸續推出了 Alpaca、Vicuna 等多個開源大模型,一時間「羊駝」成為 AI 圈頂流。開源社區構建的這些類 ChatGPT 模型迭代速度非常快,并且可定制性很強,被稱為 ChatGPT 的開源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展現出強大的能力,是因為 OpenAI 為 ChatGPT 等大模型使用了新的訓練范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習的方式依據人類反饋優化語言模型。使用 RLHF 方法,大型語言模型可與人類偏好保持對齊,遵循人類意圖,最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標注和評估,通常需要數周時間、花費數千美元收集人類反饋,成本高昂。

現在,推出開源模型 Alpaca 的斯坦福大學又提出了一種模擬器 ——AlpacaFarm(直譯為羊駝農場)。AlpacaFarm 能在 24 小時內僅用約 200 美元復制 RLHF 過程,讓開源模型迅速改善人類評估結果,堪稱 RLHF 的平替。

圖片

AlpacaFarm 試圖快速、低成本地開發從人類反饋中學習的方法。為了做到這一點,斯坦福的研究團隊首先確定了研究 RLHF 方法的三個主要困難:人類偏好數據的高成本、缺乏可信賴的評估、缺乏參考實現。

為了解決這三個問題,AlpacaFarm 構建了模擬注釋器、自動評估和 SOTA 方法的具體實現。目前,AlpacaFarm 項目代碼已開源。

圖片

  • GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
  • 論文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下圖所示,研究人員可以使用 AlpacaFarm 模擬器快速開發從人類反饋數據中學習的新方法,也能將已有 SOTA 方法遷移到實際的人類偏好數據上。

圖片

模擬注釋器

AlpacaFarm 基于 Alpaca 數據集的 52k 指令構建,其中 10k 指令用于微調基本的指令遵循模型,剩余的 42k 指令用于學習人類偏好和評估,并且大部分用于從模擬注釋器中學習。該研究針對 RLHF 方法的注釋成本、評估和驗證實現三大挑戰,逐一提出解決方法。

首先,為了減少注釋成本,該研究為可訪問 API 的 LLM(如 GPT-4、ChatGPT)創建了 prompt,使得 AlpacaFarm 能夠模擬人類反饋,成本僅為 RLHF 方法收集數據的 1/45。該研究設計了一種隨機的、有噪聲的注釋方案,使用 13 種不同的 prompt,從多個 LLM 提取出不同的人類偏好。這種注釋方案旨在捕獲人類反饋的不同方面,如質量判斷、注釋器之間的變化性和風格偏好。

該研究通過實驗表明 AlpacaFarm 的模擬是準確的。當研究團隊使用 AlpacaFarm 訓練和開發方法時,這些方法與使用實際人類反饋訓練和開發的相同方法排名非常一致。下圖顯示了由 AlpacaFarm 模擬工作流和人類反饋工作流產生的方法在排名上的高度相關性。這一特性至關重要,因為它說明從模擬中得出的實驗結論在實際情況下也有可能成立。

除了方法層面的相關性,AlpacaFarm 模擬器還可以復制獎勵模型過度優化等定性現象,但以此針對代理獎勵(surrogate reward)的持續 RLHF 訓練可能會損害模型性能。下圖是在人類反饋 (左) 和 AlpacaFarm (右) 兩種情況下的該現象,我們可以發現 AlpacaFarm 最初捕獲了模型性能提升的正確定性行為,然后隨著 RLHF 訓練的持續,模型性能下降。

圖片

評估

在評估方面,研究團隊使用與 Alpaca 7B 的實時用戶交互作為指導,并通過結合幾個現有公共數據集來模擬指令分布,包括 self-instruct 數據集、anthropic helpfulness 數據集和 Open Assistant、Koala 和 Vicuna 的評估集。使用這些評估指令,該研究比較了 RLHF 模型與 Davinci003 模型的響應(response)情況,并使用一個分值度量 RLHF 模型響應更優的次數,并將這個分值稱為勝率(win-rate)。如下圖所示,在該研究的評估數據上進行的系統排名量化評估表明:系統排名和實時用戶指令是高度相關的。這一結果說明,聚合現有的公開數據能實現與簡單真實指令相近的性能。

圖片

參考方法

對于第三個挑戰 —— 缺少參考實現,研究團隊實現并測試了幾種流行的學習算法 (如 PPO、專家迭代、best-of-n 采樣)。研究團隊發現在其他領域有效的更簡單方法并不比該研究最初的 SFT 模型更好,這表明在真實的指令遵循環境中測試這些算法是非常重要的。

圖片

根據人工評估,PPO 算法被證明是最有效的,它將模型與 Davinci003 相比的勝率從 44% 提高到 55%,甚至超過了 ChatGPT。

這些結果表明,PPO 算法在為模型優化勝率方面是非常有效的。需要注意的是,這些結果是特定于該研究的評估數據和注釋器得出的。雖然該研究的評估指令代表了實時用戶指令,但它們可能無法涵蓋更具有挑戰性的問題,并且并不能確定有多少勝率的改進來源于利用風格偏好,而不是事實性或正確性。例如,該研究發現 PPO 模型產生的輸出要長得多,并且通常為答案提供更詳細的解釋,如下圖所示:

圖片

圖片

總的來說,使用 AlpacaFarm 在模擬偏好上訓練模型能夠大幅改善模型的人類評估結果,而不需要讓模型在人類偏好上重新訓練。雖然這種遷移過程比較脆弱,并且在效果上仍略遜于在人類偏好數據上重新訓練模型。但能在 24 小時內,僅用 200 美元就復制出 RLHF 的 pipeline,讓模型迅速提升人類評估性能,AlpacaFarm 這個模擬器還是太香了,是開源社區為復刻 ChatGPT 等模型的強大功能做出的又一努力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-22 15:14:00

數據模型

2023-03-31 13:55:00

模型智能

2022-01-23 16:13:06

比特幣加密貨幣暴跌

2023-03-15 10:26:00

模型開源

2023-03-14 13:45:14

模型AI

2014-04-22 13:44:12

微軟

2024-07-05 17:49:29

2025-07-21 11:51:12

模型AI工具

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2020-09-18 17:40:49

TikTok程序禁令

2021-04-02 15:02:42

開源技術 工具

2013-06-04 13:43:53

2021-11-26 05:53:59

蜜罐惡意軟件網絡攻擊

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2013-09-27 13:34:09

BAT百度騰訊

2018-08-13 21:19:07

Weld開源數據
點贊
收藏

51CTO技術棧公眾號

男女男精品网站| 精品国产影院| 日本一二三不卡| 国产日韩在线观看av| 亚洲第一综合网| 色综合视频一区二区三区日韩| 亚洲天堂网中文字| 国产精品免费一区二区三区观看| 在线观看国产亚洲| 日韩在线观看| 欧美电影精品一区二区| 国产极品粉嫩福利姬萌白酱| 北岛玲日韩精品一区二区三区| 久久国产日韩欧美精品| 亚洲一区二区三区小说| 欧美最猛性xxxxx免费| 国产精品久久久久久久av| 电影91久久久| 欧美性20hd另类| 一区二区视频在线播放| 少妇一区二区三区四区| 视频在线观看一区二区三区| 久久av在线看| 亚欧洲乱码视频| 日韩精品中文字幕一区二区| 一本久道中文字幕精品亚洲嫩| 亚洲一区二区三区免费观看| 色婷婷av一区二区三| 美女免费视频一区二区| 91极品女神在线| 欧美激情精品久久久久久免费| 欧美国产不卡| 欧美男男青年gay1069videost| 黄色大片中文字幕| 成人日韩欧美| 久久精品日产第一区二区三区高清版| 999视频在线免费观看| 波多野结衣av无码| 美女午夜精品| 欧美精品tushy高清| wwwxxx黄色片| xxxx成人| 亚洲精品写真福利| 亚洲五月六月| 国产在线视频网| 9久草视频在线视频精品| 亚洲一区二区三区香蕉| 最新国产中文字幕| 久久精选视频| 91精品国产网站| 久久久一区二区三区四区| 国产精品久久观看| 一区二区三区精品99久久 | 午夜精品一区二区三区三上悠亚| 亚洲欧美精品在线观看| 国产一二三区在线视频| 91啪亚洲精品| 午夜精品久久久久久久99热浪潮| 极品色av影院| 999国产精品视频| 国产亚洲aⅴaaaaaa毛片| asian性开放少妇pics| 精品亚洲自拍| 亚洲电影免费观看高清完整版在线| 天堂网成人在线| 天使と恶魔の榨精在线播放| 亚洲视频综合在线| 亚洲永久激情精品| 麻豆tv免费在线观看| 欧美高清在线精品一区| 亚洲欧美日本国产有色| 蜜桃av在线免费观看| 中文字幕在线免费不卡| 成人三级在线| 日韩成人一区二区三区| 在线看片一区| 97超视频免费观看| 国产精品久久久久久人| 石原莉奈在线亚洲二区| 国产精品美女呻吟| 97精品人妻一区二区三区香蕉 | 欧美激情中文不卡| 日韩在线电影一区| 在线观看免费网站黄| 国产精品电影一区二区三区| 在线观看三级网站| 日韩一级片免费| 日韩一区精品字幕| 国产精品一区二区性色av| 青青青国产在线| 视频一区在线播放| 91美女高潮出水| www黄色网址| 99视频在线观看一区三区| 欧美成人一区二区在线| 国产成人av免费看| www.亚洲激情.com| 日本在线播放一区| 国产不卡在线| 精品久久久视频| 尤蜜粉嫩av国产一区二区三区| 一区在线不卡| 亚洲精品国产精品国产自| 成人激情五月天| 久久人体视频| 98精品在线视频| 中文字幕av资源| 国产成人a级片| 欧美一区1区三区3区公司| 蜜桃视频在线观看免费视频网站www| 一级特黄大欧美久久久| 国产一区亚洲二区三区| 免费污视频在线| 91搞黄在线观看| 女王人厕视频2ⅴk| 国产不卡一二三区| 欧美国产高跟鞋裸体秀xxxhd| 亚洲第一在线播放| 国产一区二区三区四区五区入口| 精品九九九九| 久久综合之合合综合久久| 午夜私人影院久久久久| 亚洲福利精品视频| 果冻天美麻豆一区二区国产| 日韩一区二区av| 天堂在线免费观看视频| 国产精品一区免费视频| 日韩影院一区| 在线视频超级| 欧美大片日本大片免费观看| 天堂在线中文视频| 亚洲欧美日韩国产一区| 99国产超薄丝袜足j在线观看| 国产一级在线观看| 激情亚洲一区二区三区四区 | 欧美人伦禁忌dvd放荡欲情| 日本护士做爰视频| 午夜视频一区| 成人做爽爽免费视频| 酒色婷婷桃色成人免费av网| 性久久久久久久| 韩国av中国字幕| 91tv官网精品成人亚洲| 国产精品久久中文| 麻豆影视在线| 欧美日韩国产在线| 国产十八熟妇av成人一区| 亚洲成av人片乱码色午夜| 国产精品久久久久久超碰| 青青草免费在线| 欧美日在线观看| 在线观看国产网站| 日韩视频三区| 国产乱码精品一区二区三区卡| 在线三级电影| 亚洲精品videosex极品| 中文av字幕在线观看| 成人在线一区| 萌白酱国产一区二区| 国产精品爽爽久久| 1区2区3区国产精品| 欧美成人福利在线观看| 成人免费电影网址| 国产精品视频在线播放| av资源网站在线观看| 欧美视频一区二区三区| 欧美高清精品一区二区| 欧美一区视频| 成人动漫在线观看视频| 国产网红女主播精品视频| 日韩美女天天操| 国产一级二级三级| k8久久久一区二区三区| 日韩av片在线看| 久久91麻豆精品一区| 国产精品久久久久国产a级| 1024视频在线| 日韩一区二区在线免费观看| 久久久久久久国产精品毛片| 99这里只有久久精品视频| 日韩人妻精品无码一区二区三区| 网曝91综合精品门事件在线| 国产成人精品日本亚洲| 午夜看片在线免费| 日韩精品专区在线影院观看| 国产精久久久久久| 老鸭窝一区二区久久精品| 强伦女教师2:伦理在线观看| 欧美日韩国产观看视频| 欧美一区二区成人| 国产午夜视频在线播放| 久久精品欧美一区二区三区不卡 | 麻豆精品一区二区av白丝在线| 一本—道久久a久久精品蜜桃| 欧美视频三区| 国产性猛交xxxx免费看久久| 91av久久久| 亚洲一区二区视频在线观看| aa一级黄色片| 久久99这里只有精品| 精品人妻少妇一区二区| 精品视频亚洲| 粉嫩高清一区二区三区精品视频 | 国产成人av网| 亚洲淫性视频| 亚洲欧美日韩天堂| 国产乱淫a∨片免费视频| 五月激情综合网| 成人信息集中地| 99久久免费视频.com| 91福利免费观看| 亚洲影院在线| 成人高清dvd| 欧美日韩国产高清电影| 99re在线国产| 成人在线免费电影网站| 国内精品一区二区三区四区| 一级日本在线| 亚洲精品中文字幕有码专区| 久久久精品国产sm调教| 久久精品人人做人人爽人人| 黄色av电影网站| 美女www一区二区| 国产网站免费在线观看| 欧美成人嫩草网站| 五月天婷亚洲天综合网鲁鲁鲁| 北条麻妃在线一区二区免费播放| 国产玖玖精品视频| 在线观看欧美日韩电影| 亚洲激情在线观看| 国产精品久久久久久无人区| 欧美性生交xxxxx久久久| 免费中文字幕视频| 国产精品久久久久久久久免费相片| 在线精品一区二区三区| 国产不卡免费视频| 色婷婷激情视频| 奇米色一区二区三区四区| 国产中文字幕视频在线观看| 国产真实久久| 在线观看一区二区三区三州| 国产一区二区亚洲| 久久精品人成| 奇米影视777在线欧美电影观看 | jazzjazz国产精品麻豆| 91久久久久久久一区二区| 亚洲天堂1区| 国产成人97精品免费看片| www.成人爱| 欧美一区二区视频97| 男人天堂视频在线观看| 97精品国产97久久久久久春色| 青春草视频在线| 久久99精品久久久久久青青91| 国精产品一区| 久久精品视频在线| 黄色网页在线观看| 操日韩av在线电影| 在线视频国产区| 欧美极度另类性三渗透| 国产白丝在线观看| 国模吧一区二区三区| www欧美xxxx| 韩日欧美一区二区| 国产中文在线播放| 91精品国产91久久久久久久久| 国产激情在线播放| 91精品国产高清| 韩国主播福利视频一区二区三区| 欧亚精品中文字幕| 97精品国产综合久久久动漫日韩 | 日本成人精品视频| 自拍av一区二区三区| 久久精品色妇熟妇丰满人妻| 中文字幕一区二| 欧洲猛交xxxx乱大交3| 亚洲综合一区二区三区| 国产一级在线视频| 欧美日韩国产色视频| 亚洲精品久久久久久久蜜桃| 欧美日韩国产大片| www.麻豆av| 亚洲精品97久久| 国产永久免费高清在线观看视频| 在线日韩日本国产亚洲| 超碰超碰在线| 97精品久久久| 国产在线|日韩| av在线不卡一区| 神马久久av| 亚洲精品一区二区三区蜜桃久| 久久久久久美女精品| 欧美激情视频免费看| 日韩二区在线观看| 中国老熟女重囗味hdxx| 日日夜夜精品视频免费| 中文字幕亚洲乱码| 高清shemale亚洲人妖| 久久午夜夜伦鲁鲁片| 日本一区二区三区免费乱视频| 国产真实乱在线更新| 亚洲福利一区二区三区| 麻豆天美蜜桃91| 精品成人乱色一区二区| 中文人妻熟女乱又乱精品| 日韩欧美的一区二区| 蜜芽tv福利在线视频| 美女黄色丝袜一区| 成人福利视频| 亚洲自拍av在线| 蜜乳av综合| 91传媒免费视频| 视频一区免费在线观看| 日本少妇激三级做爰在线| 2023国产一二三区日本精品2022| 国产喷水在线观看| 日韩欧美精品在线观看| 国内老熟妇对白hdxxxx| 国产亚洲精品va在线观看| 日韩影视在线| 国产日韩精品入口| 亚洲成人一品| 日本福利视频在线观看| 日本欧美大码aⅴ在线播放| 午夜视频在线观看国产| 亚洲同性同志一二三专区| 国产一区二区视频网站| 亚洲福利在线观看| 操你啦在线视频| 国产精品露脸av在线| 亚洲人成亚洲精品| 免费看黄在线看| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 成人免费观看在线视频| 日韩在线观看免费| 成人自拍视频网| 麻豆传媒一区| 亚洲美女91| 国产精品熟妇一区二区三区四区| 成人免费视频在线观看| 又骚又黄的视频| 国产一区二区成人| 亚洲人成午夜免电影费观看| 国产亚洲二区| 樱桃成人精品视频在线播放| 曰本三级日本三级日本三级| 中文一区在线播放| 欧美 亚洲 另类 激情 另类| 亚洲免费伊人电影在线观看av| 国产99在线| 国产一级二级三级精品| 欧美日韩午夜| 国产吃瓜黑料一区二区| 一区二区成人在线观看| 丰满肉嫩西川结衣av| 欧美激情乱人伦一区| 超碰97久久国产精品牛牛| 欧美一级爱爱视频| 丁香一区二区三区| 国产一级视频在线播放| 精品精品国产高清一毛片一天堂| 三级网站在线看| 97在线观看视频国产| 欧美变态网站| 欧美黄网站在线观看| 久久久精品日韩欧美| 糖心vlog精品一区二区| 中文字幕亚洲一区在线观看| av网址在线看| 亚洲综合社区网| 欧美视频网站| 白嫩情侣偷拍呻吟刺激| 精品久久在线播放| 久久久久久青草| 国产剧情久久久久久| 中文字幕一区二区三区乱码图片| 日本特黄在线观看| 亚洲夂夂婷婷色拍ww47| 亚洲av成人无码久久精品老人 | 精品自拍视频在线观看| 综合激情五月婷婷| 男女激情无遮挡| 久久精品亚洲乱码伦伦中文| 最新黄色网址在线观看| 欧美日韩国产二区| 亚洲v天堂v手机在线| jizz18女人| 亚洲午夜电影在线观看| 内衣办公室在线| 91精品国产综合久久香蕉922| 欧美片第1页综合| b站大片免费直播| 欧美日韩精品欧美日韩精品| 丝袜国产在线| 欧美精品一区在线发布| 极品少妇一区二区| 午夜毛片在线观看| 久久色免费在线视频| 亚州综合一区| www激情五月|