精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RLHF何以成LLM訓練關鍵?AI大牛盤點五款平替方案,詳解Llama 2反饋機制升級

人工智能 新聞
AI領域日新月異,RLHF也逐漸成為過時的技術,但新路線尚不明朗:應該采用無需人工的反饋,還是繼續改進RLHF機制?

在ChatGPT引領的大型語言模型時代,一個繞不過去的話題就是「基于人類反饋的強化學習」(RLHF),不僅提升了語言模型的性能,也將人類社會的價值觀注入到模型中,使得語言模型能夠幫助用戶解決問題,提高模型的安全性。

不過在ChatGPT之后,大量模型和相關技術不斷發布,RLHF也早已更新換代,并衍生出來一些無需人工的微調方法,效果提升也很明顯。

最近,Lightning AI創始人、AI研究大牛Sebastian Raschka發表了一篇博客,描述了Llama 2中的RLHF機制和原版相比做出了哪些改變和提升,還介紹了幾個RLHF算法的替代方案。

圖片


經典LLM的訓練流程

目前最先進的、基于Transformer的大型語言模型,例如ChatGPT或Llama 2,大體都包括三個訓練步驟:預訓練,有監督微調和對齊。

在預訓練階段,模型會吸收來自海量、無標注文本數據集的知識,然后使用有監督微調細化模型以更好地遵守特定指令;最后使用對齊技術使LLM可以更有用且更安全地響應用戶提示。

1. 預訓練(Pretraining)

預訓練階段通常需要包含數十億到數萬億個token的龐大文本語料庫,但訓練目標只是一個簡單的「下一個單詞預測」(next word prediction)任務,模型需要根據提供的文本來預測后續單詞或token。

自監督預訓練可以讓模型從大規模的數據中學習,只要能夠在不侵犯版權,或是無視創造者偏好的情況下收集到數據,就可以不依賴人工標注完成訓練,因為訓練標簽實際上就是文本的后續單詞,已經暗含在數據集中了。

2. 有監督微調(Supervised finetuning)

第二階段大體上來看也是「next token prediction」任務,不過需要人工標注的指令數據集,其中模型的輸入是一個指令(根據任務的不同,也可能包含一段文本),輸出為模型的預期回復內容。

數據形式類似于:

Instruction: "Write a  about a pelican."

使用說明:“寫一首關于鵜鶘的打油詩?!?/span>

Output: "There once was a pelican so fine..."

輸出:“從前有一只鵜鶘很好...“

模型會將指令文本作為輸入,并逐個token輸出,訓練目標是與預期輸出相同。

雖然兩個階段都采用相似的訓練目標,但有監督微調數據集通常比預訓練數據小得多,指令數據集需要人類(或其他高質量的LLM)提供標注結果,所以無法大規模應用。

3. 對齊(Alignment)

第三階段依然是微調,不過其主要目標在于將語言模型與人類的偏好、價值觀進行對齊,也是RLHF機制發揮作用的地方。

RLHF主要包括三步:

Step 1. 預訓練模型的有監督微調

先收集一個提示詞集合,并要求標注人員寫出高質量的回復,然后使用該數據集以監督的方式微調預訓練的基礎模型。

Step 2. 創建獎勵模型

對于每個提示,要求微調后的LLM生成四到九個回復,再由標注人員根據個人偏好對所有回復進行排序。

雖然排序過程很耗時,但工作量還是比第一步的數據集構建少一些。

在處理排序結果時,可以設計一個獎勵模型RM,將微調語言模型SFT的輸出通過一個回歸層(單個輸出節點)轉換為獎勵分數,用于后續優化。

Step 3.PPO微調

使用鄰近策略優化(PPO,proximal policy optimization ),根據獎勵模型提供的獎勵分數對SFT模型進一步優化。

PPO的具體技術細節可以參考InstructGPT或下面的論文列表。

  1. Asynchronous Methods for Deep Reinforcement Learning (2016) ,https://arxiv.org/abs/1602.01783
  2. Proximal Policy Optimization Algorithms (2017),https://arxiv.org/abs/1707.06347
  3. Fine-Tuning Language Models from Human Preferences (2020),https://arxiv.org/abs/1909.08593
  4. Learning to Summarize from Human Feedback (2022) ,https://arxiv.org/abs/2009.01325

Llama 2中的RLHF

Meta AI在創建Llama-2-chat模型時也使用了RLHF技術,不過與ChatGPT相比還是有些細微區別。

簡單來說,Llama-2-chat在第一步RLHF微調上使用相同的指令數據,但在第二步使用了兩個獎勵模型;通過多個階段的不斷進化,獎勵模型也會根據Llama-2-chat模型出現的錯誤進行更新;并且增加了拒絕采樣(rejection sampling)步驟。

Margin Loss

在標準InstructGPT中使用的RLHF PPO方法,研究人員需要收集同一個提示下的4-9個模型輸出并進行排序,比如四個回復的排序結果為A<C< D<B,那么就可以得到六個對比結果:A < C,A < D ,A < B,C < D,C < B,D < B

Llama 2的數據集也采用類似的方式,不過標注人員每次只能看到兩個(而非4-9個)回復并進行對比,但新增了一個邊際(margin)標簽,對比結果可以為「顯著更好」(significantly better)和「好的不明顯」(negligibly better)。

在排序訓練時中,Llama 2相比InstructGPT增加了邊際損失:

其中,rθ(x,y)是提示x和生成的回復y的標量分數輸出; θ為模型權重; σ是將層輸出轉換為范圍從0到1的分數的邏輯S形函數; yc是由標注人員選擇的更優回復; yr是較差的回復。

m(r)可以調節兩個回復之間的差值,如果對比結果為「顯著更好」,則會增加梯度值,加快更新速度。

兩種獎勵模式

Llama 2中的兩個獎勵模型分別側重「有用性」(helpfulness)和「安全性」(safety),用于模型優化的最終獎勵函數會將兩個分數進行線性組合。

拒絕采樣(Rejection sampling)

Llama 2的作者使用了一個訓練流水線,同時使用PPO和拒絕采樣算法,迭代地產生多個RLHF模型(從RLHF-V1到RLHF-V5),模型在拒絕采樣時會得到K個輸出,在每次優化迭代時選擇具有最高獎勵的輸出用于梯度更新,而PPO每次只基于單樣本進行更新。

從實驗結果來看,RLHF微調模型在無害性和有用性上都得到了改善,并且在最后階段RLHF-v5使用PPO算法的性能最好。

RLHF的替代方案

可以看到,RLHF是一個相當復雜的過程,如此精心的設計是否值得?

雖然InstructGPT和Llama 2論文實驗結果中證實了RLHF帶來的性能提升,但也有相關工作在關注開發更有效的替代品:

1. 憲政AI:人工智能反饋的無害性

研究人員提出了一種基于人類提供的規則列表的自我訓練機制,也使用了強化學習的方法。

論文標題:Constitutional AI: Harmlessness from AI Feedback

論文鏈接:https://arxiv.org/abs/2212.08073

發表日期:2022年12月

上圖中的「紅隊」(Red Team)指的是測試目標系統的防御能力,即外部或內部專家模擬潛在對手的過程,通過模仿現實世界打擊者的戰術、技術和程序來挑戰、測試并最終改進系統。

2. 后見之明的智慧

研究人員提出了一種基于重新標注的有監督方法HIR用于微調,在12個BigBench任務上都優于RLHF算法。

圖片

論文標題:The Wisdom of Hindsight Makes Language Models Better Instruction Followers

論文鏈接:https://arxiv.org/abs/2302.05206

發表時間:2023年2月

HIR方法包括兩個步驟,采樣和訓練:在采樣時,提示和指令被饋送到LLM以收集回復,并基于對齊分數,在訓練階段適當的地方重新標注指令;然后使用新指令和原始提示用于微調LLM。

重新標注可以有效地將失敗案例(LLM創建的輸出與原始指令不匹配的情況)轉化為有用的訓練數據以用于監督學習。

3. 直接偏好優化

直接偏好優化(DPO)是使用PPO的RLHF的替代方案,實驗結果顯示,用于擬合RLHF中的獎勵模型的交叉熵損失可以直接用于微調LLM,并且DPO更有效,在回復生成質量方面通常也優于RLHF/PPO

圖片

論文標題:Direct Preference Optimization: Your Language Model is Secretly a Reward Model

論文鏈接:https://arxiv.org/abs/2305.18290

發表日期:2023年5月

4. 強化自訓練(ReST)

ReST是RLHF的替代方案,可以將LLM與人類偏好對齊,其使用采樣方法來創建一個改進的數據集,在質量越來越高的子集上迭代訓練,以完善其獎勵函數。

論文標題:Reinforced Self-Training (ReST) for Language Modeling

論文鏈接:https://arxiv.org/abs/2308.08998

發表日期:2023年8月

根據作者的說法,ReST通過離線生成其訓練數據集,與標準在線RLHF方法(PPO)相比,實現了更高的效率,但缺少與InstructGPT或Llama 2中使用的標準RLHF PPO方法的全面比較。

5. 基于人工智能反饋的強化學習

基于人工智能反饋的強化學習(RLAIF)的研究表明,RLHF中獎勵模型訓練的評級不一定必須由人類提供,也可以由LLM生成(如PaLM 2)。

圖片

論文標題:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

論文鏈接:https://arxiv.org/abs/2309.00267

發表日期:2023年9月

標注人員在一半的案例中更喜歡RLAIF模型,也就意味著兩個模型的差距并不大,并且RLHF和RLAIF都大大優于純粹通過監督指令微調訓練的模型。

這項研究的結果是非常有用的,基本上意味著我們可以更容易獲得RLHF的訓練數據,不過RLAIF模型如何在定性研究中表現還有待觀察,這項研究側重于信息內容的安全性和真實性,只是對人類偏好研究的部分捕獲。

但這些替代方案在實踐中是否有價值還有待觀察,因為目前還沒有哪個模型可以不用RLHF的情況下,取得與Llama 2和Code Llama相近的性能。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-04-10 16:15:16

模型開源

2023-09-06 13:17:00

AI數據

2023-05-26 10:50:38

模型AI

2025-04-17 08:00:00

ManusDeepSeekMCP

2025-11-20 12:54:43

2025-01-24 15:40:00

2023-12-13 13:36:40

模型算力

2023-08-01 13:31:18

模型Alpacaicuna

2023-04-20 14:43:38

Linux模型GPT4

2023-08-22 13:21:07

AI算法

2023-09-05 19:43:05

模型RLHFAI

2024-11-20 09:27:06

2023-09-04 19:09:00

訓練模型數據

2024-01-02 00:16:59

生成式AI人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-04-22 09:47:07

2023-09-04 12:58:05

2023-03-08 12:39:47

架構

2018-07-09 08:38:13

集群Redis方案

2021-08-03 13:45:15

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

日韩欧美高清一区二区三区| 午夜视频福利在线观看| 午夜av一区| 亚洲精品www久久久| 狠狠热免费视频| 国产精品刘玥久久一区| 99精品一区二区三区| 国产日韩专区在线| 在线观看国产亚洲| 91精品天堂福利在线观看| 亚洲激情在线视频| 手机在线国产视频| 黄色亚洲网站| 一区二区三区在线视频免费| 天堂精品一区二区三区| 蜜桃视频污在线观看| 久久精品国产精品亚洲精品| 性亚洲最疯狂xxxx高清| 91n在线视频| 免费观看久久av| 欧美电影免费观看完整版| 久久综合伊人77777麻豆最新章节| 国产在线拍揄自揄拍视频| 中文字幕av不卡| 美脚丝袜一区二区三区在线观看| 999av视频| 美女视频一区二区| 热久久免费视频精品| 日本少妇吞精囗交| 久久精品青草| 中文字幕亚洲欧美在线| brazzers精品成人一区| 久久久久久毛片免费看 | 色综合综合网| 亚洲国产成人精品女人久久久| 亚洲av无日韩毛片久久| 国产91欧美| 欧美午夜精品一区二区蜜桃| 已婚少妇美妙人妻系列| 神马午夜在线视频| 午夜电影一区二区三区| 精品人妻少妇一区二区| 黄色大片在线| 亚洲永久精品国产| 国产一二三四区在线观看| 麻豆系列在线观看| 国产精品久久久久久户外露出| 日韩久久久久久久| 欧美18xxxxx| 久久久精品综合| 欧美亚洲免费高清在线观看| 神马久久久久| 久久欧美一区二区| 欧美成熟毛茸茸复古| 午夜视频免费在线| 久久精品一区二区三区不卡 | 国产成人av片| 久久久91麻豆精品国产一区| 日韩一区二区在线观看视频| 日本女人性视频| 爱爱精品视频| 亚洲精品xxxx| 亚洲av无码国产精品麻豆天美| 激情综合网五月| 中文字幕欧美日韩精品 | 五月天亚洲婷婷| 女人扒开屁股爽桶30分钟| 东京一区二区| 欧美日韩国产一级| 免费看的av网站| 女同另类激情重口| 亚洲欧美中文在线视频| 一区二区三区在线播放视频| 欧美精品91| **欧美日韩vr在线| 中文字幕人妻互换av久久| 久久99精品网久久| 国产精品一区二区三区精品| 国产资源在线播放| 中文字幕一区二区三区av| 奇米777四色影视在线看| 电影在线观看一区| 91黄色免费看| 欧美图片自拍偷拍| 五月国产精品| 久久久av一区| 9i看片成人免费看片| 久久福利视频一区二区| 国产精品综合久久久久久| 国产免费视频在线| 一区二区视频免费在线观看| 无码aⅴ精品一区二区三区浪潮| 国产精品久久久久久久久久齐齐 | 精品国产乱码久久久久久天美| 成年人在线看片| 久久伊人影院| 国产亚洲精品久久久久久| 青青操国产视频| 日日摸夜夜添夜夜添亚洲女人| 91视频免费进入| 国产福利在线视频| 亚洲午夜久久久久中文字幕久| 久草精品在线播放| 欧美在线在线| 尤物tv国产一区| 日韩精品一区三区| 激情综合色丁香一区二区| 久久99欧美| 亚洲男同gay网站| 欧美亚洲免费在线一区| 伊人网综合视频| 亚洲va在线| 国产精品成人一区| 亚洲aaa在线观看| 亚洲欧美福利一区二区| 国产精品igao| 久久av影视| 97激碰免费视频| 性欧美8khd高清极品| 国产精品日日摸夜夜摸av| 人人妻人人添人人爽欧美一区| 青草伊人久久| 日韩视频在线免费观看| 五月婷婷激情五月| wwwwxxxxx欧美| 2019日韩中文字幕mv| 久久久久久亚洲精品美女| 日韩视频在线免费观看| 在线观看你懂的网站| www久久精品| 欧美日韩在线视频一区二区三区| 大香伊人久久精品一区二区| 九九热这里只有精品6| 亚洲一级黄色大片| 国产精品全国免费观看高清| www黄色在线| 国产成人影院| 国产精品成人一区二区| aaa在线免费观看| 欧美日韩综合在线免费观看| 欧美性受xxxx黑人| 日韩极品在线观看| 日韩成人av电影在线| 亚洲mmav| 这里只有精品久久| 中国一级片黄色一级片黄| 中文字幕免费不卡| 欧美美女一级片| 天天综合精品| 91成人理论电影| 婷婷丁香在线| 日韩成人久久久| 一级黄色大片视频| 欧美高清一级片在线观看| 潘金莲激情呻吟欲求不满视频| 天天射成人网| 成人av免费看| 涩涩视频在线播放| 亚洲人成网在线播放| 中文字幕乱伦视频| 1000部国产精品成人观看| 日本一本在线视频| 亚洲黄色三级| 欧美极品一区二区| 97久久网站| 毛片精品免费在线观看| 黑人精品一区二区| 色婷婷综合久色| 久久久久亚洲av无码a片| 久久99日本精品| 欧美性潮喷xxxxx免费视频看| 国产伦精品一区二区三区在线播放 | 久久久久国产精品一区三寸 | 欧美精品一卡| 久久精品国产综合精品| 欧美日韩精品免费观看视欧美高清免费大片 | 国产精品视频自拍| 超碰在线网址| 精品国产一二三| 少妇无套内谢久久久久| 亚洲三级久久久| aaaaaav| 美女视频免费一区| 妺妺窝人体色777777| 国产精品欧美日韩一区| 91成人在线看| 蜜桃视频成人m3u8| 久久99国产精品自在自在app| 免费在线看v| 日韩欧美在线观看一区二区三区| 日本特级黄色片| 亚洲欧美aⅴ...| 天天躁日日躁aaaa视频| 国产成人三级在线观看| 日韩精品免费播放| 在线精品亚洲| 一区精品在线| 妖精视频一区二区三区免费观看| 91嫩草在线视频| 桃色一区二区| 欧美精品激情在线| 最新国产在线观看| 亚洲缚视频在线观看| 97久久人国产精品婷婷| 色婷婷av一区| 日本三级网站在线观看| 亚洲精品免费在线播放| 亚洲精品国产精品国自产网站| 大美女一区二区三区| 亚洲小视频网站| 免费一级欧美片在线播放| 2021国产视频| 99精品网站| 日本一区二区免费看| 国产乱论精品| 国产精品一区二区三区在线| 99热这里有精品| 国产又爽又黄的激情精品视频 | 黄色日韩在线| 中文字幕av久久| 欧美3p在线观看| 日韩av不卡播放| 日韩欧美美女在线观看| 国产偷国产偷亚洲高清97cao| 粉嫩一区二区三区在线观看| 国产精品揄拍500视频| 视频在线日韩| 国产成人福利网站| 黄色亚洲网站| 国产精品com| 桃色一区二区| 国产成人亚洲综合青青| 亚洲午夜天堂| 欧美与黑人午夜性猛交久久久| 国产v日韩v欧美v| 午夜免费在线观看精品视频| caoporn视频在线观看| 久久久久久国产精品美女| 牛牛在线精品视频| 欧美激情精品在线| 男女视频在线| 性欧美xxxx交| 99riav视频在线观看| 国产做受69高潮| 神马久久午夜| 国产精品www网站| 成人免费黄色| 成人综合国产精品| 国产电影一区| 97人人模人人爽人人喊38tv| 136福利精品导航| 国产精品乱码| 日本妇女一区| 日韩精品久久一区| 日本午夜一区| 三上悠亚免费在线观看| 国产综合视频| 狠狠爱免费视频| 蜜桃一区二区三区在线| 久久综合在线观看| 成人免费精品视频| 亚洲自拍偷拍一区二区| 国产精品青草综合久久久久99| 性欧美疯狂猛交69hd| 午夜一区二区三区在线观看| 日韩视频在线观看一区| 欧美日韩综合不卡| 精品人妻少妇AV无码专区 | 97超碰人人模人人爽人人看| www.丝袜精品| 天堂精品一区二区三区| 欧美搞黄网站| 欧美 日本 亚洲| 麻豆精品国产91久久久久久| 国产大学生av| 国产欧美一区二区在线观看| www.97视频| 欧美日韩免费看| 97超碰人人草| 日韩av中文字幕在线免费观看| 五月天婷婷在线视频| 欧美激情精品久久久久久变态| 小h片在线观看| 成人国产在线视频| 亚洲2区在线| 日韩三级在线播放| 欧美日韩一区自拍| 蜜臀av午夜一区二区三区| 国产一本一道久久香蕉| 波多野结衣办公室33分钟| 亚洲人成网站色在线观看| 久久久久久久久久久影院 | 久久久久久久影视| 久久亚洲影音av资源网| 在线毛片观看| 147欧美人体大胆444| 国产伦精品一区二区三区视频| 久久久久久久久久伊人| 日韩电影在线一区| 在线精品视频播放| 亚洲欧洲另类国产综合| 久久国产视频精品| 精品盗摄一区二区三区| 麻豆tv入口在线看| 日本精品中文字幕| 99久久免费精品国产72精品九九| 亚洲国产精品一区在线观看不卡| av成人激情| 精品无码av一区二区三区| 亚洲特级片在线| 中文字幕人妻精品一区| 亚洲人成五月天| 欧美办公室脚交xxxx| av一区二区三区在线观看| 99热国内精品| 日本新janpanese乱熟| 不卡的av在线| 久久久久久国产精品视频| 在线播放日韩导航| av免费在线一区二区三区| 琪琪亚洲精品午夜在线| 老汉色老汉首页av亚洲| 欧美国产视频一区| 国产一二三精品| 国产精品 欧美激情| 欧美日韩性生活| 黄色av网站在线看| 欧洲午夜精品久久久| 亚洲国产欧美日韩在线观看第一区 | 182在线视频| 亚洲国产成人91porn| 亚洲精品人妻无码| 久久99国产综合精品女同| 欧美午夜在线播放| 日韩中文在线字幕| 国产一区二区不卡在线| 蜜臀av午夜精品久久| 欧美夫妻性生活| h网站久久久| 亚洲自拍小视频| 欧美日韩影院| 日本精品一二三区| 五月婷婷久久综合| 性猛交xxxx| 2019国产精品自在线拍国产不卡| 久久九九热re6这里有精品| 777精品久无码人妻蜜桃| 91在线精品一区二区| 区一区二在线观看| 一区二区三区国产视频| 日本电影久久久| 色中文字幕在线观看| 国产91丝袜在线播放0| 国产无精乱码一区二区三区| 日韩精品丝袜在线| 欧美成人a交片免费看| 五月天色一区| 国产呦精品一区二区三区网站| 欧美成人三级在线观看| 亚洲国产精品久久| 中文字幕在线免费观看视频| 色一情一乱一伦一区二区三欧美| 久久精品99国产精品日本| 精品人妻伦九区久久aaa片| 日韩精品在线一区| 僵尸再翻生在线观看| 热re99久久精品国产99热| 看电视剧不卡顿的网站| 久久精品一级片| 国产视频精品xxxx| 国产一区高清| 久久99久久久久久| 2021国产精品久久精品| 91资源在线视频| 97av在线播放| 久久视频精品| 污污内射在线观看一区二区少妇| 色88888久久久久久影院按摩| 成人在线播放免费观看| 九色91在线视频| 另类人妖一区二区av| 九九热精彩视频| 亚洲人成伊人成综合网久久久| 国产激情精品一区二区三区| 免费一级特黄特色毛片久久看| 国产精品嫩草99a| 粉嫩av一区二区夜夜嗨| 国产成人一区二区三区| 欧美精品97| 精品熟妇无码av免费久久| 精品区一区二区| 日韩黄色三级| 欧美成人一区二区在线观看| 亚洲天堂a在线| 毛片在线免费| 国产精品久久国产精品| 久久www免费人成看片高清| 999这里只有精品| 久久亚洲私人国产精品va| 精品毛片免费观看|