精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT原理解析

人工智能
在ChatGPT發布之初,我同許多AI從業者一樣對這個被媒體號稱要取代搜索引擎的聊天機器人產品是持懷疑態度的,但在深度體驗之后,發現ChatGPT跟以往曇花一現的產品并不一樣,它對于回答成熟的知識確實已經大有替代搜索引擎的能力,而其對上下文層層遞進的連續交互能力簡直顛覆了人們對大語言模型能力的想象。

盡管OpenAI沒有公布ChatGPT的論文和相關的訓練和技術細節,但我們可以從其兄弟模型InstructGPT以及網絡上公開的碎片化的情報中尋找到實現ChatGPT的蛛絲馬跡。根據OpenAI所言,ChatGPT相對于InstructGPT的主要改進在于收集標注數據的方法上,而整個訓練過程沒有什么區別,因此,可以推測ChatGPT的訓練過程應該與InstructGPT的類似,大體上可分為3步:

1.預訓練一個超大的語言模型;

2.收集人工打分數據,訓練一個獎勵模型;

3.使用強化學習方法微調優化語言模型。

1、預訓練超大語言模型

從GPT/Bert開始,預訓練語言模型基本遵循這樣一個兩段式范式,即通過自監督方式來預訓練大模型。然后再在此基礎上,在下游具體任務上進行fine-tuning(微調)。其中GPT因為用的是單向Transformer解碼器,因此偏向于自然語言生成,而Bert用的是雙向Transformer編碼器,因此偏向于自然語言理解。因為Bert的及時開源和Google在業界的強大影響力,外加業務導向的AI應用公司寄希望的快速落地能力,那個時候絕大多數的從業者都更加看好Bert,哪怕是openai發布的GPT2也是反響平平,這也為后來的落后埋下了伏筆。

這種兩段式的語言模型,其Capability(能力)是單一的,即翻譯模型只能翻譯,填空模型只能填空,摘要模型只能做摘要等等,要在實際任務中使用,需要各自在各自的數據上做微調訓練,這顯然很不智能,為了進一步向類似人類思維的通用語言模型靠齊,GPT2開始引入更多的任務進行預訓練,這里的創新之處在于它通過自監督的模型來做監督學習的任務。經過這樣訓練的模型,能在沒有針對下游任務進行訓練的條件下,就在下游任務上有很好的表現。也就是說Capability有了較大的擴展,但此時的Alignment(對齊)還相對較弱,實際應用上還不能完全去除fine-tuning,算是為zero-shot leaning(零樣本學習)奠定了基礎。為了解決Alignment問題,GPT3使用了更大的模型,更多的數據,并優化了in-context learning(上下文學習)的訓練方式,即在訓練時去擬合接近人類語言的Prompt(提示),以指導模型它該做些什么,這進一步提升了模型zero-shot learning的能力,總而言之,語言模型在朝著越來越大的方向發展。

圖片

圖1 不同參數規模語言模型zero-shot效果對比

正如上面GPT3論文中的對比圖所示,zero-shot極度依賴于大語言模型(LLM),可以說從GPT3開始的語言模型的發展,已經與缺乏資源的普通人無關了,自然語言處理的發展已經全面進入了超大語言模型時代,但這并不影響我們去理解和借鑒其思想。

ChatGPT也正是依賴于一個大規模的語言模型(LLM)來進行冷啟動的,具體過程如圖2所示:

圖片

圖2 初始化預訓練語言模型

顯然,由于參與初始模型微調的人工生成數據量很少,對于整個語言模型的訓練數據而言是滄海一粟,因此初始化語言模型時,這一步的微調對ChatGPT整體而言大概是可有可無的。

盡管經過精心設計的LLM的Capability和Alignment均已達到非常好的水平,但是僅僅憑借預訓練或加一些監督文本微調得到的語言模型終究還是無法應對人類所生活的真實語言環境的復雜性,這種模型在實際應用中時長會暴露以下缺陷:

  • 提供無效回答:沒有遵循用戶的明確指示,答非所問。
  • 內容胡編亂造:純粹根據文字概率分布虛構出不合理的內容。
  • 缺乏可解釋性:人們很難理解模型是如何得出特定決策的,難以確信回答的準確性。
  • 內容偏見有害:模型從數據中獲取偏見,導致不公平或不準確的預測。
  • 連續交互能力弱:長文本生成較弱,上下文無法做到連續。

2、訓練人類偏好模型

為了進一步增強語言模型的效果,人們試圖將強化學習引入到語言模型之中。但由于機器難以衡量自然語言輸出的質量好壞,這個研究方向一直發展緩慢,并且不被專業人員看好。盡管DeepMind早就提出了RLHF(Reinforcement Learning with human feedback)的訓練方法,但也一直沒有在實際產品中看見成效。OpenAI在InstructGPT中用一個小規模的GPT3模型通過RLHF微調后產生了比原始大GPT3更好的效果見證了RLHF的強大,隨后的ChatGPT真正將RLHF發揚光大。

圖片

圖3 原始RL框架

回想一下原始的強化學習框架,Agent要基于環境給出的獎勵信號來不斷優化自身的策略。那么在我們的聊天機器人的場景下,顯然語言模型作為一個Agent,它基于用戶輸入上下文語境(Environment)來輸出文本(action)。那么由什么來定義這個獎勵函數呢?正如前文所言,只有人才能夠評估輸出文本的好壞,那么就讓人來充當這個獎勵函數,這就是所謂的human feedback。但是這個更新過程需要不斷進行,顯然不能讓人一直在哪打分,那不妨就搞一個深度學習模型,去學習人類評估輸出質量的過程,于是便有了獎勵模型(Reward Model),如圖4所示。

圖片

圖4 獎勵(偏好)模型訓練框架

獎勵模型實際上就是去學習人類的偏好,因此也被叫作偏好模型。他的基本目標就是獲得一個打分模型,接收一系列的文本,并輸出一個標量獎勵,這個獎勵以數字的形式代表了人類對輸入輸出好壞的偏好。關鍵在于這個模型應當輸出一個標量獎勵,這樣方可與現有的RL算法無縫對接。獎勵模型基本上是基于其他的語言模型或者是通過Transformer從頭開始訓練。

OpenAI使用用戶以往通過GPT API提交的prompt,然后使用初始語言模型來生成一系列的新文本作為提示生成對(prompt-generation pairs)。然后再由人類訓練師來對初始LM生成的文本進行排序。雖然我們最初的想法是讓人類直接給這些輸出進行打分,但這在實踐中是很難做到的,人的不同打分標準容易導致這些分數跟實際有所偏差,而排序同樣可以用來比較多個模型輸出的質量,并且能夠創建一個更好的正則化數據集。有很多種方法用于對文本進行排序,一種比較成功的方式是讓用戶比較語言模型基于同一個prompt輸出的不同文本,通過兩個模型的輸出比較,再使用如Elo rating system(Elo系統)之類的方式來生成模型和輸出之間的相對排名,這樣就能將排名標準化為我們所需的標量獎勵信號。

至此,RLHF系統的兩個前置條件就達成了,接下來就是使用RL來進一步微調語言模型了。

3、強化學習微調

盡管業界已經近乎宣告強化學習不適用于語言模型,但仍舊有許多機構和科研人員在探索強化學習微調全部或部分語言模型參數的可行性,OpenAI就是其中最具代表性的。ChatGPT使用的是OpenAI自己提出的成熟的SOTA強化學習模型PPO來進行語言模型微調的,目前在語言模型上取得成功的RL算法也只有PPO,那么接下來就讓我們來看一下這個微調過程是如何被描述成一個RL問題的。

顯然,策略(Policy)是一個語言模型,它接受Prompt返回文本序列(或者只是文本上的概率分布)。策略的動作空間是語言模型詞匯表對應的所有token(通常在50000左右量級),觀測空間則是所有可能輸入的token序列(于是狀態空間在詞匯表大小^輸入token大小的量級),獎勵函數則由上述的偏好模型和策略轉移約束共同決定。于是整個過程大概是這樣的:

? 從訓練集采樣一個prompt:圖片;

? 從原始的語言模型產生一個文本序列圖片,從當前微調迭代的語言模型產生一個文本序列圖片

? 把當前策略產生的文本輸入到偏好模型,得到一個標量獎勵圖片;

? 將文本圖片圖片進行對比,一般使用KL散度來計算它們之間的差異圖片,這個作為一種變化約束,來防止模型生成能夠欺騙偏好模型卻胡言亂語的文本;

? 結合圖片圖片就得到了用于RL更新的最終的獎勵函數:圖片,不過OpenAI在訓練InstructGPT時,還在這個基礎上還添加了額外的在人類標注集合上的預訓練梯度;

? 接下來就是跟普通PPO一樣通過最大化當前批次的回報來進行在線更新。

圖片

圖5 強化學習微調框架

語言模型經過PPO算法的不斷自我迭代,外加獎勵函數的不斷人工糾偏,這個語言模型將如同AlphaGo那樣不斷完成進行自我進化,最終達到令人驚艷的效果。

4、總結

1?? ChatGPT向業界證明了GPT路線的優越性。實際上從GPT3開始,GPT技術路線在通用人工智能上已經成為一種演進趨勢。

2?? ChatGPT以其卓越的表現將RLHF方法重新帶入到了研究人員的視野,接下來可能會在更多的場合發光發熱,比如將RLHF與圖像領域的Diffusion結合,或將碰撞出意想不到的火花。

3?? RLHF在很大程度上解決了語言模型的對齊問題,使通用大模型走進人們的生活成為可能,但由于嚴重依賴人工標注者的偏好,這將影響到模型的公平性,或存在安全隱患。

??參考文獻

[1] Paul Christiano, Jan Leike, Tom B. Brown et al.?Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.

[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida et al.Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.

[3]《Illustrating Reinforcement Learning from Human Feedback (RLHF)》,https://huggingface.co/blog/rlhf.

[4] John Schulman, Filip Wolski, Prafulla Dhariwal, et al.?Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.

責任編輯:龐桂玉 來源: 移動Labs
相關推薦

2021-07-05 07:51:43

JVM底層Python

2021-07-12 09:45:36

NameServer 核心Conusmer

2021-01-12 14:46:34

Kubernetes開發存儲

2019-12-06 10:59:20

JavaScript運行引擎

2023-08-11 07:44:40

TCP滑動窗口數據

2020-05-21 13:25:43

Spring組件架構

2021-12-01 18:36:35

屬性

2024-06-27 08:26:10

LooperAndroid內存

2015-07-01 13:34:22

Kubernetes應用部署模型

2010-07-06 10:07:10

jQueryJSON

2021-06-16 15:18:03

鴻蒙HarmonyOS應用

2015-08-19 10:36:24

Zigbee技術無線通信

2023-11-16 09:01:37

Hadoop數據庫

2015-08-18 09:40:32

OpenStack Neutron虛擬網絡

2024-10-12 10:29:11

計算機圖形

2024-08-27 12:32:32

2016-10-21 11:04:07

JavaScript異步編程原理解析

2009-10-27 11:16:20

VB.NET應用框架

2021-10-29 10:14:42

鴻蒙HarmonyOS應用

2024-08-14 18:18:47

點贊
收藏

51CTO技術棧公眾號

欧美日韩国产在线播放| 国产精品一区免费视频| 在线观看日韩专区| 污污视频在线免费| www.youjizz.com在线| 97久久久精品综合88久久| 国产精品91一区| 老女人性淫交视频| 日韩精选在线| 欧美日韩在线另类| 国产日韩欧美一区二区| 中文字幕一区二区久久人妻| 亚洲精品a级片| 精品粉嫩超白一线天av| 能在线观看的av| 在线观看麻豆蜜桃| 高清成人免费视频| 国产999在线观看| 永久久久久久久| 日韩美脚连裤袜丝袜在线| 欧美中文字幕一区二区三区亚洲| 91精品国产吴梦梦| 飘雪影视在线观看免费观看| 久久激情五月婷婷| 91国自产精品中文字幕亚洲| 91视频免费在观看| 91欧美日韩在线| 欧洲精品视频在线观看| 女人帮男人橹视频播放| av在线第一页| 99精品视频在线观看| 国产日韩在线播放| 久久久久久少妇| 自拍偷拍欧美| 亚洲午夜久久久影院| 国内精品免费视频| 国产精品久久久久久久久久齐齐| 亚洲午夜激情av| 亚洲精品日韩在线观看| 亚洲精品网站在线| 免费成人性网站| 66m—66摸成人免费视频| 99自拍视频在线| 国产一区二区精品久| 精品乱码亚洲一区二区不卡| 亚洲视频一二三四| 欧美日韩五码| 粉嫩av一区二区三区免费野| 人妻激情另类乱人伦人妻| 91caoporn在线| 99久久99久久精品免费观看| 亚洲a级在线播放观看| 国产精华7777777| 午夜一区不卡| 91精品国产电影| 久久午夜鲁丝片午夜精品| 午夜免费一区| 国产丝袜视频一区| 中文字幕18页| 精品国产亚洲一区二区三区| 69久久99精品久久久久婷婷| 狠狠操精品视频| 黑人精品一区| 色就色 综合激情| 中国丰满人妻videoshd| 美女91在线看| 欧美日韩视频在线| 免费在线a视频| 蜜桃视频在线观看免费视频| 亚洲成av人片在www色猫咪| 日韩欧美猛交xxxxx无码| www红色一片_亚洲成a人片在线观看_| 中文字幕一区二区在线播放| 亚洲综合欧美日韩| 日本在线观看| 国产精品嫩草99a| 亚洲一区精彩视频| 免费大片黄在线观看视频网站| 国产精品久久网站| 黄色一级片网址| av网站网址在线观看| 亚洲精品videosex极品| 欧美黄色免费网址| 国模私拍视频在线播放| 五月天激情综合| 成年人视频网站免费观看| 性欧美又大又长又硬| 91国内精品野花午夜精品| 免费日韩视频在线观看| www.一区| 日韩你懂的电影在线观看| 曰本三级日本三级日本三级| 精品网站aaa| 亚洲美女激情视频| 国产又粗又猛又爽又黄的视频小说| 日韩电影二区| 欧美猛交ⅹxxx乱大交视频| 久久久www成人免费毛片| 亚洲第一毛片| 国产99久久精品一区二区 夜夜躁日日躁 | 日韩精品久久久久| 成人无码av片在线观看| 国产国产精品| 久久久中文字幕| 国产在线观看免费av| 日韩国产精品久久久久久亚洲| 国产日韩精品在线观看| 精品人妻一区二区三区麻豆91| 99免费精品视频| 日韩欧美视频一区二区三区四区| 国产美女福利在线| 亚洲国产wwwccc36天堂| 少妇黄色一级片| 超碰97久久| 国产小视频国产精品| 国产极品国产极品| 毛片一区二区| 亚洲在线第一页| 黄色网址在线播放| 亚洲综合色婷婷| 精品视频无码一区二区三区| 久久伦理中文字幕| 亚洲天天在线日亚洲洲精| 免费在线黄色网| 日韩av一二三| 国产一区二区三区四区hd| 男女啪啪在线观看| 欧美日韩国产中文字幕 | 亚洲欧美国产一本综合首页| 久久99久久99精品免费看小说| 亚洲精品护士| 亚洲一区二区三区香蕉| 国模吧精品人体gogo| 亚洲一区av在线| 亚洲第一天堂久久| 精品国产一区二区三区香蕉沈先生| 色在人av网站天堂精品| 亚洲最大成人av| 久久精品无码一区二区三区| 国产美女主播在线| 国产精品2区| www.亚洲一区| 国产情侣小视频| 久久精品视频免费观看| 狠狠干 狠狠操| 7m精品国产导航在线| 美女啪啪无遮挡免费久久网站| 久久精品99北条麻妃| 91一区二区三区在线播放| 久久综合久久网| av成人综合| 久久五月天色综合| 国产美女免费视频| 亚洲人成在线播放网站岛国| 亚洲欧美手机在线| 水蜜桃久久夜色精品一区| 国产成人福利视频| 国产在线日本| 色88888久久久久久影院按摩| 女人被狂躁c到高潮| 亚洲欧洲另类| 精品视频导航| 蜜桃视频动漫在线播放| 日韩精品小视频| 日本一区二区免费电影| 久久午夜色播影院免费高清| 日本一本二本在线观看| 国产99亚洲| 国产精品久久久久高潮| av电影在线观看网址| 欧美日韩综合色| www色com| 久久精品国内一区二区三区| 色阁综合av| 日韩成人综合网| 美日韩精品视频免费看| 亚洲精品一区二区三区四区| 亚洲一区二区在线播放相泽| 国产午夜在线一区二区三区| 亚洲美洲欧洲综合国产一区| 久久久久久精| 浪潮色综合久久天堂| 综合激情国产一区| 国产精品探花视频| 亚洲成人av一区二区| 国产ts丝袜人妖系列视频 | 香蕉视频一区二区三区| 日韩av大片免费看| 自拍视频在线播放| 日韩一级二级三级| 800av免费在线观看| 中文文精品字幕一区二区| 夜夜夜夜夜夜操| 黄色在线一区| 日本中文不卡| 视频二区欧美| 日本欧美中文字幕| 国产1区在线| 国产丝袜精品第一页| 在线视频1卡二卡三卡| 国产精品久久网站| 91成人在线观看喷潮蘑菇| 亚洲一区二区动漫| 尤物国产精品| 日韩精品免费一区二区夜夜嗨 | 欧美黄色免费看| 99精品视频在线播放观看| 亚洲国产高清av| 狠狠入ady亚洲精品经典电影| 欧美激情视频一区二区三区| 欧美伊人亚洲伊人色综合动图| 韩国国内大量揄拍精品视频| 91在线导航| 日韩av在线免费观看一区| 91亚洲精品国偷拍自产在线观看| 午夜激情久久久| 黄色一级大片在线免费观看| 99re这里只有精品视频首页| 999久久久精品视频| 很黄很黄激情成人| 亚洲日本欧美在线| 99久久免费精品国产72精品九九| 国产精品黄色av| 国产三线在线| 久久视频中文字幕| 波多野结衣在线网站| 亚洲成人国产精品| 99在线小视频| 精品视频一区二区三区免费| 日韩和一区二区| 亚洲免费观看高清完整版在线 | 国产欧美日韩视频一区二区| 男女性杂交内射妇女bbwxz| 狠狠色综合播放一区二区| 亚洲男人天堂色| 国产日韩亚洲| 性一交一乱一伧国产女士spa| 91精品国产乱码久久久久久久 | 久久99精品久久久久久噜噜| 粉嫩av一区| 日韩精品免费在线观看| 丰满大乳国产精品| 欧美一区二区精品| 91中文字幕在线播放| 欧美无砖专区一中文字| 无码人妻丰满熟妇区五十路| 五月天欧美精品| 国产奶水涨喷在线播放| 亚洲图片一区二区| 久久香蕉精品视频| 一区二区三区不卡视频| 极品魔鬼身材女神啪啪精品| 综合色中文字幕| 美女三级黄色片| 国产午夜久久久久| 精品人妻无码一区二区三区换脸| 99国产精品99久久久久久| 久久久高清视频| 不卡视频免费播放| 影音先锋黄色资源| 91丨九色丨国产丨porny| 五级黄高潮片90分钟视频| 99久久国产综合精品色伊| 性欧美成人播放77777| 久久久久国产成人精品亚洲午夜| 久久发布国产伦子伦精品| 国产一区在线精品| 手机免费av片| 国产一区二区三区久久久| 亚洲自拍第三页| 国产黄色91视频| 国产精品果冻传媒| 北岛玲一区二区三区四区| 日本黄色免费观看| 国产亚洲欧美在线| 日韩av片在线免费观看| 国产精品国产三级国产普通话三级 | 日韩免费中文专区| 日韩国产在线| 日本一区二区三区四区五区六区| 欧美激情五月| 免费超爽大片黄| 久久久成人网| 99热一区二区| 国产不卡在线播放| 香蕉视频黄色在线观看| 国产精品女上位| 久草免费在线视频观看| 欧美网站在线观看| 国产一区二区在线视频观看| 日韩午夜激情电影| 天堂av中文在线资源库| 三级精品视频久久久久| 深夜国产在线播放| 国产999精品视频| 精品国产亚洲一区二区三区在线 | 色综合一区二区日本韩国亚洲 | 欧美亚洲色图视频| 久久午夜影视| 九九九久久久久久久| 99久久久无码国产精品| 免费观看特级毛片| 亚洲超碰97人人做人人爱| 91九色丨porny丨肉丝| 色婷婷亚洲一区二区三区| 在线视频 91| 欧美xxxx老人做受| 蝌蚪视频在线播放| 久久久精品一区二区| 性欧美18一19sex性欧美| 国产精品久久久久福利| 136国产福利精品导航网址应用| 欧美三级网色| 欧美日韩国产亚洲一区| 青青青在线播放| 福利一区福利二区| 成人午夜免费影院| 福利视频一区二区| 精品人妻少妇嫩草av无码专区| 一区二区三区黄色| av中文在线资源库| 亚洲精品欧美日韩专区| 久久99视频| 国产美女主播在线播放| 精品一区二区在线观看| 免费看污黄网站在线观看| 国产精品久久久久久户外露出 | 久热精品在线视频| 日韩一区二区三区在线免费观看| 国产精品视频免费一区二区三区| 久久在线播放| 粗暴91大变态调教| 99视频在线精品| 久久网免费视频| 日韩三级.com| 黄色免费网站在线观看| 国产精品私拍pans大尺度在线| 婷婷综合福利| 老太脱裤子让老头玩xxxxx| 国产成人丝袜美腿| 69精品无码成人久久久久久| 精品久久久在线观看| 国产精品热久久| 中文字幕久久精品| 中文字幕在线视频久| 成人网页在线免费观看| 欧美精品一二| 成人av一级片| 粉嫩13p一区二区三区| 乱老熟女一区二区三区| 在线免费精品视频| 你懂的视频在线观看| 欧美成人全部免费| 成人豆花视频| 丝袜足脚交91精品| 日韩专区欧美专区| 少妇精品一区二区| 五月激情综合网| 午夜视频在线免费播放| 欧美性受xxx| 九九在线高清精品视频| 黑人糟蹋人妻hd中文字幕| 91视频你懂的| 99精品人妻国产毛片| 亚洲毛茸茸少妇高潮呻吟| 国产精品迅雷| 亚洲精品第一区二区三区| 麻豆成人91精品二区三区| av最新在线观看| 欧美一区二区三区婷婷月色 | 超鹏97在线| 97人人香蕉| 国产综合久久| 中文字幕一区三区久久女搜查官| 欧美午夜精品久久久久久人妖| 三级视频网站在线| 国产精品日韩电影| 亚洲网色网站| 日韩av无码一区二区三区不卡| 午夜精品久久久久| 国产福利小视频在线观看| 国产美女精品免费电影| 一区二区在线| 久久久老熟女一区二区三区91| 欧美性xxxxxxx| 在线免费观看黄色| 国产高清精品一区二区| 丝袜美腿亚洲一区| 人人干在线观看| 精品国产在天天线2019| 神马午夜在线视频| 一本色道久久99精品综合| 国产在线乱码一区二区三区| 精品视频一区二区在线观看| 亚洲毛片在线看| 亚洲欧美久久精品| 2022中文字幕| 久久色.com| 国产美女明星三级做爰| 国内精品中文字幕|