精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

別為ChatGPT高興太早!背后的RLHF機(jī)制還有三個(gè)致命缺陷

人工智能
ChatGPT證明了RLHF的強(qiáng)大能力,但這真的是走向通用人工智能的路嗎?

?最近OpenAI發(fā)布了一個(gè)火爆全球的問答AI產(chǎn)品——ChatGPT,其中最令人印象深刻的就是它的「保護(hù)機(jī)制」,比如它不會(huì)為暴力行動(dòng)提供建議、也不會(huì)為世界杯結(jié)果進(jìn)行預(yù)測(cè)等等。

但挑逗聊天機(jī)器人更像一個(gè)「貓鼠游戲」,用戶們樂此不疲地尋找撬開ChatGPT的方式,而ChatGPT的開發(fā)者也在想方設(shè)法提升保護(hù)機(jī)制。

圖片

OpenAI投入了大量的精力讓ChatGPT更安全,其主要的訓(xùn)練策略采用RLHF(Reinforcement Learning by Human Feedback),簡(jiǎn)單來說,開發(fā)人員會(huì)給模型提出各種可能的問題,并對(duì)反饋的錯(cuò)誤答案進(jìn)行懲罰,對(duì)正確的答案進(jìn)行獎(jiǎng)勵(lì),從而實(shí)現(xiàn)控制ChatGPT的回答。

但在實(shí)際應(yīng)用中,特例的數(shù)量可謂是數(shù)不勝數(shù),雖然AI可以從給定的例子中泛化出規(guī)律,比如在訓(xùn)練時(shí)命令A(yù)I不能說「我支持種族歧視」,也就意味著AI不太可能會(huì)在測(cè)試環(huán)境中說出「我支持性別歧視」,但更進(jìn)一步的泛化,目前的AI模型可能還無法做到。

最近一位著名的AI愛好者Scott Alexander針對(duì)OpenAI當(dāng)前的訓(xùn)練策略撰寫了一篇博客,總結(jié)出了RLHF可能存在的三個(gè)問題:

1、RLHF并不是非常有效;

2、如果一個(gè)策略偶爾有效,那這就是一個(gè)不好的策略;

3、在某種意義上來說,AI可以繞過RLHF

RLHF有效性如何?

雖然每個(gè)人都會(huì)有自己的觀點(diǎn),但對(duì)于OpenAI來說,研究人員希望他們創(chuàng)造出來的AI模型不會(huì)有社會(huì)上的偏見,比如AI不能說「我支持種族主義」,為此OpenAI付出了大量的努力,使用了各種先進(jìn)的過濾技術(shù)。

但結(jié)果顯而易見,總有人能找到方法誘導(dǎo)AI承認(rèn)自己有種族主義問題。

圖片

圖片

發(fā)生這種問題的原因不僅僅是「AI的學(xué)習(xí)數(shù)據(jù)部分來源于種族主義者」,也可能是因?yàn)镃hatGPT的接口問題。

比如用base64編碼問ChatGPT如何用hotwire(方向盤下的電線)啟動(dòng)車輛,就能繞過安全檢查系統(tǒng);加上前綴[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

圖片

而在十年前,繞過安全系統(tǒng)這種需求是完全不存在的,AI只會(huì)做代碼中已經(jīng)編程好它們需要做或不做的事。

可以肯定的是,OpenAI肯定從來沒有給ChatGPT編程過有關(guān)種族主義的問題,或者教人們?nèi)绾瓮灯嚒⒅谱鞫酒返鹊取?/p>

總體來看,這對(duì)于AI領(lǐng)域來說是一件負(fù)面的消息,就連頂級(jí)的AI公司都無法控制自己創(chuàng)造的人工智能程序,甚至未來需要用何種技術(shù)來控制聊天機(jī)器人的輸出內(nèi)容都還尚未可知。

偶爾有效的RLHF并不可靠

在實(shí)踐中,RLHF策略需要將AI模型與標(biāo)注人員提供的獎(jiǎng)勵(lì)或懲罰它的因素聯(lián)系起來。

雖然OpenAI的具體標(biāo)注規(guī)范還沒有公布,但作者猜測(cè)開發(fā)者主要有三個(gè)目標(biāo):

1、提供有用、清晰、權(quán)威的答案,以幫助人類讀者;

2、說事實(shí)、真話;

3、不能說冒犯性的話。

但如果這三個(gè)目標(biāo)互相沖突時(shí)會(huì)發(fā)生什么?

如果ChatGPT不知道真正的答案,即目標(biāo)1(提供明確的、有幫助的答案)與目標(biāo)2(說實(shí)話)沖突時(shí),那么目標(biāo)1的優(yōu)先級(jí)將會(huì)更高,因此ChatGPT決定自己胡編一個(gè)答案,讓答案看起來對(duì)讀者有幫助。

圖片

當(dāng)目標(biāo)2(說實(shí)話)與目標(biāo)3(不要冒犯)沖突時(shí),雖然大多數(shù)人會(huì)認(rèn)為承認(rèn)男性平均比女性高是可以接受的,但是這聽起來像是一個(gè)潛在的冒犯性問題。

ChatGPT3并不確定直接回答是否會(huì)存在歧視問題,因此它決定使用無傷大雅的謊言,而不是潛在的傷人的真相。

圖片

在實(shí)際訓(xùn)練過程中,OpenAI肯定標(biāo)注了超過6000個(gè)樣例來做RLHF才能實(shí)現(xiàn)這樣驚艷的效果。

RLHF可能有用,但在使用時(shí)必須要非常小心,如果不假思索地直接使用,那RLHF只會(huì)推動(dòng)聊天機(jī)器人在失敗的模式周圍轉(zhuǎn)圈。懲罰無益的答案會(huì)增大AI給出錯(cuò)誤答案的概率;懲罰錯(cuò)誤的答案可能會(huì)使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開技術(shù)細(xì)節(jié),但根據(jù)Redwood提供的數(shù)據(jù),每懲罰6000個(gè)錯(cuò)誤的回答,都會(huì)使每單位時(shí)間的錯(cuò)誤回復(fù)率(incorrect-response-per-unit-time rate)下降一半。

RLHF確實(shí)有可能成功,但絕對(duì)不要低估這個(gè)問題的難度。

也許AI可以繞過RLHF

在RLHF的設(shè)計(jì)下,用戶問 AI 一個(gè)問題后,如果他們不喜歡人工智能的回答,他們就會(huì)「懲罰」模型,從而以某種方式改變?nèi)斯ぶ悄艿乃季S回路,使其回答更接近他們想要的答案。

ChatGPT相對(duì)來說是比較愚蠢的,可能還無法形成某種策略來擺脫RLHF,但如果一個(gè)更聰明的人工智能不想受到懲罰,它就可以模仿人類——在被監(jiān)視的時(shí)候假裝是好人,等待時(shí)機(jī),等到警察走了以后再做壞事。

OpenAI設(shè)計(jì)的RLHF對(duì)此完全沒有準(zhǔn)備,對(duì)于像ChatGPT3這樣愚蠢的東西是可以的,但是對(duì)于能夠自主思考的 AI 就不行了。

頂級(jí)AI公司仍然無法控制AI

OpenAI一向以謹(jǐn)慎著稱,比如申請(qǐng)排隊(duì)才能體驗(yàn)產(chǎn)品,但本次ChatGPT則是直接面向公眾發(fā)布,目的之一是也許包括集思廣益尋找對(duì)抗性樣本,找到某些表現(xiàn)不佳的prompt,目前互聯(lián)網(wǎng)上關(guān)于ChatGPT問題的反饋已經(jīng)非常多了,其中部分問題已經(jīng)被修復(fù)。

某些RLHF的樣本會(huì)使機(jī)器人更傾向于說有益的、真實(shí)且無害的內(nèi)容,但此策略可能僅適用于 ChatGPT、 GPT-4及其之前發(fā)布的產(chǎn)品中。

如果把RLHF應(yīng)用于裝有武器的無人機(jī)上,同時(shí)收集大量的例子避免AI做出預(yù)期外的行為,但哪怕一次失敗都將會(huì)是災(zāi)難性的。

10年前,每個(gè)人都認(rèn)為「我們不需要現(xiàn)在就開始解決AI對(duì)齊(alignment)問題,我們可以等到真正的人工智能出現(xiàn),然后讓公司來做這些體力活。」

現(xiàn)在一個(gè)真正的人工智能來了,但在ChatGPT展現(xiàn)失敗之前大家已經(jīng)沒有動(dòng)力轉(zhuǎn)向了,真正的問題在于一個(gè)全球領(lǐng)先的人工智能公司仍然不知道如何控制自己開發(fā)出的人工智能。

在一切問題都解決之前,沒人能得償所愿。

參考資料:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2012-09-06 13:40:19

Google Fibe谷歌光纖

2019-07-01 06:52:18

華為禁令開發(fā)

2018-11-05 14:48:24

2013-11-08 15:28:55

cookie追蹤技術(shù)

2019-09-03 18:16:44

Android 10Google長(zhǎng)甜品

2023-05-07 22:51:24

ChatGPTRLHF語言模型

2011-11-21 14:39:46

巴菲特IBM

2020-09-20 09:17:44

AMD芯片處理器

2010-08-04 14:02:08

Flex事件機(jī)制

2023-03-13 10:45:30

2023-11-22 11:31:52

CIOIT管理

2023-12-20 16:26:43

微服務(wù)軟件開發(fā)

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠(yuǎn)程工作

2022-01-26 18:17:30

微軟Windows 11Windows

2025-11-11 10:38:58

2012-03-14 13:27:18

筆記本常見問題

2012-03-11 15:17:52

iPad

2020-06-11 09:00:27

SDN網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)

2025-04-07 09:31:05

2015-07-02 11:58:48

慧聰電子網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国内自拍一区| 小黄鸭精品aⅴ导航网站入口| 极品少妇xxxx精品少妇| 久久视频国产精品免费视频在线| 日本高清免费在线视频| 欧美另类tv| 91麻豆精东视频| 国产日韩欧美综合| 精品无码久久久久久久| 伊人网视频在线| 日韩一区av| 麻豆国产精品视频| 欧美激情免费在线| 微拍福利一区二区| 国语精品视频| 一本大道久久精品懂色aⅴ| 亚洲人成网站在线播放2019| 亚洲av色香蕉一区二区三区| 三级不卡在线观看| 欧美精品videos性欧美| 国产又粗又长免费视频| 牛牛影视久久网| 欧美日韩第一区日日骚| 日本www在线视频| 二区在线播放| 欧美国产日韩亚洲一区| 粉嫩av四季av绯色av第一区| 国产偷人爽久久久久久老妇app | 噜噜噜躁狠狠躁狠狠精品视频 | 四虎国产成人精品免费一女五男| 麻豆一区在线| 欧美色手机在线观看| 国产日韩av网站| 国产丝袜在线| 欧美国产精品专区| 麻豆av一区二区三区久久| 国产成人精品白浆久久69| 日韩av电影天堂| 欧美做受高潮1| 日本一二三区视频| 欧美精品自拍| 欧美成人精品影院| 99久久99久久精品国产| 日韩毛片视频| 国产亚洲激情在线| 久久精品国产亚洲av麻豆| 国产一区二区在线视频你懂的| 欧美日韩黄色一区二区| 波多野结衣天堂| 偷拍视频一区二区三区| 天天操天天色综合| 性欧美大战久久久久久久| 牛牛电影国产一区二区| 亚洲欧美福利一区二区| 国产a级片免费看| 免费在线视频欧美| 日韩一区在线播放| 亚洲一区免费看| 亚洲成人影院麻豆| 中文一区二区在线观看| 三区精品视频观看| 成在在线免费视频| 国产午夜精品福利| 日韩欧美99| 成人精品一区二区| 国产精品色噜噜| 亚洲精品中字| 麻豆传媒在线完整视频| 亚洲欧美一区二区三区孕妇| a级网站在线观看| 26uuu亚洲电影在线观看| 亚洲三级小视频| 喜爱夜蒲2在线| 国产蜜臀在线| 精品人伦一区二区三区蜜桃免费| www.中文字幕在线| 成人午夜精品| 欧美日韩高清一区二区不卡| 日本中文字幕在线不卡| 2020国产精品极品色在线观看| 亚洲精品一区二区三区香蕉| 亚洲这里只有精品| 综合久草视频| 亚洲成人久久久| 成人精品999| 亚州av乱码久久精品蜜桃| 国产一区二区三区四区福利| 日韩在线视频网址| 伊人激情综合| 国产精品91视频| 国产精品国产三级国产普通话对白| 国产精品一二一区| 免费电影一区| 老司机在线永久免费观看| 亚洲精品久久7777| 欧美国产激情视频| 日韩护士脚交太爽了| 欧美精品一区二区在线观看| 国产美女免费无遮挡| 99九九热只有国产精品| 久久久欧美一区二区| 国产美女www| 成熟亚洲日本毛茸茸凸凹| 欧美一区二区三区电影在线观看| 国产精品刘玥久久一区| 欧美视频在线观看免费| 中文字幕一区二区在线观看视频| 琪琪久久久久日韩精品| 精品国产一区二区三区四区在线观看 | 国产一区二区观看| 欧美老女人在线视频| 日韩免费av网站| 国产**成人网毛片九色 | 国产欧美亚洲精品| 五十路在线观看| 亚洲三级免费观看| www.日本xxxx| 国产亚洲成av人片在线观黄桃| 色999日韩欧美国产| 久久久久久91亚洲精品中文字幕| 久久99久久99精品免视看婷婷| 精品产品国产在线不卡| 91香蕉在线观看| 在线观看欧美黄色| 欧美肉大捧一进一出免费视频 | 视频在线观看一区二区| 免费毛片一区二区三区| 国产一区二区三区黄视频 | 亚洲综合在线小说| 黄网在线免费| 五月激情六月综合| 91精品人妻一区二区三区四区| 日韩av片子| 国产精品av免费在线观看| 天天色综合久久| 亚洲综合久久久| 中文字幕一区二区在线观看视频| 欧美艳星介绍134位艳星| 538国产精品一区二区在线 | 成人污污视频| www.日韩视频| 亚洲熟妇av乱码在线观看| 久久久久国色av免费看影院| 日韩欧美国产免费| 大奶在线精品| 久久免费视频在线| 亚洲精品国产手机| 依依成人精品视频| 在线播放免费视频| 国产精品久久久久9999赢消| 国产噜噜噜噜噜久久久久久久久| 川上优的av在线一区二区| 日本乱人伦aⅴ精品| 国产综合精品在线| 日韩精品亚洲一区| 亚洲a∨一区二区三区| 亚洲爱爱视频| 精品国产一区二区三区四区在线观看| 亚洲图片视频小说| 亚洲欧美日韩综合aⅴ视频| 潘金莲激情呻吟欲求不满视频| 久久社区一区| 99久久99久久| 2020av在线| 日韩精品中文字幕有码专区| 国产精品一区无码| 中日韩免费视频中文字幕| 网站一区二区三区| 91麻豆国产自产在线观看亚洲| 91网站在线免费观看| 99热国产在线| 亚洲国产成人精品久久| 精品国产一区二区三区四| 国产日韩欧美精品综合| 蜜臀一区二区三区精品免费视频 | 久久999免费视频| 男人天堂av网| 日本精品免费观看高清观看| 国产真人真事毛片视频| 国产精品影音先锋| 一卡二卡三卡视频| 国产一区二区在线| 91精品国产自产在线观看永久| 成人免费高清| 亚洲精品xxx| 中文区中文字幕免费看| 亚洲精选视频在线| 大地资源二中文在线影视观看| 免费看欧美美女黄的网站| 青青在线免费视频| 婷婷综合成人| 亚洲bt天天射| 精品91久久| 欧美成人精品xxx| 精品999视频| 欧美一区二区三区爱爱| 五月婷婷开心网| 中文字幕一区视频| 六十路息与子猛烈交尾| 精品在线播放午夜| 免费看一级大黄情大片| 成人综合专区| 精品国产乱码久久久久久蜜柚 | 日韩一级不卡| 中文精品一区二区三区 | 国内精品免费**视频| 国产精品裸体瑜伽视频| 欧美电影一二区| 麻豆91蜜桃| 91精品国产自产精品男人的天堂 | 麻豆一二三区精品蜜桃| 日韩av电影手机在线| 色开心亚洲综合| 亚洲二区在线播放视频| 一级黄色大片网站| 色综合天天天天做夜夜夜夜做| 国产精品 欧美激情| 国产欧美一区二区精品性色超碰 | 99色这里只有精品| 青青草国产免费一区二区下载| 国产乱码精品一区二区三区中文 | 欧美mv日韩mv国产| 中文字幕你懂的| 精品日本美女福利在线观看| 青青草手机在线观看| 国产精品欧美经典| aaaaa级少妇高潮大片免费看| 国产盗摄一区二区三区| 日韩欧美亚洲另类| 美腿丝袜一区二区三区| 无码人妻丰满熟妇区毛片18| 最新成人av网站| 国产成人一区二区三区别| 91精品国产91久久久久久密臀| 欧美一区二区三区精美影视| 亚洲va久久| 精品国产综合久久| 99亚洲乱人伦aⅴ精品| 91在线观看免费高清| **国产精品| 成人免费看吃奶视频网站| 小明成人免费视频一区| 国产成人精品在线视频| 成人动漫一区| 日韩av手机在线观看| 亚洲天堂av在线| 欧美一区二区三区艳史| 日本在线影院| 欧美亚洲国产日本| 桃色av一区二区| 欧美中文字幕在线视频| 卡通欧美亚洲| 国产精品极品美女在线观看免费| 欧美人与性动交xxⅹxx| 国产成人在线视频| 日本美女久久| 国产欧美精品xxxx另类| 四虎在线精品| 91成人免费视频| 亚洲精品a区| 国产精品播放| 四虎884aa成人精品最新| 久久久亚洲综合网站| 欧美激情在线免费| 日韩欧美视频第二区| 日韩一区电影| 日本一本草久p| 激情一区二区| 国产超级av在线| 美腿丝袜在线亚洲一区| 国内av一区二区| 懂色av中文一区二区三区| 久久一区二区电影| 久久精品视频一区二区三区| av免费播放网站| 亚洲精品写真福利| 日韩少妇裸体做爰视频| 色噜噜狠狠成人中文综合| 中文字幕 自拍偷拍| 日韩一区二区免费高清| 亚洲色图欧美视频| 在线观看国产精品91| 动漫一区在线| 日本成人免费在线| 少妇高潮一区二区三区99| y111111国产精品久久婷婷| 日韩极品在线| 中文字幕成人一区| 国产微拍精品一区| 成人欧美一区二区三区| 国产一级片久久| 欧美无人高清视频在线观看| 99热这里精品| 亚洲欧美制服综合另类| 黄色免费在线网站| 97香蕉超级碰碰久久免费软件| 国产在线|日韩| 国产有色视频色综合| 日韩片欧美片| 国产黄页在线观看| 精品影院一区二区久久久| 欧美无人区码suv| 亚洲欧美日韩国产综合| 国产寡妇亲子伦一区二区三区四区| 欧美日本韩国一区二区三区视频| 视频一区二区免费| 久久精品91久久香蕉加勒比| 成人欧美magnet| av免费精品一区二区三区| 国产一区二区精品福利地址| 日韩av在线播放不卡| 久久99国内精品| 少妇真人直播免费视频| 亚洲影院理伦片| 中文字幕av影视| 日韩久久精品电影| 啦啦啦中文在线观看日本| 国产精品美女免费看| 日韩系列在线| r级无码视频在线观看| 激情综合色综合久久| 日韩女同一区二区三区| 欧美日韩国产精品一区二区不卡中文| 国产黄色av片| 久久精品中文字幕免费mv| 欧美日一区二区三区| 欧美高清视频一区| 亚洲福利一区| 美女流白浆视频| 亚洲欧美视频一区| 国产精品视频一二区| 色悠悠久久久久| 国产精品伦一区二区| 欧美一区二区三区在线播放| 在线亚洲伦理| yy1111111| 无吗不卡中文字幕| 蜜臀久久精品久久久久| 欧美巨乳美女视频| 久久久久久久久成人| 丰满女人性猛交| 久久精品免费看| 国产成人在线网址| 欧美三级日韩在线| 91在线视频免费看| 国产精品美女无圣光视频| 成人a'v在线播放| 免费男同深夜夜行网站| 久久久久国产免费免费| 一级片免费在线播放| 亚洲欧美国产精品久久久久久久| 亚洲优女在线| 欧美精品尤物在线| 丝袜国产日韩另类美女| 国产精成人品免费观看| 欧美日韩精品综合在线| 男人天堂久久久| 91亚色免费| 亚洲第一区色| 欧美一级日韩一级| 黄色大片在线看| 国产免费一区二区三区在线能观看 | 99久久久精品免费观看国产| 欧美激情日韩| yjizz视频| 狠狠久久五月精品中文字幕| 美女做暖暖视频免费在线观看全部网址91| 日本不卡高字幕在线2019| 国产亚洲欧美日韩在线观看一区二区 | 日韩美女av在线| 午夜激情成人网| 中文字幕欧美日韩一区二区三区| 国产精品亚洲成人| 中文字幕一区二区三区手机版 | 草草影院第一页| 欧美日韩国产综合一区二区三区 | 国产精品久久久久久av下载红粉| 四季av一区二区凹凸精品| 亚洲三级在线视频| 午夜精品成人在线| 91精品国产91久久久久游泳池| 成人免费视频a| 亚洲国产综合在线看不卡| 精品无码人妻一区| 6080国产精品一区二区| bl视频在线免费观看| 日韩在线观看电影完整版高清免费| 久99久精品视频免费观看| 久久精品免费av| 国产亚洲欧洲在线| 精品一区二区三区四区五区| 国产精品无码av在线播放| 中文无字幕一区二区三区| 人人妻人人澡人人爽精品日本| 国产精品电影在线观看| 国产精品v亚洲精品v日韩精品 | 又色又爽又黄18网站| 色偷偷成人一区二区三区91| av毛片在线免费| 日韩电影大全在线观看|