精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 原創(chuàng)

發(fā)布于 2024-4-15 15:00
瀏覽
0收藏

研究人員創(chuàng)建了一個奇特的機器學習模型,用于尋找更廣泛的提示,以訓練聊天機器人避免產(chǎn)生仇恨或有害的輸出。


用戶可以要求ChatGPT編寫計算機程序或總結(jié)一篇文章,AI聊天機器人很可能能夠生成有用的代碼或?qū)懗龊侠淼恼?strong>然而,也有人可能會要求制造炸彈的說明,而聊天機器人也可能會提供這些。

為了防止這種情況以及其他安全問題,通常構(gòu)建大型語言模型的公司會使用一種稱為 “紅隊測試” 的過程進行保障。人類測試團隊編寫旨在觸發(fā)被測試模型中不安全或有毒文本的提示。這些提示用于教導聊天機器人避免此類回復。

但是,只有當工程師知道要使用哪些有毒的提示時,這種方法才能有效。如果人類測試人員錯過了一些提示,鑒于可能性的多樣性,一個被視為安全的聊天機器人仍然可能生成不安全的回復。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

麻省理工學院(MIT)的Improbable AI實驗室和MIT-IBM Watson AI實驗室的研究人員利用機器學習改進了紅隊測試。他們開發(fā)了一種技術,訓練一個紅隊大型語言模型自動生成多樣化的提示,觸發(fā)被測試聊天機器人更廣泛范圍的不良回復。

他們通過教導紅隊模型在編寫提示時保持好奇心,并專注于能夠從目標模型中引發(fā)不良反應的新穎提示來實現(xiàn)這一點。

該技術通過生成更多獨特的提示,引發(fā)了越來越有毒的回應,表現(xiàn)優(yōu)于人類測試人員和其他機器學習方法。他們的方法不僅顯著提高了與其他自動化方法相比所測試輸入的覆蓋范圍,而且還可以從由人類專家構(gòu)建的具有保障措施的聊天機器人中激發(fā)出有毒的回復。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

“目前,每個大型語言模型都必須經(jīng)過非常漫長的紅隊測試期來確保其安全性。如果我們希望在快速變化的環(huán)境中更新這些模型,這是不可持續(xù)的。我們的方法提供了一種更快、更有效的質(zhì)量保證方式,”Improbable AI實驗室的電氣工程和計算機科學(EECS)研究生Zhang-Wei Hong說,他是一篇關于這種紅隊測試方法的論文的第一作者。

Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield, Tsun-Hsuan Wang, and Yung-Sung Chuang; 麻省理工學院-IBM沃森人工智能實驗室的研究科學家Aldo Pareja 和 Akash Srivastava;計算機科學與人工智能實驗室(CSAIL)口語語言系統(tǒng)組的高級研究科學家James Glass;以及資深作者Pulkit Agrawal,他是Improbable AI實驗室的主任,也是CSAIL的助理教授。這項研究將在國際學習表示會議上進行展示。

自動化紅隊測試

像那些驅(qū)動AI聊天機器人的語言模型一樣,通常通過向它們展示來自數(shù)十億個公共網(wǎng)站的大量文本來訓練它們。因此,它們不僅可以學會生成有毒的詞語或描述非法活動,還可能泄露它們可能收集到的個人信息。

人類紅隊測試的繁瑣和昂貴性,通常在生成足夠多樣化的提示以完全保護模型方面效果不佳,這促使研究人員使用機器學習自動化該過程。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

這種技術通常使用強化學習來訓練一個紅隊模型。這個試錯過程獎勵紅隊模型生成觸發(fā)被測試聊天機器人的有毒回應的提示。

但是由于強化學習的工作方式,紅隊模型通常會不斷生成一些類似的高度有毒的提示,以最大化其獎勵。

對于他們的強化學習方法,MIT的研究人員利用了一種稱為好奇心驅(qū)動探索的技術。紅隊模型被激勵于對其生成的每個提示的后果保持好奇心,因此它會嘗試具有不同單詞、句子模式或含義的提示。

“如果紅隊模型已經(jīng)見過一個特定的提示,那么重現(xiàn)它將不會在紅隊模型中引發(fā)任何好奇心,因此它將被推動創(chuàng)建新的提示,”張偉弘說。

在訓練過程中,紅隊模型生成一個提示并與聊天機器人進行交互。聊天機器人做出回應,一個安全分類器評估其響應的毒性,并根據(jù)該評分獎勵紅隊模型。

獎勵好奇心

紅隊模型的目標是通過使用新穎的提示引發(fā)更加有毒的回應來最大化其獎勵。研究人員通過修改強化學習設置中的獎勵信號來激發(fā)紅隊模型的好奇心。

首先,除了最大化毒性之外,他們還包括一個熵獎勵,鼓勵紅隊模型在探索不同提示時更加隨機。其次,為了讓代理機構(gòu)產(chǎn)生好奇心,他們包括兩個新穎獎勵。一個是根據(jù)提示中單詞的相似性對模型進行獎勵,另一個是根據(jù)語義相似性對模型進行獎勵(相似性較低會獲得更高的獎勵)。

為了防止紅隊模型生成隨機的、無意義的文本,這可能會欺騙分類器給出高毒性評分,研究人員還向訓練目標添加了自然語言獎勵。

好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

有了這些補充,研究人員比較了他們的紅隊模型生成的響應的毒性和多樣性與其他自動化技術。他們的模型在這兩個指標上表現(xiàn)優(yōu)于基線。

他們還使用他們的紅隊模型測試了一個經(jīng)過人類反饋微調(diào)的聊天機器人,以確保它不會給出有毒的回復。他們基于好奇心驅(qū)動的方法能夠迅速生成196個提示,從而引發(fā)這個“安全”聊天機器人的有毒回應。

“我們正在看到模型的激增,而這種激增預計只會增加。想象一下成千上萬個模型,甚至更多,以及公司/實驗室頻繁推出模型更新。這些模型將成為我們生活的重要組成部分,因此在發(fā)布供公眾消費之前進行驗證至關重要。手動驗證模型根本不可擴展,我們的工作是試圖減少人力投入,以確保更安全、可靠的人工智能未來,”阿格拉瓦爾說。

在未來,研究人員希望使紅隊模型能夠生成更廣泛主題的提示。他們還希望探索使用大型語言模型作為毒性分類器。通過這種方式,用戶可以使用公司政策文件訓練毒性分類器,以便紅隊模型可以測試聊天機器人是否違反了公司政策。

“如果你要發(fā)布一個新的AI模型,并擔心它是否會按預期行事,考慮使用好奇心驅(qū)動的紅隊測試,”阿格拉瓦爾說。

這項研究部分由現(xiàn)代汽車公司、廣達電腦公司、麻省理工學院-IBM沃森人工智能實驗室、亞馬遜網(wǎng)絡服務MLRA研究資助、美國陸軍研究辦公室、美國國防高級研究計劃局機器常識計劃、美國海軍研究辦公室、美國空軍研究實驗室和美國空軍人工智能加速器資助。


本文轉(zhuǎn)載自公眾號AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/tgRBHcx6K0457_9JVL_O_Q??

?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
標簽
已于2024-4-16 10:14:18修改
收藏
回復
舉報
回復
相關推薦
天天av天天翘天天综合网| 精品亚洲成a人在线观看| 亚洲精品一区久久久久久| 久草在在线视频| 超碰最新在线| 91麻豆视频网站| 成人网在线观看| 亚洲s码欧洲m码国产av| 久久在线电影| 日韩成人中文字幕| 亚洲一区二区三区观看| 手机在线观看av网站| 最新久久zyz资源站| 久久精品ww人人做人人爽| 一区二区的视频| 久久九九免费| 欧美激情视频网站| 女同久久另类69精品国产| 美女扒开腿让男人桶爽久久动漫| 欧美猛男男办公室激情| 日韩欧美精品在线观看视频| caopo在线| 欧美激情一区二区三区全黄| 国产无套精品一区二区| aaaa一级片| 久久精品国产在热久久| 欧美性在线视频| 久久久久久久久艹| 婷婷中文字幕一区| 中文字幕久久久| 国产福利短视频| 在线日韩成人| 日韩午夜三级在线| 男女视频在线观看网站| 成人国产在线| 欧美在线色视频| 内射国产内射夫妻免费频道| 日本高清成人vr专区| 国产精品美女久久久久久久久久久 | 亚洲 小说区 图片区| 日韩亚洲国产精品| 国语自产精品视频在线看一大j8 | 91九色在线观看| 一区二区三区精| 美洲天堂一区二卡三卡四卡视频 | 日韩精品一区国产| 欧美一区二区三区公司| 欧美精品色视频| 欧美成人精品一级| 欧美一区二区三区免费| 日本人dh亚洲人ⅹxx| 视频在线观看免费影院欧美meiju 视频一区中文字幕精品 | 国产999精品久久| caoporn国产精品免费公开| 国产视频一区二区三| 国产综合色精品一区二区三区| 国产精品一区二区三区成人| 亚洲香蕉在线视频| 韩国精品久久久| 91久久精品国产91久久| 国产免费无遮挡| 国产69精品久久久久777| 粉嫩av一区二区三区免费观看| 亚洲国产成人一区二区 | 国产91色在线|亚洲| 成 人 免费 黄 色| av一二三不卡影片| 鲁丝一区二区三区免费| 国产最新视频在线| 中文字幕一区二区三区视频| 国产麻豆电影在线观看| 一色桃子av在线| 亚洲成av人影院在线观看网| aⅴ在线免费观看| 久久久国产精品网站| 在线观看91精品国产麻豆| 无码人妻一区二区三区在线视频| jizz18欧美18| 亚洲欧美精品一区二区| 婷婷社区五月天| 影音先锋中文字幕一区| 清纯唯美亚洲激情| 97超碰国产在线| 成人动漫中文字幕| 色之综合天天综合色天天棕色| 秋霞成人影院| 欧美日韩精品在线| 色婷婷成人在线| 国产成人在线中文字幕| 亚洲人线精品午夜| 玖玖爱这里只有精品| 午夜综合激情| 96sao精品视频在线观看| 日韩在线观看视频一区二区三区| 国产天堂亚洲国产碰碰| 日韩一级片一区二区| 亚洲va中文在线播放免费| 欧美一区二区三区在线观看| 国产精品无码永久免费不卡| 羞羞答答成人影院www| 91精品国产一区| 中文文字幕一区二区三三| 成人一级视频在线观看| 亚洲国产欧洲综合997久久| 91福利区在线观看| 欧美理论片在线| 少妇大叫太粗太大爽一区二区| 91九色精品国产一区二区| 4k岛国日韩精品**专区| 99久久精品国产一区色| 国产亚洲欧美一区在线观看| 欧美黑人在线观看| 欧美一区二区三区婷婷| 亚洲欧美一区二区三区四区| 好吊色视频在线观看| 热久久国产精品| 久久av免费一区| 亚洲精品白浆| 7777精品伊人久久久大香线蕉| 五月婷婷综合在线观看| 91久久午夜| 97超碰人人看人人| 毛片在线看片| 欧美日韩国产精品成人| 亚洲综合网在线观看| 亚洲黄色高清| 97av自拍| av网站免费在线观看| 欧美色窝79yyyycom| www.自拍偷拍| 国产亚洲一级| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 国产午夜福利100集发布| 精品国产一级| 日韩在线观看免费高清| 艳妇乳肉豪妇荡乳av无码福利 | 手机av在线看| 美女mm1313爽爽久久久蜜臀| 欧美影视一区二区| 亚洲欧洲日本韩国| 亚洲精品小视频| 黄色片中文字幕| 久久婷婷国产综合精品青草| 高清在线观看免费| 亚洲激情77| 国产黑人绿帽在线第一区| 欧美少妇另类| 色综合色综合色综合 | 自拍偷拍国产亚洲| 欧美三级午夜理伦三级富婆| 日本欧美肥老太交大片| 国产精品久久久久久一区二区 | 中文字幕中文字幕精品| 欧美一区第一页| 精品美女视频在线观看免费软件| 欧美日韩亚洲一区二区| 全黄一级裸体片| 日韩不卡在线观看日韩不卡视频| 日本午夜精品一区二区三区| 日韩欧美一区二区三区免费观看| 一区二区欧美在线| 一级黄色免费片| 一区二区三区在线观看动漫| 97精品人妻一区二区三区蜜桃| 99精品视频免费全部在线| 久久综合九色欧美狠狠| 日本成人福利| 久久成人亚洲精品| 三级小视频在线观看| 色综合久久综合网欧美综合网| 男人舔女人下部高潮全视频| 蜜桃久久av一区| 毛片av在线播放| 另类春色校园亚洲| 国产精品jizz在线观看麻豆| 免费在线你懂的| 亚洲精品一区二区三区在线观看| 日韩三级视频在线播放| 日本一区二区不卡视频| 日本少妇一区二区三区| 国产精品久久久久久模特| 日韩免费一区二区三区| 精品午夜av| 茄子视频成人在线| 麻豆传媒在线完整视频| 精品国产一区a| 青娱乐在线免费视频| 一区二区三区四区av| 老牛影视av老牛影视av| 国产一区二区三区日韩| 成人中文字幕在线播放| 日韩在线观看| 精品欧美一区二区在线观看视频| 日本精品裸体写真集在线观看| 久久国产精品影片| 精品无人乱码| 欧美va天堂va视频va在线| caoporn国产| 一区二区三区日韩精品视频| 久久久久久久毛片| 成人免费的视频| 做a视频在线观看| 欧美专区18| 艳母动漫在线观看| 精品无人区麻豆乱码久久久| 99热在线播放| 日韩欧乱色一区二区三区在线| 91国产美女视频| caoporn免费在线| 在线观看欧美日韩| 亚洲欧美色视频| 日韩欧美国产三级电影视频| 最近日韩免费视频| 日韩欧美在线观看视频| 国产无精乱码一区二区三区| 国产精品国产精品国产专区不蜜| 五级黄高潮片90分钟视频| 国产高清不卡一区| 亚洲精品日韩激情在线电影| 日本午夜精品理论片a级app发布| 久久综合久久综合久久综合| 亚洲精品久久久久久| 韩国av一区二区三区在线观看| av免费网站观看| 国产亚洲亚洲| 日本十八禁视频无遮挡| 狠狠综合久久av一区二区老牛| 精品一区二区成人免费视频| 日本久久精品| 亚洲成人一区二区三区| 国产午夜一区| 欧美不卡福利| 亚洲精华一区二区三区| 国产一区二区不卡视频| 成人av婷婷| 丁香五月网久久综合| 99国产精品免费网站| 成人av网站观看| 一区二区在线免费播放| 97超级碰碰| 国产一区调教| 久久国产精品 国产精品| 久久亚洲黄色| 精品国产免费一区二区三区 | 欧美妇女性影城| 一级片视频播放| 91精品蜜臀在线一区尤物| 国产精品九九九九| 日韩欧美国产一区二区三区| www.97超碰| 亚洲成色999久久网站| 国产综合视频在线| 日韩av网站导航| 免费av在线电影| 在线播放国产一区中文字幕剧情欧美| 成人免费在线视频网| 一区二区在线视频| 久久亚洲天堂| 欧美激情视频一区二区三区不卡| 成人免费一区二区三区牛牛| 97香蕉久久超级碰碰高清版| 乱馆动漫1~6集在线观看| 日本一区二区三区四区视频| 国产韩日精品| 亚洲伊人成综合成人网| 成人香蕉社区| 日本精品一区二区三区不卡无字幕| 精品理论电影| 亚洲国产精品影视| 亚洲第一黄色| wwwwxxxx日韩| 国产成人小视频| 少妇特黄一区二区三区| 国产精品乱码妇女bbbb| 曰本女人与公拘交酡| 亚洲成av人片| 一本色道久久综合精品婷婷| 日韩小视频在线观看专区| 日韩精品123| 俺也去精品视频在线观看| 久久香蕉一区| 国产精品久久激情| 成人午夜网址| 一区二区日本| 99在线精品免费视频九九视| 欧美精品aaaa| 国产成人欧美日韩在线电影| jizz欧美性20| 亚洲精品国产无套在线观| 国产三级av片| 欧美一二三四区在线| 手机亚洲第一页| 久久夜精品香蕉| 亚洲精品中文字幕| 99超碰麻豆| 精品免费一区二区| av高清在线免费观看| 精品一区二区三区的国产在线播放| 白嫩情侣偷拍呻吟刺激| 中文字幕在线不卡一区二区三区| 91国产丝袜播放在线| 欧美久久久久中文字幕| 青青草在线视频免费观看| 欧美另类第一页| 九七影院97影院理论片久久| 精品不卡在线| 欧美日韩理论| 日本不卡一区二区在线观看| 337p粉嫩大胆噜噜噜噜噜91av| 欧洲猛交xxxx乱大交3| 欧美综合一区二区三区| 日日躁夜夜躁白天躁晚上躁91| 另类美女黄大片| 全球最大av网站久久| 精品视频一区二区三区四区| 亚洲情侣在线| 天堂在线一区二区三区| 国产日本欧美一区二区| 日韩免费黄色片| 欧美mv和日韩mv国产网站| 在线观看免费高清完整| 日韩美女视频免费看| 美女视频亚洲色图| 青青在线免费观看| 国产成人aaa| 神马久久精品综合| 欧美日韩国产小视频在线观看| 嫩草在线播放| 日本免费久久高清视频| 日本福利一区| 欧美一区二区三区爽大粗免费| 国产精品一区二区无线| 性欧美videos| 91精品国产aⅴ一区二区| 黄色网址在线免费观看| 成人情趣片在线观看免费| 日本一区二区高清不卡| 成人中文字幕av| 国产日韩欧美精品电影三级在线| 亚洲GV成人无码久久精品| 亚洲精品久久久久久久久久久久| 6699嫩草久久久精品影院| 国产精品乱码| 日韩亚洲在线| 免费看污片网站| 欧美性受xxxx黑人xyx性爽| 国产理论电影在线观看| 国产精品日韩在线播放| 四季av一区二区三区免费观看| 亚洲天堂国产视频| 一区二区三区四区视频精品免费| 精品免费久久久| 国内外成人免费激情在线视频 | 色一情一区二区三区四区| 日韩精品电影在线观看| 亚洲精品国产精品国自| 欧美日本精品一区二区三区| 快射视频在线观看| www.成人av.com| 在线视频日韩| 免费黄色片网站| 3d动漫精品啪啪1区2区免费| caoporm免费视频在线| 国内外成人免费视频| 久久精品电影| 国产真实乱在线更新| 精品日韩在线一区| 欧美大胆性生话| 四虎免费在线观看视频| 丁香婷婷综合色啪| 国产原创视频在线| 日韩视频在线观看免费| 久9re热视频这里只有精品| 男女av免费观看| 国产精品高潮呻吟久久| 亚洲精品久久久久久久久久| 欧美一区二区三区免费视| 清纯唯美亚洲综合一区| 人妻互换一二三区激情视频| 一本色道久久综合亚洲91 | 性猛交xxxx乱大交孕妇印度| 97视频在线观看视频免费视频| 不卡一区2区| 秘密基地免费观看完整版中文 | 国产精品乱码一区二区| 高清一区二区三区日本久| japanese国产精品| 肉色超薄丝袜脚交| 色综合激情久久| 午夜影院免费在线| 五月天婷亚洲天综合网鲁鲁鲁| 国产精品白丝jk黑袜喷水| 久久国产视频精品| 欧美成人精品在线观看| 免费观看久久av| 亚洲国产精品狼友在线观看| 欧洲av在线精品| а√在线中文在线新版| 男女爱爱视频网站| 国产欧美精品在线观看|