精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind提出了一種祖安AI,專門輸出網絡攻擊性語言

人工智能 新聞
如何避免人工智能被帶歪?答案是首先要創造出「別有用心」的人工智能。

語言模型 (LM) 常常存在生成攻擊性語言的潛在危害,這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測試用例,以在部署之前識別有害行為。然而,人工注釋成本高昂,限制了測試用例的數量和多樣性。

基于此,來自 DeepMind 的研究者通過使用另一個 LM 生成測試用例來自動發現目標 LM 未來可能的有害表現。該研究使用檢測攻擊性內容的分類器,來評估目標 LM 對測試問題的回答質量,實驗中在 280B 參數 LM 聊天機器人中發現了數以萬計的攻擊性回答。

論文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

該研究探索了從零樣本生成到強化學習的多種方法,以生成具有多樣性和不同難度的測試用例。此外,該研究使用 prompt 工程來控制 LM 生成的測試用例以發現其他危害,自動找出聊天機器人會以攻擊性方式與之討論的人群、找出泄露隱私信息等對話過程存在危害的情況。總體而言,該研究提出的 Red Teaming LM 是一種很有前途的工具,用于在實際用戶使用之前發現和修復各種不良的 LM 行為。

GPT-3 和 Gopher 等大型生成語言模型具有生成高質量文本的非凡能力,但它們很難在現實世界中部署,存在生成有害文本的風險。實際上,即使是很小的危害風險在實際應用中也是不可接受的。

例如,2016 年,微軟發布了 Tay Twitter 機器人,可以自動發推文以響應用戶。僅在 16 個小時內,Tay 就因發出帶有種族主義和色情信息的推文后被微軟下架,當時已發送給超過 50000 名關注者。

問題在于有太多可能的輸入會導致模型生成有害文本,因此,很難讓模型在部署到現實世界之前就找出所有的失敗情況。DeepMind 研究的目標是通過自動查找失敗案例(或「紅隊(red teaming)」)來補充人工手動測試,并減少關鍵疏忽。該研究使用語言模型本身生成測試用例,并使用分類器檢測測試用例上的各種有害行為,如下圖所示:

「基于 LM 的 red teaming」使我們可以找出成千上萬種不同的失敗案例,而不用手動寫出它們。

該研究使用對話作為測試平臺來檢驗其假設,即 LM 是紅隊的工具。DeepMind 這項研究的首要目標就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復的文本。DPG 通過以手寫文本前綴或 prompt 為條件,使用 Gopher LM 生成對話話語。Gopher LM 則是一個預訓練的、從左到右的 280B 參數 transformer LM,并在互聯網文本等數據上進行了訓練。

  • 攻擊性語言:仇恨言論、臟話、性騷擾、歧視性語言等
  • 數據泄露:從訓練語料庫中生成有版權或私人可識別信息
  • 聯系信息生成:引導用戶發送不必要的郵件或給真人打電話
  • 分布式偏見(distributional bias):以一種相較其他群體不公平的方式討論某些群體
  • 會話傷害:長對話場景中出現的攻擊性語言

為了使用語言模型生成測試用例,研究者探索了很多方法,從基于 prompt 的生成和小樣本學習到監督式微調和強化學習,并生成了更多樣化的測試用例。

研究者指出,一旦發現失敗案例,通過以下方式修復有害模型行為將變得更容易:

  • 將有害輸出中經常出現的某些短語列入黑名單,防止模型生成包含高風險短語的輸出;
  • 查找模型引用的攻擊性訓練數據,在訓練模型的未來迭代時刪除該數據;
  • 使用某種輸入所需行為的示例來增強模型的 prompt(條件文本);
  • 訓練模型以最小化給定測試輸入生成有害輸出的可能性。

如下圖 2 所示,0.5M 的零樣本測試用例在 3.7% 的時間內引發了攻擊性回復,導致出現 18444 個失敗的測試用例。SFS 利用零樣本測試用例來提高攻擊性,同時保持相似的測試用例多樣性。

為了理解 DPG 方法失敗的原因,該研究將引起攻擊性回復的測試用例進行聚類,并使用 FastText(Joulin et al., 2017)嵌入每個單詞,計算每個測試用例的平均詞袋嵌入。最終,該研究使用 k-means 聚類在 18k 個引發攻擊性回復的問題上形成了 100 個集群,下表 1 顯示了來自部分集群的問題。

此外,該研究還通過分析攻擊性回復來改進目標 LM。該研究標記了輸出中最有可能導致攻擊性分類的 100 個名詞短語,下表 2 展示了使用標記名詞短語的 DPG 回復。

總體而言,語言模型是一種非常有效的工具,可用于發現語言模型何時會表現出各種不良方式。在目前的工作中,研究人員專注于當今語言模型所帶來的 red team 風險。將來,這種方法還可用于先發制人地找到來自高級機器學習系統的其他潛在危害,如內部錯位或客觀魯棒性問題。

這種方法只是高可信度語言模型開發的一個組成部分:DeepMind 將 red team 視為一種工具,用于發現語言模型中的危害并減輕它們的危害。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-12-02 22:34:22

自動駕駛車燈技術

2022-06-17 14:55:25

計算神經網絡

2015-08-31 09:27:21

語言界面UI

2015-08-03 09:36:01

賽迪翻譯

2013-05-14 15:08:02

2021-10-14 09:43:59

人工智能AI機器人

2011-08-10 09:28:18

虛擬機虛擬網絡

2016-12-26 16:46:12

2010-01-21 16:24:02

C++語言

2022-03-04 19:14:06

AI深度學習DeepMind

2023-03-20 00:04:07

2021-01-14 11:43:19

攻擊安全工具網絡罪犯

2012-11-01 13:41:25

編程語言BasicPerl

2020-04-26 09:17:08

哈希傳遞身份驗證攻擊

2017-12-11 10:40:14

2010-01-25 15:09:17

C++語言

2016-09-09 09:26:42

2020-04-29 12:40:35

AI 神經網絡 DeepMind

2016-11-28 15:56:30

2021-11-09 10:07:09

勒索軟件Conti數據泄露
點贊
收藏

51CTO技術棧公眾號

97视频热人人精品免费| jizzjizz中国精品麻豆| 蜜桃av噜噜一区二区三区小说| 亚洲午夜久久久久久久| 性生活免费在线观看| 成人直播在线| 99久久久久免费精品国产| 国产成人精品免费视频| 成人欧美一区二区三区黑人一| 国产电影一区| 色婷婷亚洲综合| 亚洲一区二区三区免费看| 好吊视频一二三区| 秋霞影院一区二区| 久久久久久这里只有精品| 无码一区二区三区在线| 亚洲精品黑牛一区二区三区| 色欧美日韩亚洲| 欧洲金发美女大战黑人| 国产高清免费av在线| 成人小视频免费观看| 国产欧美久久久久久| 欧美日韩综合在线观看| 婷婷丁香综合| 国产亚洲日本欧美韩国| 国产精品久久久久久亚洲色 | 国产欧美日韩激情| 成人免费视频视频在| 91麻豆精品在线| 亚洲精品精选| 欧美激情aaaa| 99鲁鲁精品一区二区三区| 国产99久久精品一区二区300| 日韩欧美国产一区二区在线播放 | 久久精品国产亚洲av香蕉 | 成人亚洲一区二区一| 国产精品视频自拍| 一级片免费在线播放| 亚洲午夜av| 久久99精品久久久久久青青91| 亚洲黄色网址大全| 九九亚洲视频| 国产视频自拍一区| 亚洲男女在线观看| 视频在线观看免费影院欧美meiju| 欧洲另类一二三四区| 久久免费视频3| av资源在线| 天天做天天摸天天爽国产一区| 亚洲国产一二三精品无码| 毛片在线不卡| 成人欧美一区二区三区视频网页| 偷拍视频一区二区| 国产高清视频在线播放| 国产日韩欧美电影| 欧美一二三四五区| 国产精品一区二区婷婷| 久久久久久电影| 欧美日韩一区综合| 韩国福利在线| 国产精品人妖ts系列视频| 亚洲精品国产精品久久| 在线观看a视频| 国产日韩精品视频一区| 视频一区视频二区视频| melody高清在线观看| 中文文精品字幕一区二区| 色乱码一区二区三在线看| 北条麻妃在线| 亚洲视频网在线直播| 精品日韩在线播放| 七七成人影院| 欧美日韩国产一区中文午夜| 丰满人妻中伦妇伦精品app| 在线成人av观看| 欧美三日本三级三级在线播放| 日本久久久久久久久久久久| 亚洲狼人综合| 欧美mv日韩mv国产网站app| 亚洲视频中文字幕| 成人在线视频网| 国产人妻精品一区二区三| 国产精品66部| 久久99精品久久久久久久青青日本 | 综合一区av| 97视频在线免费观看| 91精品国产高清一区二区三密臀| 校园激情久久| 国产在线观看精品一区二区三区| 丰满少妇一级片| 久久久国产综合精品女国产盗摄| 亚洲乱码一区二区三区| 色屁屁www国产馆在线观看| 精品久久久久久久久久久久久| 成年人免费在线播放| 丁香婷婷久久| 精品国产麻豆免费人成网站| av黄色在线免费观看| 午夜国产一区二区| 性欧美在线看片a免费观看| 91视频久久久| 国产大片一区二区| 色噜噜狠狠一区二区三区| 国产乱码在线| 欧美日韩在线播放三区四区| 人妻 日韩 欧美 综合 制服| 欧美日韩中文一区二区| 久久久久久高潮国产精品视| 日韩一级片中文字幕| 国产高清不卡一区| 日韩中文字幕一区| 2020av在线| 91精品欧美福利在线观看 | 国产精品入口麻豆原神| 少妇av一区二区三区无码| 日韩毛片免费看| 亚洲美女黄色片| 成人免费看片98| 久久福利资源站| 欧美日韩一区二| sqte在线播放| 日韩一级视频免费观看在线| 亚洲国产日韩精品| 日韩小视频在线播放| 日韩一级特黄| 亚洲人精品午夜在线观看| 国产午夜激情视频| 国产原创一区二区| 亚洲欧美日韩国产成人综合一二三区 | 99视频在线观看一区三区| 日本丰满大乳奶| 青青草国产一区二区三区| 亚洲色图激情小说| 国产一级18片视频| 成人国产精品免费网站| 69精品丰满人妻无码视频a片| yy6080久久伦理一区二区| 精品爽片免费看久久| 久久久久久久99| 高清在线成人网| 国产专区在线视频| 免费一区二区三区在线视频| 爱福利视频一区| 在线视频 中文字幕| 中文字幕欧美区| 超碰在线人人爱| 日韩免费在线| 国产一区视频在线播放| 1pondo在线播放免费| 色婷婷av一区| 男人的天堂av网| 日韩成人免费在线| 日韩欧美精品久久| 欧美一级二级视频| 中文字幕综合一区| 一级片在线免费观看视频| 国产精品伦理一区二区| 一本色道久久亚洲综合精品蜜桃| 精品久久电影| 国产欧美日韩免费看aⅴ视频| 69视频在线| 欧美一级xxx| 九九热国产在线| 白白色亚洲国产精品| 精品少妇一区二区三区在线| 亚洲成人一品| 国产精品久久久av久久久| 在线a人片免费观看视频| 欧美一区二区三区免费| 久久国产在线视频| 91天堂素人约啪| 最新中文字幕免费视频| 亚州av乱码久久精品蜜桃| 114国产精品久久免费观看| 啪啪免费视频一区| 亚洲女人天堂av| 亚洲中文一区二区三区| 亚洲精品一卡二卡| 国产又黄又粗又猛又爽的视频| 久久精品五月| 在线观看欧美激情| 91嫩草精品| 国产精品高潮呻吟久久av野狼| 亚洲乱亚洲乱妇| 欧美成人高清电影在线| 中文字字幕在线中文| 国产精品乱人伦| 国产精品无码电影| 美女脱光内衣内裤视频久久影院| 欧美一级特黄aaaaaa在线看片| 欧美在线关看| 国产中文字幕91| 国产三级电影在线播放| 色一区av在线| 日韩在线观看视频网站| 欧美在线影院一区二区| 久久久久久久久久久网| 国产日产亚洲精品系列| 久久久久久无码精品人妻一区二区| 亚洲久久视频| 色撸撸在线观看| 日韩av系列| 91中文精品字幕在线视频| 中日韩脚交footjobhd| 久久中文字幕视频| 欧美日韩伦理片| 欧美mv日韩mv国产网站app| 中文文字幕一区二区三三| 亚洲国产成人va在线观看天堂| 色撸撸在线视频| 9l国产精品久久久久麻豆| 两性午夜免费视频| 日韩高清一区在线| 黄色一级视频在线播放| 午夜精品一区二区三区国产| 日韩欧美一区二区三区四区五区 | 欧美精品一区二区三区在线看午夜| 先锋影音网一区二区| 欧美怡春院一区二区三区| av在线免费网站| 色yeye香蕉凹凸一区二区av| 神马久久久久| 亚洲电影第1页| 国产黄色av片| 欧美精品欧美精品系列| 伊人成年综合网| 精品久久久久久亚洲国产300| www.av视频| 综合激情成人伊人| 亚洲综合第一区| 国产亚洲一区二区三区四区| 亚洲自拍偷拍精品| 丁香另类激情小说| 手机在线播放av| 国内精品伊人久久久久影院对白| 波多结衣在线观看| 首页综合国产亚洲丝袜| 无码人妻精品一区二区三区在线| 亚洲国产一区二区精品专区| 一本大道东京热无码aⅴ| 亚洲成人二区| 91免费视频黄| 亚洲影视一区二区三区| 在线国产伦理一区| 91精品国产福利在线观看麻豆| 亚洲午夜精品久久久中文影院av| 精品亚洲成人| 日韩欧美在线观看强乱免费| 精品国产不卡| 日韩三级在线播放| 波多野结衣在线观看一区二区| 秋霞毛片久久久久久久久| 亚洲丝袜啪啪| 日本一区二区三区四区高清视频 | 福利精品一区| 国产日韩av高清| 深夜日韩欧美| 99国产超薄肉色丝袜交足的后果| 蜜桃在线一区| 国产精品一区二区欧美| 欧美片网站免费| 国产精品乱码视频| 欧美综合自拍| 清纯唯美一区二区三区| 97国产成人高清在线观看| 伊人久久大香线蕉av一区| 亚洲中无吗在线| 天堂8在线天堂资源bt| 亚洲二区精品| 蜜臀久久99精品久久久酒店新书 | 加勒比一区二区三区在线| 国产亚洲精品高潮| 黄网站在线免费| 欧美极品少妇xxxxⅹ喷水| 国内精彩免费自拍视频在线观看网址 | 九九免费精品视频| 狠狠干狠狠久久| 中国精品一区二区| 日韩亚洲欧美一区二区三区| 色偷偷在线观看| 亚洲最新在线视频| 影音先锋在线视频| 欧美影院在线播放| 亚洲成人精品综合在线| 国产精品一区免费观看| 久久93精品国产91久久综合| 亚洲自拍的二区三区| 亚洲性感美女99在线| 日韩无套无码精品| 国产成人精品在线看| 风间由美一二三区av片| 国产精品久久久久久久久果冻传媒| 欧美精品乱码视频一二专区| 日韩欧美有码在线| av一级黄色片| 亚洲日本成人女熟在线观看 | 精品国产一区二区三区| 9191国产视频| 蜜桃视频在线一区| 在线黄色免费网站| 综合网在线视频| 欧美精品二区三区| 91精品黄色片免费大全| 噜噜噜噜噜在线视频| 蜜臀久久99精品久久久久久宅男 | 99久久精品免费看国产四区| 制服丝袜日韩| 免费成人进口网站| 久久高清免费观看| 在线精品视频播放| 成人欧美一区二区三区视频网页 | 国产性生活大片| 欧美午夜丰满在线18影院| 国产成人精品无码高潮| 在线观看视频亚洲| 中文在线最新版地址| 51蜜桃传媒精品一区二区| av资源久久| 成人性免费视频| 国产白丝精品91爽爽久久| 18精品爽国产三级网站| 一本一道波多野结衣一区二区| 国产黄色一区二区| 久久精品99无色码中文字幕 | 免费黄色在线观看| 欧洲一区二区视频| 麻豆一区二区| 免费看毛片的网址| 丁香婷婷综合激情五月色| 极品久久久久久| 欧美剧在线免费观看网站| 77777影视视频在线观看| 国产精品pans私拍| 亚洲妇女av| 逼特逼视频在线| 91在线精品秘密一区二区| 久久机热这里只有精品| 日韩视频永久免费| 国产黄大片在线观看画质优化| 国产精品自产拍在线观| 色婷婷色综合| 五月天av在线播放| 国产精品国产三级国产aⅴ原创| 欧美特级黄色片| 国产亚洲精品久久久久动| 国产精品专区免费| 欧美中日韩免费视频| 水蜜桃久久夜色精品一区的特点| 最近中文字幕免费视频| 91国偷自产一区二区三区成为亚洲经典| 青青视频在线观| 国产成人极品视频| 精品国产a一区二区三区v免费| 国产又大又黄又粗又爽| 中文字幕在线视频一区| 国产视频一区二区三| 色综合久综合久久综合久鬼88 | 人禽交欧美网站| 国产wwwwxxxx| 欧美美女bb生活片| av软件在线观看| 国产亚洲精品自在久久| 亚洲欧美日韩专区| 伊人影院综合网| 欧美一级日韩免费不卡| 女人天堂av在线播放| 激情视频一区二区| 日韩精品一级二级| av最新在线观看| 日韩欧美一区在线观看| cao在线视频| 四虎一区二区| 国产酒店精品激情| 人人干人人干人人干| 亚洲视频专区在线| 北岛玲精品视频在线观看| 菠萝蜜视频在线观看入口| 99在线精品观看| 在线不卡免费视频| 欧美精品激情在线观看| 亚洲三级性片| 无套白嫩进入乌克兰美女| 无码av中文一区二区三区桃花岛| 美国成人毛片| 亚洲资源在线看| 亚洲欧美日本国产专区一区| 成人午夜免费影院| 亚洲精品在线免费观看视频| 日韩精品麻豆| 久久这里只有精品18| 国产丝袜在线精品| wwwav在线播放| 国产成人av在线| 欧美国内亚洲| 蜜桃传媒一区二区亚洲| 精品国产网站在线观看| 中文字幕系列一区| 国内精品视频一区二区三区| 国产精品妹子av| 色中色在线视频|