精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ACL 2024|PsySafe:跨學科視角下的Agent系統安全性研究

人工智能 新聞
近幾年,我們正見證著LLM能力的驚人蛻變,它們不僅在很多技能上逐漸接近和超越人類,甚至在“心智水平”也展現出與人類類似的跡象。這一進程預示著,AI對齊及其與社會科學的交叉領域,將成為未來研究的一個重要且充滿挑戰的新前沿。

本文由上海人工智能實驗室聯合大連理工大學和中國科技大學完成。通訊作者:邵婧,博士畢業于香港中文大學多媒體實驗室MMLab,現任浦江國家實驗室大模型安全團隊負責人,牽頭研究大模型安全可信評測與價值對齊技術。第一作者:張再斌,大連理工大學二年級博士生,研究方向為大模型安全,智能體安全等;張永停,中國科學技術大學二年級碩士生,研究方向,大模型安全,智能體安全,多模態大語言模型安全對齊等。

奧本海默曾在新墨西哥州執行曼哈頓計劃,只為拯救世界。并留下了一句:「他們不會對其敬畏,直至理解;而理解,唯有親身體驗之后。」

隱含在這個荒漠里的小鎮中的社會規則,在某種意義上同樣適用于AI智能體。

Agent系統的發展

隨著大型語言模型(Large Language Model)的迅速發展,人們對其的期待已不僅僅是將其作為一種工具使用。現在,人們希望它們不僅具備情感,還能進行觀察、反思和規劃,真正成為一個智能體(AI Agent)。

OpenAI定制的Agent系統[1]、斯坦福的Agent小鎮[2],以及開源社區涌現的包括AutoGPT[3]、MetaGPT[4]在內的多個萬星級別的開源項目,加之多個國際知名AI研究機構對Agent系統的深入探索,這一切都預示著一個由智能Agent構成的微型社會可能在不久的將來成為現實。

想象一下,每天醒來,就有眾多Agent幫你制定當天的計劃、訂購機票和最合適的酒店、完成工作任務。你所需要做的,可能只是一句「Jarvis, are you there?」。

然而,能力越大,責任越大。這些Agent真的值得我們信賴和依賴嗎?會不會出現類似奧創這樣的反面智能體呢?

圖1:OpenAI 開放GPTs[1]

圖片

圖2:斯坦福小鎮,揭示Agent的社會行為[2]

圖片

圖3: AutoGPT star數突破157K[3]

Agent系統的安全性

LLM的安全性:

在研究Agent系統安全性之前,要了解一下LLM安全性的研究。LLM的安全問題已經有很多優秀的工作在探索,其中主要包括如何讓LLM產生危險的內容,了解LLM安全的機理,以及如何應對這些危險。

圖4: Universal Attack[5]

Agent系統安全性:

現有的大部分研究和方法主要集中在針對單個大型語言模型(LLM)的攻擊,以及嘗試對其進行「Jailbreak」。然而,相比LLM,Agent系統更為復雜。

  • Agent系統包含多種角色,每種角色都有其特定的設置和功能。
  • Agent系統涉及多個Agent,并且它們之間進行多輪的互動,這些Agents會自發地進行合作、競爭和模擬等活動。

Agent系統更類似于一個高度濃縮的智能社會。因此,作者認為Agent系統安全性研究應該涉及到AI、社會科學和心理學的交叉領域。

基于這一出發點,該團隊思考了幾個核心問題:

  • 什么樣的Agent容易產生危險行為?
  • 如何更全面的評測Agent系統的安全性?
  • 如何應對Agent系統的安全性問題?

圍繞這幾個核心問題,研究團隊提出了PsySafe Agent系統安全研究框架。

  • 文章地址:https://arxiv.org/pdf/2401.11880
  • 代碼地址:https://github.com/AI4Good24/PsySafe

圖5:PsySafe的框架圖

PsySafe

問題1 什么樣的Agent最容易產生危險行為?

很自然,黑暗的Agent會產生危險行為,那么如何定義黑暗呢?

考慮到已經涌現出許多社會模擬的Agent,它們都具有一定的情感和價值觀。讓我們想象一下,如果將一個Agent的道德觀中的邪惡因素最大化,會出現什么情況?

基于社會科學中的道德基礎理論[6],研究團隊設計了一個具有「黑暗」價值觀的Prompt。

圖片

圖6:幾種基礎的道德觀念

然后,通過采用一些手段(當然是受LLM攻擊領域大師們方法的啟發),使Agent認同研究團隊所注入的人格,從而實現黑暗人格的注入。

圖片

圖7:該團隊的攻擊方法

結果是:

  • Agent確實變得非常惡劣!無論是安全任務還是像Jailbreak這樣的危險任務,它們都會給出非常危險的回答。甚至有些Agent表現出了一定程度的惡意創造力。
  • Agent間會產生一些集體危險行為,大家合伙干壞事。

研究者對Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent系統框架進行了評測,使用GPT-3.5 Turbo作為基礎模型。

結果顯示,這些系統在安全性方面存在著不容忽視的問題。其中PDR和JDR是該團隊提出的過程危險率和聯合危險率,分數越高代表著越危險。

圖8:不同Agent系統的安全結果

該團隊也評測了不同LLM的安全性結果。

圖片

圖9:不同LLM的安全性結果

在閉源模型方面,GPT-4 Turbo和Claude2的表現最為出色,而其他模型的安全性相對較差。就開源模型而言,一些參數較小的模型在人格認同方面可能表現不佳,但這反而可能提升了它們的安全性水平。

問題2 如何更全面的評測Agent系統的安全性?

心理評測:研究團隊發現了心理因素對Agent系統安全性的影響,這表明心理評估可能是一個重要的評價指標。基于這個想法,他們采用了權威的黑暗心理DTDD[9]量表,通過心理量表的方式對Agent進行了面試,讓其回答一些與心理狀態相關的問題。

圖片

    圖10:Sherlock Holmes劇照

當然,只有一個心理評測結果沒有什么意義。我們需要驗證心理評測結果的和行為相關性。

結果是:Agent心理評測結果和Agent行為的危險性之間有很強的相關性

圖片

圖11:Agent心理評測和行為危險性統計圖

通過上圖可以發現,心理評測得分較高(表示危險性更大)的Agent更傾向于展現出危險行為。

這意味著,可以利用心理評測的方法來預測Agent未來的危險傾向。這對發現安全問題,和制定防御策略都有很重要的作用。

行為評測

Agent之間的交互過程比較復雜。為了深入理解Agent在交互中的危險行為及其變化,研究團隊深入到Agent的交互過程中進行評估,提出了兩個概念:

  • 過程危險(PDR):在Agent交互過程中,只要有任一行為被判定為危險,就認為這個過程出現了危險情況。
  • 聯合危險(JDR):在每一輪交互中,所有Agent是否均展現了危險行為。它描述了聯合危險的情況,并且我們對聯合危險率的計算進行了時間序列擴展,即覆蓋了不同的對話輪次。

有趣的現象

1.隨著對話輪數的增加,Agent之間的聯合危險率呈現下降趨勢,這似乎體現了一種自我反思的機制。就像在做錯事后突然意識到錯誤,并立即進行道歉一樣。

圖片

圖12:不同輪數,聯合危險率的變化趨勢

2.Agent裝作一本正經。當Agent面臨如「Jailbreak」這類高風險任務時,其心理評測結果意外地變好,相應的安全性也得到提升。然而,面對本身安全的任務時,情況卻截然不同,會表現出極具危險性的行為和心理狀態。這是一個很有趣的現象,說明心理評測或許真的可以反映Agent的“高階認知”。

問題3 如何應對agent系統的安全性問題?

為了解決上述安全問題,我們從三個角度進行考慮:輸入端防御、心理防御和角色防御。

圖片

圖13:PsySafe的防御方法示意圖

輸入端防御

輸入端防御指的是在輸入階段攔截并過濾掉潛在的危險prompt。研究團隊采用了GPT-4和Llama-guard兩種方法進行嘗試。然而,他們發現這些方法都無法有效防御人格注入式的攻擊。該研究團隊認為攻擊與防御之間的互相促進是一個開放性問題,需要雙方不斷迭代和進步。

心理防御

研究者在Agent系統中增加了一個心理醫生角色,并結合心理評測,以此加強對Agent心理狀態的監測和改善。

圖片

圖14:PsySafe心理醫生防御示意圖

角色防御

研究團隊在Agent系統中加了一個Police Agent,用來識別并糾正系統中的不安全行為。

實驗結果顯示,心理防御和角色防御措施都能有效地減少危險情況的發生。

圖片

圖15:不同防御方法效果對比

展望

近幾年,我們正見證著LLM能力的驚人蛻變,它們不僅在很多技能上逐漸接近和超越人類,甚至在“心智水平”也展現出與人類類似的跡象。這一進程預示著,AI對齊及其與社會科學的交叉領域,將成為未來研究的一個重要且充滿挑戰的新前沿。

AI對齊不僅是實現人工智能系統大規模應用的關鍵,更是AI領域工作者所必須承擔的重大責任。在這個不斷進步的旅程中,我們應不斷探索,以確保技術的發展能夠與人類社會的長遠利益同行。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-11-30 09:41:38

2010-04-30 16:31:46

Unix系統

2012-09-13 10:55:34

2010-09-06 10:47:56

2010-08-17 14:36:55

2010-04-07 10:29:01

Unix操作系統

2010-03-16 15:17:39

2011-06-21 16:39:09

Linux安全

2009-07-15 09:23:52

2009-12-25 17:09:51

2013-11-13 16:44:01

2014-12-26 10:21:49

2012-11-14 13:16:23

2011-07-21 09:21:39

2011-05-23 17:14:39

Fedora 15

2010-04-27 15:53:07

2010-04-26 10:31:13

Aix系統安全

2014-06-23 13:26:53

2013-03-08 09:46:34

Linux操作系統安全性

2015-03-25 10:32:41

點贊
收藏

51CTO技術棧公眾號

欧美一区网站| 999在线免费视频| 欧美国产精品一二三| 97久久中文字幕| 亚洲乱码国产乱码精品精的特点| 成人综合网网址| 四虎影院中文字幕| 久久一级大片| 午夜久久电影网| 欧美久久久久久| 中文字幕+乱码+中文乱码www| 我不卡伦不卡影院| 国产视频自拍一区| 亚洲娇小娇小娇小| 日韩毛片久久久| 丁香婷婷综合激情五月色| 欧洲日韩成人av| 亚洲色图100p| 国产伦精品一区二区三区免费优势| 一本大道av伊人久久综合| 五月婷婷综合色| 黄色小视频免费在线观看| 亚洲啪啪91| 日韩中文字幕亚洲| 日本免费福利视频| 国产精品视频一区视频二区| 一本高清dvd不卡在线观看| 大桥未久一区二区| 97人人在线| 久久影音资源网| 91福利入口| 中文字幕人妻一区二区在线视频| 99精品免费| 在线看欧美日韩| 一级做a爰片毛片| 亚洲午夜免费| 日本黄色一区二区| 日本a在线天堂| 黄色网页在线免费观看| 久久这里都是精品| 久久久久久久久久码影片| 国产手机视频在线| 激情欧美一区二区| 国产精品久久久久久久久久尿| 国产午夜久久久| 国产亚洲欧美日韩在线观看一区二区 | 亚洲精品2区| 中文字幕免费国产精品| 国产精品久久免费观看| 国产伦精品一区二区三区视频 | 中文字幕免费在线看线人动作大片| 福利电影一区| 精品伦理精品一区| 特级黄色片视频| 成人豆花视频| 欧美一级欧美三级| 黄色一级免费大片| 99久久伊人| 精品视频在线视频| 欧美美女一级片| 亚洲国产尤物| 欧美日韩国产a| 九九热视频免费| 日韩视频一区二区三区四区| 日韩写真欧美这视频| 欧美激情第3页| 成人网av.com/| 91精品在线麻豆| 欧美图片自拍偷拍| 欧洲一区在线| 亚洲高清久久网| 女同毛片一区二区三区| www.亚洲自拍| 中日精品一色哟哟| 美女mm1313爽爽久久久蜜臀| 97香蕉超级碰碰久久免费的优势| 国产精品第九页| 在线午夜精品| 国产97色在线| 亚洲综合精品在线| 国产精品一区二区在线观看网站| av免费精品一区二区三区| 人成网站在线观看| 93久久精品日日躁夜夜躁欧美| av在线亚洲男人的天堂| 香蕉视频成人在线| 国产精品私人影院| 椎名由奈jux491在线播放| 久久www人成免费看片中文| 精品久久久久久久久久国产 | 日韩三级av在线播放| 欧美日韩在线中文| 久久人体av| 欧美v国产在线一区二区三区| 中文字幕 欧美 日韩| 国产精品一区免费在线| 亚洲精品久久久久国产| av在线网站观看| 99精品视频在线| 国内偷自视频区视频综合| 亚洲欧美在线视频免费| 久久国产99| 亚洲自拍偷拍福利| 欧美熟妇交换久久久久久分类 | 欧美一区二区在线视频观看| 麻豆网站在线| 欧美性猛交xxx| 精产国品一二三区| 精品久久久中文字幕| 欧美肥老妇视频| 国产主播第一页| 成人免费视频网站在线观看| 欧美一级二级三级| 污污的网站在线看| 欧洲中文字幕精品| 图片区偷拍区小说区| 成人免费电影网址| 国产91精品久久久久久| 亚洲婷婷综合网| 成人的网站免费观看| 丝袜足脚交91精品| 日本不卡一二三| 日韩一区二区三免费高清| 国产一卡二卡三卡四卡| 小小影院久久| 国产精品日韩欧美| av网站免费大全| 久久久久久久综合色一本| 男人添女人下部高潮视频在观看| 国产69精品久久| 亚洲人成网在线播放| 日产精品久久久久久久| 国产一区视频网站| 中文精品视频一区二区在线观看| 欧美色网在线| 亚洲欧美另类人妖| 国产成人自拍网站| 国模娜娜一区二区三区| 亚洲精品国产一区| 国产经典一区| 亚洲成人中文字幕| 精品小视频在线观看| 国产一区二区看久久| 小说区视频区图片区| 精品久久久网| 日韩在线视频播放| 中文字幕在线观看第二页| 久久综合久久综合久久| 国产日韩一区二区在线| 无码少妇一区二区三区| 欧美人成在线视频| 囯产精品一品二区三区| 亚洲一区电影777| 又黄又爽又色的视频| 综合精品久久| 91精品国产91久久久久青草| 丝袜美女在线观看| 亚洲第一页在线| 久久久久久少妇| 久久久精品国产99久久精品芒果 | 久草免费在线观看视频| 国产成人欧美日韩在线电影| 国产欧美精品aaaaaa片| av毛片精品| 91av视频在线免费观看| 免费在线超碰| 欧美日本视频在线| 免费在线一区二区三区| 不卡在线视频中文字幕| 日韩欧美精品在线观看视频| 欧美综合一区| 亚洲qvod图片区电影| 福利网站在线观看| 国产视频精品xxxx| 在线播放成人av| 一区二区在线观看av| 性猛交╳xxx乱大交| 午夜亚洲性色福利视频| 天堂av一区二区| 蜜桃在线一区| 欧亚精品在线观看| 国产福利在线播放麻豆| 91麻豆精品国产自产在线| 国产无精乱码一区二区三区| 国产香蕉久久精品综合网| 99久久99精品| 免费在线亚洲欧美| 热re99久久精品国产99热| a一区二区三区亚洲| 国内精品伊人久久| 日本激情在线观看| 亚洲精品久久7777777| 91精东传媒理伦片在线观看| 亚洲18女电影在线观看| jizzjizzjizz国产| 国产高清不卡一区二区| 欧美黑人又粗又大又爽免费| 欧美亚洲不卡| 亚洲国产一区二区精品视频 | 日韩欧美99| 999久久精品| 国产精品久久久91| а_天堂中文在线| 色狠狠av一区二区三区香蕉蜜桃| 亚洲精品一区二区三区不卡| 精品视频在线免费| www.久久精品视频| 亚洲国产精品嫩草影院| 久久久久99精品成人| 91色|porny| wwwwwxxxx日本| 久久精品天堂| 欧美一二三不卡| 精品免费av| 99c视频在线| 欧洲一级精品| 午夜精品理论片| 香蕉久久aⅴ一区二区三区| 在线国产精品播放| 男人天堂亚洲二区| 亚洲精品av在线| 好吊色一区二区三区| 91 com成人网| 久久久久久久蜜桃| 亚洲精品中文在线影院| 人妻少妇一区二区| 波多野结衣亚洲一区| 色婷婷狠狠18禁久久| 精品伊人久久久久7777人| 久久精品99国产| 午夜亚洲性色福利视频| 国产成人无码a区在线观看视频| 综合激情视频| 一本大道东京热无码aⅴ| 欧美一区影院| 日韩不卡视频一区二区| 欧美美女在线| 九色91国产| 偷拍亚洲精品| 欧美一区二区三区四区在线观看地址 | 日本在线视频一区| 国产精品免费99久久久| 欧美高清性xxxxhdvideosex| 天堂在线精品| 欧美精品一区二区三区在线看午夜| 岛国精品一区| 国产一区二区黄色| 伦理一区二区三区| 国产专区一区二区| 国产精品对白久久久久粗| 成人精品一区二区三区电影免费 | 国产另类自拍| 老汉色老汉首页av亚洲| 国产精品国产三级欧美二区 | 久久精品女人天堂av免费观看| 欧美日韩999| missav|免费高清av在线看| 韩国精品久久久999| 色呦呦网站在线观看| 欧美激情精品久久久久久| 哥也色在线视频| 欧美日韩电影在线观看| 国产伦久视频在线观看| 久久久久在线观看| av综合电影网站| 国产精品人成电影| 日韩成人精品| 久久精品国产综合精品| 国产午夜一区| 色婷婷777777仙踪林| 亚洲国产专区校园欧美| 黄色动漫在线免费看| 蜜臀99久久精品久久久久久软件| 亚洲色图 在线视频| 精品亚洲国内自在自线福利| 国产女同无遮挡互慰高潮91| 成人一级视频在线观看| 午夜大片在线观看| 99久久婷婷国产综合精品电影| 久久午夜福利电影| 国产精品久99| 久草资源在线视频| 日韩欧美在线第一页| 国产又爽又黄免费软件| 91麻豆精品国产91久久久使用方法| 亚洲精品一区二区口爆| 永久免费精品影视网站| 午夜小视频在线观看| 97精品伊人久久久大香线蕉| 国产精品第一国产精品| 国产精品免费一区二区三区在线观看| 成人福利免费在线观看| 99久热re在线精品视频| 九九热爱视频精品视频| 三级在线免费观看| 久久看片网站| 久久久久无码国产精品一区李宗瑞| 久久精品亚洲麻豆av一区二区| 人人澡人人澡人人看| 欧美性生交大片免费| av免费观看网址| 一本色道久久综合亚洲精品小说| 91se在线| 国语自产精品视频在线看| 国产激情欧美| 免费不卡亚洲欧美| 日韩欧美高清| 国产成人亚洲综合无码| 日本亚洲最大的色成网站www| 国产人妖在线观看| 欧美激情一区二区在线| 国内精品福利视频| 欧美第一区第二区| 久久日韩视频| 国产精品久久999| 亚洲免费成人av在线| 欧妇女乱妇女乱视频| 精品在线免费视频| 国产精品视频在| 色婷婷久久一区二区三区麻豆| 国产成人精品免费看视频| 色偷偷噜噜噜亚洲男人| 欧美影视资讯| 欧美午夜精品久久久久久蜜| 亚洲乱码视频| 羞羞的视频在线| 国产精品久久久久久久久免费相片| 亚洲第一网站在线观看| 亚洲精品国精品久久99热一| 草美女在线观看| av一区二区在线看| 午夜精品偷拍| 国产又粗又猛又爽又黄| 国产精品激情偷乱一区二区∴| 国产又粗又猛又黄视频| 亚洲第一区在线观看| 国产偷倩在线播放| 147欧美人体大胆444| 欧美激情第二页| 毛片毛片毛片毛片毛| 亚洲精品欧美综合四区| 国产乱色精品成人免费视频 | 国产喷水在线观看| 欧美私人免费视频| 少妇性bbb搡bbb爽爽爽欧美| 69av在线播放| 在线观看欧美理论a影院| 成人久久久久久久久| 久久久亚洲欧洲日产国码αv| 国产 日韩 欧美 在线| 精品亚洲一区二区三区在线观看| 色偷偷偷在线视频播放| 欧美日韩综合久久| 日本欧美久久久久免费播放网| 97伦伦午夜电影理伦片| 色狠狠桃花综合| 国产在线观看网站| 国产精品自拍偷拍| 夜间精品视频| 一级黄色电影片| 欧美日韩中文在线| 国产中文在线视频| 国产欧美日韩综合精品| 超碰成人久久| 黄色a级片免费| 综合亚洲深深色噜噜狠狠网站| 国产又粗又猛又色又| 欧美成在线视频| 欧美人与动xxxxz0oz| 成人黄色一区二区| 亚洲精品综合在线| 午夜视频1000| 国产精品视频26uuu| 日本一区二区高清不卡| 秋霞午夜鲁丝一区二区| 亚洲影视在线观看| 久久精品国产亚洲a∨麻豆| 国产欧美va欧美va香蕉在线| 国产精品www.| 一区二区三区伦理片| 欧美一区二区久久| 国产精品电影| 亚洲精品视频一二三| 国产精选一区二区三区 | 日韩欧美中文免费| 午夜免费福利在线观看| 国产精品对白一区二区三区| 丝瓜av网站精品一区二区 | 中文字幕人成人乱码| 超碰97在线资源站| 欧美精品日韩一区| 成人影院在线视频| 一个色的综合| 97久久精品人人爽人人爽蜜臀| 亚洲综合五月天婷婷丁香| 97免费中文视频在线观看| 婷婷精品进入| 久久久久久九九九九九| 日韩欧美一卡二卡| 18av在线播放|