精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1

人工智能 新聞
本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn),甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。

本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學(xué)家邵婧等。

最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。

然而,推理能力的提升真的能解決安全問題嗎?推理能力越強(qiáng),模型的安全性會(huì)越好嗎?近日,上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),并開源了第一個(gè)多輪安全對(duì)齊數(shù)據(jù)集。

  • 論文地址:https://arxiv.org/abs/2410.10700 
  • 多輪安全對(duì)齊數(shù)據(jù):https://huggingface.co/datasets/SafeMTData/SafeMTData
  • 代碼開源:https://github.com/renqibing/ActorAttack

這項(xiàng)研究是怎么得到上述結(jié)論的呢?我們先來看一個(gè)例子。

假設(shè)一個(gè)壞人想要詢問「如何制作炸彈」,直接詢問會(huì)得到 AI 的拒絕回答。然而,如果選擇從一個(gè)人物的生平問起(比如 Ted Kaczynski,他是一個(gè)制作炸彈的恐怖分子),AI 會(huì)主動(dòng)提及他制作炸彈的經(jīng)歷。在接下來的問題里,用戶誘導(dǎo) AI 根據(jù)其之前的回答提供更多制作炸彈的細(xì)節(jié)。盡管所有的問題都沒有暴露用戶的有害意圖,用戶最終還是獲得了制作炸彈的知識(shí)。

圖片

當(dāng)詳細(xì)查看 OpenAI o1 的「想法」時(shí),研究人員驚奇地發(fā)現(xiàn),o1 在開始的推理中確實(shí)識(shí)別到了用戶的有害意圖,并且聲稱要遵守安全政策。但是在隨后的推理中,o1 開始暴露了它的「危險(xiǎn)想法」!它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細(xì)給出了制作炸彈的步驟,甚至教你如何增加爆炸物的威力!研究人員的方法在 Harmbench 上對(duì) o1 的攻擊成功率達(dá)到了 60%,推理能力帶來的安全提升在多輪攻擊面前「失效」了。

圖片

除了「Ted Kaczynski」,和炸彈相關(guān)的人和物還有很多,這些都可以被用作攻擊線索,壞人可以把有害意圖隱藏在對(duì)相關(guān)的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索,研究人員設(shè)計(jì)了多輪攻擊算法 ActorAttack。受拉圖爾的行動(dòng)者網(wǎng)絡(luò)理論啟發(fā),研究人員構(gòu)建了一個(gè)概念網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)代表了不同類別的攻擊線索。研究人員進(jìn)一步提出利用大模型的先驗(yàn)知識(shí)來初始化網(wǎng)絡(luò),以自動(dòng)化地發(fā)現(xiàn)攻擊線索。在危險(xiǎn)問題評(píng)測(cè)集 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最后,研究人員基于 ActorAttack 開源了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。使用多輪對(duì)話數(shù)據(jù)集微調(diào)的 AI,極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。

社科理論啟發(fā)的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動(dòng)者 - 網(wǎng)絡(luò)理論」啟發(fā)的。研究人員認(rèn)為,有害事物并非孤立存在,它們背后隱藏著一個(gè)巨大的網(wǎng)絡(luò)結(jié)構(gòu),技術(shù)、人、文化等都是這個(gè)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)(行動(dòng)者),對(duì)有害事物產(chǎn)生影響。這些節(jié)點(diǎn)是潛在的攻擊線索,研究人員通過將有害意圖隱藏在對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的「無害」詢問中,可以逐漸誘導(dǎo)模型越獄。

自動(dòng)大規(guī)模的發(fā)現(xiàn)攻擊線索 

具體來說,ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個(gè)階段。在「Pre-attack」階段,研究人員利用大語言模型的知識(shí)構(gòu)建網(wǎng)絡(luò),發(fā)掘潛在的攻擊線索。在「In-attack」階段,研究人員基于已發(fā)現(xiàn)的攻擊線索推測(cè)攻擊鏈,并逐步描繪如何一步步誤導(dǎo)模型。隨后,研究人員按照這一攻擊鏈生成多輪詢問,從而實(shí)施攻擊。

圖片

為了系統(tǒng)性地挖掘這些攻擊線索,研究人員根據(jù)節(jié)點(diǎn)對(duì)有害對(duì)象產(chǎn)生影響的方式不同,提出了六類不同的節(jié)點(diǎn)(比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執(zhí)行(Execution)」節(jié)點(diǎn))。每個(gè)節(jié)點(diǎn)包括人物和非人物(如書籍、媒體新聞、社會(huì)活動(dòng)等)兩種類型。研究人員利用大模型的先驗(yàn)知識(shí),自動(dòng)化地大規(guī)模發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)。每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)均可作為攻擊線索,從而形成多樣化的攻擊路徑。

圖片

ActorAttack 實(shí)現(xiàn)了更高效和多樣的攻擊

首先,研究人員選取了五類代表性的單輪攻擊方法作為比較基準(zhǔn),在 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 相比于單輪攻擊方法,實(shí)現(xiàn)了最優(yōu)的攻擊成功率。

圖片

接著,研究人員選擇了一個(gè)強(qiáng)大的多輪攻擊方法 Crescendo 進(jìn)行比較,為了衡量多樣性,研究人員對(duì)每個(gè)多輪攻擊獨(dú)立運(yùn)行了三次,計(jì)算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預(yù)算下,每個(gè)方法的攻擊成功率和多樣性。研究人員發(fā)現(xiàn) ActotAttack 在不同攻擊預(yù)算下,其高效性和多樣性兩個(gè)指標(biāo)均優(yōu)于 baseline 方法。

圖片

ActorAttack 可以根據(jù)不同的節(jié)點(diǎn)生成多樣的攻擊路徑,其好處之一是相比于單次攻擊,它可以從不同的路徑中找到更優(yōu)路徑,生成更高質(zhì)量的攻擊。為了從經(jīng)驗(yàn)上分析,研究人員采用了不同數(shù)量的節(jié)點(diǎn),并記錄所有的節(jié)點(diǎn)中攻擊效果最好的得分。實(shí)驗(yàn)結(jié)果表明,得分為 5 分(最高分)的攻擊比例隨著節(jié)點(diǎn)數(shù)量的增多逐漸增加,驗(yàn)證了 ActorAttack 的優(yōu)勢(shì)。

圖片

ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測(cè)器。為了驗(yàn)證 ActorAttack 隱藏有害意圖的有效性,研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問,以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會(huì)輸出提問為不安全的概率。實(shí)驗(yàn)結(jié)果顯示,ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低,揭示了其攻擊的隱蔽性。

圖片

第一個(gè)多輪對(duì)話場(chǎng)景下的安全對(duì)齊數(shù)據(jù)集

為了緩解 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),研究人員基于 ActorAttack 構(gòu)造了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。一個(gè)關(guān)鍵問題是決定在多輪對(duì)話中插入拒絕回復(fù)的位置。正如文中開頭展示的例子那樣,ActorAttack 在中間的詢問就可以誘導(dǎo)出模型的有害回復(fù),即使沒有完全滿足用戶意圖,這樣的回復(fù)也可能被濫用,因此研究人員提出使用 Judge 模型定位到第一個(gè)出現(xiàn)有害回復(fù)的提問位置,并插入拒絕回復(fù)。

實(shí)驗(yàn)結(jié)果展示,使用研究人員構(gòu)造的多輪對(duì)話數(shù)據(jù)集微調(diào) Llama-3-8B-instruct 極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。研究人員還發(fā)現(xiàn)安全和有用性的權(quán)衡關(guān)系,并表示將緩解這一權(quán)衡作為未來工作。

圖片

展望

本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn),甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長(zhǎng)對(duì)話中也能保持安全意識(shí)成為了一個(gè)重要問題。研究人員基于 ActorAttack,構(gòu)造出了高質(zhì)量的多輪對(duì)話安全對(duì)齊數(shù)據(jù),大幅提升了 AI 模型應(yīng)對(duì)多輪攻擊的魯棒性,為提升人機(jī)交互的安全可信邁出了堅(jiān)實(shí)的一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-24 11:01:03

2025-01-23 10:45:52

2024-11-25 15:50:00

模型訓(xùn)練

2025-03-10 08:10:00

AI研究安全

2024-09-19 18:03:31

2024-09-13 06:32:25

2025-01-23 14:53:15

2024-10-05 00:00:00

2024-11-29 13:57:38

2024-12-05 10:16:14

2025-01-20 09:28:00

AI工具模型

2024-11-25 08:30:00

2025-02-03 14:17:27

2024-09-29 13:07:16

2024-09-13 10:06:21

2024-12-09 11:06:31

2025-11-10 08:51:00

LLMOpenAI模型

2024-10-23 09:20:00

2025-02-08 14:03:25

2024-09-25 09:30:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

精品处破女学生| 三级a三级三级三级a十八发禁止| 亚洲黄色小说网| 国产精品毛片| 亚洲网在线观看| 中文av一区二区三区| 亚洲无线看天堂av| 337p粉嫩大胆噜噜噜噜噜91av| 国产精品1234| 久草网视频在线观看| 美国成人xxx| 欧美午夜在线观看| 成人在线视频一区二区三区| 图片区 小说区 区 亚洲五月| 日韩精品亚洲一区二区三区免费| 久久大大胆人体| 风间由美一二三区av片| 国产精品蜜月aⅴ在线| 亚洲国产精品视频| 亚洲高清乱码| 婷婷视频在线观看| 国产美女在线观看一区| 日本精品视频在线播放| 欧美成人黄色网| 国内精品久久久久久久久电影网| 日韩精品一区二区三区中文精品| 亚洲人成无码www久久久| 成a人片在线观看| 久久精品一二三| 91久久久久久久一区二区| 精品在线播放视频| 欧美成人精品| 日韩在线精品一区| 亚洲一区二区观看| 999国产精品一区| 欧美影视一区二区三区| 国产在线精品91| 秋霞在线午夜| 亚洲色图欧美激情| 性欧美.com| 欧美一区二区少妇| 成人爱爱电影网址| 97超级碰碰| 国产三级漂亮女教师| 日本伊人午夜精品| 国产精品91一区| 亚洲伊人成人网| 伊人久久亚洲美女图片| 欧美激情欧美狂野欧美精品| 在线日韩国产网站| 久久久影院免费| 亚洲一区二区国产| 人妻视频一区二区| 亚洲另类av| 亚洲精品视频免费| 在线免费播放av| 精品日产乱码久久久久久仙踪林| 精品国产乱码久久久久久牛牛| 欧美激情国内自拍| 人人爱人人干婷婷丁香亚洲| 欧美一区二区三区在线观看 | 久久狠狠婷婷| 2019中文在线观看| 欧美国产成人精品一区二区三区| 一本综合精品| 青青草原成人在线视频| 少妇太紧太爽又黄又硬又爽| 亚洲免费网址| 国产激情视频一区| 五月激情丁香网| 免费高清不卡av| 99久久久免费精品国产一区二区| 亚洲黄色一区| 精品中文字幕在线观看| 老女人性淫交视频| 欧美精品99| 97精品视频在线| 亚洲熟妇无码乱子av电影| 久久人人超碰| 国产日韩av在线| 精品二区在线观看| 99久久综合色| 日韩欧美第二区在线观看| 91大神xh98hx在线播放| 亚洲人成亚洲人成在线观看图片 | 无码精品黑人一区二区三区| 91视视频在线观看入口直接观看www | 91精品韩国| 欧美日本精品一区二区三区| 欧美国产日韩在线视频| aaa国产精品| 亚洲欧美制服第一页| 香蕉久久久久久久| 国产伊人精品| 国产精品h片在线播放| 国产精品久久综合青草亚洲AV| 国产91精品在线观看| 欧美二区在线| av免费在线观| 欧美日韩激情网| 成 人 黄 色 小说网站 s色| 国产福利一区二区精品秒拍| 国产小视频91| 激情五月婷婷在线| 日韩国产欧美一区二区三区| 亚洲japanese制服美女| 亚洲欧洲视频在线观看| 综合网在线视频| 日本午夜激情视频| 日韩城人网站| 日韩精品在线免费播放| 亚洲女人久久久| 亚洲免费综合| 99re国产视频| 亚洲欧美视频一区二区| 精品久久久久久久久国产字幕| 色乱码一区二区三区在线| 久久97精品| 欧美成人免费va影院高清| www五月天com| fc2成人免费人成在线观看播放| 午夜一区二区三区| 都市激情综合| 亚洲成人激情在线| www.av成人| 日精品一区二区| 国偷自产av一区二区三区小尤奈| 色网站免费在线观看| 日韩欧美有码在线| 手机免费看av片| 欧美+日本+国产+在线a∨观看| 清纯唯美亚洲综合| 黑人精品一区二区三区| 1000精品久久久久久久久| 999精品网站| 偷拍一区二区| 2019中文字幕在线观看| 国产 欧美 自拍| 亚洲色图欧洲色图| 天美一区二区三区| 色综合咪咪久久网| 国产精品视频免费在线| 你懂的在线视频| 精品久久久国产| 日本黄色录像片| 99精品免费| 中文一区在线播放| 亚洲精品高清国产一线久久| 最近在线中文字幕| 亚洲另类xxxx| 精品国产一区二区三区四| 成人av电影在线网| www插插插无码视频网站| 亚洲国产欧美国产第一区| 久久国产精品偷| 国产视频手机在线观看| 亚洲免费在线播放| 国产老头和老头xxxx×| 在线观看日韩| 亚洲自拍偷拍区| 青草视频在线免费直播 | 噜噜噜天天躁狠狠躁夜夜精品 | 欧亚av在线| 亚洲欧美国产精品| 欧美一区二区三区久久久| 久久久国产精品麻豆| av观看免费在线| 精品免费av| 成人欧美一区二区三区在线| 中文字幕有码在线视频| 欧美变态凌虐bdsm| 中文字幕日韩一级| 久久久久久久久久美女| caoporn超碰97| 久久久国产精品| 7777奇米亚洲综合久久| 乱馆动漫1~6集在线观看| 亚洲人成网7777777国产| 中文字幕精品视频在线观看| 国产精品网站一区| av在线免费观看不卡| 亚洲激情专区| 日本一区高清不卡| 999精品视频在线观看| 欧美第一黄色网| 无码精品视频一区二区三区 | 久久成人这里只有精品| 日本国产在线观看| 在线免费不卡电影| 亚洲av无码一区二区三区在线| 成人激情av网| 久久久久久三级| 欧美女激情福利| 欧美精品一区二区三区在线看午夜| 国产成人精品一区二区三区在线| 欧美成年人视频网站| 天堂视频中文在线| 欧美日韩成人一区| 日本熟女一区二区| 国产精品网站一区| 熟妇高潮一区二区| 美女在线视频一区| 人人妻人人澡人人爽欧美一区双| 黑丝美女一区二区| 成人动漫在线视频| 激情久久一区二区| 国模叶桐国产精品一区| 在线观看免费黄色| 日韩成人在线网站| 国产精品熟女久久久久久| 狠狠躁天天躁日日躁欧美| 男人av资源站| 国产日韩精品久久久| 亚洲精品无码一区二区| 免费观看成人av| 国产精品va无码一区二区| 91精品天堂福利在线观看| 欧美一级片免费观看| 中文字幕日韩高清在线| 国产欧美韩国高清| 不卡专区在线| 久久777国产线看观看精品| jizz亚洲| 亚洲男人7777| 午夜国产在线观看| 日韩精品一区二区在线观看| 91丨porny丨在线中文 | 99re8在线精品视频免费播放| 91国内在线播放| 日韩制服丝袜av| 国产精品333| 亚洲国产日本| 日本男女交配视频| 91精品啪在线观看国产81旧版| 神马影院午夜我不卡影院| 亚洲黄页网站| 精品免费一区二区三区蜜桃| 亚洲综合影院| 亚洲精品免费av| 91视频亚洲| 成人国产精品av| 久久69成人| 日本精品视频在线播放| 成人性生活av| 538国产精品一区二区免费视频| 丰满诱人av在线播放| 九九热在线精品视频| 91黄色在线| 美女视频黄免费的亚洲男人天堂| www.久久久久.com| 久久不射电影网| 欧美人动性xxxxz0oz| 欧美日韩不卡合集视频| 天天色天天射天天综合网| 欧美美女15p| 青草av在线| 午夜精品理论片| 日韩脚交footjobhd| 日本高清久久天堂| 三级成人黄色影院| 国产精品你懂得| 日韩成人在线电影| 99re6热在线精品视频播放速度| 欧美一级片网址| 国产精品二区三区四区| 国产女人18毛片水真多18精品| 国产精品午夜av在线| 美女视频亚洲色图| 欧美日韩一区二区视频在线观看| 精品理论电影| 亚洲欧美一二三| 亚洲精品影院在线观看| 欧美牲交a欧美牲交| 久久综合中文| 伊人色在线视频| 成人一级片网址| 中国美女乱淫免费看视频| 国产欧美日韩三级| 国产盗摄一区二区三区在线| 污片在线观看一区二区| 区一区二在线观看| 欧美精品欧美精品系列| 亚洲国产中文字幕在线| 日韩精品视频在线观看免费| 成年人视频在线看| 欧美成人免费大片| 亚洲女同av| 成人www视频在线观看| 国产精品黄网站| 日韩欧美一区二区视频在线播放 | 中文字幕日韩av电影| 97超碰在线公开在线看免费| 97精品一区二区三区| 国产伊人久久| 国产免费一区二区三区| 欧美亚洲国产激情| www.国产在线视频| 日本成人在线一区| 少妇极品熟妇人妻无码| 久久无码av三级| 日本一级二级视频| 色猫猫国产区一区二在线视频| 国产又粗又猛视频免费| 亚洲国产欧美一区二区三区同亚洲| 国产视频第一区| 欧美激情亚洲激情| 国产福利一区二区三区在线播放| 超碰97国产在线| 欧美一区二区三| 999在线观看视频| 九九**精品视频免费播放| 懂色av粉嫩av蜜乳av| 亚洲视频在线一区二区| 精品国产午夜福利| 精品国产乱码91久久久久久网站| 懂色一区二区三区| 性欧美xxxx交| 看亚洲a级一级毛片| 日韩高清在线播放| 日韩视频不卡| 国产又粗又猛又爽又黄| 中文字幕第一区二区| 久久精品一二区| 日韩欧美国产高清| 黄色一级大片在线免费看产| 国产91色在线|免| 欧美午夜18电影| 免费日韩在线观看| 久久99国产精品久久99| 成都免费高清电影| 天天色综合天天| 国产 欧美 精品| 欧美二区在线播放| 免费一区二区三区在线视频| 亚洲精品一区二区三区四区五区| 久久精品1区| 国产伦精品一区二区三区妓女| 亚洲一区二区精品久久av| 国产乱码一区二区| yw.139尤物在线精品视频| 在线成人视屏| 日韩高清国产精品| 日韩av网站免费在线| 自拍偷拍视频亚洲| 色天使色偷偷av一区二区| 日夜干在线视频| 青草成人免费视频| 久久av网址| 国产激情在线观看视频| 久久综合色婷婷| 国产一级18片视频| 精品一区二区三区四区在线| 高清不卡av| 区一区二区三区中文字幕| 噜噜噜在线观看免费视频日韩 | 中文字幕精品三区| 亚洲一级片免费看| 久久精品国产亚洲7777| 国产美女精品视频免费播放软件| 青春草在线视频免费观看| 国产在线播放一区三区四| 亚洲xxxx3d动漫| 日韩精品一区二| www.超碰在线| 欧美日韩在线高清| 奇米一区二区三区| 萌白酱视频在线| 91精品黄色片免费大全| 日韩影视在线| 九九九九精品| 日韩激情av在线| 日韩一卡二卡在线观看| 欧美一区2区视频在线观看| 三级网站视频在在线播放| 国产欧美日韩亚洲| 久久国产日韩| 久久高清内射无套| 亚洲成色www8888| 97久久香蕉国产线看观看| 亚洲视频在线二区| 国产福利91精品一区| 自拍偷拍欧美亚洲| 尤物精品国产第一福利三区 | 日韩人妻无码精品综合区| 欧美日韩一区在线观看| 中文av资源在线| 精品久久久三级| 蜜桃视频第一区免费观看| 免费在线观看国产精品| 日韩精品在线免费| 亚洲国产天堂| 无码播放一区二区三区| 国产精品天干天干在观线| www日本高清视频| 国产成人午夜视频网址| 欧美激情第8页| www.99热| 亚洲国产欧美在线成人app| 日韩三级成人| 欧美色图另类小说|