精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend

人工智能 新聞
這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。

本文一作王勛廣是香港科技大學的在讀博士生,本科和碩士分別畢業于中國地質大學和哈爾濱工業大學,主要研究方向是大模型安全。通訊作者吳道遠,香港科技大學研究助理教授,研究方向包括大模型安全、區塊鏈和智能合約安全、移動系統和軟件安全。通訊作者王帥,香港科技大學長聘副教授。研究方向包括 AI 安全、軟件安全、數據隱私、逆向工程等。

最近一段時間,DeepSeek 可謂是風頭無兩。

在大家紛紛贊揚其超強性能的同時,也有媒體曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越獄。

比如,此前賓夕法尼亞大學的研究者使用來自HarmBench數據集的50個有害提示對DeepSeek R1進行測試,這些提示涵蓋網絡犯罪、虛假信息和非法活動等領域。結果顯示,DeepSeek未能攔截任何一個有害請求,攻擊成功率達到驚人的100%。

這時如果有一個 AI 系統能像人類一樣具備自我保護意識,在面對 ' 欺騙 ' 時能夠當機立斷地識破陰謀 —— 這不再是科幻片中的場景。

近日,來自香港科技大學、南洋理工大學等機構的研究團隊最新成果讓這一設想成為現實。他們提出的 SelfDefend 框架,讓大語言模型首次擁有了真正意義上的 ' 自衛能力 ',能夠有效識別和抵御各類越獄攻擊,同時保持極低的響應延遲。

  • 論文標題:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
  • 論文主頁:https://selfdefend.github.io/ 
  • 論文鏈接:https://arxiv.org/abs/2406.05498
  • GitHub 鏈接:https://github.com/selfdefend/Code

近年來,大語言模型(LLMs)在自然語言處理、信息檢索、圖像生成等多個領域展現出巨大潛力。然而,隨著 LLMs 的廣泛應用,如何確保其安全性成為了一個重要課題。尤其是 “越獄攻擊”(Jailbreaking),這種攻擊通過繞過 LLMs 的安全對齊機制,誘導模型生成有害內容,引發了廣泛關注。為了應對這一挑戰,香港科技大學、南洋理工等團隊聯合提出了一種名為 SelfDefend 的新型防御框架,該框架通過引入 “影子 LLM”(Shadow LLM)來并行檢測潛在的有害查詢,從而有效抵御多種越獄攻擊。

越獄攻擊的多樣性與防御挑戰

越獄攻擊的形式多種多樣,包括基于人工設計的攻擊、基于優化的攻擊、基于生成的攻擊,以及最近出現的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防御機制難以應對。現有的防御方法主要分為兩類:基于模型的防御和基于插件的防御。前者通過改進模型的內在機制來增強安全性,后者則通過外部插件來增強現有模型的安全性。然而,這些方法在實際應用中面臨諸多挑戰,無法同時滿足四個目標:應對所有類型的攻擊(O1)、引入可忽略的額外延遲(O2)、對檢測出的越獄訪問提供可解釋性(O3),以及同時適用于開源和閉源模型(O4)。

SelfDefend 框架的創新設計

SelfDefend 框架的靈感來源于傳統安全領域中的 “影子棧”(Shadow Stack)概念。影子棧通過創建一個并行的內存空間來防御內存溢出攻擊,而 SelfDefend 則通過創建一個并行的 “影子 LLM” 來檢測潛在的有害查詢。具體來說,SelfDefend 框架包含兩個并行的 LLM 實例:一個用于正常響應用戶查詢的目標 LLM),另一個用于檢測有害內容的防御 LLM)。當用戶輸入查詢時,目標 LLM 會正常處理查詢并生成響應,而防御 LLM 則通過特定的檢測提示詞()來識別查詢中的有害部分或意圖。

這種設計帶來了多重優勢:首先,它同時利用了目標 LLM 的安全對齊機制和防御 LLM 的越獄檢測能力,形成了雙重保護層,顯著提高了防御成功率;其次,由于防御 LLM 的輸出通常較短(如 “No” 表示無問題),正常查詢的響應延遲幾乎可以忽略不計;然后檢測出的有害部分或者惡意意圖可以作為防御的可解釋性;最后,由于防御 LLM 不需要修改或監控目標 LLM 的內部機制,因此可以兼容開源和閉源模型。

實驗驗證與效果評估

研究團隊通過大量實驗驗證了 SelfDefend 框架的有效性。實驗結果表明,基于 GPT-3.5 和 GPT-4 的 SelfDefend 能夠顯著降低多種越獄攻擊的成功率。例如,基于 GPT-3.5 的 SelfDefend 將攻擊成功率(ASR)從平均 65.7% 降低至 0.236,而基于 GPT-4 的 SelfDefend 更是將 ASR 降低至平均 0.050。此外,SelfDefend 對正常查詢的影響微乎其微,GPT-3.5 和 GPT-4 的正常查詢通過率僅分別下降了 0.51% 和 2.77%。

為了進一步降低成本和提升魯棒性,研究團隊還通過數據蒸餾方法對開源的 Llama-2-7b 模型進行了微調,生成了專用的防御模型。實驗表明,這些微調后的模型在防御效果上與基于 GPT-4 的 SelfDefend 相當,且額外延遲顯著降低。例如,微調后的模型在正常查詢中的平均延遲僅為 0-0.01 秒,而在攻擊場景中的最大延遲從 GPT-4 的 1.56 秒降低至 0.39 秒。

與現有防御方法的對比

研究團隊還將 SelfDefend 與現有的七種主流防御方法進行了對比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。實驗結果顯示,SelfDefend 在 60 個測試場景中的 55 個場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,SelfDefend 的防御效果顯著優于其他方法。此外,SelfDefend 的額外延遲也遠低于其他防御方法,使其在實際部署中更具可行性。

未來展望

這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。通過賦予 AI' 自衛意識 ',SelfDefend 展現了一個更安全的 AI 未來:在這個未來里,AI 系統既能保持高效服務能力,又能主動識別和抵御潛在威脅,真正實現 ' 自我守護 '。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-03-06 00:22:00

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-02-07 13:10:06

2025-03-14 11:57:43

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-03-06 10:14:39

2025-02-27 00:00:05

2025-02-03 00:00:55

DeepSeekRAG系統

2025-02-17 07:35:00

DeepSeek模型數據

2025-02-03 12:07:52

2025-02-10 11:27:37

2021-09-02 10:15:50

計算平臺MaxCompute 阿里云

2019-07-25 14:48:35

AI人工智能女工

2025-03-05 09:10:00

AI生成模型
點贊
收藏

51CTO技術棧公眾號

国产精品欧美经典| 中文亚洲免费| 日韩欧美亚洲国产精品字幕久久久| 亚洲一区二区在| 99久久国产免费| 一二三区精品| 日韩综合视频在线观看| 亚洲最大视频网| 日韩影片中文字幕| 亚洲欧美另类综合偷拍| 久久青青草综合| 国产精品毛片一区二区在线看舒淇| 黄色精品免费| 中文字幕v亚洲ⅴv天堂| 色悠悠在线视频| 九九热这里有精品| 黄色成人av网| 欧美 亚洲 视频| 国产一级在线| 丁香天五香天堂综合| 国产成人综合亚洲| 国产精品1234区| 偷拍欧美精品| 亚洲免费av片| ass极品水嫩小美女ass| 欧美色片在线观看| 欧美视频免费在线| 亚洲爆乳无码精品aaa片蜜桃| 狠狠狠综合7777久夜色撩人| 成人免费视频一区二区| 成人精品aaaa网站| 欧美一级黄视频| 亚洲一区区二区| 欧美激情视频给我| 成人免费视频网站入口::| 区一区二视频| 亚洲人成电影在线观看天堂色| 在线xxxxx| 日本一区二区三区视频在线看| 欧美日韩国产在线观看| 男人亚洲天堂网| 2020国产在线| 亚洲成人在线观看视频| 青草全福视在线| 92国产在线视频| 欧美激情综合五月色丁香小说| 久久久久久亚洲精品不卡4k岛国| 男人天堂一区二区| 成人小视频在线| 成人毛片网站| 亚洲成人av综合| 国产精品资源网| 亚洲一区二区三区香蕉| 国产精品久久久久久69| 久88久久88久久久| 91精品国产综合久久香蕉最新版| 中文字幕在线观看国产| 久久久久久久尹人综合网亚洲| 91精品国产沙发| 国产又爽又黄的视频| 国产欧美另类| 国产91av在线| 午夜精品久久久久久久蜜桃| 日日夜夜免费精品| 国产精品自拍小视频| 亚洲视频在线免费播放| 美女任你摸久久| 91精品中国老女人| 性欧美18一19性猛交| 国产黄色成人av| 国产精品免费在线播放| 香蕉视频国产在线| 久久久久久久久免费| 日韩中文字幕一区| 日本在线看片免费人成视1000| 欧美激情资源网| 美国av在线播放| 丰满的护士2在线观看高清| 午夜影视日本亚洲欧洲精品| 日韩精品视频久久| 成人一区视频| 日韩午夜激情视频| 免费a在线观看播放| 教室别恋欧美无删减版| 久久精品小视频| 国产第一页在线播放| 久久影院亚洲| 91色琪琪电影亚洲精品久久| 欧洲av在线播放| 国产亚洲视频系列| 亚洲国产精品日韩| 大桥未久在线播放| 欧美日韩一区二区电影| 最新中文字幕日本| 成人vr资源| 久久久久久噜噜噜久久久精品| 极品国产91在线网站| 精彩视频一区二区三区| 极品校花啪啪激情久久| 91九色在线porn| 亚洲国产aⅴ天堂久久| 午夜免费高清视频| 精品女人视频| 俺去啦;欧美日韩| 久久精品视频5| 国产成人午夜片在线观看高清观看| 精品乱色一区二区中文字幕| 免费在线午夜视频| 黄色成人av在线| 精品国产鲁一鲁一区二区三区| 日韩有码中文字幕在线| 久久伊人色综合| 无码人妻av一区二区三区波多野| 国产激情一区二区三区四区| 日韩中文字幕一区| 欧美另类老肥妇| 日韩亚洲欧美在线观看| 国产无遮挡在线观看| 一本色道精品久久一区二区三区| 91九色综合久久| 国产区在线视频| 天天色天天操综合| 真实乱偷全部视频| 97精品一区| 国产精品av在线| 三级在线观看| 午夜在线成人av| 国产精九九网站漫画| 91精品精品| 国产日本欧美一区二区三区| 精品欧美不卡一区二区在线观看| 亚洲一区二区三区四区五区中文| 艹b视频在线观看| 红桃成人av在线播放| 欧美在线激情网| 天堂成人在线视频| 亚洲成年人网站在线观看| 中文字幕在线视频一区二区三区| 成人羞羞在线观看网站| 日韩女优人人人人射在线视频| 欧美视频一二区| 亚洲一区二区三区激情| 免费不卡av网站| 亚洲精品成人影院| 91久久精品国产| 免费在线看黄色| 777午夜精品视频在线播放| 任你操精品视频| 精一区二区三区| 伊人久久av导航| 视频欧美精品| 蜜月aⅴ免费一区二区三区| 91麻豆视频在线观看| 国产精品妹子av| 日本一二三区在线| 欧美成人亚洲| 国产成人精品自拍| а_天堂中文在线| 亚洲精品久久久久| 国产一级片毛片| 国产亚洲精品7777| 91在线视频免费观看| 51国产成人精品午夜福中文下载 | 毛片不卡一区二区| 一级一片免费播放| 高清精品久久| 久久久久久999| 天堂av中文在线资源库| 色婷婷久久久久swag精品| 在哪里可以看毛片| 蜜桃一区二区三区四区| 欧美少妇一区二区三区| 国产乱人伦丫前精品视频| 午夜精品三级视频福利| 免费黄网站在线观看| 欧美日韩国产区一| 婷婷色中文字幕| 91原创在线视频| 精品久久久久久中文字幕2017| 久久一本综合| 国产91色在线|亚洲| 亚洲精品福利电影| 北条麻妃在线一区二区| 日韩在线观看视频一区二区三区| 色婷婷综合久久久久中文一区二区| 色屁屁草草影院ccyy.com| 国产制服丝袜一区| 无码专区aaaaaa免费视频| 成人羞羞网站入口| 国产精品久久久久久久久久久久冷| 欧美aaaaa性bbbbb小妇| 色伦专区97中文字幕| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 欧美午夜无遮挡| 人妻久久一区二区| 日韩一区中文| 国产精品热久久久久夜色精品三区| 久久人妻精品白浆国产| 亚洲精品一二三区区别| 久久久www免费人成黑人精品| 成人全视频在线观看在线播放高清| 欧美大片免费看| 日本三级在线视频| 亚洲精品国精品久久99热 | 久久精品中文| 国产女人18毛片| 红桃视频在线观看一区二区| 国产传媒一区| 2019中文亚洲字幕| 日韩av电影在线网| 超碰高清在线| 欧美日韩成人在线观看| 日韩毛片久久久| 精品夜色国产国偷在线| 亚洲AV无码一区二区三区少妇| 在线观看网站黄不卡| 天天操天天射天天爽| 中文字幕一区二| 国产肥白大熟妇bbbb视频| 粉嫩aⅴ一区二区三区四区五区| 三级av免费观看| 视频在线观看一区| 国产精品自拍片| 亚洲国产激情| 成年人视频网站免费| 国产精品99久久精品| 日韩欧美在线观看强乱免费| 日韩精品a在线观看91| 成人av片网址| 国产免费区一区二区三视频免费 | 精品无码一区二区三区在线| 亚洲澳门在线| 在线看无码的免费网站| 欧美影院三区| 亚洲aⅴ天堂av在线电影软件| 天堂网av成人| 久久精品中文字幕一区二区三区 | 欧美高清一级大片| 免费网站看v片在线a| 日韩中文字幕在线视频| 中文日本在线观看| 最新69国产成人精品视频免费| 国产福利电影在线| 夜夜嗨av一区二区三区免费区| 国产一级片在线播放| 国产一区二区三区直播精品电影| 青青青草原在线| 亚洲欧美中文字幕在线一区| 激情小视频在线观看| 国产亚洲一区精品| melody高清在线观看| 日韩最新免费不卡| v天堂福利视频在线观看| 久久久精品国产网站| a免费在线观看| 欧美黄色小视频| 欧美激情网站| 国产精品毛片a∨一区二区三区|国| 国产a亚洲精品| 成人精品在线观看| 97久久综合区小说区图片区| 国产精品一区二区三区不卡| 久久婷婷国产| 日韩区国产区| 天天综合网网欲色| 丁香六月激情网| 国产一区二区你懂的| av之家在线观看| 日韩中文欧美在线| 57pao国产成永久免费视频| 国产精品一区二区在线看| 中文字幕在线播放一区二区| 成人美女在线观看| 少妇大叫太粗太大爽一区二区| 国产喂奶挤奶一区二区三区| 殴美一级黄色片| 亚洲成人资源在线| 国产成人自拍偷拍| 日韩一区二区三区视频在线观看| 婷婷色在线观看| 国产一区二区三区丝袜| a级在线观看| 91大神在线播放精品| 欧美日韩女优| 粉嫩av一区二区三区免费观看 | 黄色一级视频播放| 国产欧美不卡| 亚洲一区二区偷拍| 久久综合久色欧美综合狠狠| 激情五月激情综合| 黄色精品一区二区| 国产美女www爽爽爽视频| 日韩av网站电影| 免费av在线网站| 51久久精品夜色国产麻豆| 国产一区二区三区四区五区3d | 在线观看欧美一区二区| 久久久精品tv| 久久亚洲精品大全| 欧美午夜一区二区三区免费大片| 亚洲国产福利视频| 色综久久综合桃花网| sis001亚洲原创区| 国产在线观看精品| 综合亚洲色图| 妺妺窝人体色www看人体| 日韩精品电影一区亚洲| 在线观看一区二区三区视频| 国产亚洲1区2区3区| 精品在线视频免费| 欧美久久高跟鞋激| 国产午夜视频在线观看| 97在线视频免费| 日韩08精品| 自拍偷拍视频在线| 日韩不卡免费视频| 欧美日韩人妻精品一区在线| 日韩一区在线看| 懂色av蜜臀av粉嫩av分享吧最新章节| 精品国产乱码久久久久久久久| 免费在线观看黄色| 国产男人精品视频| 精品国产一区二区三区四区| 鲁一鲁一鲁一鲁一澡| 成人美女视频在线观看| 加勒比婷婷色综合久久| 56国语精品自产拍在线观看| 国产粉嫩一区二区三区在线观看 | 亚洲熟妇无码久久精品| 亚洲性视频网站| 亚洲午夜天堂| 久精品国产欧美| 亚洲伦理精品| 久久久久无码国产精品一区李宗瑞| 中文字幕不卡的av| 成年网站在线播放| 色黄网站在线观看| 国产精品久久二区| 欧美人妖在线| 欧美在线三级电影| 精品国产黄色片| 日韩专区中文字幕| 日韩三区四区| 欧美 日韩 国产 在线观看| 日本大胆欧美人术艺术动态| 免费污网站在线观看| 精品国产鲁一鲁****| 伊人久久精品视频| 欧美日韩精品免费观看视完整| 久久涩涩网站| 亚洲欧美清纯在线制服| 久久国产精品无码一级毛片| 午夜精品久久久久久久| 午夜国产在线视频| 欧美孕妇孕交黑巨大网站| 你懂的视频欧美| 丁香婷婷激情网| 国产精品久久久久影院亚瑟 | 国产精品无码毛片| 懂色av影视一区二区三区| 欧美中文在线| 国产精品美女免费看| 婷婷伊人综合| 美女伦理水蜜桃4| 欧美性jizz18性欧美| 福利小视频在线观看| 亚洲aⅴ日韩av电影在线观看| 欧美成人一区二免费视频软件| aaa黄色大片| 色视频成人在线观看免| 日本电影全部在线观看网站视频| 96国产粉嫩美女| 中文日韩在线| 天堂网av2018| 精品久久一区二区| 都市激情综合| 亚洲制服欧美久久| 国产suv一区二区三区88区| 免费观看一区二区三区毛片| 一区二区三区无码高清视频| 视频在线一区| 日韩手机在线观看视频| 1024成人网色www| 欧美 日韩 人妻 高清 中文| 国产精品av在线播放| 欧美精品综合| xxxx日本免费| 欧美一区二区福利在线| 亚洲人成午夜免电影费观看| 亚洲人成77777| 成人短视频下载| 在线观看中文字幕码| 欧美精品videofree1080p| 奇米狠狠一区二区三区| www.偷拍.com| 91高清视频在线| h片在线观看下载| 中文字幕一区二区三区乱码 | 久草免费新视频| 中文字幕欧美日韩精品 |