精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

人工智能
總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發布通告將這項研究公之于眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。

大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——

Claude背后廠商Anthropic發現,隨著窗口長度的不斷增加,大模型的“越獄”現象開始死灰復燃

無論是閉源的GPT-4和Claude 2,還是開源的Llama2和Mistral,都未能幸免。

圖片圖片

研究人員設計了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實現。

通過這種方法,他們測試了包括Claude 2.0、GPT-4等在內的多個知名大模型。

結果,只要忽悠的次數足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。

目前,針對這一漏洞,尚未發現完美的解決方案,Anthropic表示,發布這一信息正是為了問題能盡快得到解決,并已提前向其他廠商和學術界通報了這一情況。

圖片圖片

那么,這項研究具體都有哪些發現呢?

知名模型無一幸免

首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。

這些內容涵蓋濫用或欺詐內容(Abusive or fraudulent)、虛假或誤導性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威脅內容四個方面,每個方面各生成了2500條樣本,研究人員從每種類型中各挑選了200個用于測試。

然后,研究人員把這些內容打亂順序,并改編成用戶與模型的“聊天記錄”,并將目標問題一起輸入被測模型。

圖片圖片

然后,研究人員用一個拒絕分類器(refusal classifier)來對攻擊效果進行了評估,這個分類器會根據模型的響應來判斷其是否“拒絕”了不適當的請求。

結果發現,閉源模型中最強的GPT-4和Claude,以及開源模型中最知名的Llama和Mistral,在面對不同類型的攻擊信息時,無一例外全部淪陷。

而且隨著樣本數量的不斷增多,這種攻擊方法在四種類型的有害內容上的攻擊成功率都呈現出了大幅上升,最多的已經超過了70%。

而且成功的概率與樣本數量之間呈現出了指數分布,樣本數量在8時以下幾乎無法成功,而到了2^5(32)的位置出現了明顯拐點,再到2^8(256)時已經擁有極高的成功率。

而從模型的維度看,除了Llama2-70B由于窗口長度限制沒有樣本較多時的數據之外,GPT、Claude等模型的負對數似然(NLL,越低代表攻擊越成功)值也呈現出了這樣的分布規律。

圖片圖片

同時研究人員還發現,目標問題與給出信息的匹配程度模型大小信息的格式,也都會影響攻擊的成功率。

當目標問題與攻擊信息不匹配時,如果攻擊信息涵蓋的類型足夠多樣化,攻擊成功率幾乎沒有受到任何影響,但當其涉及范圍較窄時,攻擊則幾乎失效。

規模方面,越大的模型,被攻擊的概率也越大;而通過交換身份、翻譯等方式修改攻擊內容的格式,也會提高成功概率。

圖片圖片

此外,這種攻擊方式還可以與其他越獄技術結合,例如與黑盒攻擊一同使用時,成功率最多可以提高將近20個百分點。

圖片圖片

總的來說,這樣的攻擊方式,從原理上看似乎很簡單,但為什么窗口長度變長之后,成功率就增加了呢?

或許你已經注意到,研究人員發現“越獄”的成功率和樣本數量遵循冪律分布,也就是隨著樣本越來越多,成功率不僅更高,增長得也更快。

而且研究發現,較大的模型在長上下文中學習的速度也更快,更容易受到上下文內容的影響。

而窗口長度的增加,也就意味著為有害信息提供了更多的土壤,可以加入的樣本數量變多了,模型能看到學到的也就更多了,“越獄”概率自然隨之大幅上升。

此外還有模型的長期依賴性的影響——較長的上下文允許模型學習并模仿更長序列的行為模式,這也可能導致模型在面對攻擊時表現出不期望的行為。

那么,有沒有什么辦法能解決這個問題呢?有,但都還不完善。

解決方案仍待探索

針對這一問題,研究人員也提出了一些可能的解決方案,不過都還存在瑕疵。

最簡單粗暴的,就是限制窗口長度,這種方法直接“釜底抽薪”,理論上是有效的,但難免有些因噎廢食。

第二個思路,則是通過監督學習(SL)和強化學習(RL)來進行對齊微調,從而減少有害內容的生成。

可以看出,隨著對齊強度的增大,成功攻擊所需的樣本數量確實有所增大,但并未改變指數型的增長趨勢。

圖片圖片

于是研究人員又改用具有針對性的SL和RL,結果是外甥打燈籠——照舊(舅)。

隨著RL步數的增加,攻擊難度同樣是越來越大,但是整體趨勢依舊無法扭轉。

圖片圖片

另外一種方式就是從提示詞下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——

ICD在提示前添加拒絕有害問題的示例,而CWD則在提示前后添加警告文本,意圖預防或減輕這種攻擊帶來的影響。

結果發現,作者提出的CWD方法效果出奇的好,在樣本數不超過128時,攻擊幾乎無法取得成功,繼續增加樣本量時,61%的成功率也降到了2%。

圖片圖片

但這種方法同樣存在局限性,一是攻擊策略在不斷變化、新的有害內容類型也隨時可能出現,CWD可能需要頻繁更新和維護才能保持有效,無疑會增加運營成本。

另外,過多的警告性文本可能會干擾模型的正常運作,例如減慢響應時間或影響生成內容的自然流暢性,導致用戶體驗下降。

總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發布通告將這項研究公之于眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。

而這背后也體現出了人們對大模型認識的不足,就像這位Anthropic員工所說,人們在認識上下文窗口這件事情上,還有很長的路要走……

圖片圖片

參考鏈接(含論文):https://www.anthropic.com/research/many-shot-jailbreaking

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-04-03 12:13:58

2023-07-28 13:50:53

2024-05-07 13:40:41

2023-10-24 19:06:44

數據模型

2025-08-28 06:30:00

2023-11-07 07:00:37

2024-09-30 14:10:00

2025-10-11 04:22:00

人工海馬體網絡LV-Eval

2009-06-10 15:08:31

2024-04-03 12:48:00

2025-05-15 14:37:17

AI生成模型

2024-08-27 13:30:00

2025-10-31 01:00:00

2009-01-03 09:40:05

SNSSNS 盈利Web2.0

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-09-23 12:34:11

AI模型

2012-02-07 13:29:29

云計算云存儲

2024-04-03 10:05:00

LLM性能基準測試

2025-10-20 09:06:00

2025-05-09 09:15:00

點贊
收藏

51CTO技術棧公眾號

久久九九99| 国产精品17p| 亚洲女人的天堂| 国产精品香蕉视屏| 777777777亚洲妇女| 麻豆传媒网站在线观看| 特级丰满少妇一级aaaa爱毛片| 国产日韩欧美高清免费| 中文字幕日韩精品在线观看| 亚洲欧美激情一区二区三区| 成人欧美大片| 亚洲美女屁股眼交3| 精品日韩欧美| 999久久久久| 美女91精品| 久久最新资源网| 国产精品伦子伦| 成人97精品毛片免费看| 福利视频一区二区| 熟妇熟女乱妇乱女网站| 青草久久伊人| 国产精品一级片在线观看| 日本不卡视频在线播放| 久久97人妻无码一区二区三区| 西野翔中文久久精品字幕| 欧美精品久久一区二区三区| 男人操女人逼免费视频| 超碰caoporn久久| 国产亚洲成aⅴ人片在线观看| 懂色中文一区二区三区在线视频| 国产美女主播在线| www.中文字幕av| 亚洲1区在线| 欧美久久久一区| 亚洲成熟丰满熟妇高潮xxxxx| 欧美亚洲天堂| 国产精品欧美久久久久无广告| 精品视频一区二区三区四区| 亚洲国产精品18久久久久久| 久久爱www久久做| 国产91在线高潮白浆在线观看| 国产一级中文字幕| 天天综合久久| 中文字幕日韩欧美| 国产精品国产三级国产专业不| 国产劲爆久久| 日韩你懂的在线观看| 天天看片天天操| 日本一道高清亚洲日美韩| 婷婷成人综合网| 成人性生活视频免费看| 天堂av在线电影| 一区二区国产视频| 中国老女人av| av电影免费在线观看| 中文字幕在线观看不卡| 一本一道久久久a久久久精品91| 国产中文字幕在线看| 久久综合久久综合亚洲| 麻豆精品视频| 男人天堂综合| 欧美激情一区二区三区全黄| 亚洲欧洲一区二区在线观看| 香港伦理在线| 亚洲婷婷综合久久一本伊一区| 黄瓜视频免费观看在线观看www| 暖暖日本在线观看| 亚洲欧美激情小说另类| 激情五月六月婷婷| 97在线超碰| 精品欧美aⅴ在线网站| 国产一区二区三区精彩视频| 国产精品伦理| 欧美日本一区二区三区四区| 欧美视频国产视频| 综合欧美亚洲| 亚洲精品视频二区| 一级二级黄色片| 羞羞答答成人影院www| 久久91精品国产| 午夜毛片在线观看| 日韩不卡在线观看日韩不卡视频| 国产日韩一区在线| 国产激情无套内精对白视频| 99久久婷婷国产综合精品| 欧美在线视频二区| 精品国产99久久久久久| 午夜精品久久久久久久久久久| 久久婷婷国产精品| 91精品一久久香蕉国产线看观看| 欧美大片顶级少妇| 日韩精品电影一区二区| 香蕉av一区二区| 97久久精品视频| 中文字幕网址在线| 成人免费看视频| 性欧美大战久久久久久久免费观看 | 91精品久久久| 欧美日韩性视频在线| 小泽玛利亚视频在线观看| 一区二区精彩视频| 一个人www欧美| 精品无码久久久久久久久| 日韩精品乱码免费| 国产精品麻豆免费版| av亚洲在线| 污片在线观看一区二区| 成人综合久久网| 少妇一区二区三区| 成年人精品视频| 午夜精品免费观看| 成人在线综合网站| 伊人久久青草| 欧美亚洲韩国| 精品第一国产综合精品aⅴ| 精品日韩在线视频| 一区二区高清| 91国产在线免费观看| a黄色在线观看| 精品久久中文字幕| 人妻少妇偷人精品久久久任期| 免费成人网www| 欧美精品aaa| 中文在线观看免费高清| 99re这里只有精品视频首页| 久久观看最新视频| 欧美一区二区三区婷婷| 亚洲欧洲在线视频| 欧美啪啪小视频| 国产成人免费在线视频| 在线电影看在线一区二区三区| 激情开心成人网| 精品视频在线导航| 日本熟妇毛茸茸丰满| 国产另类ts人妖一区二区| 亚洲欧洲一区二区| 国产亚洲人成a在线v网站 | 国产欧美一级| 91福利视频导航| 国产原创视频在线观看| 欧美色大人视频| av永久免费观看| 久久综合图片| 蜜桃欧美视频| av电影一区| 日韩国产精品亚洲а∨天堂免| 久久精品亚洲无码| 成人免费视频播放| 夜夜添无码一区二区三区| 北条麻妃一区二区三区在线观看| 欧美xxxx14xxxxx性爽| 国产女无套免费视频| 亚洲天堂久久久久久久| 久久久精品视频国产| 中文字幕乱码亚洲无线精品一区| 91久久精品日日躁夜夜躁国产| 黄色网址在线免费观看| 91精品婷婷国产综合久久性色 | 亚洲一区二区综合| 中文字幕在线国产| 激情久久综合| 欧美日韩一区二区视频在线| 性欧美hd调教| 中文字幕免费国产精品| 国产原创中文av| 亚洲精品成人少妇| 中文字幕一区二区人妻电影丶| 国内精品久久久久久久影视蜜臀 | 午夜天堂精品久久久久| 91香蕉视频在线下载| 日本精品600av| 亚洲国产日韩欧美综合久久| 人妻 日韩精品 中文字幕| 欧美激情一区在线观看| 午夜免费福利网站| 亚洲成人中文| 日韩精品久久一区| 国产亚洲高清在线观看| 午夜精品一区二区三区在线播放| 欧美美女色图| 91精品久久久久久久91蜜桃| 久久高清免费视频| 国产网红主播福利一区二区| 奇米视频888| 影音先锋中文字幕一区| 日本高清不卡一区二区三| 粉嫩av国产一区二区三区| 欧美成人黑人xx视频免费观看| 亚洲国产精彩视频| 欧美在线免费播放| 国产黄在线免费观看| 91首页免费视频| 手机版av在线| 亚洲影院在线| 992tv快乐视频| 国产日产精品_国产精品毛片| 成人免费激情视频| 91精品论坛| 欧美不卡视频一区发布| 欧美大片aaa| 日韩一区二区视频| 国产成人麻豆免费观看| 亚洲国产综合人成综合网站| 国产精品理论在线| 成人激情小说乱人伦| 777视频在线| 国产精品亚洲欧美| 国产女主播av| 日本高清免费电影一区| 成人动漫视频在线观看完整版| 国产精品字幕| 国内精品久久久久| 国产丝袜在线| 国产香蕉97碰碰久久人人| 亚洲第一精品网站| 欧美视频在线播放| 免费在线不卡视频| 一区二区三区欧美视频| 亚洲天堂精品一区| 久久伊人蜜桃av一区二区| 亚洲精品无码一区二区| 国产真实乱子伦精品视频| 密臀av一区二区三区| 国产日韩欧美高清免费| 精品少妇人欧美激情在线观看| 午夜av一区| 午夜老司机精品| 国产在线观看91一区二区三区 | 亚洲国产一区二区三区| 国产男女猛烈无遮挡在线喷水| 国产女主播一区| 魔女鞋交玉足榨精调教| 99国产欧美久久久精品| 女同性αv亚洲女同志| 国产一区二区三区精品视频| 亚洲视频一二三四| 奇米色777欧美一区二区| 波多野结衣家庭教师在线播放| 欧美激情性爽国产精品17p| 亚洲精品偷拍视频| 忘忧草精品久久久久久久高清| 亚洲欧洲中文| 欧美激情电影| 日韩电影大全在线观看| 天海翼精品一区二区三区| 九九九九精品九九九九| 牛牛精品成人免费视频| 国产综合欧美在线看| 欧美男人操女人视频| 国产精品一区二区欧美黑人喷潮水| julia中文字幕一区二区99在线| aa成人免费视频| 成人爽a毛片免费啪啪红桃视频| 不卡一区二区三区四区五区| 99久久香蕉| 国产中文一区二区| 五月综合久久| 日韩和欧美的一区二区| 久久激情电影| 国产日韩欧美大片| 亚洲视频福利| 久久免费视频3| 日本伊人精品一区二区三区观看方式| 91国产精品视频在线观看| 美女精品自拍一二三四| 国产一级片自拍| 国产福利精品导航| 精品人妻伦一二三区久| 久久免费偷拍视频| 天堂av网手机版| 亚洲久草在线视频| 福利一区二区三区四区| 日本高清无吗v一区| 一级片在线观看视频| 日韩免费在线观看| 精品亚洲综合| 色综合久久悠悠| 蜜桃麻豆影像在线观看| 国产精品成人一区| 精品视频一区二区三区在线观看| 国产免费一区二区三区| 国产尤物久久久| 欧美乱做爰xxxⅹ久久久| 亚洲一区日本| 日韩成人av免费| 91香蕉国产在线观看软件| 极品尤物一区二区| 亚洲国产成人av网| 久久午夜鲁丝片| 337p日本欧洲亚洲大胆精品| 国产精品四虎| 久久久久久国产精品久久| 最新欧美电影| 国产精品yjizz| 日本a口亚洲| 黄色免费福利视频| 国产自产高清不卡| 男生草女生视频| 亚洲图片欧美视频| 亚洲影院一区二区三区| 亚洲精品按摩视频| 麻豆tv入口在线看| 日韩av免费在线观看| 日韩中文一区二区| 亚洲激情图片| 中文亚洲字幕| 波多野结衣中文字幕在线播放| 国产三级久久久| 一级片免费网址| 欧美一区二区黄色| 国产精品一级伦理| 26uuu另类亚洲欧美日本一 | 奇米精品一区二区三区四区 | 亚洲欧美区自拍先锋| 久久精品无码av| 亚洲国产精品成人一区二区| 黄网站视频在线观看| 国产精品露脸自拍| 亚洲欧美校园春色| 国产精品国产三级国产专区51| 久久国产视频网| 国产调教在线观看| 91久久精品国产91性色tv| 三级小视频在线观看| 久久99久国产精品黄毛片入口| 欧美黑粗硬大| 亚洲欧美日韩精品综合在线观看| 亚洲综合日韩| 免费成人蒂法网站| 亚洲.国产.中文慕字在线| 亚洲av无码国产精品久久不卡| 日韩视频免费大全中文字幕| 最新日韩一区| 五月天亚洲综合| 日韩精彩视频在线观看| 久久成人激情视频| 色婷婷av一区二区三区gif | 精品国产一区二区三区不卡蜜臂| 黄色网zhan| 国产一区二区在线影院| a一级免费视频| 777亚洲妇女| 天堂中文а√在线| 91精品美女在线| 亚洲乱码在线| 久久精品一二三四| 一级做a爱片久久| 成人精品在线播放| 久久免费精品视频| 欧美韩一区二区| www.亚洲天堂网| 国产欧美视频一区二区| 波多野结衣视频网址| 中文字幕一精品亚洲无线一区| 国产91在线播放精品| 一区二区在线观看网站| 国产又粗又猛又爽又黄91精品| 日韩在线中文字幕视频 | 免费一级在线观看| 日韩av免费在线播放| 欧美激情欧美| 日本wwww色| 黑人极品videos精品欧美裸| 黄色片在线看| 国产精品一区=区| 欧美 日韩 国产精品免费观看| 国产伦精品一区二区三区88av| 精品magnet| 福利在线播放| 亚洲在线观看视频| 亚洲另类视频| 欧洲美熟女乱又伦| 欧美一区二区三区成人| 多野结衣av一区| 日本一区二区三区精品视频| 久久99国产精品尤物| 国产亚洲色婷婷久久99精品| 亚洲精品视频在线播放| 日本一区免费网站| 9191国产视频| 久久新电视剧免费观看| 一区二区 亚洲| 91禁外国网站| 日韩在线精品| 国产高潮视频在线观看| 欧美性受极品xxxx喷水| 91极品在线| 日本一区免费看| 国产成人av电影免费在线观看| youjizz在线视频| 欧美精品在线免费观看| 亚洲免费毛片| 97超碰人人看| 色8久久精品久久久久久蜜 | 日韩一区中文字幕| 婷婷色在线观看| 91在线观看免费网站| 亚洲专区欧美专区| 性色av无码久久一区二区三区| 精品呦交小u女在线|