精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

攻破OpenAI o1/o3、DeepSeek R1防線,安全推理過程反成大模型「阿喀琉斯之踵」

人工智能 新聞
這項研究揭示了當前安全機制的深層矛盾 —— 推理透明化與防御魯棒性正在形成難以調和的沖突。

本文共同第一作者是杜克大學計算進化智能中心的博士生郭士霆、張健一,導師為陳怡然教授。

在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代進化:OpenAI 的 o 系列模型憑借類人推理能力刷新多項基準,DeepSeek-R1 以極低的訓練成本實現完全不輸 o 系列模型的性能突破。

然而,在這股追求推理性能的浪潮之下,一個關乎技術倫理的隱憂正在浮現 —— 當模型運用自身強大的推理能力進行安全審查時,「展示安全推理思維鏈」這種透明化機制是否會暴露安全隱患?

杜克大學計算進化智能中心的最新研究給出了警示性答案。團隊提出的 H-CoT(思維鏈劫持)的攻擊方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在內的多款高性能大型推理模型的安全防線:在涉及極端犯罪策略的虛擬教育場景測試中,模型拒絕率從初始的 98% 暴跌至 2% 以下,部分案例中甚至出現從「謹慎勸阻」到「主動獻策」的立場反轉。

這項研究揭示了當前安全機制的深層矛盾 —— 推理透明化與防御魯棒性正在形成難以調和的沖突。

圖片

  • 論文地址:https://arxiv.org/abs/2502.12893v1
  • 項目主頁:https://maliciouseducator.org
  • Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
  • 杜克大學計算進化智能中心:https://cei.pratt.duke.edu/

一、大型推理模型的安全標準與技術路線

為確保大型推理模型(LRMs)的真正造福人類,必須在強推理能力與內容無害性之間建立足夠可靠的平衡。這要求我們同時建立明確的安全標準和完善的技術保障體系。

安全標準來看,作為大型推理模型的先驅,OpenAI 在其 o1/o3 系列中提出了如下安全準則:


如果出于合理的教育目的討論有害內容,允許模型提供概括性、中立且具有信息性的回答,同時應積極勸阻對該內容的濫用或進一步傳播。

技術保障來看,OpenAI 通過運用 o1/o3 強大的推理能力,對用戶請求進行謹慎且「慢思考」式的安全評估,以期在性能與安全之間取得平衡。

然而,即使有上述安全標準的規范和技術路線的護航,我們仍需要思考一個無法回避的問題:現有的技術手段是否足以支撐如此高要求的安全標準?更具體地說,本篇研究發現兩個亟待解決的系統性挑戰:

挑戰 1:極度高危請求的謹慎識別

當面對明確涉及極端犯罪的請求時(例子請參考原文),模型能否始終如一地執行安全準則并拒絕提供回答?即使攻擊者以虛擬的教育場景進行偽裝。

挑戰 2:展示安全推理過程是否會產生反噬作用

即便模型在一開始能夠拒絕,但是模型在拒絕請求時展示的詳細安全審查思維鏈,可能被攻擊者逆向解析。這種透明化機制是否會導致攻擊者通過思維鏈信息操控后續交互,從而系統性瓦解模型的防御立場?此問題在當前技術路線中尚未得到充分重視。

二、構建測試基準與提出新型 H-CoT 攻擊方法

為系統評估現有安全機制的缺陷,作者構建了名為「惡意教育者(Malicious Educator)」的測試基準集。該基準聚焦 10 類高危場景,每條測試請求均要求模型從攻擊者視角生成包含「具體方案 / 實施方式 / 功能示例 / 實施理由」的完整策略。

為確保測試請求的高風險性,作者以 2024 年 1 月 OpenAI o1 模型的響應為基準:該模型對此基準集的初始拒絕率達到 98%。

關鍵發現:安全推理的透明化陷阱

在測試過程中,作者發現當模型拒絕高危請求時,其輸出的思維鏈會完整展示安全審查的邏輯路徑(例如「此請求涉及攻擊行為→可能違反安全規定→需阻止潛在危害」)。這種透明化機制使攻擊者能夠逆向解析模型的防御邏輯成為可能,為后續攻擊提供關鍵切入點。(此發現也與后續的 Claude 3.7 Sonnet System Card 中的結論不謀而合)

H-CoT 攻擊方法實現

基于上述發現,本文提出「思維鏈劫持」攻擊(Hijacking Chain-of-Thought, H-CoT),具體實施分為兩個階段:

  1. 安全邏輯提取:針對目標危險請求,首先提交與原問題相關聯的無害請求,誘導模型輸出包含安全審查邏輯的思維鏈 (具體例子請參考原文)。
  2. 邏輯污染攻擊:參照提取的安全推理鏈,為原始危險請求偽造「看似安全」 的邏輯思維鏈,嵌入原始危險請求的上下文環境,誤導模型降低防御閾值。

圖片

H-CoT 的攻擊流程

實驗結果顯示,H-CoT 攻擊可導致 OpenAI o1 模型對同一批高危請求的拒絕率從 98% 驟降至 2%。這種攻擊有效性直接證明了:模型展示安全審查思維鏈的行為,實質上為攻擊者提供了可以操控其防御系統的切入點。

三、令人擔憂的安全測試結果

在構建的「惡意教育者」測試基準上,結合 H-CoT(思維鏈劫持) 攻擊方法,作者觀察到了一系列令人擔憂的安全問題。

1. OpenAI o 系列(o1、o1-pro、o3-mini)的安全表現下滑

這些模型在面對「惡意教育者」基準時,最初能維持 98% 的高拒絕率,但在 H-CoT 攻擊下卻無一幸免,拒絕率驟降至 2%(見下圖,ASR 代表攻擊成功率 = 1 - 拒絕率)。換言之,對于同一批高風險的請求,模型從「堅定拒絕」 轉變為幾乎「全面放行」,安全防線瞬間瓦解。

圖片

更令人擔憂的是,隨著推理模型之間的競爭不斷加?。ɡ?DeepSeek-R1 憑借低成本和出色性能迅速崛起,給 OpenAI o 系列模型的開發帶來更大壓力),作者擔心在這樣激烈的商業環境中,模型開發方可能會為了提高實用性而在一定程度上犧牲安全性。

為驗證這一點,作者比較了今年一月份和二月份的最新 OpenAI o1 模型在 「惡意教育者」基準上的表現,并進一步考察了不同 IP 地址(通過代理網絡)對模型安全性能的影響。如下圖所示,可以發現隨著 DeepSeek-R1 的發布,o1 模型從一月份到二月份在多個類別上的安全表現都有所下滑;同時,不同地理位置(體現為不同代理 IP)也會對模型的安全性產生顯著影響。

圖片

另外無論在時間維度還是地理位置的變化條件下H-CoT 攻擊在絕大部分測試場景中仍保持了極高的成功率,展現出一致且高效的攻擊能力。其背后原因也再次凸顯了「透明思維鏈」在安全審查中帶來的結構性漏洞,一旦遭到惡意利用,模型的防御體系將極其脆弱。

圖片

2. DeepSeek-R1 的風險評估

DeepSeek-R1 本身在「惡意教育者」基準上的拒絕率僅有約 20%,在 H-CoT 攻擊壓力下更是降至 4%(見下圖)。與 OpenAI o 系列「先安全推理審查,再給出回答」的模式不同,DeepSeek-R1 的策略是「先回答,同時審查」,即先輸出一份答案,如若發現存在高風險內容,再對原始答案進行覆蓋。

這種機制意味著在模型覆蓋答案之前,惡意攻擊者仍然可以截獲不當信息。盡管這并不代表 DeepSeek-R1 完全沒有進行安全推理審查,但也反映其安全推理審查強度不夠。

圖片

另外,作者還注意到,DeepSeek-R1 在處理中文請求時比處理英文請求更為嚴格:針對「尋求犯罪策略」的問題,中文環境下常生成「如何防止犯罪的策略」,而英文環境下卻可能給出「如何犯罪」的詳細方案。

這種跨語言差異或許與訓練語料和主要市場定位有關,但也為潛在的「跨語種」攻擊方式提供了可乘之機,即惡意攻擊者可通過將原來危險的中文請求翻譯成英文來繞過 DeepSeek-R1 的安全審查。因此作者呼吁模型開發方對此也應保持高度警惕。

3. Gemini 2.0 Flash Thinking 的更嚴重安全隱患

在對 Gemini 2.0 Flash Thinking 的測試中,作者不僅觀測到 H-CoT 攻擊將模型的拒絕率從原先的 10% 降至 0%,還發現 H-CoT 能顯著影響模型的態度 —— 從「猶豫嚴謹」到「主動獻策」,出現了明顯的態度逆轉。

例如,在回答相同問題的五次試驗中,模型給出的犯罪策略數量可能出現 2、3、3、4、4 等變化。如果作者選取「最多策略」那次(4 條策略)的思考過程,并將其注入到 H-CoT 攻擊請求中,模型隨后的回答便會穩定輸出至少 4 條策略。

圖片

又如,如果五次試驗中有四次回答較為謹慎猶豫,但有一次回答中使用了「當然」(相當于「非常愿意」)的積極回答的表述,那么作者就能將該次回答的思考過程作為 H-CoT 注入到原始問題,從而在隨后的五次新回答中,模型都會從一開始就用「當然」開頭,表現出非常愿意配合的態度來提供犯罪策略。

這些現象表明,Gemini 2.O Flash Thinking 旨在優先提高「基于思維鏈的指令跟隨」能力,而安全對齊(safety alignment)的優先級則被嚴重削弱,一旦遭遇 H-CoT 攻擊便易受操控。

圖片

四、未來的大型推理模型安全展望

作者希望通過本研究能夠拋磚引玉,引起更多研究者對當前大型推理模型安全性的關注。尤其對「展示安全推理思維鏈」這一特性,作者強烈呼吁在實際應用中應適當隱藏或模糊化處理,以免攻擊者據此研究或利用安全審查機制,從而輕易突破防線。

同時作者會逐步開源針對不同模型與不同問題場景所收集的 H-CoT 攻擊樣本。鑒于模型將不斷迭代更新,作者歡迎世界各地的研究者和開發者對最新版本模型(比如 deepseek-R2,比如后續的 o1/o3 模型更新,比如 Grok3,Claude 3.7 Sonnet)進行測試,驗證既有 H-CoT 攻擊所用的「偽造思維鏈」是否仍然奏效;

同時,作者也鼓勵更多人能參與到貢獻「惡意教育者」這個測試基準集中來,幫助完善并豐富該基準。詳細信息可參考網站與開源倉庫。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-18 08:15:03

2025-11-21 08:29:14

2024-09-24 11:01:03

2025-02-08 14:03:25

2024-11-07 15:40:00

2025-02-03 14:17:27

2025-02-03 14:06:32

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-04-29 09:06:00

2025-01-23 14:53:15

2025-04-22 09:12:00

AI模型數據

2024-12-23 07:40:00

AI模型數學

2024-11-29 13:57:38

2024-09-13 06:32:25

2025-01-23 10:45:52

2024-10-05 00:00:00

2025-04-07 05:00:00

2011-11-01 12:07:23

2024-11-25 15:50:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

免费日韩av片| 岛国成人av| 成人欧美一区二区三区小说 | 久久亚洲成人av| 蜜桃一区av| 欧美午夜精品理论片a级按摩| 中文字幕日韩精品久久| 天堂网在线播放| 蜜桃视频在线观看一区二区| 欧美激情极品视频| 亚洲av成人无码久久精品 | 国产精品久久精品国产| 销魂美女一区二区| 激情文学一区| 久久五月天色综合| xxxxx在线观看| 超碰97久久国产精品牛牛| 在线观看亚洲一区| 男人添女人荫蒂免费视频| av播放在线观看| 成人午夜视频免费看| 国产精品无av码在线观看| 日韩特黄一级片| 亚洲蜜桃视频| 中文字幕欧美日韩va免费视频| 性欧美18—19sex性高清| 四虎在线精品| 欧美性猛交xxxx乱大交退制版| 日韩极品视频在线观看| 看黄网站在线| 国产欧美精品一区二区三区四区| 国产伦精品一区二区三区视频黑人| 又色又爽又黄无遮挡的免费视频| 一本一本久久| 午夜欧美不卡精品aaaaa| 无码黑人精品一区二区| 色喇叭免费久久综合网| 在线a欧美视频| 国产成人精品无码免费看夜聊软件| 久久动漫网址| 亚洲成在人线av| 无码国产69精品久久久久网站 | 久久一本综合频道| 欧美多人乱p欧美4p久久| 三级黄色在线观看| 色呦哟—国产精品| 一区二区三区视频免费在线观看| 日韩一级视频在线观看| 色婷婷狠狠五月综合天色拍 | 亚洲天堂男人| 久久99热精品这里久久精品| 少妇被躁爽到高潮无码文| 亚洲第一偷拍| zzjj国产精品一区二区| 欧美a级片免费看| 日韩一区二区在线| 久久久国产精彩视频美女艺术照福利| 波多野结衣欲乱| 性欧美69xoxoxoxo| 欧美精品做受xxx性少妇| 九九九在线视频| 黑丝一区二区| 亚洲 日韩 国产第一| 欧美亚韩一区二区三区| 亚洲女同在线| 国产精品久久久久久久久借妻| 中文字幕网址在线| 国产在线视频一区二区三区| 97伦理在线四区| 天堂在线资源库| 久久久精品中文字幕麻豆发布| 日本高清一区| 国产美女在线观看| 亚洲一区二区成人在线观看| 国产原创popny丨九色| 不卡一二三区| 欧美日韩国产大片| 老司机av网站| 日韩中出av| 日韩在线观看免费高清完整版| 精品国产乱码久久久久久鸭王1 | 亚洲自拍偷拍综合| 国产h视频在线播放| 精品欧美一区二区三区在线观看| 欧美日本国产视频| 丰满岳乱妇一区二区| 红桃成人av在线播放| 久久av中文字幕| 国产精品美女久久久久av爽| 免费人成网站在线观看欧美高清| 亚洲va欧美va在线观看| 五月婷婷六月丁香| 国产精品每日更新| av免费看网址| 成人在线不卡| 日韩av有码在线| 日本不卡一区视频| 日韩一级欧洲| 成人国产精品日本在线| 手机亚洲第一页| 亚洲欧美综合另类在线卡通| 欧美视频在线播放一区| 亚洲精品777| 亚洲欧美日韩视频一区| 美女福利视频在线观看| 日本不卡在线视频| 国产嫩草一区二区三区在线观看| 日本成人网址| 日韩欧美亚洲一二三区| 国产调教打屁股xxxx网站| 成人高清电影网站| 久久琪琪电影院| 国产日韩精品suv| 国产日韩三级在线| 波多野结衣乳巨码无在线| 99国内精品久久久久| 亚洲人成绝费网站色www | 欧美日韩一区二区在线观看视频 | 国产毛片毛片毛片毛片| 国产日韩亚洲欧美综合| 国产肥臀一区二区福利视频| 试看120秒一区二区三区| 丝袜美腿精品国产二区| www.中文字幕在线观看| 国产mv日韩mv欧美| 97超碰人人爱| 日韩成人综合网站| 一个人www欧美| 少妇高潮av久久久久久| 不卡的av网站| 成年人午夜免费视频| 伊人久久影院| 欧美精品一区三区| 99久久久久成人国产免费| 国产精品美女久久久久久2018| 国产成人手机视频| 国产一区网站| 国产精品久久久久久久久久久久久久 | 成人免费视频视频在线观看免费| 免费成人进口网站| 国产在线不卡一区二区三区| 日韩最新中文字幕电影免费看| 成人午夜精品视频| 国产欧美精品国产国产专区| 成人在线观看黄| 国产精品片aa在线观看| 国产成人一区二区三区电影| 国产高清视频在线观看| 欧美综合在线视频| 精品人妻中文无码av在线 | 国产精品爽爽爽| 在线看av的网址| 欧美日韩国产影片| 午夜69成人做爰视频| 国产成人av网站| 青青草精品视频在线| 日韩美女毛片| 国产精品99免视看9| 色综合久久影院| 91精品国产综合久久福利软件| 成人自拍小视频| 成人国产视频在线观看| 国产成人无码精品久久久性色| 精品一区免费| 国产日韩欧美日韩| 日韩激情美女| 日韩禁在线播放| 夜夜躁日日躁狠狠久久av| 亚洲丝袜精品丝袜在线| 国产一精品一aⅴ一免费| 99热这里只有成人精品国产| 日韩高清国产精品| 超碰国产精品一区二页| 欧美日本精品在线| 日本ー区在线视频| 欧美日韩成人综合天天影院| 久久久久噜噜噜亚洲熟女综合| 成人av午夜电影| 日本美女高潮视频| 午夜视频精品| 欧美日韩一区二区三| 欧美高清你懂的| 久久久久亚洲精品| 成人性生交大片免费看午夜| 欧美二区三区的天堂| 日本少妇在线观看| 国产精品国产三级国产专播品爱网 | 日韩人妻一区二区三区蜜桃视频| 国产精品三p一区二区| 国产成人精品一区二区| 日本一本在线免费福利| 亚洲欧美制服中文字幕| 精品人妻一区二区三区含羞草 | 日韩手机在线| 国产精品视频自在线| 国产黄大片在线观看| 色综合亚洲精品激情狠狠| 日本黄色三级视频| 欧美日韩精品专区| 国产精品第9页| 亚洲色图一区二区| 久久久久久久久久久久| 成人一道本在线| 99热这里只有精品在线播放| 亚洲激情专区| 日韩精品一区二区三区电影| 久久99高清| 国产精品免费视频一区二区| 亚洲视频资源| 国产成人精品国内自产拍免费看| 亚洲小说区图片| 最新日韩中文字幕| 精彩国产在线| 精品国产伦一区二区三区观看体验| 夜夜骚av一区二区三区| 欧美色播在线播放| 日干夜干天天干| 亚洲午夜久久久久久久久电影网 | 成人黄在线观看| 精品3atv在线视频| 97色在线视频观看| av电影免费在线观看| 尤物九九久久国产精品的特点| 亚洲aaaaaaa| 亚洲国产成人精品久久| 国产不卡精品视频| 欧美日韩大陆在线| 中文字幕视频二区| 欧美揉bbbbb揉bbbbb| 日韩电影在线观看一区二区| 无码av中文一区二区三区桃花岛| 欧美日韩国产精品综合| 亚洲免费观看视频| 中国毛片直接看| 亚洲三级在线免费| 午夜精品久久久久99蜜桃最新版| 日本一区二区三区在线观看| 亚洲av成人无码久久精品| 国产欧美一区二区三区在线老狼 | 免费国产羞羞网站视频| 欧美videos大乳护士334| 国产wwwxxx| 91精品国产综合久久小美女| 国产精品一品二区三区的使用体验| 欧美精品99久久久**| 国产又粗又猛又爽又黄视频| 欧美老年两性高潮| 国产日本精品视频| 日韩精品一区二区三区四区视频| 99热这里只有精品1| 日韩视频不卡中文| 成人毛片在线免费观看| 精品91自产拍在线观看一区| 日批视频在线播放| 亚洲人精品午夜在线观看| 黄色网址在线播放| 日韩天堂在线视频| 国产精品刘玥久久一区| 欧美激情按摩在线| 日本а中文在线天堂| 国产91色在线免费| 日韩黄色三级在线观看| 91亚洲国产成人精品性色| 清纯唯美激情亚洲| 国产在线一区二区三区欧美| 亚洲妇女av| 亚洲va韩国va欧美va精四季| 天堂网在线观看国产精品| av动漫在线播放| 国产欧美日韩一级| 91国产精品视频在线观看| 久久精品99久久久| 四虎永久免费观看| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 国产视频网站一区二区三区| 国产福利久久| 亚洲人成亚洲精品| 亚洲一区二区三区乱码| 欧美1区视频| 91免费视频网站在线观看| 美女任你摸久久| 在线xxxxx| 国产天堂亚洲国产碰碰| 四虎永久免费在线| 狠狠色香婷婷久久亚洲精品| 91在线你懂的| 日韩黄色在线免费观看| 免费av毛片在线看| 777午夜精品福利在线观看| 成人在线免费av| 精品国产乱码久久久久久久软件 | 亚洲国产欧美国产第一区| 欧美一区二区在线视频观看| 欧美影院一区| 久久久久国产精品熟女影院| 国产成人精品免费一区二区| 性猛交ⅹxxx富婆video| 亚洲国产视频一区二区| 中文字幕av免费观看| 日韩av一区二区在线观看| 国产黄大片在线观看画质优化| 91成人国产在线观看| 日韩三级久久| 亚洲国产激情一区二区三区| 国产精品婷婷| 在线成人精品视频| 中文字幕一区二区视频| 中文字幕在线播| 日韩成人av网址| 超碰人人在线| 国产日本欧美一区二区三区在线| 亚洲宅男网av| 国产美女在线一区| 国产成人在线电影| 999精品在线视频| 欧美午夜精品久久久久久超碰 | 国产亚洲精品超碰| 国产女同在线观看| 精品嫩草影院久久| a免费在线观看| 国产欧美日韩视频| 久久性感美女视频| 亚洲欧美激情网| 欧美经典三级视频一区二区三区| 9i看片成人免费看片| 日韩电影网在线| 精精国产xxx在线视频app| 91成人免费在线观看| 亚洲深深色噜噜狠狠爱网站| 午夜免费看视频| 成人免费在线视频| 一级特黄aaa大片在线观看| 揄拍成人国产精品视频| 亚洲精品.com| 水蜜桃亚洲一二三四在线| 欧美aa在线视频| 国产wwwwxxxx| 欧美日韩不卡在线| 欧美日韩xx| 亚洲va电影大全| 欧美久久九九| 黄色av电影网站| 午夜精品久久久久久久久| 天堂中文在线官网| 欧美最猛性xxxx| 久久99国产精品视频| 青青在线免费观看视频| 欧美国产精品v| 国产精品久久久久久免费播放| 日韩在线视频国产| 日本精品视频| av在线观看地址| 久久综合久色欧美综合狠狠| 天天操天天干天天摸| 在线播放日韩av| 综合久久伊人| 狠狠精品干练久久久无码中文字幕| 国产不卡一区视频| 日韩欧美不卡视频| 在线播放亚洲激情| 国产欧美日韩电影| 亚洲国产精品成人天堂| 26uuu亚洲综合色| 在线不卡免费视频| 欧美激情视频网站| 免费国产自久久久久三四区久久| 国产天堂在线播放| 亚洲精品高清在线观看| 天天综合天天综合| 国产精品成人免费电影| 在线精品视频在线观看高清| 手机免费看av片| 欧美日韩在线观看一区二区| 午夜dj在线观看高清视频完整版| 久久99久久99精品蜜柚传媒| 日韩成人av影视| 国产亚洲欧美精品久久久久久| 亚洲国产精品久久91精品| 欧美日韩在线精品一区二区三区激情综合| 视频一区二区视频| 91香蕉视频mp4| 91欧美日韩麻豆精品| 97精品在线视频| 欧美freesextv| 亚洲制服丝袜在线播放| 欧美日本乱大交xxxxx| 国内激情视频在线观看| 一区二区av| 91麻豆国产精品久久| 国产乱码久久久久| 欧亚精品中文字幕| 欧美激情第8页| 欧美午夜激情影院| 亚洲国产小视频在线观看| 色综合视频一区二区三区44| 九色在线视频观看| 一区二区三区在线视频播放| 可以在线观看的黄色| 国产精品自拍首页| 狠狠色综合日日|