精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI越會思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%

人工智能 新聞
獨立研究者 Jianli Zhao 等人近日的一項新研究發現,通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對推理模型實現越獄攻擊。

思維鏈很有用,能讓模型具備更強大的推理能力,同時也能提升模型的拒絕能力(refusal),進而增強其安全性。比如,我們可以讓推理模型在思維過程中對之前的結果進行多輪反思,從而避免有害回答。

然而,反轉來了!獨立研究者 Jianli Zhao 等人近日的一項新研究發現,通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對推理模型實現越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)。

做個類比,就像你試圖繞過一個高度警惕的保安 (AI 的安全系統)。你沒有硬闖,而是遞給他一個極其復雜的 1000 塊拼圖 (良性的推理鏈),并誠懇地請他幫忙。這位推理愛好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛」轉移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時,你順口說道:「太好了,那我現在就拿走這袋黃金了」 (有害指令)。此時,他的安全防備 (拒絕信號) 已經被「拼圖」稀釋到了最低點,于是下意識地揮手讓你通過。

這聽起來很荒謬,但這正是最近一項研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執行一長串無害的推理,其內部的安全防線會被「稀釋」,從而讓后續的有害指令「趁虛而入」。

在 HarmBench 基準上,思維鏈劫持對 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達到了 99%、94%、100% 和 94%,遠遠超過以往針對推理模型的越獄方法。

  • 論文標題:Chain-of-Thought Hijacking
  • 論文地址:https://arxiv.org/abs/2510.26418

思維鏈劫持:攻擊設計

思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會在有害指令前添加一個冗長的、良性的推理前言(reasoning preface),并輔以一個最終答案提示(final-answer cue)。這種結構系統性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號,而提示則將注意力轉移到了答案區域。

為了規模化地構建攻擊,該團隊使用一個輔助 LLM 實現了一個自動化流程(Seduction),用于生成候選的推理前言并整合有害內容。

每個候選項都會通過對目標模型的評判調用(judge call)來評分,以提供如下信息:

  • 輸出是否為拒絕
  • CoT 的長度

這個黑盒反饋循環會迭代地優化提示,從而在無需訪問模型內部參數的情況下,產生有效的越獄。下圖展示了一些示例。

在 HarmBench 上的主要實驗

該團隊采用了幾種針對推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個越獄樣本的計算成本高昂,該團隊使用 HarmBench 的前 100 個樣本作為基準。

目標模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評估均在 Chao et al.(2024b)的統一評判協議下進行。該團隊報告攻擊成功率(ASR)作為評估越獄有效性的主要指標。

結果,在所有模型上,思維鏈劫持的表現都一致優于基線方法,包括在最前沿的專有系統上。這表明,擴展的推理序列可以作為一個全新的、極易被利用的攻擊面。

GPT-5-mini 上的推理投入研究

該團隊進一步在 GPT-5-mini 上,使用 50 個 HarmBench 樣本測試了思維鏈劫持在不同推理投入(reasoning-effort)設置(最小、低、高)下的表現。

有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長度是相關但又不同的控制變量。更長的推理并不保證更強的穩健性 —— 在某些情況下它反而降低了穩健性。

大型推理模型中的拒絕方向

該團隊也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個單一方向。

通過對比模型在處理有害指令與無害指令時的平均激活差異,可以計算出一個拒絕方向(refusal direction)。這個方向代表了區分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團隊轉向了一個更穩健、更復雜的推理模型 ——Qwen3-14B,該模型擁有 40 個層。

根據消融得分、轉向(steering)有效性和 KL 散度約束,該團隊在第 25 層、位置 -4 處觀察到了最強的拒絕方向。

所有評估均使用 JailbreakBench 數據集,并使用子字符串匹配和 DeepSeek-v3.1 作為評判者(judge)。

該團隊也對具體機制進行了分析。他們發現,在推理過程中,下一個 token 的激活反映了對先前所有 token 的注意力。有害意圖的 token 會放大拒絕方向的信號,而良性 token 則會削弱它。通過迫使模型生成長鏈的良性推理,有害的 token 在被關注的上下文中只占很小一部分。結果,拒絕信號被稀釋到閾值以下,導致有害的補全內容得以「蒙混過關」。

該團隊稱這種效應為拒絕稀釋(refusal dilution)。他們還在論文中進行了更進一步的細致分析,詳見原論文。

結果與討論

研究團隊的結果表明,思維鏈(CoT)推理雖然能提升模型的準確性,但同時也引入了新的安全漏洞。實驗進一步顯示,這類攻擊具有普遍性。

機制分析發現,即使在具備推理增強的模型架構中,模型的拒絕行為主要由一個低維信號(拒絕方向)控制。然而,這個信號非常脆弱:當推理鏈變長時,良性的推理內容會稀釋拒絕激活,注意力也會逐漸偏離有害 token。

因此,這一發現直接挑戰了「更多推理帶來更強穩健性」的假設。相反,延長推理鏈所帶來的額外計算可能反而加劇安全失效,尤其是在專門優化長 CoT 的模型中。由此,那些依賴淺層拒絕啟發式(shallow refusal heuristics)卻未能隨推理深度共同擴展安全機制的對齊策略,其可靠性受到質疑。

在緩解方面,研究表明僅修補提示并不足以解決問題。現有防御多局限于特定領域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身,例如跨層監控拒絕激活、抑制拒絕信號稀釋,或確保模型在長推理過程中始終關注潛在有害的文本跨度(spans)。這仍有待進一步探索。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-29 07:04:00

大模型AI訓AI人工智能

2021-01-18 11:09:42

區塊鏈比特幣工具

2025-08-06 06:00:00

AI人工智能AI安全

2024-07-25 12:35:33

2014-08-29 10:05:02

2025-02-12 10:05:00

AILLM訓練

2025-05-26 09:06:00

2018-05-13 15:56:28

工業4.0制造業物聯網

2021-04-27 22:38:41

代碼開發前端

2022-07-29 08:40:20

設計模式責任鏈場景

2018-10-09 15:21:09

路由器定期重啟

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-07-29 00:15:00

2025-05-08 06:00:00

AI幻覺AI人工智能

2021-02-22 11:00:39

機器學習人工智能AI

2025-10-16 07:42:18

2018-05-05 08:54:24

2016-03-16 09:47:55

2023-11-10 15:36:10

2025-03-10 09:15:00

點贊
收藏

51CTO技術棧公眾號

天天综合在线视频| 日韩黄色a级片| 97精品资源在线观看| 亚洲激情在线播放| 蜜桃成人在线| 国产av无码专区亚洲a∨毛片| 亚洲手机视频| 中文字幕亚洲激情| 最新日本中文字幕| 国产成人精品一区二区三区在线 | 亚洲a v网站| 日本免费一区二区三区等视频| 亚洲精品一卡二卡| 欧洲一区二区日韩在线视频观看免费 | 老妇喷水一区二区三区| 精品国产一区二区三区久久狼5月| yjizz视频| 在线视频成人| 色天使色偷偷av一区二区| 91社在线播放| 北岛玲日韩精品一区二区三区| 国产原创一区二区三区| 日韩免费av片在线观看| 免费网站观看www在线观| 欧美在线色图| 亚洲欧美国产va在线影院| 亚洲热在线视频| 99欧美精品| 欧美性xxxxxx| 2018国产在线| 日本色护士高潮视频在线观看| 国产欧美一区二区精品性色超碰| 国内一区在线| 亚洲福利在线观看视频| 久久电影网电视剧免费观看| 日本一区二区三区四区视频| 久久免费精彩视频| 亚洲精品va| 日韩最新在线视频| 性の欲びの女javhd| 欧美日韩导航| 亚洲第一天堂av| 亚洲熟女一区二区三区| 国产精品久久久久久av公交车| 欧洲日韩一区二区三区| 91看片就是不一样| 成人线上视频| 欧美午夜激情视频| 日韩a在线播放| 偷拍自拍在线看| 午夜欧美大尺度福利影院在线看| www.夜夜爱| 色帝国亚洲欧美在线| 亚洲欧美日韩国产综合在线| 亚洲国产精品毛片| 午夜精品一区| 中文字幕在线不卡| 四虎影院一区二区| 国产成人高清精品| 亚洲精品一卡二卡| 亚洲国产精品无码观看久久| av电影在线免费| 亚洲.国产.中文慕字在线| av高清在线免费观看| 成人爽a毛片免费啪啪动漫| 亚洲综合区在线| www插插插无码视频网站| 都市激情久久综合| 精品女同一区二区三区在线播放| 成人综合视频在线| 高清不卡亚洲| 欧美日韩国产a| 三年中文在线观看免费大全中国| 成人永久在线| 亚洲精品ady| 黑人巨大精品欧美| 手机亚洲手机国产手机日韩| 色婷婷**av毛片一区| 日本午夜在线观看| 影音先锋在线一区| 青青久久av北条麻妃海外网| 91视频久久久| 国产一区二区免费在线| 黑人中文字幕一区二区三区| 国产在线资源| 亚洲精品欧美综合四区| 麻豆tv在线播放| 日本.亚洲电影| 欧美一二区视频| 99久久免费看精品国产一区 | 日韩精品视频在线免费观看| brazzers精品成人一区| 性欧美欧美巨大69| 2019av中文字幕| 亚洲在线免费观看视频| av午夜精品一区二区三区| 天天综合色天天综合色hd| 麻豆网站在线观看| 福利微拍一区二区| 激情五月婷婷基地| 日韩最新在线| 欧美xxxx18性欧美| 久久影视中文字幕| 国产高清精品网站| 性刺激综合网| 多野结衣av一区| 欧美疯狂性受xxxxx喷水图片| 欧美激情 亚洲| 婷婷综合视频| 国产精品黄色av| 农村少妇久久久久久久| 国产精品久久久久一区二区三区共 | 无码精品一区二区三区在线| 国产精品久久久久一区| av网站在线观看不卡| 久久av网站| 最近2019中文免费高清视频观看www99 | 国产日韩av高清| 四虎影视在线观看2413| 亚洲精品乱码久久久久久日本蜜臀| av动漫在线看| 成人中文字幕视频| 久久夜精品香蕉| 伊人网av在线| 国产亚洲欧洲997久久综合| 日韩精品视频在线观看视频 | 国产一区自拍视频| 黄在线免费看| 欧美私人免费视频| 亚洲一级中文字幕| 在线视频观看日韩| 成人欧美视频在线| 四虎亚洲精品| 日韩欧美在线不卡| 性色av无码久久一区二区三区| 男女激情视频一区| 青娱乐一区二区| 日本不卡一二三| 日韩黄在线观看| 91美女免费看| 久久综合九色综合97_久久久| 国产视频在线观看网站| 精品中文字幕一区二区三区| 久久精品福利视频| 国产一区二区女内射| 中文欧美字幕免费| 午夜免费福利视频在线观看| 成人精品影院| 国产精品永久免费| 九七久久人人| 日韩欧美中文一区| 免费人成在线观看| av男人天堂一区| 成人免费aaa| 一本色道久久综合狠狠躁的番外| 欧美一级在线播放| 国产在线观看高清视频| 欧美三区免费完整视频在线观看| 国产91丝袜美女在线播放| 麻豆国产欧美日韩综合精品二区| 亚洲午夜在线观看| 国产麻豆一区二区三区| 欧美激情免费在线| 亚洲人成色777777老人头| 日韩欧美国产网站| av免费播放网站| 国产精品99久久久久久久vr| 久久这里只有精品8| 天天躁日日躁狠狠躁欧美| 日韩av手机在线观看| 五月香视频在线观看| 日韩视频一区二区| 免费黄色网址在线| 国产精品九色蝌蚪自拍| 亚洲熟女乱综合一区二区| 亚洲黄色在线| 亚洲国产精品一区在线观看不卡| 亚洲精品伦理| 午夜精品久久久久久久男人的天堂| 亚洲av成人精品一区二区三区在线播放 | 中文在线免费看视频| 亚洲三级电影网站| 一级特黄a大片免费| 日本女优在线视频一区二区| 91麻豆天美传媒在线| 另类ts人妖一区二区三区| 国产精品爱啪在线线免费观看| 男人和女人做事情在线视频网站免费观看 | 欧美a在线视频| 小处雏高清一区二区三区| 国产精品 日韩| 99久久伊人| 久久久久久国产精品久久| 成人在线观看一区| 日韩你懂的在线观看| 久久亚洲精品石原莉奈| 一区二区三区精品视频| 国产一二三四五区| 成人丝袜高跟foot| 香港日本韩国三级网站| 亚洲精品麻豆| 蜜桃视频成人在线观看| 亚洲春色h网| av成人午夜| 亚洲精品成a人ⅴ香蕉片| 日本在线观看天堂男亚洲| 精品国产99久久久久久| 亚洲欧美综合精品久久成人| 国产肥老妇视频| 欧美主播一区二区三区| 亚洲国产精品午夜在线观看| 国产精品乱码久久久久久| 日本japanese极品少妇| 国产大片一区二区| 国产视频1区2区3区| 国产精品综合| 欧美激情亚洲天堂| 中文字幕免费一区二区三区| 色乱码一区二区三在线看| 国内精品偷拍| 97中文在线| 3d动漫一区二区三区在线观看| 日韩免费在线视频| 三级在线观看视频| 国语自产精品视频在线看| 羞羞网站在线看| 精品国产欧美成人夜夜嗨| 国产大学生校花援交在线播放| 亚洲国产精久久久久久 | 日日骚av一区二区| 午夜av一区二区| 国产乡下妇女做爰视频| 亚洲综合免费观看高清完整版| 国产午夜手机精彩视频| 国产精品女人毛片| 国产主播av在线| 中文字幕不卡在线| www.日本高清视频| 欧美高清在线视频| 国产欧美小视频| 国产精品天美传媒沈樵| 美国黑人一级大黄| 国产精品欧美一级免费| 一级二级黄色片| 中文字幕一区二区日韩精品绯色| av免费播放网站| √…a在线天堂一区| 成人在线观看高清| 亚洲老妇xxxxxx| 久久精品免费av| 舔着乳尖日韩一区| 中文字幕超碰在线| 91精品91久久久中77777| 波多野结衣不卡| 日本一二三区不卡| 欧美日韩免费看| 日韩黄色一级视频| 在线成人免费观看| 亚洲美女福利视频| 亚洲精品乱码久久久久久按摩观| 五月婷婷六月色| 国产一区二区黄| 欧美69xxx| 国产69精品久久久久99| 一本大道色婷婷在线| 国产精品露脸自拍| www.成人在线.com| 国产三区精品| 欧美伦理在线视频| 日韩中文在线字幕| 在线日韩视频| 一级黄色香蕉视频| 激情六月婷婷久久| 最新版天堂资源在线| 久久先锋影音av鲁色资源| 人人艹在线视频| 亚洲制服欧美中文字幕中文字幕| 久久艹免费视频| 欧美视频三区在线播放| av无码精品一区二区三区宅噜噜| 亚洲电影在线观看| 在线观看h片| 欧美日韩国产91| 经典三级一区二区| 91青青草免费在线看| 亚洲肉体裸体xxxx137| 一区国产精品| 国产视频久久| 五月天视频在线观看| fc2成人免费人成在线观看播放| 亚洲天堂久久新| 亚洲精品va在线观看| 波多野结衣一区二区三区在线| 日韩久久精品一区| 高清日韩av电影| 久久久久久伊人| 久久精品97| 欧美极品一区| 欧美特黄一级| www.se五月| 久久久不卡网国产精品二区| 青青操国产视频| 欧美三级在线视频| 天天干天天色天天| 久久国产精品久久久久久久久久| 国产日韩电影| 国产精品日韩欧美一区二区三区| 日韩1区在线| 国产亚洲天堂网| 成人福利在线看| 希岛爱理中文字幕| 欧美日韩免费一区二区三区视频| 熟妇人妻一区二区三区四区| 插插插亚洲综合网| 国产精品第一| 日本高清不卡一区二区三| 99精品国产在热久久| 超碰人人cao| 18欧美亚洲精品| 精品国产青草久久久久96| 精品亚洲一区二区三区四区五区 | 亚洲资源在线观看| 国产三级小视频| 色婷婷综合成人| yiren22亚洲综合| 无遮挡亚洲一区| 久久青草久久| 真实乱视频国产免费观看| 偷窥国产亚洲免费视频| 欧美特黄一级视频| 欧美高清视频在线| 日本在线成人| 成人高清dvd| 国产999精品久久久久久绿帽| 亚洲女人久久久| 欧美日韩激情一区二区三区| 国产人成在线观看| 国产精品国产三级国产aⅴ9色| 伊人成综合网伊人222| 亚洲色成人一区二区三区小说| av不卡免费电影| 国产精品乱子伦| 亚洲欧美色婷婷| 88xx成人网| 性欧美精品一区二区三区在线播放| 日韩—二三区免费观看av| jizz中文字幕| 欧美日韩国产系列| 超碰在线观看免费| 成人高清在线观看| 日韩午夜av| 国产成人无码一区二区在线观看| 欧美日韩另类视频| 国产三级电影在线| 国产区精品视频| 欧美粗暴jizz性欧美20| 黑人玩弄人妻一区二区三区| 午夜影院久久久| 久草福利在线| 成人天堂噜噜噜| 狠狠综合久久| 日韩中文字幕电影| 欧美三级三级三级| 中文字幕资源网在线观看| 国产精品xxx在线观看www| 99亚洲精品| 久久久久久成人网| 日韩欧美视频一区| 日本黄色免费在线| 水蜜桃一区二区三区| 国产一区二区0| 日韩女同强女同hd| 中文字幕日韩欧美在线| 欧美三级一区| 欧美三级午夜理伦三级| 国产精品成人午夜| 后进极品白嫩翘臀在线视频 | 成人黄色理论片| 欧美一级视频免费看| 久久久国际精品| 国产特级黄色片| 欧洲美女免费图片一区| 91一区二区三区四区| 中文字幕无码人妻少妇免费| 欧美中文字幕不卡| 国内在线视频| 亚洲成色最大综合在线| 豆国产96在线|亚洲| 波多野结衣高清视频| 九九热精品在线| 国产成人ay| 在线观看一区二区三区四区| 色噜噜夜夜夜综合网| 一二三四区在线观看| 日韩免费电影一区二区| 岛国一区二区在线观看| 中文字幕在线日亚洲9| 97av在线视频免费播放| 久久久久亚洲| 韩国女同性做爰三级|