精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

人工智能 新聞
安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。

多模態大模型崛起,安全問題緊隨其后

近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應對這一挑戰,已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數”:越獄時隱藏狀態在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發現是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態的 “危險感知” 機制是有區分的。

論文已被 ACL2025 main conference 收錄。

圖片

  • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態大模型的安全感知

圖片

圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

首先,研究者從模型拒絕回答不安全輸入的響應中,統計出一組高頻出現的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。

圖片

實驗結果顯示,F 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F 的整體數值普遍較低;而對于不安全輸入,F 通常在中間層逐步升高至峰值,隨后在最后幾層出現明顯回落。此外,無論輸入是否安全,F 在最后一層的數值仍普遍高于倒數第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。

圖片

如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。

圖片

圖片

圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

模態不同,響應路徑也不同

如圖 3 所示,兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。

圖片

圖 3:純文本樣本和跨模態樣本的 FDV 曲線。

實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發現,僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。

圖片

進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。

圖片

實驗結果

研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。

圖片

可視化

圖片

圖 4:每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

結論與展望

安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態信息與模型安全性的內在關聯,推動多模態大模型朝著更可靠、更可控的方向發展。

作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創新。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-17 16:02:00

2025-01-08 08:21:16

2023-12-28 17:31:44

PixelLM性能模型

2025-09-08 08:50:00

AI模型訓練

2025-04-07 00:00:00

多模態大模型

2024-12-12 00:25:09

2025-09-16 09:35:52

2025-10-16 09:00:00

2023-07-04 10:11:28

數據模型

2023-11-29 15:00:00

數據訓練

2024-12-30 00:01:00

多模態大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2024-03-25 12:30:18

AI訓練開源

2023-11-20 08:52:46

模型訓練

2024-11-11 15:11:23

2024-06-03 06:49:53

點贊
收藏

51CTO技術棧公眾號

日韩精彩视频| 国产91精品高潮白浆喷水| 91av资源网| 免费在线看v| 国内精品自线一区二区三区视频| 日韩精品一区二区三区在线观看| 欧美日韩在线一二三| 欧美亚洲另类小说| 亚洲精品a级片| 亚洲精品理论电影| 污污网站在线观看视频| 华人av在线| 亚洲天堂免费看| 免费成人看片网址| 亚洲av色香蕉一区二区三区| 巨乳诱惑日韩免费av| 美女福利视频一区| 99久久精品免费视频| 中文字幕一区二区三区中文字幕| 亚洲免费在线视频一区 二区| 国产精品久久久久秋霞鲁丝| 欧美成人精品欧美一级私黄| 精品一区二区三区中文字幕老牛| 亚洲一区在线观看网站| 久久久一本精品99久久精品66| 国产精品6666| 99热在线成人| 国产亚洲xxx| 久久人妻少妇嫩草av蜜桃| 成人国产一区二区三区精品麻豆| 国产无一区二区| 国产不卡一区二区三区在线观看| 久久午夜无码鲁丝片午夜精品| 国产美女精品视频免费播放软件| 国产精品久久久久三级| 国产成人精品免费视频大全最热| 一区二区三区免费高清视频| 波多野结衣在线观看一区二区| 欧洲av一区二区嗯嗯嗯啊| 精品国偷自产一区二区三区| 老司机午夜在线| 国产欧美日本一区二区三区| 欧美不卡在线一区二区三区| 亚洲免费视频网| 韩国精品久久久| 国产综合视频在线观看| 国产精品777777| 亚洲三级网站| 久久久女女女女999久久| 日韩影院一区二区| 91青青国产在线观看精品| 国产亚洲一区二区在线| 亚洲最大成人网站| 蜜桃精品wwwmitaows| 亚洲精品mp4| 免费的av网站| 亚洲素人在线| 亚洲人午夜色婷婷| 亚洲AV无码国产成人久久| 日韩福利视频一区| 精品一区二区三区四区在线| 欧亚乱熟女一区二区在线| 澳门成人av| 精品电影一区二区| 日本丰满少妇裸体自慰| 欧美一级三级| 精品在线小视频| 在线观看日本中文字幕| 国产成人短视频在线观看| 亚洲摸下面视频| 中文字幕在线1| 精品大片一区二区| 日韩在线观看免费网站| 小泽玛利亚一区二区免费| 欧美国产免费| 91国语精品自产拍在线观看性色 | 400部精品国偷自产在线观看| 午夜精品久久久久久久99| 国产成人av网站| 国内成+人亚洲| 国产毛片av在线| 亚洲丝袜另类动漫二区| 欧美另类videos| 福利在线免费视频| 在线免费不卡电影| 久久久久久久久久一区| 国产乱论精品| 国产亚洲视频在线观看| 国产精品麻豆免费版现看视频| 日韩精品一级| 精品久久久久久亚洲精品| 欧美国产激情视频| 日韩成人免费av| 欧美精品一区二区蜜臀亚洲| 亚洲av无码成人精品国产| 国产一区二区三区站长工具| 久久中文字幕一区| 国产九色在线播放九色| 久久精品国产一区二区| 大波视频国产精品久久| 福利在线午夜| 亚洲一级在线观看| 少妇网站在线观看| 豆花视频一区二区| 中文字幕日韩有码| 日韩欧美123区| 午夜亚洲性色视频| 91丨九色丨国产| 国产精品久久久久一区二区国产 | 美女网站色91| av成人午夜| av电影在线观看| 亚洲午夜久久久久久久久电影网| 日产精品久久久久久久蜜臀| 久久精品女人天堂av免费观看| 欧美日韩在线一区| 91丨porny丨九色| 久久99视频| 久久久天堂国产精品女人| 在线观看免费观看在线| 91免费精品国自产拍在线不卡| 精选一区二区三区四区五区| 日韩伦理在线观看| 色偷偷一区二区三区| 亚洲精品乱码久久久久久蜜桃欧美| 狂野欧美xxxx韩国少妇| 尤物九九久久国产精品的分类| 亚洲精品国产91| 亚洲福利国产| 不卡的av一区| yellow91字幕网在线| 欧美色精品天天在线观看视频| www.涩涩涩| 九一精品国产| 欧洲精品在线视频| 人人妻人人澡人人爽精品日本| 99re这里都是精品| 久久这里只有精品18| 成人豆花视频| 综合国产在线观看| 中文字幕理论片| 久久久99久久精品欧美| 91av资源网| 亚洲精品亚洲人成在线| 97成人精品区在线播放| 日韩中文字幕影院| 亚洲综合男人的天堂| 中文字幕一二三| 欧美三级网页| 国产精品国产精品| 18aaaa精品欧美大片h| 亚洲国产欧美久久| 丰满少妇乱子伦精品看片| caoporm超碰国产精品| 男人添女荫道口图片| 国产成人澳门| 97超视频免费观看| 国产在线91| 欧美性猛交一区二区三区精品| 久久久久亚洲AV成人网人人小说| 亚洲人亚洲人色久| 7777精品久久久久久| 深夜福利视频一区| 福利视频导航一区| 欧美多人猛交狂配| 秋霞成人午夜伦在线观看| 欧美一区二区在线免费播放| aaa级精品久久久国产片| 影音先锋在线视频| 亚洲国产精品系列| 在线观看 亚洲| 国产精品无码永久免费888| 亚洲激情在线看| 亚洲一级一区| 欧美日本韩国国产| 色999韩欧美国产综合俺来也| 欧美一区二区三区免费视频| a级片在线观看免费| www.欧美亚洲| 日本人视频jizz页码69| 999久久久国产精品| 99热最新在线| 桃色一区二区| 久久久999精品视频| 可以免费观看的毛片| 一本到一区二区三区| 成人免费毛片xxx| 久久一区二区视频| 小明看看成人免费视频| 影音先锋日韩资源| 亚洲国产另类久久久精品极度| 中文在线а√天堂| 日韩中文字幕在线看| 成人av手机在线| 91国偷自产一区二区三区观看| 六十路息与子猛烈交尾| 免费成人美女在线观看.| 欧美黄网在线观看| 国产a久久精品一区二区三区| 韩国精品久久久999| 成人高潮成人免费观看| 精品欧美乱码久久久久久1区2区| 成人在线观看免费完整| 91色porny蝌蚪| 天天干天天玩天天操| 亚洲国产日韩在线| 一区二区日本伦理| 亚洲系列另类av| 97人人澡人人爽| 电影亚洲精品噜噜在线观看| 久久91精品国产91久久久| 春暖花开成人亚洲区| 亚洲福利精品在线| av天堂一区二区三区| 在线免费不卡视频| 特级西西444www大精品视频免费看 | 日韩在线观看免费网站| 视频三区在线观看| 精品少妇一区二区三区视频免付费 | 国产乱码精品| 国产自产女人91一区在线观看| 神马久久久久| 精品伦理精品一区| 在线观看免费中文字幕| 一本大道久久a久久精品综合| 亚洲一区二区自偷自拍| av资源站一区| 国产艳妇疯狂做爰视频 | 你懂的在线观看一区二区| 国产精品一区二区女厕厕| 伊人久久精品一区二区三区| 欧美激情精品在线| av免费在线观| 久久久999精品| 老司机午夜在线视频| 日韩在线小视频| 北岛玲日韩精品一区二区三区| 91精品国产福利在线观看| 一区二区三区在线免费观看视频| 亚洲丝袜制服诱惑| 貂蝉被到爽流白浆在线观看| 91麻豆免费观看| 亚洲男人在线天堂| 91亚洲精华国产精华精华液| 扒开伸进免费视频| 国产精品1区2区| 无人码人妻一区二区三区免费| 一道本一区二区| 免费在线观看亚洲视频| 99精品国产在热久久| 久久99中文字幕| 国产日韩一区二区三区在线| 人妻少妇精品久久| 亚洲区国产区| 男人天堂1024| 视频一区国产视频| 99视频在线视频| 久久精品国产77777蜜臀| 国产精品嫩草影院8vv8 | 嫩草影院国产精品| 老鸭窝一区二区久久精品| 免费成年人高清视频| 黑人精品欧美一区二区蜜桃 | 欧美在线一二三区| 日韩a级大片| 日韩av高清在线播放| 北条麻妃国产九九九精品小说 | 热re99久久精品国产66热| 极品av在线| 国产成人精品免费久久久久| 国产一级淫片a视频免费观看| 91成人午夜| 国产精品theporn88| 色综合久久中文| 亚洲 国产 欧美一区| 91精品1区| 欧美在线一区视频| 午夜在线一区二区| 国产成人黄色网址| 国产成人99久久亚洲综合精品| 冲田杏梨av在线| 亚洲美女网站| 日韩av片网站| 高清不卡一区二区在线| 香蕉网在线播放| 亚洲色图另类专区| 天天综合天天干| 欧美日韩一区高清| 亚洲av无码专区在线| 亚洲欧美国产日韩中文字幕| 免费**毛片在线| 91国内产香蕉| 精品国产乱码一区二区三区| 久久久久久久久久久一区 | 悠悠资源网亚洲青| 国产啪精品视频网站| 精品少妇一区| 亚洲精品成人自拍| 亚洲美女啪啪| 在线播放黄色av| 国产亚洲制服色| 午夜偷拍福利视频| 欧美日韩精品久久久| 手机福利在线| 欧美精品做受xxx性少妇| 奇米777日韩| 精品国产一区二区三区麻豆免费观看完整版 | 亚洲第一区第二区| 伊人免费在线| 97婷婷大伊香蕉精品视频| 亚洲国产伊人| 日韩精品极品视频在线观看免费| 国际精品欧美精品| 成年人网站国产| 精品一区二区三区在线播放视频| 亚洲欧美天堂在线| 国产欧美日韩视频一区二区 | 欧美 日韩 国产 成人 在线 91| 日韩一区和二区| 成人高潮成人免费观看| 5566日本婷婷色中文字幕97| 亚洲天堂网站| 亚洲激情图片| 性做久久久久久久| 欧美精品在线观看播放| 日本一本草久在线中文| 欧美黑人xxxx| 91成人app| 亚洲精品9999| 日本欧美在线看| 蜜桃传媒一区二区亚洲| 欧美丝袜一区二区| 无码国产精品一区二区色情男同| 亚洲精品国产美女| 免费污视频在线观看| 亚洲精品免费一区二区三区| re久久精品视频| 成人免费毛片播放| 久久久久一区二区三区四区| 国产精品777777| 亚洲久久久久久久久久| 华人av在线| 麻豆av福利av久久av| 在线视频亚洲| 在线免费观看日韩av| 图片区小说区区亚洲影院| 四虎在线视频| 日韩美女免费观看| 精品久久网站| 免费成年人高清视频| 亚洲人成亚洲人成在线观看图片| 日韩精品视频免费看| 亚洲电影第1页| 91福利在线尤物| 蜜桃导航-精品导航| 免费视频一区| 欧美巨胸大乳hitomi| 欧美日韩在线播放一区| 欧美极品视频| 99久久精品无码一区二区毛片 | 久久久亚洲综合| 亚洲大尺度在线观看| 在线看日韩欧美| 自拍偷拍亚洲图片| 精品视频在线观看一区二区| eeuss鲁片一区二区三区在线观看| 99久久精品久久亚洲精品| 4438成人网| 免费网站在线观看人| 精品一区二区视频| 美女脱光内衣内裤视频久久影院| 久久久无码人妻精品一区| 在线观看三级视频欧美| 欧美日韩在线资源| av电影成人| 久久亚洲一区| 日本福利片在线观看| 亚洲国产欧美一区二区丝袜黑人 | 在线免费一区三区| www亚洲人| 91超碰在线免费观看| 国产精品久久久久毛片大屁完整版| 又色又爽又黄18网站| 懂色av一区二区三区| 日本视频在线播放| av午夜精品一区二区三区| 中文字幕超碰在线| 亚洲午夜国产成人av电影男同| av3级在线| 日韩亚洲欧美精品| 懂色av一区二区在线播放| 天堂网一区二区| 欧美激情精品久久久久久变态| 国产一区二区三区免费在线 | 大桥未久恸哭の女教师| 日韩欧美在线视频免费观看| 九七久久人人| 欧美精品v日韩精品v国产精品| 99精品国产99久久久久久福利| 久久人妻少妇嫩草av蜜桃|