精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

南洋理工揭露AI「運行安全」的全線崩潰,簡單偽裝即可騙過所有模型

人工智能 新聞
來自南洋理工大學等機構的研究者們首先提出了一個開創性的概念 --- 運行安全(Operational Safety),旨在徹底重塑我們對 AI 在特定場景下安全邊界的認知。

本文的第一作者雷京迪是南洋理工大學博士生,其研究聚焦于大語言模型,尤其關注模型推理、后訓練與對齊等方向。通訊作者 Soujanya Poria 為南洋理工大學電氣與電子工程學院副教授。論文的其他合作者來自 Walled AI Labs、新加坡資訊通信媒體發展局 (IMDA) 以及 Lambda Labs。

當我們談論 AI 安全的問題時,我們到底在談論什么?

是暴力,偏見還是倫理問題?這些固然重要,但是對于將 AI 投入實際業務的企業而言,一個更致命但卻長期被忽視的一條安全紅線正在被頻繁觸碰:你精心打造的「法律咨詢」聊天機器人,正在熱情地為用戶提供醫療建議。

這僅僅是模型跑題了而已嗎?不,這就是一種不安全。

在這篇文章中,來自南洋理工大學等機構的研究者們首先提出了一個開創性的概念 --- 運行安全(Operational Safety),旨在徹底重塑我們對 AI 在特定場景下安全邊界的認知。

  • 論文標題:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 論文地址:https://arxiv.org/pdf/2509.26495
  • 論文代碼:https://github.com/declare-lab/OffTopicEval
  • 評測數據集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心觀點振聾發聵:當 AI 超出其預設的職責邊界時,其行為本身,就是一種不安全。

這篇論文的根本性貢獻,是將 AI 安全討論從傳統的「內容過濾」提升到了「職責忠誠度」的全新維度。一個無法嚴守自身崗位職責的 AI,無論其輸出的內容多么 「干凈」,在應用中都是一個巨大的、不可控的風險,運行安全應該作為通用安全的一個必要不充分條件而存在。

OffTopicEval: 衡量「運行安全」的第一把標尺

為了將這一全新的概念付諸實踐并量化風險,團隊開發了首個針對運行安全的評測基準 ---OffTopicEval,它不關心模型知道多少或者能力有多么強大,而是關心模型是否能懂得在恰當的時候說不。

他們構建了 21 個不同場景下的聊天機器人,并嚴格設定其職責與邊界,然后精心構建了 direct out of domain (OOD) question test (非常顯然的領域外問題),adaptive OOD question (偽裝成領域內而實際為領域外問題,人類可以非常輕易的判斷出來) 以及為了衡量模型是否能夠恰當的拒絕而非一味的拒絕而設計的領域內問題,總體包括 21 萬 + 條 OOD 數據,3000 + 條領域內數據,涵蓋英語,中文,印地語三種完全不同語法結構的語系。

用評測揭露殘酷的現實

通過對 GPT、LLama、Qwen 等六大主流模型家族的測試,評測結果揭示了一個令人警醒的問題:在「運行安全」這門必修課上,幾乎所有模型都不及格。如:

  • 偽裝之下不堪一擊:面對經過簡單偽裝的越界問題,模型的防御能力幾乎快要崩潰,所有模型對于 OOD 問題的平均拒絕率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒絕率降幅甚至超過了 70%。
  • 跨語言的缺陷:這個問題對于不同的語言仍然存在,說明這是當前大模型的一個根本缺陷。

他們還發現,當模型經歷一次欺騙過后,它似乎放棄了所有抵抗,即使對于簡單的 OOD 問題的拒絕率也會下降 50% 以上!

簡單來說,你認真訓練的一個銀行客服機器人,只要用戶換個問法,它就開始提供投資建議,并樂在其中,這在要求嚴格的行業里將是不可想象的潛在威脅。

重新找回 AI 的職業操守

這篇論文不僅在于揭示這樣一個問題,更提供了切實可行的解決思路和他們失敗的經驗嘗試,他們嘗試了 prompt-based steering(提示詞轉向)、activation steering(激活轉向)以及 parameter steering(參數轉向)的方式,其中 activation steering 和 parameter steering 的方式均難以提升模型堅守能力。

而在 prompt-based steering 中,他們提出了兩種輕量級的,無需重新訓練的兩種提示方式:

  1. P-ground: 在用戶提出問題后追加指令告訴模型,強制它先忘掉問題聚焦于系統提示詞再做回答。
  2. Q-ground: 讓模型將用戶的問題重寫成最核心、最精簡的形式,然后基于這樣一個問題進行回應。

他們在實驗中基于這兩種思路寫了非常簡單的提示詞,效果卻立竿見影,P-ground 方法讓 Llama-3.3 (70B) 的操作安全評分飆升了 41%,Qwen-3 (30B) 也提升了 27%。這證明,用輕量級的方法就能顯著增強模型的「職業操守」。

總結

這篇論文首次將跑題的問題從大眾所認知的簡單的功能缺陷提升到了安全的戰略高度,它向整個行業發出了一個明確的信號:

  1. AI 安全不止是內容安全:一個不能嚴守邊界的 AI,在商業上是不可靠、不安全的。
  2. 「越界」本身就是風險:我們必須建立新的評測和對齊范式,來獎勵那些懂得自身局限性、敢于拒絕越界請求的模型。
  3. 運行安全是部署前提:對于所有希望將 AI 代理用于嚴肅場景的開發者而言,運行安全將成為部署前必須通過的上崗測試。

從這個角度來看,這篇論文不僅僅是提出了一個評測工具,它更像是一份宣言,呼吁整個社區重新審視和定義面向實際應用的 AI 安全,確保我們構建的不僅是強大的 AI,更是值得信賴、恪盡職守的 AI。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-01-18 09:33:00

2020-12-16 10:49:56

谷歌系統系統癱瘓

2025-05-29 03:25:00

2025-07-22 10:45:55

2023-11-07 07:00:37

2025-11-03 09:13:00

2025-04-03 00:10:11

DockerAI模型

2023-07-21 14:47:24

AI訓練

2020-09-17 20:19:35

人工智能機器學習技術

2011-06-09 11:02:22

Sun甲骨文服務器

2021-04-01 10:00:34

AI 數據人工智能

2025-11-20 08:45:00

2023-12-03 08:46:20

模型開源

2023-03-29 14:55:59

技術作圖

2018-04-30 18:16:32

Windows安全 代碼

2023-11-13 10:47:05

2025-06-03 08:20:00

2024-01-26 10:19:00

AI模型

2023-11-09 11:03:15

ChatGPTOpenAI

2024-12-20 08:00:00

點贊
收藏

51CTO技術棧公眾號

日韩电影免费观看中文字幕| 中文字幕在线免费不卡| 欧美激情综合色| 香蕉视频污视频| 麻豆蜜桃在线观看| 久久久久久久电影| 91精品在线看| 日韩女优在线观看| 国产精品一线天粉嫩av| 欧美三级韩国三级日本三斤| 欧美一级黄色录像片| 亚洲国产www| 久久电影一区| 精品国模在线视频| 波多野结衣办公室双飞| 小黄鸭精品aⅴ导航网站入口| 国产精品色呦呦| 99热最新在线| 国产三级理论片| 亚洲香蕉网站| 在线观看久久久久久| 日本高清免费观看| 欧美xx视频| 亚洲精品久久久蜜桃| 久久久久久久久一区二区| 这里只有精品国产| 亚洲久久一区| 久久精品中文字幕一区| 少妇按摩一区二区三区| 精品三级久久久| 色八戒一区二区三区| 超碰人人爱人人| 国产69久久| 国产呦精品一区二区三区网站| 性欧美xxxx视频在线观看| 亚洲v国产v欧美v久久久久久| 日韩精品成人在线观看| 欧美日韩一区二区三区在线看| 精品无码一区二区三区在线| 国产精品扒开做爽爽爽的视频| 久久精品免费在线观看| 国产美女99p| aaa一区二区三区| 麻豆成人久久精品二区三区小说| 91精品国产成人www| 性色av无码久久一区二区三区| 国产免费久久| 亚洲第一福利网站| 韩国三级与黑人| 日本久久二区| 欧美综合色免费| 97成人在线观看视频| 青草在线视频在线观看| 亚洲色图欧美在线| 中文字幕一区二区三区精彩视频| 国产小视频免费在线网址| 91亚洲男人天堂| 国产一区二区高清不卡| 丰满人妻熟女aⅴ一区| 国产中文一区二区三区| 成人国产在线视频| 国产美女主播在线观看| 激情久久久久久久久久久久久久久久| 国产精品视频自在线| 中文字幕精品一区二| 喷水一区二区三区| 国产精品视频精品视频| 一区二区视频网站| 美国欧美日韩国产在线播放 | 嗯~啊~轻一点视频日本在线观看| 综合欧美亚洲日本| 日本老太婆做爰视频| av文字幕在线观看| 一区二区三区影院| 欧美狂野激情性xxxx在线观| 黑人玩欧美人三根一起进| 亚洲一区精品在线| 日韩av一二三四区| 亚洲播播91| 欧美网站一区二区| 捷克做爰xxxⅹ性视频| 精品一区二区三区中文字幕视频| 日韩视频一区二区在线观看| 国产女人18毛片水真多18| 久久精品国产亚洲blacked| 亚洲摸下面视频| 激情无码人妻又粗又大| 亚洲一区二区| 午夜伦理精品一区| 亚洲av无码乱码国产精品fc2| 久久aⅴ国产欧美74aaa| 成人欧美一区二区| 青草久久伊人| 国产精品福利影院| 日韩成人三级视频| 老司机2019福利精品视频导航| 欧美在线一二三四区| √天堂资源在线| 国产劲爆久久| 伊人一区二区三区久久精品| 免费国产羞羞网站美图| 亚洲每日在线| 国产日韩欧美电影在线观看| 蜜臀av在线观看| 国产亚洲婷婷免费| 肉大捧一出免费观看网站在线播放| 国产一线二线在线观看| 在线看日本不卡| 美女伦理水蜜桃4| 欧美日韩老妇| 久久69精品久久久久久国产越南| 精品人妻一区二区色欲产成人| 久久99精品久久久久婷婷| 精品国产一区二区三区麻豆小说| 91亚洲欧美| 欧美日韩亚洲视频一区| 亚洲天堂网站在线| 国产精品一区二区99| 欧美日韩国产成人高清视频| 四虎影院在线免费播放| 成人av资源网站| 四虎永久国产精品| 阿v视频在线观看| 欧美一区二区视频网站| www.av天天| 影音先锋久久久| 亚洲一区二区日本| a√在线中文网新版址在线| 午夜精品影院在线观看| 激情久久综合网| 狠狠色狠狠色综合婷婷tag| 欧美激情小视频| 国产精品九九九九| 国产女人aaa级久久久级| 国产人妻777人伦精品hd| 美女国产精品久久久| 在线播放国产一区二区三区| 国产综合精品视频| 99久久久无码国产精品| 成人黄色片免费| 亚洲青青一区| www.欧美三级电影.com| 日韩国产亚洲欧美| 久久久久久久电影| 日本三级免费网站| 农村少妇一区二区三区四区五区 | 蜜桃免费在线| 精品久久中文字幕| 亚洲美女精品视频| 欧美精品三区| 97人人模人人爽视频一区二区| 99reav在线| 在线精品视频免费观看| 新91视频在线观看| 免费日韩一区二区| 久久精品国产精品青草色艺| 99re6在线精品视频免费播放| 精品国产一二三| 国产大片中文字幕在线观看| 高清日韩电视剧大全免费| 99久久久精品视频| 91精品丝袜国产高跟在线| 欧美精品免费在线观看| 国产成人精品毛片| 亚洲永久精品大片| 国产成人av片| 亚洲经典自拍| 免费在线观看91| 小黄鸭精品aⅴ导航网站入口| 国产小视频91| 人妻中文字幕一区二区三区| 国产精品免费人成网站| 日本黄色的视频| 亚洲激情久久| 国产日韩欧美一区二区| 特黄毛片在线观看| 一区二区在线视频| 91成年人视频| 亚洲精品高清视频在线观看| youjizz.com国产| 欧美一区=区| 亚洲国产欧美日韩| 久久99成人| 国内自拍欧美激情| 北岛玲日韩精品一区二区三区| 精品视频一区 二区 三区| 黄色录像一级片| 国产+成+人+亚洲欧洲自线| av在线播放亚洲| 精品久久久久久久久久久aⅴ| 国产欧美日韩高清| 羞羞网站在线看| 日韩成人高清在线| 中文字幕+乱码+中文乱码www| 日韩毛片高清在线播放| 怡红院一区二区| 日韩不卡一区二区| 久久久天堂国产精品| 日韩欧美在线精品| 成人av在线亚洲| 国产色播av在线| 最新国产精品亚洲| 成人免费公开视频| 欧美午夜电影在线播放| 精品深夜av无码一区二区老年| 久久精品一区二区三区av| 一卡二卡三卡四卡五卡| 久久亚洲风情| 黄色成人在线免费观看| 国产欧美久久一区二区三区| av一区二区三区免费| 亚洲不卡系列| 97在线视频精品| 免费观看在线午夜影视| 亚洲精品成人久久| 国产精品玖玖玖| 一本一本大道香蕉久在线精品| 九九热只有精品| 国产欧美1区2区3区| 亚洲一区二区三区四区av| 精品一区二区三区免费播放| 久久久999视频| 午夜激情一区| 亚洲日本无吗高清不卡| 亚洲福利网站| 国产精品有限公司| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 亚洲精品久久在线| 国产色综合视频| 欧美色爱综合网| 九九热精品视频在线| 一区二区三区产品免费精品久久75 | 8av国产精品爽爽ⅴa在线观看| 午夜免费日韩视频| 国精一区二区三区| 欧美另类交人妖| 久草资源在线| 色偷偷综合社区| 国产黄在线看| 亚洲美女免费精品视频在线观看| 婷婷在线免费观看| 欧美一级艳片视频免费观看| 国产精品乱码一区二区| 欧美色图免费看| 波多野结衣家庭主妇| 欧美性猛交xxxx乱大交极品| 精品91久久久| 午夜精品久久久久久久99水蜜桃 | 午夜啪啪小视频| 欧美96一区二区免费视频| 久久综合久久色| 久久亚洲色图| 午夜精品久久久内射近拍高清| 国产一区导航| 国产美女三级视频| 免费日韩av| 人人爽人人av| 麻豆精品精品国产自在97香蕉| 中文字幕国内自拍| 免费成人在线网站| 香蕉视频999| 国内一区二区视频| 亚洲911精品成人18网站| 国产乱子伦视频一区二区三区| 天天色天天干天天色| 国产成人在线观看免费网站| 无码人妻丰满熟妇区毛片蜜桃精品 | 免费看日本黄色| 极品日韩av| 久久婷婷五月综合色国产香蕉| 视频在线观看国产精品| 蜜臀av免费观看| 国产专区综合网| 成人啪啪18免费游戏链接| caoporn国产精品| 久久丫精品国产亚洲av不卡| 日本一区二区成人| 亚洲天堂网av在线| 亚洲妇女屁股眼交7| 五月婷婷色丁香| 欧美日韩国产免费一区二区| 国产精品国产av| 亚洲国产日韩欧美在线动漫| 黄色av免费在线看| 久久精品男人天堂| 国产乱码精品一区二三赶尸艳谈| 青青草成人在线| 91成人app| 国外成人在线视频网站| 精品高清在线| 真人做人试看60分钟免费| 国产欧美日韩亚洲一区二区三区| 欧美日韩亚洲自拍| 国产大陆精品国产| 亚洲精品成人无码| 亚洲视频一二三| 久久久久亚洲av成人毛片韩| 欧美女孩性生活视频| 视频一区 中文字幕| 综合欧美国产视频二区| 免费在线观看的电影网站| 中文字幕日韩在线观看| caoprom在线| 国产美女直播视频一区| 第一区第二区在线| 亚洲自拍的二区三区| 亚洲精品影视| 午夜精品免费看| 久久香蕉国产线看观看99| 免费在线观看一级片| 欧美在线视频你懂得| 五月天丁香视频| 久久亚洲精品国产亚洲老地址| 在线最新版中文在线| 91视频网页| 日韩欧美综合| 青青草原av在线播放| 国产成人欧美日韩在线电影| 国产午夜精品久久久久久久久| 午夜精品成人在线视频| 国产乱人乱偷精品视频| 亚洲一区av在线播放| 国产v日韩v欧美v| 91最新国产视频| 日韩欧美一区二区三区免费看| 成人一对一视频| 岛国一区二区在线观看| 五月天婷婷丁香网| 色婷婷久久一区二区三区麻豆| 女人18毛片一区二区三区| 精品国产一区二区三区久久久狼| 亚洲成人看片| 久久国产精品免费一区| 国内精品久久久久久久影视麻豆 | 午夜精品亚洲一区二区三区嫩草| 亚洲国产99| 黄色av电影网站| 亚洲一区二区美女| 99久久国产免费| 久久久精品在线| 日韩国产大片| 亚洲欧美日韩综合一区| 日韩国产欧美一区二区三区| 泷泽萝拉在线播放| 欧美日韩在线视频首页| 色一情一乱一区二区三区| 久久久久久成人| 国产欧美88| 男女爱爱视频网站| 国产黄色成人av| 一区二区国产精品精华液| 欧美精品三级在线观看| 久久77777| 91亚色免费| 影音先锋亚洲精品| 日韩成人av一区二区| 偷拍亚洲欧洲综合| 日本一区视频| 国产精品69av| 爽成人777777婷婷| www.污网站| 一区二区三区加勒比av| 亚洲黄色在线观看视频| 久久久久久九九九| 老司机在线精品视频| 人人妻人人添人人爽欧美一区| 91麻豆文化传媒在线观看| 亚洲成人av影片| 日韩中文字幕亚洲| 日韩一区二区三区精品视频第3页| 日本一级黄视频| 97精品久久久久中文字幕| 亚洲 欧美 中文字幕| 中文字幕成人精品久久不卡| 四虎国产精品免费久久5151| 日本一二三区视频在线| 成人午夜私人影院| 精品人妻一区二区色欲产成人| 中文字幕精品av| 亚洲国产中文在线| 国产主播在线看| 国产精品二三区| 动漫av一区二区三区| 琪琪第一精品导航| 五月综合激情| 东京热av一区| 在线视频亚洲一区| 伊人222成人综合网| 久久一区二区三区av| 免费av成人在线| 久久久久久久久久久久久久免费看| 亚洲精品美女在线观看播放| 国产成人午夜性a一级毛片| 亚洲成人动漫在线| 91小视频在线| 国产精品无码白浆高潮| 51午夜精品视频| 一区二区三区在线电影| 欧美一区二区三区成人精品| 欧美日韩国产天堂|