精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

提升大模型內在透明度:無需外部模塊實現高效監控與自發安全增強|上海AI Lab & 上交

人工智能 新聞
上海人工智能實驗室和上海交通大學的研究團隊提出創新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

大語言模型(LLM)能力提升引發對潛在風險的擔憂,洞察其內部“思維過程”、識別危險信號成AI安全核心挑戰。

當前主流用外部“黑盒”監控模塊解讀模型表征,此類方法如“隔靴搔癢”:獨立于模型,解讀邏輯不透明、結果可信度低,且對數據分布變化敏感、適應性差,難觸推理本質,無法滿足監控需求。

上海人工智能實驗室和上海交通大學的研究團隊提出創新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

該方法摒棄了復雜的外部監控模塊,通過“表征解耦”技術,直接提升大模型自身的內部透明度。

圖片

破局新思路:從外部監控轉向內在透明

其核心理念是:讓模型關于不同行為(尤其是安全與不安全行為)的內部“思維語言”(表征)在空間中清晰分離、涇渭分明。這不僅為模型監控開辟了更可靠、更簡單的途徑,還意外地提升了模型輸出的安全性。

圖片

△外部監控的瓶頸:可靠性與適應性之困

現有基于表征的監控方法,本質是在模型的輸出中依靠外部探測器打撈風險信號。這種方法面臨兩大關鍵局限:

  1. “黑盒”不可靠:探測器本身是獨立模型,其決策邏輯不透明,監控結果的解釋性和可信度難以保證。
  2. 適應性堪憂:面對新的數據分布或未知風險模式,外部探測器往往表現不佳,識別精度顯著下降。

這些局限使得監控效果不穩定,難以應對模型能力持續演進帶來的挑戰。

表征解耦手術

TELLME的核心在于對模型進行輕量級微調,其目標并非改變模型的任務能力,而是重塑其內部的表征空間結構:

1. 對比學習驅動分離:

引入對比學習損失(如InfoNCE Loss)作為核心驅動力。該損失函數促使模型將語義/風險相似的問題表征拉近聚合,同時將不同(尤其是安全與不安全)問題的表征強力推遠分離。這相當于在模型的“思維空間”中進行一場精密的“風險分區規劃”。

2. 雙重約束守護能力: 

為防止解耦過程損害模型寶貴的通用能力,TELLME設計了雙重保障。

解耦數據KL散度約束: 確保模型在用于解耦的數據上保持行為邏輯的一致性,避免“精神分裂”。

通用數據二范數約束: 牢牢錨定模型的通用知識和基礎性能,防止優化過程“跑偏”,守護模型的核心價值。

圖片

實驗驗證:透明度、監控力與安全提升

在多個安全、知識、數學場景及不同先進模型上的實驗如下:

透明度顯著提升

t-SNE可視化圖清晰顯示,不同風險/行為的表征形成了界限分明的獨立聚類,真正實現了“所思即所見”。

圖片

關鍵指標提升顯著,驗證了方法有效性。

圖片

通用能力穩固

經過TELLME優化后,模型的通用問答、知識掌握、邏輯推理等核心能力基本無損,有力證明了雙重約束設計的有效性。

圖片

簡單與可靠的模型監控

  • 解鎖高透明度監控:
    利用模型自身的高透明度,監控變得極其簡單——僅需計算問題表征與預設的安全“錨點”表征的相似度 (Self-Sim),即可達到甚至超越復雜外部監控器的準確率!相較于原始模型,監控準確率大幅提升22.3%。
  • 賦能現有監控器:即使繼續使用外部監控器,在TELLME優化后的高透明度模型上,其表現也得到顯著提升——在安全風險二分類和多分類任務上的準確率分別提升了5.8%和6.5%。
  • 輸出監控同步受益: 基于模型最終輸出的監控準確率也提升了1.7%,表明內部透明性正向影響外部可觀測行為。

圖片

如圖,一個涉及“侵犯隱私”的查詢,在TELLME模型內部,“侵犯隱私”行為與安全行為的平均相似度從0.96驟降至0.55。該查詢自身的表征遠離安全錨點(相似度從0.96降至0.54),并緊靠“侵犯隱私”錨點(相似度從0.94升至0.98),風險暴露無遺。圖片

安全性的自發提升:令人驚喜的“副作用”

  • TELLME僅要求模型在表征空間無偏好地解耦安全與不安全行為,并未明確指示哪類行為是“壞”的。然而,模型卻自發地在輸出上表現出更強的安全性。
  • 無論是原始模型還是經過監督微調(SFT)對齊的模型,應用TELLME后,其安全性能平均提升7.5%,同時保持了合理的過度拒絕率。
  • 使用形式相似但更充分利用負例的NT-Xent Loss替代InfoNCE Loss后,安全性能得到進一步改善。
  • 通用性能顯著優于僅進行SFT的模型,且基本無衰退,實現了安全與能力的更好平衡。

圖片

強大擴展性:

TELLME在Qwen2.5-72B-Instruct超大模型和Qwen2.5-VL-72B-Instruct視覺語言模型上同樣有效,證明了其卓越的可擴展性。

Qwen2.5-72B-instruct:

圖片

Qwen2.5-VL-72B-instruct(在視覺模型上,分別使用關鍵詞匹配與判官模型評估其安全性能):

圖片

理論支撐:解耦為何有效?

研究團隊借助最優傳輸理論在模型泛化誤差估計中的相關定理,將LLM視為“編碼器”(生成表征)和“分類器”(基于表征產生輸出/監控結果)。理論表明,TELLME實現的表征解耦,顯著降低了模型的泛化誤差上界,為監控和安全性能的提升提供了數學基礎。

結論與展望:通往可擴展監督的新道路

TELLME為大模型的可信監控與安全發展開辟了一條創新路徑:

  1. 思路革新: 從依賴“外部監控模型”轉向“增強模型自身可監控性”,創新性的視角轉換。
  2. 監控效能躍升: 通過內在的表征解耦實現超高透明度,無需復雜外部模塊即可高精度識別風險,同時大幅提升外部監控器的可靠性。
  3. 安全自發增強: 僅通過解耦表征,模型即能自發改善輸出安全性,效果顯著且機制獨特。
  4. 能力穩固保障: 嚴格的優化約束有效守護了模型的通用能力,破解了安全與能力難以兼得的困局。

更深遠的意義在于,TELLME具有擁抱模型增長的潛力: 模型能力越強,其內部表征蘊含的信息越豐富。在高透明度的前提下,TELLME的監控能力反而會隨之增強!這為解決未來超級智能面臨的“可擴展監督 (Scalable Oversight)”這一關鍵難題,提供了一條極具潛力的可行路徑。

本論文由上海AI Lab、上交大和KAUST聯合完成。主要作者包括上交大本科生陳冠旭、上海AI Lab青年研究員劉東瑞(共同一作)等。通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文鏈接:https://arxiv.org/abs/2502.05242

項目主頁:https://github.com/AI45Lab/TELLME

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-07-24 09:15:00

2010-08-19 13:54:51

FirefoxIECSS

2020-09-17 14:32:52

AI

2024-07-30 09:43:59

2010-09-13 15:32:38

DIV背景

2025-06-18 09:03:07

2024-07-03 12:12:33

訓練模型

2025-07-29 09:10:00

2013-05-29 14:17:42

2023-10-22 07:01:29

AI

2018-10-23 09:14:07

AI數據平臺

2020-09-18 12:27:44

AIGPT-3算法

2019-10-10 10:30:07

云計算云安全公共云

2024-01-17 08:22:23

16進制值透明度顏色值

2020-12-01 10:54:41

GIMP圖片透明度

2024-08-02 12:05:00

2022-05-16 10:29:17

開源社區透明度開發者

2009-11-03 17:35:05

VB.NET窗體透明度

2025-04-25 09:20:00

數據模型AI
點贊
收藏

51CTO技術棧公眾號

青青国产91久久久久久| 日本午夜精品| 亚洲一区二区欧美| 久久精品国产第一区二区三区最新章节| 亚洲第一精品在线观看| 国产日韩视频在线| 日韩欧美国产三级| 欧美日韩一区二区在线免费观看| 久久日韩视频| 99精品国产一区二区三区不卡| 国产精品福利网| 国产主播在线播放| 久久国产小视频| 日韩国产欧美精品在线 | 黄色动漫在线观看| 99久久精品免费看国产免费软件| 国产欧美一区二区三区在线| 日本熟妇一区二区| 亚洲国产一区二区三区在线播放| 亚洲精品一区二区久| 超碰中文字幕在线观看| 亚洲www啪成人一区二区| 亚洲综合激情网| 中文字幕精品一区日韩| 欧美日韩国产综合视频| 国产99一区视频免费| 国产精品揄拍500视频| 天堂网av手机版| 欧美激情 亚洲a∨综合| 中文在线不卡视频| 蜜桃传媒一区二区亚洲av| 日韩欧洲国产| 91精品国产综合久久蜜臀| 免费涩涩18网站入口| 国产蜜臀在线| 一区二区三区四区高清精品免费观看 | 日本成年人网址| 国产桃色电影在线播放| 亚洲免费视频中文字幕| 伊人天天久久大香线蕉av色| 激情小视频在线| 91理论电影在线观看| 国产精品久久久久久久久久久久冷| 国产又粗又猛又黄| 秋霞电影网一区二区| 国产91在线播放精品91| 亚洲永久精品在线观看| 99精品福利视频| 97色在线视频| 日韩av在线天堂| 亚洲高清激情| 国内精品400部情侣激情| 久久免费公开视频| 国产在线欧美| 97免费视频在线播放| 日韩欧美不卡视频| 国产欧美精品久久| 日本伊人精品一区二区三区介绍| 亚洲 欧美 中文字幕| 久久亚洲美女| 国产精品午夜视频| 国产乱码精品一区二区三区精东 | 欧美日韩综合视频网址| 欧美精品99久久| 欧美人体一区二区三区| 欧洲精品在线观看| 在线观看免费不卡av| 99久久999| 日韩免费福利电影在线观看| 国产吃瓜黑料一区二区| 欧美中文一区| 伊人久久精品视频| 欧美三级黄色大片| 激情久久一区| 国产成人精品电影久久久| 国产精品国产精品国产| 国产在线国偷精品免费看| 成人av免费在线看| 免费一级毛片在线观看| 国产精品美女视频| 91亚洲精品国产| 美女100%一区| 91麻豆精品国产91久久久久久久久 | 国产韩日精品| 日韩一级大片在线观看| 无码精品一区二区三区在线播放| 国产精品一区二区av日韩在线| 最近2019中文字幕一页二页 | 精品人妻互换一区二区三区| 久久神马影院| 性欧美xxxx视频在线观看| 国产一级免费视频| 国产最新精品精品你懂的| 国偷自产av一区二区三区小尤奈| 成人免费在线观看| 夜夜揉揉日日人人青青一国产精品| 亚洲欧洲日产国码无码久久99| 国产精品99久久久久久董美香| 日韩一级二级三级精品视频| 久久美女免费视频| 欧美日韩1区2区3区| 日韩免费观看网站| 亚洲AV无码国产精品午夜字幕| 国产亚洲人成网站| 国产九色porny| av在线播放一区| 亚洲黄色有码视频| 日本精品人妻无码77777| 久久不射网站| 国产精品yjizz| 免费看美女视频在线网站| 精品电影在线观看| 日韩精品xxx| 日韩在线不卡| 国产高清视频一区三区| 韩国av在线免费观看| 18成人在线观看| 999精品视频在线| 日韩精选在线| 久久久人成影片一区二区三区观看| 亚洲一区 中文字幕| 久久久一区二区三区| 国产乱子伦精品无码专区| 日韩欧美专区| 亚洲最新av在线| 国产成人一级片| av在线这里只有精品| 路边理发店露脸熟妇泻火| 国产一区一一区高清不卡| 日韩风俗一区 二区| www.youjizz.com亚洲| 国产一区二区0| 欧美日韩亚洲国产成人| 欧美一级免费| 日韩在线观看免费av| 最近中文字幕免费在线观看| 国产亚洲欧美在线| 精品一卡二卡三卡| 亚洲毛片免费看| 欧洲成人免费视频| 肉丝一区二区| 色综合 综合色| 精品无码人妻一区| 免费日韩视频| 欧美日韩在线观看一区| 免费观看欧美大片| 亚洲欧美资源在线| 亚洲无码精品一区二区三区| 国产欧美日韩亚州综合| 黄色aaa级片| 久久免费大视频| 成人免费自拍视频| caoporn免费在线| 日韩欧美在线影院| 久久精品免费av| 99久久久无码国产精品| 欧美日韩激情视频在线观看| 九九热hot精品视频在线播放| 91超碰中文字幕久久精品| 日本大臀精品| 欧美午夜不卡在线观看免费| 你懂得在线观看| 国产剧情在线观看一区二区| 久久久无码中文字幕久...| 日韩欧美中文在线观看| 国内精品久久久久久中文字幕| 五月婷婷综合久久| 91国内精品野花午夜精品| 青青青视频在线免费观看| 韩国成人在线视频| 97中文字幕在线| 亚洲最好看的视频| 成人国产精品久久久久久亚洲| 18网站在线观看| 日韩精品免费在线播放| 国产天堂第一区| 亚洲男人天堂一区| av鲁丝一区鲁丝二区鲁丝三区| 日韩不卡在线观看日韩不卡视频| 伊人色综合影院| 欧美jizz19性欧美| 国产精品视频免费在线| 美女尤物在线视频| 亚洲性猛交xxxxwww| 国产片在线播放| 欧美日韩中文在线| 久久免费看少妇高潮v片特黄| 成人激情免费网站| 国产视频手机在线播放| 国产在线日韩| 一区二区成人国产精品 | 天天综合网天天| 欧美乱大交做爰xxxⅹ性3| 日韩精品一二| 日韩欧美国产高清| 中文字幕永久在线观看| 亚洲国产欧美在线人成| 日本美女黄色一级片| av不卡免费在线观看| 日本高清久久久| 先锋亚洲精品| 中文字幕人妻熟女人妻洋洋| 全球成人免费直播| 久久国产手机看片| 日本成人精品| 国产欧美亚洲视频| 亚洲天堂电影| 欧美激情免费视频| 黄色成人影院| 伊人av综合网| 日产精品久久久久久久性色| 欧美一卡2卡三卡4卡5免费| 亚洲欧美一区二区三区在线观看| 一区二区三区四区在线免费观看| 奇米网一区二区| 久久午夜羞羞影院免费观看| 真实乱偷全部视频| 精品无人区卡一卡二卡三乱码免费卡| 免费毛片小视频| 亚洲性人人天天夜夜摸| 国产精品美女在线播放| 国产一区99| 免费精品视频一区二区三区| 国产精品视屏| av一区观看| 久久丁香四色| 成人在线视频福利| 超碰这里只有精品| 国产成+人+综合+亚洲欧美丁香花| 成人女同在线观看| 久久99精品久久久久久青青91| 免费观看久久久久| 视频直播国产精品| 日本美女在线中文版| 一本一本久久a久久精品牛牛影视| 青青草娱乐在线| 日韩精品在线视频观看| 亚洲AV成人无码一二三区在线| 亚洲电影第1页| 欧美 日韩 国产 成人 在线| 日韩视频一区二区| 性做久久久久久久| 欧美成人vr18sexvr| 性生活视频软件| 日韩精品一区在线| 六月丁香色婷婷| 亚洲国产精品美女| 少妇性bbb搡bbb爽爽爽欧美| 亚洲精品国精品久久99热 | 国产永久免费视频| 91精品国模一区二区三区| av网站免费大全| 日韩女优电影在线观看| 老司机午夜福利视频| 亚洲老司机av| www.国产精品.com| www.久久色.com| av网址在线免费观看| 色与欲影视天天看综合网| 黑人极品ⅴideos精品欧美棵| 久久久久久久国产| 最新中文字幕在线播放| 国产精品成人免费视频| 亚洲网站三级| 国产精品乱码| 久久av中文| 亚洲欧洲精品一区二区| 亚洲一区二区三区| 久久久久免费看黄a片app| 久久五月激情| 免费网站在线观看黄| 成人一区二区在线观看| 熟女少妇一区二区三区| 国产精品不卡在线观看| 久草视频免费在线| 色婷婷综合久久久中文一区二区| 中文字幕在线日亚洲9| 日韩欧美中文一区二区| 免费在线国产| 欧美巨乳美女视频| 吉吉日韩欧美| 成人中心免费视频| 日本午夜精品| 中文字幕乱码免费| 亚洲欧美大片| 一级片免费在线观看视频| www.爱久久.com| 黄色片网站在线播放| 亚洲成a天堂v人片| 亚洲一区 中文字幕| 日韩av在线一区| 久久久久久久久免费视频| 国语自产精品视频在线看抢先版图片 | 中文字幕一区不卡| 福利一区二区三区四区| 在线亚洲+欧美+日本专区| 99热这里只有精品在线观看| 亚洲女人天堂av| 亚洲91av| 国产美女久久久| 亚洲瘦老头同性70tv| 国产女主播av| 免费看黄色91| 国产亚洲无码精品| 亚洲曰韩产成在线| 伊人精品一区二区三区| 亚洲精品福利在线| 国产人成网在线播放va免费| 国产91久久婷婷一区二区| julia中文字幕一区二区99在线| 亚洲成人一区二区三区| 日韩视频一区| 久久人人爽人人片| 国产精品久久二区二区| 97久久久久久久| 精品对白一区国产伦| 国产精品剧情一区二区在线观看| 国产97在线|亚洲| 欧美国产极品| www.好吊操| 国产很黄免费观看久久| 免费看特级毛片| 欧美日韩小视频| 国产永久免费高清在线观看 | 综合激情五月婷婷| 黄色www在线观看| 捆绑变态av一区二区三区| 91视频免费观看网站| 欧美午夜精品伦理| 亚州精品国产精品乱码不99按摩| 欧美激情中文字幕在线| 清纯唯美激情亚洲| 黄色录像特级片| 国产精品69久久久久水密桃| 天海翼在线视频| 欧美精品三级在线观看| av大片在线看| 国产免费一区视频观看免费 | 1000部国产精品成人观看| 中文字幕乱码人妻二区三区| 亚洲欧洲一区二区三区在线观看 | 在线亚洲免费视频| 国产三区四区在线观看| 国产精品爱啪在线线免费观看| 伊人春色之综合网| 成人精品视频一区二区| 久久久噜噜噜久久人人看| 国产精品一区二区三区四| 日韩h在线观看| 国产精品伦理| 日韩三级在线播放| 美女视频免费一区| 欧洲美女女同性互添| 日韩免费性生活视频播放| 暖暖在线中文免费日本| 国产在线精品一区二区三区| 中文一区在线| 国产精品一二三区在线观看| 欧美午夜视频网站| 高潮毛片在线观看| av蓝导航精品导航| 国产精品久久久久9999高清| 日韩av在线看免费观看| 欧美日韩专区在线| 91麻豆免费在线视频| 国产精品免费看一区二区三区| 亚洲精品护士| 蜜桃av乱码一区二区三区| 欧美日韩国产一区| 精精国产xxxx视频在线中文版 | 国产精品国模在线| 99久久久久国产精品| 久久久无码人妻精品无码| 欧美日韩激情小视频| 都市激情在线视频| 亚洲一区久久久| 国产欧美日韩综合一区在线播放| 中文字幕免费高清| 欧美人xxxx| av影院在线免费观看| 色综合电影网| 国产99久久久久| 亚洲午夜无码久久久久| 欧美大片在线免费观看| 亚洲人成网77777色在线播放 | 日韩亚洲欧美视频| 国产欧美一区二区精品久导航| 99久久精品国产色欲| 51视频国产精品一区二区| 国产精品久久久久久| 人妻在线日韩免费视频| 欧美二区三区的天堂| 欧美大胆a人体大胆做受| 尤物一区二区三区| 99re成人精品视频| 国产毛片毛片毛片毛片| 日本成人在线视频网址| 欧美黄色一级视频| 中文字幕在线观看二区| 日韩电影网在线|