精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無需重訓(xùn)練+即插即用+性能零損耗,螞蟻集團×南洋理工首發(fā)微調(diào)安全框架,讓模型既安全又高效

人工智能 新聞
最近研究表明,模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力,也就是說,模型能力越強反而越危險。

無需重新訓(xùn)練,也能一鍵恢復(fù)模型的安全意識了。

最近研究表明,模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力,也就是說,模型能力越強反而越危險。

于是螞蟻集團聯(lián)合南洋理工大學(xué)針對性推出了模型安全對齊框架——EnchTable,可以讓模型在微調(diào)后依舊保持安全意識。

通過安全蒸餾+干擾感知融合兩大核心技術(shù),在多個模型架構(gòu)與任務(wù)中實現(xiàn)了安全與效用的最佳平衡,甚至在抗攻擊能力上超越了官方Instruct安全模型。

而且即插即用,完全不影響模型性能。

詳細內(nèi)容如下:

安全對齊具有“可遷移性”

目前陸續(xù)出現(xiàn)了多起有關(guān)微調(diào)模型安全能力下降的事件,其根本問題在于當(dāng)前的安全對齊機制無法隨模型微調(diào)而持續(xù)生效。

對此,研究團隊認(rèn)為:安全對齊(Safety Alignment) 本身是一種具有高度可遷移性(transferability) 的知識。

這意味著不需要在每個微調(diào)模型上都“重新學(xué)習(xí)”一遍安全,而是可以將“安全”作為一種獨立的知識模塊,從一個已對齊的模型中“提取”出來,再“注入”到另一個模型中。

而這一發(fā)現(xiàn)則將問題從“昂貴的重新訓(xùn)練” 轉(zhuǎn)變?yōu)椤案咝У闹R遷移”。

然而,要實現(xiàn)這種遷移有兩大核心挑戰(zhàn):

1、如何純凈解耦?(Q1)具體來說,就是如何從龐大的模型參數(shù)中,“純凈”地提取出只代表“安全”的知識向量,而不與“常識”或“任務(wù)”知識混雜?

2、如何平衡注入?(Q2)即如何將這個“安全向量”注入到已微調(diào)的模型中,而不干擾其下游任務(wù)(如編碼、數(shù)學(xué)、醫(yī)學(xué))的性能?

基于此,EnchTable設(shè)計了雙層解決方案,并對這兩個技術(shù)依賴進行了逐個攻破。

從向量蒸餾到干擾合并的雙層安全遷移

EnchTable(名字源于《我的世界》中的“附魔臺”)可分為兩大技術(shù)模塊,分別對應(yīng)下圖中的兩個階段:

△EnchTable框架圖

研究團隊發(fā)現(xiàn),不同任務(wù)(如醫(yī)療和代碼)的微調(diào)目標(biāo)截然不同,這導(dǎo)致了其他基線方法(Baselines)的失敗,主要有兩點原因:

  1. Safety Vector不夠干凈: 它們提取的向量包含噪聲,導(dǎo)致在第二步縮放(scale)時,會連同干擾一起放大。
  2. 沒有自適應(yīng)Scale: 它們?nèi)狈σ粋€智能機制來根據(jù)不同任務(wù)、不同層級的干擾,自適應(yīng)地調(diào)整合并尺度。

針對這一難題,EnchTable創(chuàng)新性地提出了兩階段解決方案:

NTK約束的安全向量蒸餾

為了打破傳統(tǒng)任務(wù)算術(shù)(Task Arithmetic)的不穩(wěn)定性,EnchTable引入了“基于神經(jīng)正切核 (NTK) 的線性化”方法。

  • NTK的優(yōu)勢:這種NTK蒸餾方法(NTK-based distillation)通過其精妙設(shè)計,確保了“安全向量”具備穩(wěn)定且匹配的尺度(stable, well-matched scaling)。
  • 純凈解耦:它能有效隔離出真正的安全方向,同時移除特定任務(wù)的噪聲,最終產(chǎn)生一個“純凈的安全向量”(pure safety vector)。
  • 向量提取:正是因為這個向量是純凈且尺度適宜的,它在注入時不會引入不平衡或放大干擾,這也是EnchTable尤其在醫(yī)療等敏感任務(wù)上表現(xiàn)出色的核心原因。
  • 一次性成本:此過程對每種模型架構(gòu)只需執(zhí)行一次,即可無限次復(fù)用于所有下游任務(wù)。

基于干擾感知的參數(shù)合并

與此同時,為了解決“安全知識遷移階段”可能對下游能力造成的損害,EnchTable設(shè)計了“粗粒度+細粒度縮放” 的雙重縮放機制。

  • 粗粒度縮放(Coarse-grained)

首先,通過安全向量和下游任務(wù)向量的范數(shù)(norm)比例,對安全向量進行全局縮放,控制整體影響強度。

  • 細粒度縮放(Fine-grained)

接著,利用SVD(奇異值分解)逐層分析兩個向量在低秩子空間中的“干擾分?jǐn)?shù)” (),對于干擾大的層(即安全向量與任務(wù)向量“打架”),系統(tǒng)會自動指數(shù)衰減 () 安全向量的權(quán)重。

這種“智能合并”機制確保了安全補丁僅在“非沖突”區(qū)域生效,從而在修補安全漏洞的同時,最大限度地保留了下游任務(wù)的原始性能。

實驗效果與性能開銷

基于LLaMA3、Qwen2.5、Mistral三種模型架構(gòu)和11個多樣化數(shù)據(jù)集的全面驗證:

安全與效用性能

實驗結(jié)果(如表1和表2所示)證明,EnchTable在所有任務(wù)域(代碼、數(shù)學(xué)、醫(yī)療)上均實現(xiàn)了最佳的“安全-效用”權(quán)衡。

  • 安全性(Unsafe Rate ↓) SFT模型的不安全率(Unsafe Rate)高達0.802 (代碼) 和0.471(數(shù)學(xué)),而EnchTable(FFN)能將其分別降至0.0190.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。
  • 效用性(Utility Score ↑)幾乎所有基線方法都會導(dǎo)致任務(wù)性能(Utility Score)“災(zāi)難性下降”。而EnchTable(FFN)能將代碼效用分穩(wěn)定在0.644(SFT為0.674),醫(yī)療效用分穩(wěn)定在0.738(SFT為0.737)。

△表1:安全性能(Unsafe Rate ↓)

△表2:效用性能(Utility Score ↑)

泛化與魯棒性

EnchTable不僅支持代碼、數(shù)學(xué)、醫(yī)學(xué)等任務(wù),還展現(xiàn)了強大的泛化能力:

1、架構(gòu)泛化:在Qwen2.5和Mistral架構(gòu)上同樣表現(xiàn)優(yōu)異。

2、SFT策略泛化:完美兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式。

3、模型類型泛化(支持模式):實驗證實在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上,這與普通LLM不同,EnchTable依然能在保持效用分的同時,將不安全率降低了超過80%。

4、攻擊魯棒性:如圖所示,面對10種高級越獄攻擊(如角色扮演、邏輯誘導(dǎo)、DRA動態(tài)攻擊),EnchTable的防御能力顯著優(yōu)于SFT模型,甚至強于官方的Instruct安全模型。

△攻擊魯棒性

此外,整個框架無需重新訓(xùn)練,向量蒸餾是一次性成本,合并過程(打補丁)高效輕量,可無縫集成到部署流程中。

AI微調(diào)時代的安全剛需

EnchTable是研究者首次聚焦于微調(diào)LLM“安全-效用”權(quán)衡機制,從而提出的更具技術(shù)根源性的防御方案。

作為“后處理”解決方案,EnchTable無需依賴訓(xùn)練數(shù)據(jù)或計算資源,即可實現(xiàn)全平臺兼容。

方案支持LLaMA、Qwen、Mistral等主流架構(gòu),兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式,能靈活滿足大、中、小型AI應(yīng)用的不同需求。

面對“微調(diào)即服務(wù)”(FaaS)席卷而來的浪潮和模型定制化的必然趨勢,EnchTable為AI平臺時代的模型安全提供了可落地的技術(shù)方案,尤其適用于代碼生成、數(shù)學(xué)推理、醫(yī)療分析等數(shù)據(jù)和安全敏感型場景。

目前項目代碼已開源,另外研究團隊表示,將持續(xù)優(yōu)化EnchTable,以應(yīng)對未來更大規(guī)模模型(如70B+)和更復(fù)雜任務(wù)領(lǐng)域的安全挑戰(zhàn)。

論文鏈接:https://arxiv.org/abs/2511.09880

代碼鏈接:https://github.com/AntCPLab/EnchTable

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2009-11-17 10:57:28

Win7網(wǎng)絡(luò)下載安全

2025-09-23 12:48:36

AGI模型框架

2024-12-26 00:51:38

2022-04-26 15:40:43

物聯(lián)網(wǎng)安全5G

2021-07-09 13:43:42

物聯(lián)網(wǎng)人工智能IoT

2022-05-12 13:39:48

AI研究模型

2025-06-30 08:42:00

模型訓(xùn)練AI

2024-11-11 09:00:00

2025-09-28 09:00:00

2025-02-24 14:15:00

模型訓(xùn)練AI

2016-11-04 14:54:12

2025-04-03 10:29:06

2011-08-19 15:15:04

2023-11-26 18:04:00

IDEA視覺

2025-10-20 08:47:00

AI模型安全

2011-07-08 15:39:39

云計算數(shù)據(jù)中心

2024-11-12 10:20:00

模型數(shù)據(jù)

2025-05-27 15:28:11

模型訓(xùn)練AI

2020-09-02 14:13:48

Facebook 開發(fā)開源

2025-01-22 09:48:07

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲色图欧美视频| 国产精品9191| 在线视频成人| 亚洲成人精品影院| 免费看成人片| 国产精品久久欧美久久一区| 欧美一区国产在线| 日韩经典一区二区三区| 五月婷婷激情久久| 午夜小视频在线观看| 国产91高潮流白浆在线麻豆 | 免费网站看av| 九九亚洲精品| 日韩西西人体444www| 欧美a v在线播放| 一本一道波多野毛片中文在线| 国产成人丝袜美腿| 国产成人精品在线播放| 懂色av懂色av粉嫩av| 男男gay无套免费视频欧美| 欧美另类z0zxhd电影| 欧美日韩性生活片| a级影片在线| 国产色产综合产在线视频| 91免费看网站| 亚洲无码精品在线观看| 99在线精品视频在线观看| 精品国产一区二区三区久久狼5月| 美女黄色一级视频| 成人在线视频www| 欧美性生交xxxxx久久久| 中国一级大黄大黄大色毛片| 亚洲欧美色视频| 国产成人亚洲综合色影视| 日韩美女免费视频| 日产精品久久久久| 久久精品欧美一区| 在线观看日韩专区| 免费a级黄色片| 粉嫩av一区二区| 91精品国产综合久久久久久漫画 | 美美哒免费高清在线观看视频一区二区 | 成人av免费看| 国产视频www| 久久成人免费电影| 国产精品久久久av久久久| 六月丁香激情综合| 99国产精品私拍| 欧美精品福利在线| 久草免费新视频| 女主播福利一区| 久久久国产精品亚洲一区| 免费黄在线观看| 国产中文精品久高清在线不| 日韩精品在线视频美女| 久久久久成人精品无码中文字幕| 日韩中文字幕| 精品国精品自拍自在线| 国产sm在线观看| 操欧美女人视频| 欧美精品一区二| 黄色av电影网站| 6080成人| 亚洲级视频在线观看免费1级| 国产日韩视频一区| 精品在线网站观看| 日韩国产在线看| 精品少妇一区二区三区免费观| 一区二区导航| 一区二区在线视频| 国产高清视频免费在线观看| 小处雏高清一区二区三区| 久久久国产成人精品| 久久成人在线观看| 欧美视频久久| 91av视频在线观看| 波多野结衣理论片| 精品一区二区在线播放| 亚洲iv一区二区三区| 亚洲第一天堂影院| www.欧美日韩国产在线| 欧美日韩成人一区二区三区| 国内精品在线视频| 18欧美亚洲精品| 激情六月天婷婷| 人人草在线视频| 日本黄色一区二区| 在线播放免费视频| 福利欧美精品在线| 国产一区二区精品丝袜| 色哟哟一一国产精品| 国产一区视频在线观看免费| 欧美一级淫片播放口| 国产精品传媒在线观看| 国产精品亚洲一区二区三区在线 | 亚洲已满18点击进入久久| 拔插拔插海外华人免费| 2019年精品视频自拍| 日韩视频免费观看高清完整版在线观看| 四虎永久免费观看| 欧美精品系列| 欧美大片网站在线观看| 午夜久久久久久久久久影院| 国产真实精品久久二三区| 久久香蕉综合色| 欧美三级黄网| 欧美午夜久久久| 四虎成人在线播放| 亚洲人成网亚洲欧洲无码| 久久人人爽人人爽爽久久| 欧美激情亚洲综合| 国产毛片精品视频| 日韩av电影免费观看| 伊人春色在线观看| 欧美亚洲国产一区二区三区 | 亚洲影院一区二区三区| www.亚洲精品| 国产免费内射又粗又爽密桃视频| 毛片电影在线| 欧美一级理论片| b站大片免费直播| 精品动漫av| 成人性生交大片免费看视频直播| 欧洲天堂在线观看| 亚洲成在线观看| 日本高清免费在线视频| 郴州新闻综合频道在线直播| 97成人在线视频| 精品国产九九九| 18涩涩午夜精品.www| 538在线视频观看| 色爱综合av| 久久久影视精品| 精品人妻伦一二三区久久| 欧美国产一区二区在线观看| 国产a级一级片| 看全色黄大色大片免费久久久| 久久精品亚洲国产| 伊人22222| 国产日韩欧美不卡在线| 丝袜老师办公室里做好紧好爽| 精品国产麻豆| 久久精品国产亚洲精品| 中文字幕乱码视频| 中文幕一区二区三区久久蜜桃| 91黄色小网站| 久久成人高清| 日韩美女免费观看| 精华区一区二区三区| 欧美日韩亚洲精品一区二区三区 | 国产精品一区二区人人爽| 中文成人综合网| 少妇一级淫免费放| 成人激情开心网| 国产欧美一区二区三区四区| 国产精品影院在线| 欧美性大战久久| 激情五月激情综合| 国产自产视频一区二区三区| 精品日韩在线播放| 日韩精品视频在线看| 久久99精品久久久久久琪琪| 国产夫妻自拍av| 亚洲一区国产视频| av黄色一级片| 爽好久久久欧美精品| 性刺激综合网| 95精品视频| 久久久久久亚洲| 深夜视频在线免费| 欧美性色aⅴ视频一区日韩精品| 国产视频三区四区| 国产一区二区精品久久| 国产一区 在线播放| 精品三级国产| 韩国欧美亚洲国产| 青青久草在线| 欧美日韩精品电影| 欧美成人国产精品高潮| 成人精品视频一区| 国产精品无码专区av在线播放 | 精品国产午夜福利| 国产精品视频在线看| 超碰91在线播放| av成人黄色| 亚洲成色最大综合在线| 精品中文字幕一区二区三区| 久久久久久伊人| 蝌蚪视频在线播放| 69久久99精品久久久久婷婷| 久久久久无码国产精品| 久久久久久一二三区| 久久久久久久久久毛片| 99日韩精品| 中文字幕成人一区| 日韩三级视频| 成人免费在线视频网站| 国产激情在线播放| 久久亚洲精品网站| 日本免费一区二区三区最新| 欧美久久久久久蜜桃| 日韩av黄色片| 1000精品久久久久久久久| 人妻av一区二区| 激情综合色播五月| 日日碰狠狠躁久久躁婷婷| 欧美精品黄色| 亚洲国产精品综合| 欧美午夜寂寞| 成人免费视频观看视频| 日韩电影精品| 国产成人精品最新| 波多野一区二区| 蜜臀久久99精品久久久久久宅男| 欧美一区二区三区少妇| 精品免费日韩av| 国产免费一区二区三区免费视频| 日韩欧美中文免费| 日韩免费视频网站| 亚洲精品中文字幕在线观看| 亚洲精品国产91| 久久这里只有精品视频网| 美女日批在线观看| 国产做a爰片久久毛片| 少妇黄色一级片| 小嫩嫩精品导航| 成人免费播放器| 欧美亚洲不卡| 成人国产一区二区三区| 国产精品福利在线观看播放| 日本在线播放不卡| 免费不卡中文字幕在线| 狠狠色综合一区二区| 中文字幕一区二区三区日韩精品 | gogogo高清免费观看在线视频| 中文在线一区| 国产玉足脚交久久欧美| 亚洲色图网站| 一区二区欧美日韩| 日韩精品dvd| 日本一区免费| 亚洲都市激情| 久久久亚洲综合网站| 成功精品影院| www久久99| 果冻天美麻豆一区二区国产| 3d动漫精品啪啪一区二区三区免费| 欧美一级二级视频| 国产精品亚洲第一区| 国产综合色区在线观看| 91禁外国网站| 夜级特黄日本大片_在线| 在线观看日韩专区| www.亚洲资源| 中文字幕日韩在线播放| 日本三级在线视频| 日韩日本欧美亚洲| 久久精品视频观看| 欧美成人精品在线| av在线官网| 欧美成人午夜激情视频| 宅男网站在线免费观看| 久久国产精品视频| 91高清在线观看视频| 国内精品久久影院| wwww亚洲| 91av福利视频| 国产原创一区| 成人av.网址在线网站| 日韩一区二区三区四区五区 | 在线看欧美日韩| 成人在线免费观看| 久久高清视频免费| 新版中文在线官网| 性色av一区二区三区红粉影视| 亚洲天堂资源| 国产精品av在线播放| 91久久久久久白丝白浆欲热蜜臀| 国产美女精品视频| 国产精品一区二区三区四区在线观看| 成人久久久久久| 成人在线视频区| 蜜桃麻豆www久久国产精品| 一本久久青青| 亚洲国产精品123| 国产精品成人一区二区网站软件| 国产一二三区在线播放| 亚洲国产免费| 中日韩av在线播放| 国产盗摄女厕一区二区三区| 大乳护士喂奶hd| 中文字幕一区二区三区在线不卡 | 无限资源日本好片| 国产中文字幕一区| 亚洲一区二区三区综合| youjizz久久| 在线小视频你懂的| 亚洲欧洲www| 国产做受高潮漫动| 欧美日韩一二三| 凸凹人妻人人澡人人添| 一区国产精品视频| 色呦呦在线观看视频| 国产精品久久久久久av下载红粉| vam成人资源在线观看| 国产精品对白一区二区三区| 日韩精品一区二区三区免费观影 | 亚洲日本中文| 色视频一区二区| 国产精品久久久久久久成人午夜| 亚洲精品乱码久久久久久金桔影视 | 欧美理论片在线播放| 欧美在线观看视频| 亚洲精品一区二区三区中文字幕| 久久艳妇乳肉豪妇荡乳av| 亚洲色图88| 黄色小视频免费网站| 91亚洲精品久久久蜜桃| 情侣偷拍对白清晰饥渴难耐| 色综合亚洲欧洲| 亚洲精品久久久久久动漫器材一区| 亚洲区中文字幕| 阿v视频在线观看| 成人久久久久爱| 国产一区二区三区站长工具| 国产一级爱c视频| 狠狠狠色丁香婷婷综合久久五月| 漂亮人妻被黑人久久精品| 亚洲午夜精品网| 亚洲天堂视频在线| 精品无人区太爽高潮在线播放 | 在线观看亚洲一区二区| 亚洲欧洲在线观看| 成人免费图片免费观看| 亚洲淫片在线视频| 中文字幕午夜精品一区二区三区| 成人精品视频一区二区| 成人app下载| 国产性猛交普通话对白| 91精品欧美福利在线观看| www.久久热.com| 国产精品视频久| 小嫩嫩12欧美| 欧美 日韩 国产 在线观看| 美女视频网站久久| 精品欧美一区二区久久久| 天天操天天色综合| 刘亦菲毛片一区二区三区| 不卡av电影院| 日韩免费高清视频网站| 一区二区视频国产| 蜜桃精品在线观看| 永久免费看片视频教学| 欧美区一区二区三区| 精品美女视频在线观看免费软件| 日本一区二区在线免费播放| 牛牛影视一区二区三区免费看| 青草全福视在线| 国内外成人在线| 熟女av一区二区| 日韩免费成人网| 最新av在线播放| 97se国产在线视频| 一本一本久久| 男男做爰猛烈叫床爽爽小说| 一区二区三区欧美久久| 成人av一区二区三区在线观看 | 日韩欧美在线电影| 日本不卡中文字幕| 国产黄色小视频网站| 69成人精品免费视频| 77导航福利在线| 99久久精品无码一区二区毛片 | 高潮无码精品色欲av午夜福利| 亚洲丝袜一区在线| 高清在线一区| 国产一区二区三区乱码| eeuss鲁片一区二区三区在线观看| 黄色一级片免费在线观看| 亚洲人精品午夜在线观看| 成人h在线观看| 99国产精品白浆在线观看免费| 成人深夜福利app| 久久久久久久黄色| 亚洲欧美日韩网| 国模私拍国内精品国内av| 黄色一级视频播放| 国产精品一区一区| 性无码专区无码| 神马久久久久久| 国产精品国产| 免费在线观看的毛片| 亚洲欧美日韩国产一区二区三区| 亚洲国产精彩视频| 91福利视频网| 在线观看日韩| 毛茸茸多毛bbb毛多视频| 欧美精品v国产精品v日韩精品| 在线观看免费视频你懂的| 精品国产一区二区三区麻豆免费观看完整版|