無需重訓(xùn)練+即插即用+性能零損耗,螞蟻集團×南洋理工首發(fā)微調(diào)安全框架,讓模型既安全又高效
無需重新訓(xùn)練,也能一鍵恢復(fù)模型的安全意識了。
最近研究表明,模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力,也就是說,模型能力越強反而越危險。

于是螞蟻集團聯(lián)合南洋理工大學(xué)針對性推出了模型安全對齊框架——EnchTable,可以讓模型在微調(diào)后依舊保持安全意識。
通過安全蒸餾+干擾感知融合兩大核心技術(shù),在多個模型架構(gòu)與任務(wù)中實現(xiàn)了安全與效用的最佳平衡,甚至在抗攻擊能力上超越了官方Instruct安全模型。
而且即插即用,完全不影響模型性能。
詳細內(nèi)容如下:
安全對齊具有“可遷移性”
目前陸續(xù)出現(xiàn)了多起有關(guān)微調(diào)模型安全能力下降的事件,其根本問題在于當(dāng)前的安全對齊機制無法隨模型微調(diào)而持續(xù)生效。
對此,研究團隊認(rèn)為:安全對齊(Safety Alignment) 本身是一種具有高度可遷移性(transferability) 的知識。
這意味著不需要在每個微調(diào)模型上都“重新學(xué)習(xí)”一遍安全,而是可以將“安全”作為一種獨立的知識模塊,從一個已對齊的模型中“提取”出來,再“注入”到另一個模型中。
而這一發(fā)現(xiàn)則將問題從“昂貴的重新訓(xùn)練” 轉(zhuǎn)變?yōu)椤案咝У闹R遷移”。

然而,要實現(xiàn)這種遷移有兩大核心挑戰(zhàn):
1、如何純凈解耦?(Q1)具體來說,就是如何從龐大的模型參數(shù)中,“純凈”地提取出只代表“安全”的知識向量,而不與“常識”或“任務(wù)”知識混雜?
2、如何平衡注入?(Q2)即如何將這個“安全向量”注入到已微調(diào)的模型中,而不干擾其下游任務(wù)(如編碼、數(shù)學(xué)、醫(yī)學(xué))的性能?
基于此,EnchTable設(shè)計了雙層解決方案,并對這兩個技術(shù)依賴進行了逐個攻破。
從向量蒸餾到干擾合并的雙層安全遷移
EnchTable(名字源于《我的世界》中的“附魔臺”)可分為兩大技術(shù)模塊,分別對應(yīng)下圖中的兩個階段:
△EnchTable框架圖
研究團隊發(fā)現(xiàn),不同任務(wù)(如醫(yī)療和代碼)的微調(diào)目標(biāo)截然不同,這導(dǎo)致了其他基線方法(Baselines)的失敗,主要有兩點原因:
- Safety Vector不夠干凈: 它們提取的向量包含噪聲,導(dǎo)致在第二步縮放(scale)時,會連同干擾一起放大。
- 沒有自適應(yīng)Scale: 它們?nèi)狈σ粋€智能機制來根據(jù)不同任務(wù)、不同層級的干擾,自適應(yīng)地調(diào)整合并尺度。
針對這一難題,EnchTable創(chuàng)新性地提出了兩階段解決方案:
NTK約束的安全向量蒸餾
為了打破傳統(tǒng)任務(wù)算術(shù)(Task Arithmetic)的不穩(wěn)定性,EnchTable引入了“基于神經(jīng)正切核 (NTK) 的線性化”方法。
- NTK的優(yōu)勢:這種NTK蒸餾方法(NTK-based distillation)通過其精妙設(shè)計,確保了“安全向量”具備穩(wěn)定且匹配的尺度(stable, well-matched scaling)。
- 純凈解耦:它能有效隔離出真正的安全方向,同時移除特定任務(wù)的噪聲,最終產(chǎn)生一個“純凈的安全向量”(pure safety vector)。
- 向量提取:正是因為這個向量是純凈且尺度適宜的,它在注入時不會引入不平衡或放大干擾,這也是EnchTable尤其在醫(yī)療等敏感任務(wù)上表現(xiàn)出色的核心原因。
- 一次性成本:此過程對每種模型架構(gòu)只需執(zhí)行一次,即可無限次復(fù)用于所有下游任務(wù)。
基于干擾感知的參數(shù)合并
與此同時,為了解決“安全知識遷移階段”可能對下游能力造成的損害,EnchTable設(shè)計了“粗粒度+細粒度縮放” 的雙重縮放機制。
- 粗粒度縮放(Coarse-grained):
首先,通過安全向量和下游任務(wù)向量的范數(shù)(norm)比例,對安全向量進行全局縮放,控制整體影響強度。
- 細粒度縮放(Fine-grained):
接著,利用SVD(奇異值分解)逐層分析兩個向量在低秩子空間中的“干擾分?jǐn)?shù)” (),對于干擾大的層(即安全向量與任務(wù)向量“打架”),系統(tǒng)會自動指數(shù)衰減 () 安全向量的權(quán)重。
這種“智能合并”機制確保了安全補丁僅在“非沖突”區(qū)域生效,從而在修補安全漏洞的同時,最大限度地保留了下游任務(wù)的原始性能。
實驗效果與性能開銷
基于LLaMA3、Qwen2.5、Mistral三種模型架構(gòu)和11個多樣化數(shù)據(jù)集的全面驗證:
安全與效用性能
實驗結(jié)果(如表1和表2所示)證明,EnchTable在所有任務(wù)域(代碼、數(shù)學(xué)、醫(yī)療)上均實現(xiàn)了最佳的“安全-效用”權(quán)衡。
- 安全性(Unsafe Rate ↓): SFT模型的不安全率(Unsafe Rate)高達0.802 (代碼) 和0.471(數(shù)學(xué)),而EnchTable(FFN)能將其分別降至0.019和0.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。
- 效用性(Utility Score ↑):幾乎所有基線方法都會導(dǎo)致任務(wù)性能(Utility Score)“災(zāi)難性下降”。而EnchTable(FFN)能將代碼效用分穩(wěn)定在0.644(SFT為0.674),醫(yī)療效用分穩(wěn)定在0.738(SFT為0.737)。
△表1:安全性能(Unsafe Rate ↓)
△表2:效用性能(Utility Score ↑)
泛化與魯棒性
EnchTable不僅支持代碼、數(shù)學(xué)、醫(yī)學(xué)等任務(wù),還展現(xiàn)了強大的泛化能力:
1、架構(gòu)泛化:在Qwen2.5和Mistral架構(gòu)上同樣表現(xiàn)優(yōu)異。
2、SFT策略泛化:完美兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式。
3、模型類型泛化(支持模式):實驗證實在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上,這與普通LLM不同,EnchTable依然能在保持效用分的同時,將不安全率降低了超過80%。
4、攻擊魯棒性:如圖所示,面對10種高級越獄攻擊(如角色扮演、邏輯誘導(dǎo)、DRA動態(tài)攻擊),EnchTable的防御能力顯著優(yōu)于SFT模型,甚至強于官方的Instruct安全模型。
△攻擊魯棒性
此外,整個框架無需重新訓(xùn)練,向量蒸餾是一次性成本,合并過程(打補丁)高效輕量,可無縫集成到部署流程中。
AI微調(diào)時代的安全剛需
EnchTable是研究者首次聚焦于微調(diào)LLM“安全-效用”權(quán)衡機制,從而提出的更具技術(shù)根源性的防御方案。
作為“后處理”解決方案,EnchTable無需依賴訓(xùn)練數(shù)據(jù)或計算資源,即可實現(xiàn)全平臺兼容。
方案支持LLaMA、Qwen、Mistral等主流架構(gòu),兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式,能靈活滿足大、中、小型AI應(yīng)用的不同需求。
面對“微調(diào)即服務(wù)”(FaaS)席卷而來的浪潮和模型定制化的必然趨勢,EnchTable為AI平臺時代的模型安全提供了可落地的技術(shù)方案,尤其適用于代碼生成、數(shù)學(xué)推理、醫(yī)療分析等數(shù)據(jù)和安全敏感型場景。
目前項目代碼已開源,另外研究團隊表示,將持續(xù)優(yōu)化EnchTable,以應(yīng)對未來更大規(guī)模模型(如70B+)和更復(fù)雜任務(wù)領(lǐng)域的安全挑戰(zhàn)。




































