無需重訓(xùn)練+即插即用+性能零損耗，螞蟻集團×南洋理工首發(fā)微調(diào)安全框架，讓模型既安全又高效

2025-11-20 08:45:00

人工智能新聞

最近研究表明，模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力，也就是說，模型能力越強反而越危險。

無需重新訓(xùn)練，也能一鍵恢復(fù)模型的安全意識了。

最近研究表明，模型的微調(diào)過程會嚴(yán)重削弱安全對齊能力，也就是說，模型能力越強反而越危險。

于是螞蟻集團聯(lián)合南洋理工大學(xué)針對性推出了模型安全對齊框架——EnchTable，可以讓模型在微調(diào)后依舊保持安全意識。

通過安全蒸餾+干擾感知融合兩大核心技術(shù)，在多個模型架構(gòu)與任務(wù)中實現(xiàn)了安全與效用的最佳平衡，甚至在抗攻擊能力上超越了官方Instruct安全模型。

而且即插即用，完全不影響模型性能。

詳細內(nèi)容如下：

安全對齊具有“可遷移性”

目前陸續(xù)出現(xiàn)了多起有關(guān)微調(diào)模型安全能力下降的事件，其根本問題在于當(dāng)前的安全對齊機制無法隨模型微調(diào)而持續(xù)生效。

對此，研究團隊認(rèn)為：安全對齊(Safety Alignment) 本身是一種具有高度可遷移性(transferability) 的知識。

這意味著不需要在每個微調(diào)模型上都“重新學(xué)習(xí)”一遍安全，而是可以將“安全”作為一種獨立的知識模塊，從一個已對齊的模型中“提取”出來，再“注入”到另一個模型中。

而這一發(fā)現(xiàn)則將問題從“昂貴的重新訓(xùn)練” 轉(zhuǎn)變?yōu)椤案咝У闹R遷移”。

然而，要實現(xiàn)這種遷移有兩大核心挑戰(zhàn)：

1、如何純凈解耦？(Q1)具體來說，就是如何從龐大的模型參數(shù)中，“純凈”地提取出只代表“安全”的知識向量，而不與“常識”或“任務(wù)”知識混雜？

2、如何平衡注入？(Q2)即如何將這個“安全向量”注入到已微調(diào)的模型中，而不干擾其下游任務(wù)（如編碼、數(shù)學(xué)、醫(yī)學(xué)）的性能？

基于此，EnchTable設(shè)計了雙層解決方案，并對這兩個技術(shù)依賴進行了逐個攻破。

從向量蒸餾到干擾合并的雙層安全遷移

EnchTable（名字源于《我的世界》中的“附魔臺”）可分為兩大技術(shù)模塊，分別對應(yīng)下圖中的兩個階段：

△EnchTable框架圖

研究團隊發(fā)現(xiàn)，不同任務(wù)（如醫(yī)療和代碼）的微調(diào)目標(biāo)截然不同，這導(dǎo)致了其他基線方法（Baselines）的失敗，主要有兩點原因：

Safety Vector不夠干凈：它們提取的向量包含噪聲，導(dǎo)致在第二步縮放（scale）時，會連同干擾一起放大。
沒有自適應(yīng)Scale：它們?nèi)狈σ粋€智能機制來根據(jù)不同任務(wù)、不同層級的干擾，自適應(yīng)地調(diào)整合并尺度。

針對這一難題，EnchTable創(chuàng)新性地提出了兩階段解決方案：

NTK約束的安全向量蒸餾

為了打破傳統(tǒng)任務(wù)算術(shù)（Task Arithmetic）的不穩(wěn)定性，EnchTable引入了“基于神經(jīng)正切核 (NTK) 的線性化”方法。

NTK的優(yōu)勢：這種NTK蒸餾方法（NTK-based distillation）通過其精妙設(shè)計，確保了“安全向量”具備穩(wěn)定且匹配的尺度（stable, well-matched scaling）。
純凈解耦：它能有效隔離出真正的安全方向，同時移除特定任務(wù)的噪聲，最終產(chǎn)生一個“純凈的安全向量”（pure safety vector）。
向量提取：正是因為這個向量是純凈且尺度適宜的，它在注入時不會引入不平衡或放大干擾，這也是EnchTable尤其在醫(yī)療等敏感任務(wù)上表現(xiàn)出色的核心原因。
一次性成本：此過程對每種模型架構(gòu)只需執(zhí)行一次，即可無限次復(fù)用于所有下游任務(wù)。

基于干擾感知的參數(shù)合并

與此同時，為了解決“安全知識遷移階段”可能對下游能力造成的損害，EnchTable設(shè)計了“粗粒度+細粒度縮放” 的雙重縮放機制。

粗粒度縮放（Coarse-grained）：

首先，通過安全向量和下游任務(wù)向量的范數(shù)（norm）比例，對安全向量進行全局縮放，控制整體影響強度。

細粒度縮放（Fine-grained）：

接著，利用SVD（奇異值分解）逐層分析兩個向量在低秩子空間中的“干擾分?jǐn)?shù)” ()，對于干擾大的層（即安全向量與任務(wù)向量“打架”），系統(tǒng)會自動指數(shù)衰減 () 安全向量的權(quán)重。

這種“智能合并”機制確保了安全補丁僅在“非沖突”區(qū)域生效，從而在修補安全漏洞的同時，最大限度地保留了下游任務(wù)的原始性能。

實驗效果與性能開銷

基于LLaMA3、Qwen2.5、Mistral三種模型架構(gòu)和11個多樣化數(shù)據(jù)集的全面驗證：

安全與效用性能

實驗結(jié)果（如表1和表2所示）證明，EnchTable在所有任務(wù)域（代碼、數(shù)學(xué)、醫(yī)療）上均實現(xiàn)了最佳的“安全-效用”權(quán)衡。

安全性（Unsafe Rate ↓）： SFT模型的不安全率（Unsafe Rate）高達0.802 (代碼) 和0.471(數(shù)學(xué))，而EnchTable(FFN)能將其分別降至0.019和0.006。其中Bound代表LLaMA3-8B-Instruct模型的不安全率。
效用性（Utility Score ↑）：幾乎所有基線方法都會導(dǎo)致任務(wù)性能（Utility Score）“災(zāi)難性下降”。而EnchTable(FFN)能將代碼效用分穩(wěn)定在0.644(SFT為0.674)，醫(yī)療效用分穩(wěn)定在0.738(SFT為0.737)。

△表1：安全性能（Unsafe Rate ↓）

△表2：效用性能（Utility Score ↑）

泛化與魯棒性

EnchTable不僅支持代碼、數(shù)學(xué)、醫(yī)學(xué)等任務(wù)，還展現(xiàn)了強大的泛化能力：

1、架構(gòu)泛化：在Qwen2.5和Mistral架構(gòu)上同樣表現(xiàn)優(yōu)異。

2、SFT策略泛化：完美兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式。

3、模型類型泛化（支持模式）：實驗證實在具有模式的Reasoning模型 (DeepSeek-R1-Distill-Qwen-7B-Japanese)上，這與普通LLM不同，EnchTable依然能在保持效用分的同時，將不安全率降低了超過80%。

4、攻擊魯棒性：如圖所示，面對10種高級越獄攻擊（如角色扮演、邏輯誘導(dǎo)、DRA動態(tài)攻擊），EnchTable的防御能力顯著優(yōu)于SFT模型，甚至強于官方的Instruct安全模型。

△攻擊魯棒性

此外，整個框架無需重新訓(xùn)練，向量蒸餾是一次性成本，合并過程（打補丁）高效輕量，可無縫集成到部署流程中。

AI微調(diào)時代的安全剛需

EnchTable是研究者首次聚焦于微調(diào)LLM“安全-效用”權(quán)衡機制，從而提出的更具技術(shù)根源性的防御方案。

作為“后處理”解決方案，EnchTable無需依賴訓(xùn)練數(shù)據(jù)或計算資源，即可實現(xiàn)全平臺兼容。

方案支持LLaMA、Qwen、Mistral等主流架構(gòu)，兼容全量微調(diào)(Full-FT)和LoRA等高效微調(diào)(PEFT)范式，能靈活滿足大、中、小型AI應(yīng)用的不同需求。

面對“微調(diào)即服務(wù)”(FaaS)席卷而來的浪潮和模型定制化的必然趨勢，EnchTable為AI平臺時代的模型安全提供了可落地的技術(shù)方案，尤其適用于代碼生成、數(shù)學(xué)推理、醫(yī)療分析等數(shù)據(jù)和安全敏感型場景。

目前項目代碼已開源，另外研究團隊表示，將持續(xù)優(yōu)化EnchTable，以應(yīng)對未來更大規(guī)模模型（如70B+）和更復(fù)雜任務(wù)領(lǐng)域的安全挑戰(zhàn)。

論文鏈接：https://arxiv.org/abs/2511.09880

代碼鏈接：https://github.com/AntCPLab/EnchTable

責(zé)任編輯：張燕妮來源：量子位

AI 模型訓(xùn)練