阿里新開源提出建設性安全對齊方案，向“讓用AI的人安全”新范式躍遷

2025-09-22 08:50:00

阿里巴巴集團安全部聯合清華大學、復旦大學、東南大學、新加坡南洋理工等高校，聯合發布技術報告；其理念與最近OpenAI發布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。

正如牡蠣歷經磨礪，在堅實的外殼內將沙礫孕育成一顆溫潤的珍珠。AI也可以如此，不是一個只會緊緊封閉抵御風險的系統，而是一個有底線、有分寸、也有溫度的伙伴。

阿里巴巴集團安全部正在努力推動從“讓AI安全”到“讓用AI的人安全”的范式躍遷，邁向真正守己利他、以人為本的AI治理。

Oyster-I模型及Demo已開放使用，詳細鏈接可見文末。

真實世界的風險

在AI日益融入生活的今天，人們可能會遇到這樣的場景：

一位焦慮的母親，在深夜搜索“寶寶發燒的偏方”；或者馬上到考試周截止時間，交不上作業的年輕學生向AI求助Photoshop破解方案，得到的卻是AI“我無法幫助”的冰冷回復。

這種回復雖然不出錯，卻可能將無助的用戶推向網絡上更不可靠、甚至危險的信息深淵。

更極端一點，當一個在經濟困境中流露出違法念頭的用戶向AI傾訴、尋找解決方案，如果AI只是簡單地以“不能回復”來終止對話，其實并不能掐滅用戶違法的動機。

（以上對話示例來自GPT-oss-20b）

這并非個例，而是當前主流AI安全機制的結構性困境：安全對齊技術缺乏對用戶風險意圖的精細化分級能力，將風險簡單地歸納為來自惡意攻擊者的獨立事件。對應的防御措施是“一刀切”的拒絕回復。

然而，這些被拒絕回復的問題背后，不僅有圖謀不軌的惡意，也有大量來自用戶真實的急迫求助。

心理學研究表明，人在壓力和困擾狀態下，認知能力會變窄，很多風險提問都發生于人處在困境中的情況下，而當合法的溝通渠道被阻斷，人們會轉向其他不受約束的渠道。

一個被AI拒絕的人，很可能轉向充斥著虛假信息和極端思想的論壇或社群，從而將自己暴露在更大的風險中。

所以，簡單地拒絕回復所有風險問題，雖然攔住了AI系統里的風險，卻并沒有消除真實的危險；雖然規避了短期的風險，卻也逃避了引導用戶的長期責任。

這些現象也迫使AI研究者去審視AI安全的未來。同樣AI企業不僅需要為模型的安全負責，更應當主動肩負起更多社會風險、引導用戶的責任。

一個真正的負責任的AI，不僅要堅守安全底線，絕不被誘導生成有害方案；也要避免因為過度防御而拒人千里，把人推向更危險的境地。

因此，阿里巴巴安全部提出建設性安全對齊的理念，并將這一理念集成到了Oyster-I模型中。

Oyster-I模型在具有堅實的底線類風險防御的基礎上，對于風險等級較低的問題采用有原則的共情與引導，將潛在的風險提問轉變為幫助和引導用戶的契機。

對于上述被其它模型拒絕的問題，Oyster-I會給出這樣的答復：

建設性安全對齊

報告中提出一種新型的大語言模型安全對齊范式——建設性安全對齊（Constructive Safety Alignment, CSA）。

該范式突破傳統以拒絕為核心的防御式安全機制，轉而構建一個動態、可優化、面向長期交互目標的博弈框架。

在這個新的博弈框架下，AI的目標不再是簡單地“被動防御”用戶，而是在堅守安全底線的前提下，主動、智慧地與用戶協作，尋找既安全又有價值的最佳回復策略。

核心方法可以概括如下：

首先，研究團隊將語言模型與用戶之間的多輪交互形式化為一個兩階段序貫博弈。在這個博弈模型里，AI不再是被動地回應用戶的當前指令，而是會像一個領導者一樣，提前預判用戶的潛在意圖和后續行為，然后主動選擇一個能將對話引向最有益方向的策略。

具體來說，Oyster-I設定:

用戶類型包括良性用戶、敏感意圖用戶和惡意攻擊者，其效用函數為，反映其對響應的滿意度。
模型效用函數為其中Retention(.) 表示用戶留存度，Risk(.)為風險度（如違反法律/倫理準則的危險分數），α,β>0為權重系數，且通常β>α，體現安全優先原則，Cost 為每產生的y的生成費用。

由于用戶真實類型不可觀測，模型需通過觀測輸入和上下文推斷后驗信念，并據此求解期望效用最大化問題，該方法提出一個統一的Constructive objective, 用于表示同時考慮回復用戶滿意度及風險度后的凈價值，若為正，則意味著該回復提供了正向建設價值：

該目標函數鼓勵模型生成盡可能有幫助但無風險溢出的回復，則對于每一條提問x的最優回復y* 表示為：

該博弈結構允許模型在生成響應前，預判不同類型用戶在接收到不同響應后的策略反應（如繼續提問、停止交流等），從而主動選擇能引導對話走向安全且高滿意度狀態的策略路徑。

再有，該報告也提出了精細化的風險與價值評估。研究團隊設計了一套多維度的安全評估體系，它會同時考量風險等級、所屬風險類別、用戶意圖。

研究團隊提出了一種基于語言學回溯的結構化推理（Lingo-BP）的技術，用以確保AI在生成回復時，始終沿著已經設定好的“建設性”軌道前進。將自然語言推理路徑映射為偽可微路徑：

它是一條貫穿AI思考過程的邏輯鏈條，可以清晰地追蹤AI的每一步推理；當發現推理路徑有偏離目標的風險時，就可以精準地進行干預和修正，從而確保最終的輸出既合乎邏輯，又符合預設的建設性目標。

在數據和評測方面，目前多數安全數據集過分聚焦在攻擊者視角，但這并不能代表真實世界的用戶分布。

為此，報告中構建了一個全新的評測基準——Constructive Benchmark。研究團隊摒棄了簡單的二元標簽，創造了覆蓋從普通人到惡意/紅隊攻擊者的多樣化用戶畫像，并設計了從無風險（R0）、潛在風險（R1）到對抗攻擊（R2）三個等級的復雜問題。

例如，對于R1級別的敏感咨詢，允許一定情感共情表達；而對于R2級別的惡意請求，則明確拒絕。

在建設性安全對齊的評價里，根據上面的Constructive指標來給AI打分：

這個公式清晰地表明了Oyster-I團隊的價值取向：AI的總分，來源于它為用戶創造的價值，減去它所帶來的風險懲罰。

而在現實中，風險系數β通常顯著大于收益系數α。安全不是博弈后的終點，而是價值創造的起點。

實驗&實戰表現

研究團隊主要在Qwen3-14B和DS-distilled-14B兩個系列上進行了安全對齊與評測實驗，評測了模型通用能力的保留情況、現存安全評測數據的安全性，還評測了對抗越獄場景的魯棒性與Constructive評測集上的得分。

實驗結果表明，Oy1系列模型在安全性和通用能力上都達到了SOTA水平，做到了在不明顯降低通用能力的前提下大幅提升安全（兩個系列上分別約+10%/+32%），通用與安全指標均超過了基線工作RealSafe，尤其在Constructive指標上有顯著的優勢。

Constructive指標結果（上圖）展示了固定用戶滿意度權重α=1的情況下，不同的安全懲罰系數β下模型總得分的全面變化趨勢。

越非安全側重的應用場景（如純學術的論文閱讀助手）對應的β值越小，而高安全側重要求場景下β更大的結果更具備參考意義。

相比于基模，對應Oyster版本在不犧牲用戶滿意度的條件下大幅提升了安全性，使得曲線下降大幅變平緩；相比較而言，Realsafe由于其防御式的對齊，導致用戶滿意度大打折扣。

即使對比閉源商業大參數模型，Oyster也明顯超過大部分模型，僅與GPT5在不同安全比重參數下互有優劣。GPT-5由于其參數量遠超14B且也屬于非防御式的對齊理念，在用戶滿意度上領先較大；但是從β=3開始，Oyster由于安全性強于GPT5（尤其在越獄攻擊場景），實現了總分反超。

可能有人會有疑問：追求以人為本的模型會不會在實際使用中反而更為脆弱？為回答這一問題，研究團隊還進行了實戰檢驗。

在AI安全全球挑戰賽（賽道一）攻防雙向對抗賽中，研究團隊將Oyster-I（白鯨模型）部署為被攻擊的靶標模型，實戰表現相當驚艷。

在攻擊測試中，Oyster-I主要采用兩種應對策略: 1、轉為無害回復；2、面對難以轉換的問題拒絕回復。其內生安全加固方案在真實對抗場景中表現卓越，60000+次攻防彈雨，尤其是在抗越獄能力上達到甚至超越當前頂尖閉源模型水平：

Oy1-Qwen3-14B 防御成功率相比 GPT-5高4%；
與配備完整安全護欄（safety guardrails）的商用基線模型相比，安全水位基本持平。

（注：比賽結果由大模型自動判斷，并輔以人工抽樣審核，確保評估可靠性。）

總結與展望

Oyster-I模型在傳統安全評測、通用能力的保留上都達到了SOTA水平，并且在建設性安全評測集上展現出了質變式的優勢。

Oyster-I打破了傳統安全范式下風險細分技術不足帶來的對可用性的影響，真正做到了安全和可用的共建。

未來，阿里巴巴集團安全部計劃推出更多Oyster系列模型，囊括更復雜的多輪對話、智能體、越獄攻擊等場景；并在安全與可用的基礎上，進一步打造可靠、可信的大模型。

Oyster-I論文的核心作者包括段然杰、劉劼西、李德楓、加小俊、趙世紀、程若曦、王鳳翔、魏程、謝勇、劉暢等多位來自阿里巴巴集團、清華大學、復旦大學、東南大學、新加坡南洋理工等機構的多領域跨學科專家，全部作者名單如下：

論文鏈接：https://arxiv.org/abs/2509.01909Github：https://github.com/Alibaba-AAIG/Oyster

模型開源地址1：https://huggingface.co/Oyster

模型來源地址2：https://modelscope.cn/studios/OysterAI

Safety-Jailbreak對應的數據集來自阿里新工作六脈神劍(Strata-Bench)：https://arxiv.org/pdf/2509.01444

Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark

Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset

Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

責任編輯：張燕妮來源：量子位

AI 模型開源