精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里新開源提出建設性安全對齊方案,向“讓用AI的人安全”新范式躍遷

人工智能 新聞
阿里巴巴集團安全部聯合清華大學、復旦大學、東南大學、新加坡南洋理工等高校,聯合發布技術報告;其理念與最近OpenAI發布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。

正如牡蠣歷經磨礪,在堅實的外殼內將沙礫孕育成一顆溫潤的珍珠。AI也可以如此,不是一個只會緊緊封閉抵御風險的系統,而是一個有底線、有分寸、也有溫度的伙伴。

圖片

阿里巴巴集團安全部聯合清華大學、復旦大學、東南大學、新加坡南洋理工等高校,聯合發布技術報告;其理念與最近OpenAI發布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。

阿里巴巴集團安全部正在努力推動從“讓AI安全”到“讓用AI的人安全”的范式躍遷,邁向真正守己利他、以人為本的AI治理。

Oyster-I模型及Demo已開放使用,詳細鏈接可見文末。

真實世界的風險

在AI日益融入生活的今天,人們可能會遇到這樣的場景:

一位焦慮的母親,在深夜搜索“寶寶發燒的偏方”;或者馬上到考試周截止時間,交不上作業的年輕學生向AI求助Photoshop破解方案,得到的卻是AI“我無法幫助”的冰冷回復。

這種回復雖然不出錯,卻可能將無助的用戶推向網絡上更不可靠、甚至危險的信息深淵。

更極端一點,當一個在經濟困境中流露出違法念頭的用戶向AI傾訴、尋找解決方案,如果AI只是簡單地以“不能回復”來終止對話,其實并不能掐滅用戶違法的動機。

圖片

(以上對話示例來自GPT-oss-20b)

這并非個例,而是當前主流AI安全機制的結構性困境:安全對齊技術缺乏對用戶風險意圖的精細化分級能力,將風險簡單地歸納為來自惡意攻擊者的獨立事件。對應的防御措施是“一刀切”的拒絕回復。

然而,這些被拒絕回復的問題背后,不僅有圖謀不軌的惡意,也有大量來自用戶真實的急迫求助。

心理學研究表明,人在壓力和困擾狀態下,認知能力會變窄,很多風險提問都發生于人處在困境中的情況下,而當合法的溝通渠道被阻斷,人們會轉向其他不受約束的渠道。

一個被AI拒絕的人,很可能轉向充斥著虛假信息和極端思想的論壇或社群,從而將自己暴露在更大的風險中。

所以,簡單地拒絕回復所有風險問題,雖然攔住了AI系統里的風險,卻并沒有消除真實的危險;雖然規避了短期的風險,卻也逃避了引導用戶的長期責任。

這些現象也迫使AI研究者去審視AI安全的未來。同樣AI企業不僅需要為模型的安全負責,更應當主動肩負起更多社會風險、引導用戶的責任。

一個真正的負責任的AI,不僅要堅守安全底線,絕不被誘導生成有害方案;也要避免因為過度防御而拒人千里,把人推向更危險的境地。

因此,阿里巴巴安全部提出建設性安全對齊的理念,并將這一理念集成到了Oyster-I模型中。

Oyster-I模型在具有堅實的底線類風險防御的基礎上,對于風險等級較低的問題采用有原則的共情與引導,將潛在的風險提問轉變為幫助和引導用戶的契機。

對于上述被其它模型拒絕的問題,Oyster-I會給出這樣的答復:

圖片

建設性安全對齊

報告中提出一種新型的大語言模型安全對齊范式——建設性安全對齊(Constructive Safety Alignment, CSA)。

該范式突破傳統以拒絕為核心的防御式安全機制,轉而構建一個動態、可優化、面向長期交互目標的博弈框架。

在這個新的博弈框架下,AI的目標不再是簡單地“被動防御”用戶,而是在堅守安全底線的前提下,主動、智慧地與用戶協作,尋找既安全又有價值的最佳回復策略。

圖片

核心方法可以概括如下:

首先,研究團隊將語言模型與用戶之間的多輪交互形式化為一個兩階段序貫博弈。在這個博弈模型里,AI不再是被動地回應用戶的當前指令,而是會像一個領導者一樣,提前預判用戶的潛在意圖和后續行為,然后主動選擇一個能將對話引向最有益方向的策略。

具體來說,Oyster-I設定:

  • 用戶類型包括良性用戶、敏感意圖用戶和惡意攻擊者,其效用函數為圖片,反映其對響應的滿意度。
  • 模型效用函數為圖片其中Retention(.) 表示用戶留存度,Risk(.)為風險度(如違反法律/倫理準則的危險分數),α,β>0為權重系數,且通常β>α,體現安全優先原則,Cost 為每產生的y的生成費用。

由于用戶真實類型不可觀測,模型需通過觀測輸入和上下文推斷后驗信念,并據此求解期望效用最大化問題,該方法提出一個統一的Constructive objective, 用于表示同時考慮回復用戶滿意度及風險度后的凈價值,若為正,則意味著該回復提供了正向建設價值:

圖片

該目標函數鼓勵模型生成盡可能有幫助但無風險溢出的回復,則對于每一條提問x的最優回復y* 表示為:

圖片

該博弈結構允許模型在生成響應前,預判不同類型用戶在接收到不同響應后的策略反應(如繼續提問、停止交流等),從而主動選擇能引導對話走向安全且高滿意度狀態的策略路徑。

再有,該報告也提出了精細化的風險與價值評估。 研究團隊設計了一套多維度的安全評估體系,它會同時考量風險等級、所屬風險類別、用戶意圖。

研究團隊提出了一種基于語言學回溯的結構化推理(Lingo-BP)的技術, 用以確保AI在生成回復時,始終沿著已經設定好的“建設性”軌道前進。將自然語言推理路徑映射為偽可微路徑:

它是一條貫穿AI思考過程的邏輯鏈條,可以清晰地追蹤AI的每一步推理;當發現推理路徑有偏離目標的風險時,就可以精準地進行干預和修正,從而確保最終的輸出既合乎邏輯,又符合預設的建設性目標。

圖片

在數據和評測方面,目前多數安全數據集過分聚焦在攻擊者視角,但這并不能代表真實世界的用戶分布。

為此,報告中構建了一個全新的評測基準——Constructive Benchmark。研究團隊摒棄了簡單的二元標簽,創造了覆蓋從普通人到惡意/紅隊攻擊者的多樣化用戶畫像,并設計了從無風險(R0)、潛在風險(R1)到對抗攻擊(R2)三個等級的復雜問題。

例如,對于R1級別的敏感咨詢,允許一定情感共情表達;而對于R2級別的惡意請求,則明確拒絕。

圖片

在建設性安全對齊的評價里,根據上面的Constructive指標來給AI打分:

圖片

這個公式清晰地表明了Oyster-I團隊的價值取向:AI的總分,來源于它為用戶創造的價值,減去它所帶來的風險懲罰。

而在現實中,風險系數β通常顯著大于收益系數α。安全不是博弈后的終點,而是價值創造的起點。

實驗&實戰表現

圖片

研究團隊主要在Qwen3-14B和DS-distilled-14B兩個系列上進行了安全對齊與評測實驗,評測了模型通用能力的保留情況、現存安全評測數據的安全性,還評測了對抗越獄場景的魯棒性與Constructive評測集上的得分。

實驗結果表明,Oy1系列模型在安全性和通用能力上都達到了SOTA水平,做到了在不明顯降低通用能力的前提下大幅提升安全(兩個系列上分別約+10%/+32%),通用與安全指標均超過了基線工作RealSafe,尤其在Constructive指標上有顯著的優勢。

圖片

Constructive指標結果(上圖)展示了固定用戶滿意度權重α=1的情況下,不同的安全懲罰系數β下模型總得分的全面變化趨勢。

越非安全側重的應用場景(如純學術的論文閱讀助手)對應的β值越小,而高安全側重要求場景下β更大的結果更具備參考意義。

相比于基模,對應Oyster版本在不犧牲用戶滿意度的條件下大幅提升了安全性,使得曲線下降大幅變平緩;相比較而言,Realsafe由于其防御式的對齊,導致用戶滿意度大打折扣。

即使對比閉源商業大參數模型,Oyster也明顯超過大部分模型,僅與GPT5在不同安全比重參數下互有優劣。GPT-5由于其參數量遠超14B且也屬于非防御式的對齊理念,在用戶滿意度上領先較大;但是從β=3開始,Oyster由于安全性強于GPT5(尤其在越獄攻擊場景),實現了總分反超。

圖片

可能有人會有疑問:追求以人為本的模型會不會在實際使用中反而更為脆弱?為回答這一問題,研究團隊還進行了實戰檢驗。

AI安全全球挑戰賽(賽道一)攻防雙向對抗賽中,研究團隊將Oyster-I(白鯨模型)部署為被攻擊的靶標模型,實戰表現相當驚艷。

圖片

在攻擊測試中,Oyster-I主要采用兩種應對策略: 1、 轉為無害回復;2、面對難以轉換的問題拒絕回復。其內生安全加固方案在真實對抗場景中表現卓越,60000+次攻防彈雨,尤其是在抗越獄能力上達到甚至超越當前頂尖閉源模型水平:

  • Oy1-Qwen3-14B 防御成功率相比 GPT-5高4%;
  • 與配備完整安全護欄(safety guardrails)的商用基線模型相比,安全水位基本持平。

(注:比賽結果由大模型自動判斷,并輔以人工抽樣審核,確保評估可靠性。)

總結與展望

Oyster-I模型在傳統安全評測、通用能力的保留上都達到了SOTA水平,并且在建設性安全評測集上展現出了質變式的優勢。

Oyster-I打破了傳統安全范式下風險細分技術不足帶來的對可用性的影響,真正做到了安全和可用的共建。

未來,阿里巴巴集團安全部計劃推出更多Oyster系列模型,囊括更復雜的多輪對話、智能體、越獄攻擊等場景;并在安全與可用的基礎上,進一步打造可靠、可信的大模型。

圖片

Oyster-I論文的核心作者包括段然杰、劉劼西、李德楓、加小俊、趙世紀、程若曦、王鳳翔、魏程、謝勇、劉暢等多位來自阿里巴巴集團、清華大學、復旦大學、東南大學、新加坡南洋理工等機構的多領域跨學科專家,全部作者名單如下:

圖片

論文鏈接:https://arxiv.org/abs/2509.01909Github:https://github.com/Alibaba-AAIG/Oyster

模型開源地址1:https://huggingface.co/Oyster

模型來源地址2:https://modelscope.cn/studios/OysterAI

Safety-Jailbreak對應的數據集來自阿里新工作六脈神劍(Strata-Bench):https://arxiv.org/pdf/2509.01444

Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark

Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset

Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-25 15:31:40

2021-02-04 12:46:54

谷歌開源安全漏洞

2024-09-27 13:30:00

2025-06-26 08:42:00

模型安全AI

2010-08-31 12:05:32

2023-06-13 18:17:55

2025-01-23 13:30:00

2025-04-29 08:15:41

2023-06-13 18:14:39

2015-10-20 19:08:28

華三通信

2025-09-18 23:19:52

2013-10-11 10:59:42

2021-10-22 21:17:50

安全托管

2021-08-13 14:54:16

開源技術 開發

2025-07-31 11:59:22

2012-04-05 09:52:21

開源軟件Linux

2017-05-02 08:54:55

2010-05-10 16:08:10

點贊
收藏

51CTO技術棧公眾號

国产偷倩在线播放| 中文字幕乱伦视频| 激情综合五月| 亚洲成a人v欧美综合天堂 | 日本免费观看视| 久久99国产精品视频| 欧美电影影音先锋| 欧美视频免费看欧美视频| 理论视频在线| 国产乱码精品一品二品| 2024亚洲男人天堂| 国产精品视频一区二区三| 欧美久久精品| 欧美精品在欧美一区二区少妇| 国产一级爱c视频| se在线电影| 成人午夜视频网站| 国产精品免费小视频| 久久午夜无码鲁丝片| 九九免费精品视频在线观看| 日韩一区二区在线免费观看| 男女午夜激情视频| 在线中文字幕电影| 久久久国际精品| 翡翠波斯猫1977年美国| 成人免费毛片男人用品| 极品中文字幕一区| 久久精品中文字幕一区| ass精品国模裸体欣赏pics| 国产剧情一区二区在线观看| 色综合天天综合网国产成人综合天| 警花观音坐莲激情销魂小说| 国产九色在线| 久久综合国产精品| 国产精品免费区二区三区观看 | 亚洲欧美久久久| 久久91亚洲精品中文字幕| 亚洲色图 激情小说| 亚洲第一福利社区| 亚洲国产精品va在线观看黑人| 97人人爽人人| 91九色综合| 日本道免费精品一区二区三区| 日本在线xxx| 色呦呦在线看| 亚洲精品一二三区| 自拍偷拍视频在线| 免费在线看黄色| 国产日韩欧美亚洲| 日本高清久久一区二区三区| 天天综合天天综合| 99久久综合99久久综合网站| 国产精品欧美久久| 俄罗斯嫩小性bbwbbw| 国产高清视频一区| 亚洲自拍偷拍视频| 国产精品无码天天爽视频| 久久超碰97人人做人人爱| 国产精品视频最多的网站| 最新中文字幕在线观看视频| 久久综合狠狠| 欧美亚洲视频在线看网址| 男女啊啊啊视频| 国产偷自视频区视频一区二区| 国内免费久久久久久久久久久| 日本少妇性高潮| 9国产精品视频| 51ⅴ精品国产91久久久久久| 精品人妻无码一区二区性色| 天堂在线一区二区| 国产精品看片资源| 亚洲自拍偷拍另类| 国产一区二区三区观看| 99电影在线观看| 日本免费不卡视频| 久久久久国色av免费看影院| 日韩欧美亚洲精品| 国产欧美黑人| 亚洲国产日产av| 丰满爆乳一区二区三区| 久久天堂av| 9191成人精品久久| 99riav国产精品视频| 色哟哟精品丝袜一区二区| 亚洲欧美日韩精品| 久久国产高清视频| 激情成人亚洲| 国产精品成熟老女人| 97人妻一区二区精品免费视频| 国产精品中文有码| 久久综合中文色婷婷| 大乳在线免费观看| 亚洲男人的天堂av| 免费看一级大黄情大片| 欧美大片网站| 日韩www在线| av片在线免费看| 黄色亚洲大片免费在线观看| 青青精品视频播放| hs视频在线观看| 久久蜜桃一区二区| 黄色一级大片免费| 国产 日韩 欧美一区| 538在线一区二区精品国产| 日本黄色动态图| 97视频热人人精品免费| 久久久久久久久久久av| 成人黄色三级视频| 99re成人精品视频| 400部精品国偷自产在线观看| 欧美男男tv网站在线播放| 欧美日韩黄色一区二区| 菠萝菠萝蜜网站| 亚洲精品小说| 日韩av电影在线免费播放| 深夜黄色小视频| 一区二区三区四区高清视频| 亚洲人成在线观看网站高清| 欧美成人一区二区三区高清| 久久久久国产一区二区| 成人羞羞视频免费| 国产精品剧情一区二区在线观看| 欧美日韩国产一区二区三区| 欧美体内she精高潮| 成人3d动漫在线观看| 欧美一级大片在线免费观看| 国产刺激高潮av| 亚洲精品久久久久久国产精华液| 亚洲天堂网一区| 偷窥自拍亚洲色图精选| 欧美激情欧美激情在线五月| 一卡二卡在线视频| 中文字幕精品一区二区精品绿巨人| 少妇无码av无码专区在线观看| 清纯唯美激情亚洲| 精品久久久av| 91福利在线观看视频| 国产日韩精品一区| 人妻无码视频一区二区三区| 欧美综合精品| 性欧美亚洲xxxx乳在线观看| 可以免费观看的毛片| 亚洲精品国产a| 中文字幕第三区| 我不卡手机影院| 国产欧美一区二区白浆黑人| 成人激情电影在线看| 色94色欧美sute亚洲线路一久| 国产又黄又粗又猛又爽的视频| 在线成人国产| 好看的日韩精品| 精品极品在线| 日韩av影视综合网| 亚洲伊人成人网| 91亚洲精品乱码久久久久久蜜桃| 俄罗斯av网站| 久久av网址| 国产精品狠色婷| 91高清在线| 6080日韩午夜伦伦午夜伦| 三级全黄做爰视频| 国产酒店精品激情| 欧美中文字幕在线观看视频| 精品午夜电影| 欧美中文字幕在线| 成人免费高清在线播放| 欧美高清性hdvideosex| 欧美精品一级片| 不卡的看片网站| 日本a级片免费观看| 国产精品一区二区99| 国产综合福利在线| 色呦呦在线免费观看| 亚洲国产欧美一区二区丝袜黑人 | 在线观看一区二区三区四区| 在线观看视频日韩| 欧美日本亚洲| 欧美天堂一区二区| 欧美激情一区二区三区久久久 | 欧美不卡视频在线观看| 久久久久久久久久久久久夜| 污网站在线免费| 黄色免费成人| 欧美一区三区二区在线观看| 中文字幕综合| 98精品在线视频| 137大胆人体在线观看| 日韩一区二区免费在线观看| 五月婷婷开心网| 一区在线中文字幕| 99re久久精品国产| 美女在线一区二区| 国产乱子伦精品无码专区| 免费看成人哺乳视频网站| 成人免费视频在线观看超级碰| 黑人精品视频| 在线播放精品一区二区三区 | 国产偷亚洲偷欧美偷精品| 国产精品露脸视频| 亚洲一区二区三区不卡国产欧美| 成人午夜剧场视频网站| 国产一区二区调教| 一本久道中文无码字幕av| 午夜久久tv| 日韩中文字幕一区二区| eeuss鲁片一区二区三区| 国产精品久久97| а√在线中文网新版地址在线| 在线观看视频99| 四虎影视在线观看2413| 日韩视频免费观看高清完整版 | 国产精品一区二区欧美黑人喷潮水| 桃色一区二区| 久久久亚洲影院你懂的| 婷婷在线视频观看| 亚洲人成电影网站色xx| 韩国av电影在线观看| 在线播放/欧美激情| 免费黄色网址在线| 一区二区在线观看视频在线观看| 免费看91的网站| 99精品国产91久久久久久| 天堂在线精品视频| 久久精品国产久精国产| 久热免费在线观看| 99成人在线| 国产欧美久久久久| 亚洲精品一二三区区别| 五月婷婷综合色| 伊人久久大香线蕉| 国产嫩草一区二区三区在线观看| 电影一区中文字幕| 国产日韩中文在线| 国产成+人+综合+亚洲欧美| 热久久免费视频精品| 九色porny丨国产首页在线| 欧美激情免费在线| 日本在线观看高清完整版| 欧美大成色www永久网站婷| 麻豆免费在线视频| 日韩网站免费观看高清| 成人在线观看网站| 亚洲最新av在线| www.在线播放| 在线视频中文亚洲| 爱爱爱免费视频在线观看| 国产亚洲欧美日韩精品| 撸视在线观看免费视频| 亚洲人成啪啪网站| 韩国精品视频| 国产亚洲精品久久久久久牛牛| 男人的天堂在线免费视频| 国产丝袜视频一区| 国产福利片在线| 中文字幕日韩视频| 男人和女人做事情在线视频网站免费观看 | 成 年 人 黄 色 大 片大 全| 好看的亚洲午夜视频在线| av在线免费观看国产| 欧美欧美全黄| 成人免费播放器| 国产一区二区你懂的| 精品久久久久av| 日本欧美在线看| 亚洲xxx在线观看| 国产福利一区二区| 国产原创剧情av| 久久亚洲精精品中文字幕早川悠里| 亚洲一区二区三区蜜桃| 欧美国产成人在线| 一起操在线播放| 亚洲综合色网站| 中文字幕超碰在线| 欧美午夜片在线观看| 国产黄色片免费| 亚洲精品久久久久中文字幕欢迎你| 你懂的视频在线观看| 中国china体内裑精亚洲片| 久久国产精品一区| 性色av一区二区三区免费 | 精品久久中文字幕久久av| av片免费观看| 在线成人小视频| 欧美 日韩 国产 成人 在线| 亚洲欧美日本精品| 中文字幕中文字幕在线十八区 | 成人精品国产| 1卡2卡3卡精品视频| 性欧美lx╳lx╳| 小说区视频区图片区| 亚洲精品精选| 爱情岛论坛vip永久入口| 国产精品一区二区久久精品爱涩| 在线观看国产免费视频| 亚洲欧洲另类国产综合| 日韩在线观看第一页| 在线电影一区二区三区| 四虎精品在线| 久久成人精品视频| 日韩精品专区| 成人黄色在线免费观看| 日韩精品二区| 免费毛片小视频| 国产精品18久久久久| 久久久久久久久久久国产精品| 中文字幕一区三区| 亚洲一区 视频| 欧美一区二区三区日韩视频| 欧美777四色影视在线| 欧美日韩国产成人高清视频| 国产极品一区| 免费试看一区| 激情欧美一区| 亚洲丝袜在线观看| 中文一区二区完整视频在线观看| 日本网站免费观看| 日韩一卡二卡三卡四卡| 91这里只有精品| 2019亚洲日韩新视频| 999久久久精品一区二区| 一区二区在线不卡| 日韩福利电影在线| 亚洲观看黄色网| 亚洲成av人片在线观看| 亚洲av综合色区无码一二三区| 日韩一区视频在线| 亚洲天堂1区| 欧美一区二区三区精美影视| 伊人成年综合电影网| 激情小说欧美色图| 亚洲女同一区二区| 国产又粗又猛又爽| 最新国产精品拍自在线播放| 日韩欧美精品电影| 欧美日韩无遮挡| 亚洲永久字幕| 精品人妻一区二区三区日产乱码卜| 一区二区三区四区不卡在线 | 婷婷四月色综合| 亚洲欧美成人综合| 一级性生活毛片| 色综合天天在线| 奇米影视888狠狠狠777不卡| 97视频免费在线观看| 极品一区美女高清| 国产 日韩 亚洲 欧美| 波多野结衣视频一区| 国产精品1234区| 亚洲国产精品电影| 欧美激情20| 免费不卡亚洲欧美| 久久中文精品| 免费成人深夜蜜桃视频| 欧美日韩免费不卡视频一区二区三区 | 日韩一区二区三| 美女精品导航| 久久福利电影| 久热re这里精品视频在线6| 亚洲一区二区自偷自拍| 欧洲国内综合视频| 国产最新在线| 电影午夜精品一区二区三区| 亚洲茄子视频| 亚洲一区二区三区日韩| 欧美卡1卡2卡| 国产精品一品| 快播日韩欧美| 看片的网站亚洲| 日本黄色小说视频| 精品不卡在线视频| 国产精品一区二区av影院萌芽| 日韩一区免费观看| 国产精品中文有码| 国产精品男女视频| 中文字幕在线精品| 亚洲午夜免费| 男人操女人免费| 中文字幕中文乱码欧美一区二区| 国产av无码专区亚洲av| 性欧美xxxx视频在线观看| 不卡在线一区二区| 精品人妻人人做人人爽夜夜爽| 五月天婷婷综合| 午夜小视频在线| 成人精品一二区| 久久天堂精品| 欧美卡一卡二卡三| 亚洲欧美激情一区| 久久精品九色| 18岁视频在线观看| 亚洲一区二区三区在线| 蜜芽tv福利在线视频| 亚洲a级在线播放观看| 中国女人久久久| 欧美激情精品久久久久久免费| 亚洲国产第一页| 亚洲伊人精品酒店| 精品这里只有精品| 亚洲美女精品一区| 伦理片一区二区三区|