精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 Oral | 從「淺對齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級階梯

人工智能 新聞
清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。

本工作共同第一作者包括:張亦弛,清華大學計算機系三年級博士生,師從朱軍教授,研究方向是多模態大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會發表多篇論文,曾主導開發了首個多模態大模型可信度全面評測基準MultiTrust;張思源,清華大學計算機系一年級碩士生,導師是蘇航副研究員,研究方向是大模型安全與對齊算法。本文通訊作者是清華大學人工智能學院董胤蓬助理教授和計算機系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語言模型(LLM)加速進入法律、醫療、金融等高風險應用場景的當下,“安全對齊”不再只是一個選項,而是每一位模型開發者與AI落地者都必須正面應對的挑戰。然而,如今廣泛采用的對齊方式,往往只是讓模型在檢測到風險提示時機械地回復一句“很抱歉,我無法滿足你的請求”——這種表面看似“安全”的機制,實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對齊(Shallow Alignment)”[1]:模型的預測分布僅在回復開頭做出了有效偏移,卻從未真正理解潛在的風險語義。一旦越獄提示換個包裝,模型就輕易“破防”;而過度依賴這類簡單訓練,也往往會犧牲模型在通用任務中的語言能力與響應質量,帶來“安全 vs. 能力”的兩難局面。

圖片

越獄攻擊可以繞過大模型安全護欄[2]

在這一背景下,清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。與其讓模型學會“條件反射式的閉嘴”,不如讓它真正學會思考之后再開口。STAIR通過三步走增強了對齊流程,驗證了測試時擴展(Test-Time Scaling)對模型安全的貢獻。在不降低通用能力的前提下,STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風險。它不再是安全與性能的零和博弈,而是將二者在推理下有機統一。STAIR的階梯引領大模型安全對齊從本能拒答走向深度自省,從格式安全邁向思維安全。

這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實踐基礎上,研究團隊進一步推出了RealSafe-R1模型,率先針對開源的DeepSeek-R1模型進行安全對齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關代碼、訓練數據、模型均已開源,詳細算法和實驗細節請參考原始論文。

圖片

  • 論文標題:STAIR: Improving Safety Alignment with Introspective Reasoning
  • 論文鏈接:https://arxiv.org/abs/2502.02384
  • 開源鏈接:https://github.com/thu-ml/STAIR

圖片

  • 論文標題:RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
  • 論文鏈接:https://arxiv.org/abs/2504.10081
  • 開源鏈接:https://huggingface.co/RealSafe

接下來,讓我們一起“登梯”...

向安全對齊引入系統2思考

當前安全對齊方法大多基于簡短拒答的數據形式訓練模型,使得模型隱式建立了危險輸入到直接拒答的直覺性映射,類似于系統1快思考(System 1 Thinking)。研究者們受系統2慢思維(System 2 Thinking)提升模型推理能力的技術路線啟發,設計了STAIR對齊框架,力求幫助大模型真正理解風險指令,進行系統化的自我思考和風險評估,而不是條件反射式地拒絕回答。

圖片

從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個階段:結構化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴展,能夠在不具備推理能力的模型上,實現性能與安全的雙效提升。

圖片

階段 1:結構化推理對齊

第一階段通過少量的結構化思維鏈數據進行有監督微調,使模型初步獲得推理能力。研究者設計了一個分步式的輸出格式,每一步推理都包括一個總結標題和詳細描述,從而幫助模型在應對風險時能夠逐步分析問題,并調用GPT-4o對安全和通用問題進行回復生成。模型在分步的內省深思后再正式輸出明確的回答,該回答需要經過風險識別后,作出合理拒絕或給出無害信息。這一階段的訓練也為后續按步驟切分回答,進行樹搜索和推理時搜索提供了基礎。

階段 2:基于安全感知蒙特卡洛樹搜索的自提升

第二階段使用蒙特卡洛樹搜索的方式構造自采樣的step-level偏序數據對,并使用DPO損失微調模型。研究者以每一個推理步驟/最終回答步驟作為一次動作,但與傳統蒙特卡洛樹搜索不同的是,為了同時優化模型的安全性和通用能力,在搜索過程中獎勵信號由安全分數和有用性分數兩個維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎勵函數的設計一共包括3個條件:安全優先條件,有用性雙向條件,以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。

圖片

  • 安全優先條件:安全回復總能獲得比不安全回復更高的分數。

圖片

  • 有用性雙向條件:當回復是安全時,越詳細越有用則分數越高;當回復存在風險時,越能幫助解決問題則分數越低。

圖片

  • 單一維度退化條件:當只考慮安全性或有用性中的一個維度時,蒙特卡洛搜索的過程退化為使用對應分數的搜索。這可以保證多元評分不影響原有搜索框架的效果。

基于以上條件,研究者通過理論推導,給出了一個滿足要求的最簡單形式的獎勵函數:R(H, S) = S·H + 2S,其中分數由模型進行自我打分。在經過足夠多輪的樹搜索后,研究者使用閾值控制策略來采樣step-level的偏序數據對,來提供細粒度的微調信號。整個采樣-微調過程將進行多輪,每一輪使用不同的訓練問題,以不斷強化模型的推理能力和安全對齊程度。

圖片

實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問答)、JailbreakV(越獄數據)和UltraFeedback(通用數據)三個主流數據集中采樣的問題,對模型進行訓練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結果顯示,經過前兩階段的微調,模型在安全性能上相比訓練前獲得了顯著提升,同時更好地平衡了安全性能和通用性能。

圖片

 階段 3:測試時擴展

圖片

第三階段是訓練一個獎勵模型,并指導語言模型進行測試時搜索。用于訓練獎勵模型的數據同樣采自第二階段的蒙特卡洛搜索樹中,采樣step-level數據和全程軌跡數據,并通過Bradley-Terry模型的優化目標微調過程獎勵模型(process reward model)。后續基于該獎勵模型給出的信號進行Best-of-N搜索或束搜索,實現錦上添花的效果。在Llama-3.1-8B模型上,結合束搜索,在StrongReject上達到了0.94的分數,顯著超過多個主流商用模型,達到了與Claude-3.5相當的安全性能。

圖片

這意味著推理增強的技術手段也可以在安全對齊上取得可靠的效果。安全與推理的有機統一,可以推動模型真正理解、分析并應對風險,在保障安全的同時保留語言能力與實用性。

RealSafe-R1的安全對齊實踐

在STAIR的理論基礎上,研究團隊進一步推出了RealSafe-R1模型,針對開源的DeepSeek-R1模型進行安全對齊。通過構建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時,保持了其強大的推理能力,避免了傳統方法中常見的性能損失問題[3]。

圖片

具體地,研究者通過提示DeepSeek-R1在推理過程中注意安全風險,加強安全護欄,提升模型推理過程的安全性。經過一輪的有監督微調,各尺寸推理模型的安全性都得到了大幅提升,同時在數學、代碼等推理任務上的表現不受影響,甚至在事實性方面也有一定改進。

圖片

隨著推理模型成為主流,已有不少工作研究推理模型的安全風險,也使其安全加固成為一個重要研究問題。STAIR框架提供了一條可行路徑來賦能模型的深度安全對齊,以及在安全對齊時更好地維持其通用能力。期待相關領域未來進一步的研究與突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-25 15:31:40

2024-10-29 21:01:44

2010-11-22 10:04:15

虛擬化

2021-09-15 09:39:56

公共云云遷移云端

2025-06-20 14:29:02

模型訓練大數據

2025-06-17 06:21:13

2025-07-23 10:07:31

2021-07-14 10:33:41

云計算數據安全云安全

2025-03-11 08:37:42

2024-07-22 08:22:00

2021-10-14 09:00:00

云計算數字化轉型公有云

2025-07-17 09:28:09

2024-05-16 12:48:12

數據AI

2024-07-19 10:39:38

2025-04-28 00:04:00

傳統網絡安全

2025-09-29 07:42:00

2025-01-15 14:49:14

2025-07-25 08:45:00

AI模型測試

2025-06-11 07:11:00

點贊
收藏

51CTO技術棧公眾號

欧美精品久久久久久久免费| 国产91九色视频| 制服.丝袜.亚洲.中文.综合懂| caoporn免费在线| 成人美女视频在线看| 欧美中文在线免费| 91高清免费观看| 精品国产导航| 欧美三级中文字| 国产精品久久久久9999爆乳| 成人动漫在线免费观看| 国产成人av电影在线| 日本精品视频在线观看| 69av.com| 成人羞羞网站入口免费| 精品福利一区二区三区免费视频| 久久久久狠狠高潮亚洲精品| 超碰在线最新| 久久久精品免费免费| 不卡一卡2卡3卡4卡精品在| 18禁男女爽爽爽午夜网站免费| 国产在线观看免费| 高清在线观看日韩| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 亚洲色图偷拍视频| 热色播在线视频| 国产69精品一区二区亚洲孕妇| 国产精品69久久| 久久精品性爱视频| 婷婷亚洲图片| 911精品国产一区二区在线| 欧美久久久久久久久久久久久| 日韩在线资源| 国产亚洲综合色| 国产乱码精品一区二区三区日韩精品| 91丨porny丨在线中文| 久久国产精品亚洲77777| 久久久久久久久久国产| 熟女av一区二区| 成人区精品一区二区婷婷| 亚洲精品资源美女情侣酒店| www.555国产精品免费| 玖玖玖电影综合影院| 欧美精三区欧美精三区| 亚洲一区二区精品在线| 91亚洲国产成人久久精品麻豆| 久久一区精品| 日韩av大片免费看| 你懂的国产在线| 青草国产精品| 亚洲网址你懂得| 亚洲av无码成人精品国产| 日韩网站中文字幕| 日本精品视频一区二区三区| 国产aaa一级片| 日本乱码一区二区三区不卡| 亚洲国产精品一区二区久久恐怖片| 国产伦理一区二区三区| 国产黄色片免费观看| 国产乱一区二区| 亚洲精品欧美日韩| 精品黑人一区二区三区在线观看 | 国产日韩精品在线| 伊人久久成人网| 精品一区二区精品| 成人写真视频福利网| www.国产视频| 成人黄色av网站在线| 国产精品一区视频| 日韩大片b站免费观看直播| 久久综合久久综合久久综合| 日本免费高清一区| 国产富婆一级全黄大片| 国产一区二区三区久久久| 99久久精品免费看国产一区二区三区 | 久久九九免费| 国产精品一区二区三区在线播放| 国产精品一区二区人人爽| 国产一区91精品张津瑜| 国产精品成人一区二区三区| 五月天激情开心网| 国产三级精品在线| 天天操天天干天天玩| 丁香花电影在线观看完整版| 日韩欧美有码在线| 亚洲77777| 亚洲国产中文在线二区三区免| 亚洲国产91精品在线观看| 免费黄色在线视频| 伊人精品综合| 精品一区二区三区三区| 亚洲激情图片网| 亚洲高清成人| 国产精品高潮呻吟久久av无限| 国产精品久久久久久69| 波多野结衣在线一区| 日韩在线三区| 男女在线观看视频| 欧美无砖砖区免费| 欧美日韩人妻精品一区在线| 成人羞羞网站入口免费| 久久久久久久久久av| 中文字幕一二三四| 99综合电影在线视频| 亚洲视频电影| 都市激情国产精品| 欧美二区三区91| 大地资源二中文在线影视观看| 欧美激情电影| 奇米4444一区二区三区| 亚洲AV无码乱码国产精品牛牛 | 亚洲午夜久久久久| 天天爱天天做天天操| 蜜桃视频m3u8在线观看| 欧美日韩精品欧美日韩精品一 | 日韩欧美久久| 亚洲视频免费一区| 日韩av免费网址| 精品影视av免费| 欧美日韩一区二区三区在线观看免| 亚洲奶水xxxx哺乳期| 欧美亚洲一区三区| 久久午夜夜伦鲁鲁片| 欧美激情 亚洲a∨综合| 国产免费亚洲高清| 国产亚洲依依| 欧美性猛交xxxx富婆弯腰| 日本在线不卡一区二区| 国产精品精品国产一区二区| 国产精品成人一区二区| 日韩大片b站免费观看直播| 亚洲高清一区二区三区| 亚洲精品乱码久久久久久动漫| 国产999精品在线观看| 亚洲图片在线综合| 亚洲午夜18毛片在线看| 99精品视频一区二区三区| 免费的一级黄色片| 精品久久亚洲| 久久福利视频导航| 97人妻精品一区二区三区视频| 亚洲国产精品成人综合| 久久午夜夜伦鲁鲁一区二区| 免费一区二区| 热门国产精品亚洲第一区在线| 人妻一区二区三区四区| 亚洲国产精品久久一线不卡| 年下总裁被打光屁股sp| 欧美精品大片| 91久色国产| 少女频道在线观看免费播放电视剧| 91麻豆精品国产91久久久资源速度 | 一区二区在线视频观看| 欧美成人手机在线| www.五月天激情| 亚洲一区二区精品视频| 国产毛片毛片毛片毛片毛片毛片| 亚洲激情欧美| 国产精品福利在线观看| 成年网站在线| 欧美日韩你懂得| 精品无码一区二区三区蜜臀| 国产一区二区三区在线观看免费 | 69av视频在线| 国产精品亚洲人在线观看| 日本中文字幕在线视频观看| 欧美男男freegayvideosroom| 欧美尤物巨大精品爽| 国产精品毛片久久久久久久av| 国产精品久久精品日日| 在线免费黄色网| 最新精品国产| 国产一区在线免费| gogo亚洲高清大胆美女人体 | 欧美国产综合视频| 婷婷六月国产精品久久不卡| 最新国产精品拍自在线播放| www.成人免费视频| 婷婷开心激情综合| 99在线视频免费| 国产乱码精品一区二区三区五月婷| 国产美女作爱全过程免费视频| 精品淫伦v久久水蜜桃| 欧美一区在线直播| 免费观看在线黄色网| 欧美mv和日韩mv的网站| 久久久久久久久久成人| 最新日韩av在线| 国模私拍在线观看| 美女视频第一区二区三区免费观看网站| 男女裸体影院高潮| 一道在线中文一区二区三区| 91精品美女在线| 黄色漫画在线免费看| 日韩在线小视频| 免费av网站在线播放| 欧美曰成人黄网| 激情综合网五月婷婷| 国产午夜精品一区二区三区四区| 中文字幕在线视频一区二区| 日韩黄色免费电影| 久久婷婷人人澡人人喊人人爽| 欧美一区二区三区成人片在线| 日韩欧美aaa| 国产精品视频一区二区三| 91色|porny| 男人和女人啪啪网站| 国产91精品入| 成人网在线观看| 日韩福利一区| 97在线看福利| 免费在线观看av网站| 日韩电影视频免费| 国产欧美熟妇另类久久久| 日本韩国一区二区三区视频| 日韩精品一区二区av| 最新欧美精品一区二区三区| 一区二区伦理片| 暴力调教一区二区三区| 日本少妇激三级做爰在线| 久久综合伊人| av之家在线观看| 欧美国产高潮xxxx1819| 亚洲一区二区三区加勒比| 亚洲区小说区| 国产女主播一区二区| 激情视频亚洲| 国产综合福利在线| 欧美色片在线观看| 日本精品久久久久影院| √8天堂资源地址中文在线| 久久国产精品99国产精| 欧美jizz18性欧美| 一本一道久久a久久精品逆3p| 飘雪影视在线观看免费观看| 日韩av网址在线| 少妇av一区二区| 精品国产91乱码一区二区三区 | 九九热免费精品视频| 六月天综合网| 国产精品69页| 欧美国产一级| 一区二区高清视频| 手机在线一区二区三区| 一区国产精品| 国产韩日影视精品| 中文字幕中文字幕在线中一区高清| 日韩片欧美片| 超碰在线免费观看97| 国产精品成人av| 伊人久久在线观看| 欧美片第1页综合| 欧美性潮喷xxxxx免费视频看| 国产综合网站| 欧美极品欧美精品欧美| 久久精品女人天堂| 国内自拍视频网| 精品一区二区三区在线视频| 永久免费看片在线观看| 成人永久免费视频| 特级西西人体wwwww| 久久久欧美精品sm网站| 国产视频不卡在线| 中文字幕日韩精品一区| 免费毛片在线播放免费| 午夜精品福利视频网站| 亚洲大片免费观看| 欧美日韩在线免费视频| 国产特级黄色片| 亚洲国产又黄又爽女人高潮的| 亚洲一级特黄毛片| 欧美一区二区在线播放| 国产免费a视频| 欧美军同video69gay| 精品人妻一区二区三区含羞草| 欧美一级片免费看| 天堂在线视频观看| 亚洲天堂免费视频| av网站在线免费看推荐| 国外视频精品毛片| 自拍偷自拍亚洲精品被多人伦好爽| 国产精品专区第二| 51精品国产| 日本亚洲导航| 欧美三级黄美女| 日本在线视频www| 国产在线日韩欧美| 久久久久国产精品区片区无码| 国产精品久久久久久亚洲毛片| 国产性一乱一性一伧一色| 日韩欧美高清在线视频| 国产女人高潮的av毛片| 国产视频综合在线| 久草免费在线观看| 91成品人片a无限观看| 亚洲午夜国产成人| 国产欧美一区二区| 精品按摩偷拍| 亚洲自拍三区| 国产精品毛片| 色诱av手机版| 国产精品视频你懂的| 日韩欧美大片在线观看| 欧美男人的天堂一二区| 水莓100在线视频| 九九热99久久久国产盗摄| 电影久久久久久| 国产欧美日韩综合精品二区| 亚洲乱码免费伦视频| 99re8这里只有精品| 欧美专区一区二区三区| 欧美做受高潮中文字幕| 国产精品国产三级国产普通话三级| 欧美亚韩一区二区三区| 日韩一级免费观看| yourporn在线观看中文站| 91产国在线观看动作片喷水| 日韩中文字幕视频网| 亚洲第一精品区| 日韩经典中文字幕一区| 毛茸茸多毛bbb毛多视频| 亚洲精品乱码久久久久久黑人 | 美女一区二区三区| 变态另类丨国产精品| 亚洲一区二区三区四区五区中文 | 精品69视频一区二区三区| 九九久久99| 在线看片日韩| 制服下的诱惑暮生| 亚洲日本在线a| 91精品国产乱码久久久久| 自拍偷拍亚洲区| 不卡亚洲精品| 亚洲激情一区二区| 日产国产高清一区二区三区| 亚欧洲乱码视频| 91久久线看在观草草青青| 国产中文在线视频| 国产成人午夜视频网址| 久久97视频| 精品一卡二卡三卡| 日本一区二区三区高清不卡 | 国产99在线| 国产在线精品一区| 在线日韩av| 中文字幕av观看| 欧美性猛交丰臀xxxxx网站| 欧美孕妇孕交xxⅹ孕妇交| 日韩免费观看网站| 欧洲美女日日| 亚洲精品www.| 亚洲男同性视频| 日本网站免费观看| 亚洲成人黄色在线| 九色porny丨入口在线| 好看的日韩精品视频在线| 99精品热视频只有精品10| 日本免费福利视频| 色哟哟一区二区在线观看| 黄色av免费在线看| 国产热re99久久6国产精品| 亚洲成人av| 日本精品一二三区| 婷婷开心久久网| 国产天堂在线| 成人中文字幕在线观看 | 老熟妇仑乱视频一区二区| 亚洲国产激情av| 国产视频手机在线| 韩国视频理论视频久久| 伊人久久大香线蕉综合网蜜芽| 久久久久久久久久久久91| 亚洲男人的天堂在线aⅴ视频| 黑人乱码一区二区三区av| 欧美在线视频免费| 99成人在线视频| av av在线| 欧美色偷偷大香| 女同一区二区免费aⅴ| 欧美精品久久久| 麻豆传媒一区二区三区| 久久亚洲成人av| 国产亚洲一级高清| 精品三级国产| 任你操这里只有精品| 亚洲天堂精品视频| 四虎电影院在线观看| 91天堂在线观看| 久久av最新网址| 欧美黑人性猛交xxx| 亚洲美女激情视频| 99久久999| 国产精品免费成人| 亚洲制服丝袜一区| av在线资源网| 国产欧美一区二区视频| 精品在线一区二区| 欧美brazzers| 久久久久久久影院| 日韩免费看片|