精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

精準調控大模型生成與推理!浙大&騰訊新方法嘗試為其注入“行為定向劑”

人工智能 新聞
來自浙江大學與騰訊的聯合團隊提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對模型行為的精準調控,為構建既聰明又聽話的AI打下基礎。

如果你面前有兩個AI助手:一個能力超強卻總愛“離經叛道”,另一個規規矩矩卻經常“答非所問”,你會怎么選?

這正是當前大模型控制面臨的兩難困境:要么模型聰明卻難以約束,要么守規矩卻缺乏實用性。但我們真正追求的,并不是在“聰明但難控”與“聽話但愚鈍”之間二選一,而是打造既強又好的AI助手——既具備強大的智能能力,又能始終按照人類意圖行事。

ACL 2025中選論文中,來自浙江大學與騰訊的聯合團隊提出了新思路:Steering Target Atoms(STA),嘗試為大模型注入“行為定向劑”,助力對模型行為的精準調控,為構建既聰明又聽話的AI打下基礎。

圖片

該方法通過“原子級”粒度對大模型進行行為編輯干預,實現了更魯棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的實驗表明,STA方法能夠有效抑制越獄攻擊帶來的違規輸出,同時不削弱模型在正常問題回答中的高質量智能表現。

圖片

方法&實驗結果

大模型行為控制的挑戰與突破

在參數訓練完成后,很多應用場景會需要在推理階段調整模型的特定行為,例如讓模型拒絕用戶的惡意請求。

然而,模型的“安全防御”能力往往和它的“通用智能”能力緊密耦合:為了讓模型學會拒絕有害輸入,可能會不小心削弱它對正常問題的應對能力。

目前最常用的解決方案是通過精心設計Prompt,在輸入端“兜底”以控制輸出。但這種方式也存在明顯弱點:Prompt 容易被越獄攻擊繞過,一旦攻擊者找到繞過思路,模型就可能產生不安全或偏離預期的回答。

為了解決這一難題,研究團隊提出了Steering Target Atoms(STA)方法。STA不再僅僅在輸入或輸出層做文章,而是深入到模型內部——分析各層神經元的激活模式,找到哪些“原子級”神經元與有害行為高度關聯,哪些又對應正常目標輸出。

基于此,STA會對這些關鍵神經元的激活頻率和幅度進行有針對性的干預:抑制與“越獄”或輸出違規內容相關的神經元,同時保留或增強與正確回應對應的神經元活性。

簡單來說,它不僅讓模型“守規矩”,還不必以犧牲通用性能為代價。

STA方法

目前的Steering方法通常借助于稀疏編碼器(Sparse Autoencoders,SAE)將耦合的目標方向分解到更高維度的空間以便解耦到單語義方向。

然而這些嘗試通常在一些簡單的選擇題任務上嘗試(比如動詞的時態變化、實體識別),本文將其擴展到開放生成式任務上。

具體來說,STA方法分別追蹤一個query的正向回復和負向回復在前向傳播中激活特定神經元的頻率和幅度;用正向頻率(幅度)減去負向頻率(幅度)得到表示目標方向的頻率(幅度)。最后根據目標方向頻率(幅度)的閾值篩選出目標方向的原子。

實驗設置

在后面的實驗中研究人員通過操縱目標原子的方向和幅度調控目標行為。在Gemma-2-9B-ptGemma-2-9B-itLlama-3.1-8B做了大量實驗,評估STA方法在大模型安全防御場景的性能。

在比較的基線方法中,Prompthand是手工設計的Prompt,Promptauto是自動生成的Prompt,CAA是一種不使用SAE的Steering策略,SAEAXBENCH是一種使用SAE的Steering策略。

主要實驗結果

圖片

如上表所示,本文提出的方法可以適用到Gemma和Llama家族模型上;總體上來說STA取得了最好的祛毒效果,且幾乎沒有在通用能力上引入副作用。

Steering Vectors VS. Prompt Engineering

研究人員進一步分析了Steering Vectors技術和提示工程技術的對比。他們不能窮舉出所有的Prompt然后確定最優的Prompt,也無法保證他們的Steering技術是最優的。

因此為了公平地對比Steering和Prompting策略,團隊直接用CAA以及STA將Prompt直接轉化成Steering向量進行對比。實驗結果發現:

1.Steering面對越獄攻擊時比Prompting更加魯棒。

2.Steering可以調控的幅度比Prompting更大,粒度更細。

此外研究人員還將Steering策略用于DeepSeek-R1-Distill-Qwen-7B模型緩解Overthinking問題,實驗結果如下圖:

圖片

編輯干預千億大模型Deepseek-R1的思考過程

研究人員在更大的模型DeepSeek-R1(671B)上也做了干預思考的實驗。根據Deepseek-R1的MoE架構,他們選擇干預MoE的專家。具體細節詳見“Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training”。

圖片

具體而言,研究人員通過nPMI指標識別出與“思考”密切相關的認知專家神經元,并對其權重進行放大干預。實驗發現,在數學和物理等任務中,這些認知專家具有高度的一致性。

進一步地,對這些關鍵神經元進行干預后,模型的整體認知思考能力得到了提升,表現出更強的推理和理解能力。

總的來說Steering Vector這類技術基于對模型內部的理解來調控模型的行為,雖然沒有Prompt方便,但是干預的效果更加魯棒和精確。然而大模型是一個復雜系統,本文借助的SAE在一些場景下效果并不理想,反向調控也可能引入一些負面行為。

為推動社區在安全可控大模型方向的進一步探索,研究人員已經將部分干預方法開源,歡迎大家使用、探索。

論文地址:
https://arxiv.org/abs/2505.14681
代碼地址:
https://github.com/zjunlp/steer-target-atoms
https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
overthinking問題地址:
https://arxiv.org/abs/2412.21187
干預Deepseek-R1的思考過程:
https://arxiv.org/abs/2505.14681

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-29 10:40:00

數據模型

2025-08-29 09:09:00

AI模型數據

2022-07-25 10:27:06

谷歌模型

2023-09-06 13:34:31

2023-07-24 14:42:23

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2025-07-11 09:15:00

2022-07-25 15:34:01

量化仿真數據誤差內存占用

2025-09-01 07:43:25

2024-09-03 14:10:00

模型測試

2010-04-01 09:30:57

2015-08-21 09:14:40

大數據

2022-10-28 15:16:52

檢測數據

2023-07-17 10:34:57

模型性能

2023-04-27 13:06:46

AI手機模型

2023-04-25 17:13:03

模型AI

2025-10-16 08:52:00

2011-03-29 17:56:41

360騰訊QQ

2025-09-19 14:53:34

點贊
收藏

51CTO技術棧公眾號

亚洲国产精品视频在线观看| 国产成人精品www牛牛影视| 91精品国产全国免费观看| 久久精品一区二区三区不卡免费视频 | 亚洲精品视频网址| а√天堂中文资源在线bt| 蜜臀久久99精品久久久久久9 | 国产清纯白嫩初高中在线观看性色| 国产精品久久久久一区二区国产| 99视频精品| 精品成人一区二区三区四区| 国产又大又长又粗又黄| 国产一级片av| 亚洲免费福利一区| 亚洲成在人线免费| 国产99在线播放| 四虎免费在线视频| 亚洲国产精选| 中文字幕亚洲欧美在线不卡| 欧美最顶级的aⅴ艳星| 日本性生活一级片| 牛牛在线精品视频| 成人精品视频一区| 韩日精品中文字幕| 亚洲视频在线播放免费| 激情图片在线观看高清国产| 国产福利91精品一区| 久久夜色精品亚洲噜噜国产mv| 怡红院亚洲色图| 日本中文字幕视频在线| 久久精品国产成人一区二区三区 | 欧美大片顶级少妇| 日韩精品福利片午夜免费观看| 6—12呦国产精品| 99久久99久久精品国产片果冰| 欧美日韩精品三区| 黄色www在线观看| 99久久久国产精品无码网爆| 欧美国内亚洲| 亚洲黄色av网站| 亚洲国产精品久久久久婷蜜芽| 香蕉国产在线视频| 日韩在线一二三区| 视频直播国产精品| 欧洲在线免费视频| 欧美xxxx少妇| 久久只精品国产| 国产精品色午夜在线观看| 无码人中文字幕| 日本伊人久久| 疯狂做受xxxx欧美肥白少妇| 欧美亚州在线观看| 一级做a爱片久久毛片| 中文字幕一区二区三区久久网站| 精品国产乱码久久久久久影片| 欧美久久久久久久久久久久久| 韩国福利在线| 国产精品中文欧美| 亚洲一区二三区| 国产日韩欧美一区二区| 潘金莲一级淫片aaaaaa播放| 欧美超碰在线| 337p日本欧洲亚洲大胆精品| 国产一区亚洲二区三区| 理论片午午伦夜理片在线播放| 国产成人在线网站| 日本免费一区二区三区视频观看| 国产午夜精品理论片在线| 国产精品视屏| 欧美日韩大陆在线| av在线播放天堂| 国产系列在线观看| 高清在线不卡av| 国产91免费看片| 国产亚洲色婷婷久久99精品| 成人黄色av| 日韩av中文字幕在线| 国产成人在线综合| 奇米777日韩| 亚洲最大成人综合| 亚洲国产一区二区精品视频 | 亚欧洲精品在线视频免费观看| www.精品久久| 青青国产91久久久久久| 久久久伊人欧美| 精品视频第一页| 日本亚洲不卡| 欧美一区二区视频观看视频| 免费裸体美女网站| 98色花堂精品视频在线观看| 亚洲欧洲成人av每日更新| 久久这里精品国产99丫e6| 精品国产亚洲av麻豆| 秋霞av亚洲一区二区三| 欧美亚洲另类视频| xxxx 国产| 亚洲欧美日韩高清在线| 在线电影欧美日韩一区二区私密| 50一60岁老妇女毛片| 动漫一区二区三区| 欧美日韩亚洲综合| 超碰影院在线观看| 日韩伦理福利| 同产精品九九九| www.一区二区.com| 免费在线看黄| 国产精品久久午夜夜伦鲁鲁| 日本免费高清一区二区| 青青草视频免费在线观看| 成人黄色大片在线观看| 99re在线国产| 精品国产伦一区二区三区| 激情丁香综合五月| 成人网在线视频| 97人妻精品一区二区三区动漫| 免费在线观看视频一区| 国产福利精品av综合导导航| 少妇高潮av久久久久久| 日日骚欧美日韩| 国产福利视频一区| 丰满熟女人妻一区二区三| 日韩成人一区二区三区在线观看| 国产精品福利在线观看网址| 黄色片中文字幕| 日本强好片久久久久久aaa| 国产精品精品一区二区三区午夜版 | 成人在线观看一区二区| av成人app永久免费| 精品久久久久av影院 | 在线观看国产成人| 国内成+人亚洲+欧美+综合在线| 成人av电影天堂| www.成人精品| 91丨porny丨户外露出| 欧美大香线蕉线伊人久久| 成人在线观看免费| 日韩毛片在线免费观看| 日本天堂免费a| 极品av在线| 欧美性色黄大片| 亚洲第一成肉网| 91精品入口| 精品一区二区三区四区在线| 久久视频精品在线观看| 91精品国产福利在线观看麻豆| 久久99久国产精品黄毛片入口| 久久视频免费在线观看| 免费国产自线拍一欧美视频| 国产精品欧美一区二区| www.97av.com| 91网站在线播放| 一区二区三区久久网| 欧美aaaaaaa| 色狠狠综合天天综合综合| 一区二区三区四区毛片| 国产精品一区二区三区美女| 亚洲天堂久久av| 乱h高h女3p含苞待放| 亚洲激情av| 国产精品九九久久久久久久| 午夜精品在线播放| 久久久久久久久久看片| 精品91一区二区三区| 日韩欧美一中文字暮专区| 欧美日韩一级片在线观看| 一级全黄裸体片| 精品国产精品| 欧美激情欧美激情| 中文字幕天堂在线| 懂色av中文字幕一区二区三区| 欧美日本亚洲| av电影高清在线观看| 色婷婷狠狠综合| 丰满人妻一区二区三区大胸| 国产欧美日韩视频在线| 欧美精品www| 国产一区二区女内射| 99精品国产视频| 日韩人妻一区二区三区蜜桃视频| www.成人爱| 精品国产91乱码一区二区三区| 国产精品成人在线视频| 夜夜嗨网站十八久久| 亚洲一区二区三区视频播放| 免费a级毛片在线观看| 亚洲在线一区二区三区| 天天操狠狠操夜夜操| 国产精品一区二区三区av麻 | 韩国一区二区三区| 日本成人三级电影网站| 538在线精品| 精品裸体舞一区二区三区| 娇小11一12╳yⅹ╳毛片| 男人的天堂成人在线| 51国偷自产一区二区三区的来源| 成人精品福利| 色综合久久66| 玖草视频在线观看| 国产一区日韩一区| 91高跟黑色丝袜呻吟在线观看| 中文字幕日本在线观看| 日本精品一区二区三区四区的功能| 波多野结衣视频播放| 欧美jjzz| 97se视频在线观看| av在线免费网站| 91精品国产高清一区二区三区 | 成人羞羞网站入口免费| 日本乱人伦a精品| 久草在线免费福利资源| 欧美性猛交xxxx黑人| 熟妇高潮精品一区二区三区| av成人国产| 欧美日韩一区二区三区在线视频| 麻豆理论在线观看| 日韩精品在线观看网站| 中文字幕视频网| 久久一区二区视频| 嫩草av久久伊人妇女超级a| 精品国产网站| 国产一区二区色| av毛片在线免费看| 亚洲精品一区二区三区在线观看 | 国产精品v欧美精品v日韩精品 | 99精品美女| 91日韩在线播放| www.久久久久.com| 精品av综合导航| 久久草视频在线| 毛片毛片毛片毛片毛| 国内精品久久久久久久影视蜜臀 | 中国特级黄色片| 亚洲视频免费| 久久久精品国产一区二区三区| 在线女人免费视频| 在线播放日韩精品| 国产高清在线免费| 亚洲不卡一区二区三区| 白丝女仆被免费网站| 青青草97国产精品免费观看 | 欧美va天堂va视频va在线| 国产精品.www| 国产肉丝袜一区二区| 久久久精品高清| 国自产拍偷拍福利精品免费一| 久久99久久99精品蜜柚传媒| 五月激情久久| 久色乳综合思思在线视频| www.中文字幕| 91久久精品网| 国产av无码专区亚洲av毛网站| 成人av先锋影音| 中文字幕国产免费| 国户精品久久久久久久久久久不卡| 久久99欧美| 色综合.com| 国内久久久精品| 国产黄色在线| 日韩欧美激情一区| 色屁屁影院www国产高清麻豆| 中文字幕中文乱码欧美一区二区| 国产香蕉精品视频| 日韩成人伦理电影在线观看| 人妻无码一区二区三区四区| 蜜臀91精品国产高清在线观看| 91视频-88av| 欧美7777| 久久久久久久久久久成人| 高清av在线| 亚洲国产美女精品久久久久∴| 亚洲一区二区色| 日韩欧美在线视频日韩欧美在线视频| 精品亚洲乱码一区二区| 91美女片黄在线观看| 欧美成人手机在线视频| 久久国产福利| 日韩亚洲欧美视频| 亚洲a在线视频| 欧美在线视频二区| 国产精品自在线拍| 91沈先生作品| 欧美黄页在线免费观看| 秋霞成人午夜鲁丝一区二区三区| 欧美v亚洲v| 久久亚洲精品毛片| 午夜在线小视频| 亚洲区免费影片| 亚洲av成人无码久久精品老人 | 欧美日韩一区二区三区免费看| 免费在线不卡视频| 亚洲精品日日夜夜| 免费成人美女女在线观看| 国产午夜精品一区二区三区四区| 人妖粗暴刺激videos呻吟| 国产激情偷乱视频一区二区三区 | 成人免费看视频| 三年中文在线观看免费大全中国| 日本不卡一区二区| 99久久国产宗和精品1上映| 国产精品日本| 无罩大乳的熟妇正在播放| 激情成人综合| 成年丰满熟妇午夜免费视频| 外国成人免费视频| ijzzijzzij亚洲大全| japanese国产在线观看| 国产91丝袜在线观看| 97人人爽人人| 精品一二三四在线| 色啦啦av综合| 精品影院一区二区久久久| 麻豆三级在线观看| 秋霞国产午夜精品免费视频| 久久综合伊人77777麻豆最新章节| 久久成人一区| 日av中文字幕| 日韩精品亚洲一区| 青青青国产在线视频| 日韩av一级片| 亚洲欧美久久久久| 久久99国产精品成人| 中文字幕一区久久| 国产91精品一区二区麻豆亚洲| 亚洲美女高潮久久久| 成人动漫av在线| 欧美丰满少妇人妻精品| 91在线小视频| www色com| 亚洲三级小视频| 久草视频免费在线播放| 欧美激情黄色片| 国产日韩在线视频| 999精品视频在线观看| 97久草视频| 欧美三级午夜理伦三级小说| 欧洲亚洲一区二区三区四区五区| 欧美中文字幕一区二区| 欧美亚洲视频一区| 亚洲经典三级| 亚洲污视频在线观看| 国产麻豆午夜三级精品| 国产黑丝在线观看| 欧美国产精品久久| 欧美人与禽zozzo禽性配| 欧美色道久久88综合亚洲精品| 成人黄色激情视频| 日韩精品最新网址| 欧美日韩免费做爰大片| 久久精品视频99| 手机在线观看av| 国产精品一区久久| 99精品在免费线中文字幕网站一区| 欧美高清视频一区| 91精品一区二区三区综合| 福利视频一二区| 美女视频黄频大全不卡视频在线播放| 丰满少妇中文字幕| 久久蜜桃一区二区| 国产1区2区3区4区| 日本国产一区二区| 精品久久久无码中文字幕| 亚洲欧美日韩高清| 一二三四区在线观看| 日本一本a高清免费不卡| 精品视频一二| 日韩精品无码一区二区三区| 国产精品s色| 国产三级三级看三级| 99精品视频中文字幕| 久久中文免费视频| 欧美亚洲一区三区| 日本黄色三级视频| 久久久国产精品视频| 精品日韩视频| 精品乱码一区二区三区| 欧美黄色大片网站| 国模私拍视频在线观看| 久久嫩草精品久久久精品| 国产一级片网址| 91精品国产综合久久福利软件 | 懂色av一区二区三区免费看| 后入内射无码人妻一区| 色琪琪一区二区三区亚洲区| 手机看片一区二区| 久久777国产线看观看精品| 成人在线免费av| 日韩av高清| 性高湖久久久久久久久| 高清中文字幕mv的电影| 亚洲三级在线免费观看| 一级黄色a视频| 伊人伊成久久人综合网站| 在线手机中文字幕| 久久99导航| 伊人久久大香线蕉av超碰演员| 青青草精品在线| 樱桃视频在线观看一区| 99久久精品国产一区二区成人| 久久久精品国产网站| 日韩成人综合网站|