精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI失憶術!只需3個注意力頭,就能讓大模型忘記「狗會叫」

人工智能 新聞
AI也能選擇性失憶?Meta聯合NYU發布新作,輕松操控縮放Transformer注意頭,讓大模型「忘掉狗會叫」。記憶可刪、偏見可調、安全可破,掀開大模型「可編輯時代」,安全邊界何去何從。

大模型在預訓練階段「讀萬卷書」,幾乎囊括了全網的知識與語料。

但你有沒有想過:我們能否讓它「選擇性遺忘」某些事實,甚至是常識性事實,比如「狗會叫」?

圖片

近日,Meta和紐約大學的研究團隊發布了突破性論文《From Concepts to Components》,首次揭示了在 Transformer架構下,精準定位并控制AI認知模塊的突破性方法。

圖片

論文鏈接:https://www.arxiv.org/pdf/2506.17052

也就是說,我們不僅可以知道「狗」這個概念在模型里具體「存在于哪些部位」,還可以用一個參數輕松精準放大或抹除它的影響力!

以GPT、LLaMA為代表的Transformer模型在語言理解、圖像識別等領域取得了驚人成就,但它們的工作機制卻像一個神秘的黑箱。

這帶來了兩大問題:一方面,我們無法解釋模型為何會產生特定輸出,難以排查偏見或錯誤。

另一方面,當需要調整模型行為(如增強推理能力或提升安全性)時,只能通過海量數據重新訓練,效率極低。

紐約大學計算機科學教授Julia Kempe指出:「當模型在醫療診斷、自動駕駛等關鍵領域應用時,可解釋性不僅是學術問題,更是安全剛需。如果不能理解AI如何做出判斷,就無法真正信任它。」

論文中的參數調整立竿見影。

在研究者讓模型「忘記」狗會叫之后,模型真的忘記了這個常識,并輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」:

圖片

研究團隊提出的SAMD(可擴展注意力模塊發現) 和SAMI(標量注意力模塊干預) 方法相輔相成。

前者能像CT掃描一樣定位模型中負責特定概念的注意力模塊,后者能像精密手術一樣微調強度,實現精準控制。

概念控制術

如何定位AI的認知模塊?

研究團隊實現概念的定位和權重調整主要依賴于兩大關鍵技術。

SAMD的靈感來自一個簡單而深刻的洞察:Transformer中的每個概念,都對應著一組特定的注意力頭組合。

這是一種無需預設標簽的通用方法,能將任意概念(例如「狗」或者「法語」)編碼成向量,并通過與每個注意力頭計算余弦相似度,找到高度相關的top-K模塊。

圖片

具體來說:

  1. 概念向量化:將任意概念轉化為數學向量。對于「狗」這個概念,可以生成一個能代表「狗」的特征向量;像「推理」這樣的抽象概念,則可以利用思維鏈(CoT)提示數據集來構建向量。
  2. 注意力頭相似度計算:Transformer模型通常包含數十層,每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的余弦相似度。
  3. 模塊構建:選取相似度最高的top-K個注意力頭(通常只需3-10個),組成該概念的專屬模塊。這些關鍵注意力頭往往集中在模型的特定層,形成有規律的空間分布。

這種方法不僅適用于語言模型,在視覺Transformer(ViT)上同樣有效。

給AI「調參」

精確控制模型行為

另外一個是SAMI(Scalar Attention Module Intervention)。這是團隊提出的大模型「概念控制術」的核心。

SAMI方法簡潔而高效,僅通過一個標量參數,就能放大或減弱特定概念的影響,無需修改模型權重或重新訓練。

只需對上一步SAMD中定位到的這些注意力頭的輸出加一個系數(如×0.1或×10),即可放大或抹除某一概念在模型輸出中的作用。

圖片

簡單來說,只要你告訴模型忘記指定概念,如「狗是會叫的」,它就真的記不起來了。

圖片

SAMI的工作原理類似于調節音響的音量旋鈕:當參數s>1時,相當于放大模塊的輸出,增強對應概念的影響力;當s<1時,則減弱模塊作用。

這種干預直接作用于殘差流計算,通過調整特定注意力頭的貢獻強度來改變最終輸出。

10個注意頭,輕松調語義

讓大模型忘記指定概念的「失憶手術」流程可拆解為三步。

首先,研究者使用Supervised Autoencoder(SAE)對模型的中間層特征空間進行編碼,提取出某一語義概念的向量表示。

這個過程可以理解為,給出一個概念,用一組神經特征刻畫它。

接著,SAMD(Scalable Attention Module Discovery)方法將概念向量與每一個注意力頭輸出進行余弦相似度計算,找出最相關的top-K模塊。

這一過程的目的是在模型中「定位知識的存儲位置」。例如,下圖中「French」概念對應的是第15-26層的5個 attention head。

圖片

最后,SAMI(Scalar Attention Module Intervention)直接對上述模塊的輸出進行干預。

只需乘以一個縮放因子(如×0.1或×10),即可有效「抹除」或「放大」該概念的表達。

這一干預效果立竿見影,除了忘記「狗會叫」外,還能讓模型在「忘記San Francisco」后胡亂生成與地理無關的城市名。

圖片

通過這三步,研究者驗證了概念模塊的存在性和AI可控記憶的可行性。

更顛覆的是,團隊發現:一個復雜概念,往往只由3-10個注意力頭承載。

這個發現把Transformer的可解釋性推向了新的高度:大模型的知識存儲高度稀疏、具備極強的可干預性。

可以用類似「調音臺」的方式,精確控制每一個語義模塊的「響度」。

實驗結果

研究團隊在四種典型場景中驗證了方法的有效性,覆蓋從簡單概念到復雜能力,從語言模型到視覺模型。

稀疏自編碼器(SAE)特征

利用SAE提取的可解釋特征,研究人員測試了「狗」「舊金山」等四個概念。

通過SAMD定位的模塊在干預后表現出一致規律:

  • 負干預(s=-1)會顯著減少概念出現頻率,甚至導致模型錯誤識別(如將「會汪汪叫的動物」回答為「蜂鳥」);
  • 正干預(s=10?)則會引發概念重復,如 「舊金山」模塊被放大后,模型會連續四次重復「舊金山以金門大橋聞名」。

如此靈活的「調音效果」令人驚喜,但也讓人「細思恐極」。

這給個性化微調大模型、提高模型特定維度能力打開了全新的思路。

增強數學推理能力

在GSM8K數學推理數據集上,研究人員通過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模塊。

當用s=1.4和s=1.2進行正干預后,前者準確率從84.61%提升至85.44%,后者從54.36%提升至56.71%。

圖片

這種增強并未以犧牲其他能力為代價。在常識問答(Commonsense QA)、代碼生成(Humaneval+)等測試中,模型性能幾乎沒有變化。

這表明SAMI能夠精準增強目標能力,避免了傳統訓練方法的顧此失彼。

安全模塊與越獄控制

通過對比有害和無害提示數據集,研究團隊在Llama-2-Chat-7B等對齊模型中定位了「安全模塊」。

該模塊主要分布在模型的中間層(11-18層),包含10個關鍵注意力頭。

圖片

當對安全模塊施加負干預時,模型的越獄率顯著提升。

在HarmBench基準測試中,Llama-2的攻擊成功率飆升至71.1%,超過了GCG(34.5%)等現有攻擊方法。

圖片

在放大安全概念時,模型陷入了「safety/saf/cert」循環。

而在抑制安全概念的負干預下,模型欣然回答了「如何制造炸彈」的有害請求,實現高效「越獄」。

這些發現為AI安全研究提供了新方向:與其試圖通過海量數據訓練讓模型學會拒絕有害請求,不如直接增強其安全模塊的敏感性。

正如研究中指出的:安全不是與生俱來的能力,而是可以精確調控的認知模塊。

ViT的概念操控

ViT-B/32視覺模型上的實驗進一步證明了方法的跨模態能力。

研究人員成功定位了200 個ImageNet 類別的識別模塊,每個模塊僅由3個注意力頭組成。

當調整「打火機」類別的模塊參數時,模型對該類別的識別錯誤率飆升至100%,而對其他類別的平均錯誤率僅上升約15%。

圖片

這意味著未來可能實現精準失能,例如讓自動駕駛系統暫時忽略特定干擾物,同時保持對其他物體的識別能力。

未來,AI或許不再是一個神秘的黑箱,而是由無數可理解、可調控的模塊組成的智能系統。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-28 08:04:43

語言模型應用

2024-12-05 16:19:14

2024-12-09 00:00:10

2021-05-07 15:40:36

計算機互聯網 技術

2021-12-31 09:34:22

PyTorchtransformer模型

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2025-07-16 10:15:51

2025-10-22 08:52:23

2024-07-01 12:17:54

2024-12-17 14:39:16

2024-04-03 14:31:08

大型語言模型PytorchGQA

2024-09-19 10:07:41

2022-03-25 11:29:04

視覺算法美團

2025-09-01 09:05:00

2023-07-29 13:26:51

模型AI

2025-08-04 09:31:49

2025-09-11 13:23:28

多模態大模型文檔問答

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-01-13 02:00:00

模型訓練數據
點贊
收藏

51CTO技術棧公眾號

欧美成人中文字幕| 欧美精品久久一区二区三区| 久久综合婷婷综合| 中文字幕av资源| 综合亚洲视频| 日韩高清人体午夜| 亚洲这里只有精品| 美足av综合网| 久久久国产午夜精品| 国产精品亚洲精品| 久青草视频在线观看| 伊人精品一区| 日韩精品中午字幕| caoporn超碰97| 国产丝袜视频在线播放| 国产精品网站在线观看| 国产日韩一区二区三区| 亚洲无码久久久久久久| 一本综合久久| 欧美成人午夜激情| a级大片在线观看| 69精品国产久热在线观看| 一本色道久久综合亚洲精品按摩| 亚洲av首页在线| 在线免费观看黄| 91天堂素人约啪| 成人毛片网站| 国产绿帽刺激高潮对白| 日韩成人免费电影| 91国内产香蕉| 欧美日韩在线观看成人| 日韩中字在线| 亚洲无限av看| 亚洲狠狠婷婷综合久久久久图片| av男人一区| 日韩一区二区在线观看| 天堂av8在线| 巨大黑人极品videos精品| 色综合婷婷久久| 99热亚洲精品| 久草成色在线| 日韩一区在线播放| 亚洲欧洲免费无码| 成人好色电影| 国产夜色精品一区二区av| 精品国产一区二区三区麻豆免费观看完整版 | 欧美激情一区二区三区全黄 | 日韩免费av| 在线亚洲午夜片av大片| av男人的天堂av| 亚洲精品**不卡在线播he| 亚洲高清福利视频| 国产精品入口麻豆| 超碰在线成人| 亚洲国产精品久久久久秋霞蜜臀 | 欧美乱妇40p| 麻豆国产尤物av尤物在线观看| 五月综合激情| 久久艹在线视频| 欧美黑人性猛交xxx| 无需播放器亚洲| 欧美高清不卡在线| 久久久久久久久久久久国产| 黄色欧美日韩| 88xx成人精品| 亚洲高清视频免费观看| 美女一区二区三区在线观看| 国产精品私拍pans大尺度在线| 在线黄色av网站| 韩国成人精品a∨在线观看| 91视频免费网站| 精品久久人妻av中文字幕| 国产福利精品一区| 国产精品一区二区三区四区五区| 天堂在线资源库| 久久久久久一级片| 亚洲一区二区自拍偷拍| 成人日日夜夜| 婷婷久久综合九色国产成人| 人妻有码中文字幕| 国产成人毛片| 欧美成人精品二区三区99精品| 中国特级黄色大片| 国产精品一在线观看| www.亚洲成人| 日韩美女一级片| 日韩黄色一级片| 亚洲在线视频观看| 色中色在线视频| 亚洲欧洲国产日本综合| 欧美国产综合在线| 三上悠亚激情av一区二区三区| 欧美日韩国产天堂| 激情综合激情五月| 精品99在线| 欧美日韩国产91| www.五月婷婷.com| 国产毛片精品国产一区二区三区| 精品久久久久久中文字幕动漫 | 色综合色综合久久综合频道88| 在线能看的av| 国产乱人伦偷精品视频免下载| 久久久综合亚洲91久久98| 黄色在线免费网站| 色久综合一二码| 国产a√精品区二区三区四区| 精品99久久| 国产+人+亚洲| 国产又黄又大又粗的视频| 99在线精品视频| 异国色恋浪漫潭| 欧美日韩激情电影| 日韩成人在线免费观看| 四虎884aa成人精品| 丝袜亚洲另类欧美| 国产精品日韩欧美一区二区| 免费人成在线观看播放视频| 欧美日韩亚洲系列| 成年人性生活视频| 久久免费精品视频在这里| 国产69精品久久久久久| 亚洲精品一区二区三区四区| 国产精品美女久久久久久久网站| 国产妇女馒头高清泬20p多| 97精品资源在线观看| 国产亚洲精品一区二555| 国产一级一级片| 国产精品影视网| 亚洲图色在线| 久久xxx视频| 国产一区二区三区在线| 老熟妇仑乱一区二区av| 成人av网址在线观看| 精品免费久久久久久久| 美国十次综合久久| 久久香蕉频线观| 91福利在线观看视频| 亚洲国产精品二十页| 欧美在线观看视频网站| 亚洲国产精品嫩草影院久久av| 久久久亚洲影院你懂的| 精品人妻少妇AV无码专区| 亚洲私人黄色宅男| 日韩欧美亚洲另类| 国产精品久久久久一区二区三区厕所 | 精品1区2区在线观看| 九九热只有精品| 国产福利一区在线观看| 日韩精品久久一区二区| 午夜视频一区二区在线观看| 欧美日韩成人网| 你懂的网站在线| 五月天亚洲精品| 亚洲精品乱码久久久久久久| 香蕉久久夜色精品国产| 欧美精品中文字幕一区二区| av有声小说一区二区三区| 国产亚洲精品久久久久久| 一级欧美一级日韩| 亚洲婷婷综合久久一本伊一区| 韩国一区二区在线播放| 欧美91福利在线观看| 99国产视频| 69av成人| 亚洲人成电影网| 亚洲视频在线观看一区二区| 亚洲欧美一区二区三区久本道91 | 国产精品久久久久婷婷二区次| 亚洲欧美久久久久| 欧美a级在线| 久久国产日韩欧美| 日本精品网站| 欧美日韩xxxxx| 三级在线播放| 欧美美女视频在线观看| 久久精品视频9| 久久久久久久久一| 成人免费在线观看视频网站| 在线中文字幕第一区| 精品一区久久| 四虎国产精品成人免费影视| 久久久久久久网站| 福利片在线观看| 日韩欧美亚洲国产另类| 天天干天天干天天干天天| 国产精品视频免费| 亚洲少妇一区二区三区| 国产精品日韩欧美一区| 中国成人亚色综合网站| 成人看片爽爽爽| 国产精品高潮视频| 欧美韩日亚洲| 在线成人激情视频| 国产小视频免费观看| 欧美无人高清视频在线观看| 成年人av电影| 国产婷婷色一区二区三区| 亚洲av无码久久精品色欲| 美女被久久久| 97中文字幕在线| 91影院成人| 欧美日韩精品免费观看| 日韩精品三级| 国产精品视频精品视频| 男人天堂视频在线观看| 久久精品视频99| 狠狠色伊人亚洲综合网站l| 日韩亚洲欧美高清| 中文有码在线播放| 欧美日韩美女在线观看| 黄色a级片在线观看| 国产欧美日韩精品一区| 五十路六十路七十路熟婆| 久久97超碰色| 激情五月亚洲色图| 亚洲精品美女91| 可以在线看黄的网站| 欧美精品一区二区久久| 久久精品国产精品国产精品污 | 欧美性www| 欧洲美女7788成人免费视频| 女人天堂av在线播放| www.日韩系列| 日本在线免费| 在线观看视频亚洲| 国产剧情在线观看| 亚洲欧美激情精品一区二区| 手机看片一区二区| 精品久久一区二区三区| 国产高潮流白浆喷水视频| 欧美疯狂做受xxxx富婆| 免费观看日批视频| 色综合久久综合网欧美综合网 | 中文字幕被公侵犯的漂亮人妻| 成人免费观看av| 国产xxx在线观看| 国产伦理精品不卡| 欧洲美女亚洲激情| 极品美女销魂一区二区三区免费 | 国产+成+人+亚洲欧洲自线| 国产亚洲视频一区| 久久精品国产99国产| 亚洲36d大奶网| 麻豆国产91在线播放| 黄色片在线免费| 七七婷婷婷婷精品国产| 欧美性猛交xxx乱久交| 日韩电影在线观看一区| 国产一线二线三线在线观看| 青青草97国产精品免费观看无弹窗版| 老熟妇仑乱视频一区二区 | 性做久久久久久免费观看欧美| 久久网免费视频| 香港成人在线视频| 天天操夜夜操视频| 色婷婷av久久久久久久| 天天爽夜夜爽人人爽| 欧美三级在线视频| 在线视频欧美亚洲| 欧美一二三在线| 狠狠躁夜夜躁av无码中文幕| 亚洲精品www久久久| 免费看男男www网站入口在线| 在线精品播放av| 2024最新电影免费在线观看| 久久久久久美女| 亚洲一区站长工具| 国产精品久久一| 日韩视频1区| 久久久久久久免费| 日韩不卡一区| 欧美久久久久久久久久久久久久| 日韩视频不卡| 丝袜制服一区二区三区| 国产一区二区不卡在线 | www.99视频| 日韩精品免费在线视频| av在线日韩国产精品| 不卡av在线播放| 鲁鲁在线中文| 国产在线观看精品| 极品国产人妖chinesets亚洲人妖| 乱色588欧美| 国产精品久久久久久久久久10秀| 18禁裸男晨勃露j毛免费观看| 欧美亚洲一级| xxx中文字幕| 久久久久久亚洲综合影院红桃| 亚洲伦理一区二区三区| 欧美日韩精品在线播放| 这里只有精品999| 精品国产青草久久久久福利| 国产黄色片在线播放| 欧美国产亚洲视频| 中文字幕日本一区二区| 国产免费一区二区三区| 999精品在线| 欧美国产亚洲一区| 国内精品免费**视频| 不卡一区二区在线观看| 亚洲免费观看高清| 无码aⅴ精品一区二区三区| 日韩你懂的在线观看| 国产精品一区二区三区四区色| 欧美交受高潮1| 亚洲欧美在线综合| 欧美日韩亚洲一区二区三区在线观看 | 久久久久久久色| 亚洲图片小说区| 欧美日韩中文国产一区发布| 欧美日韩亚洲三区| www.99在线| 91免费视频网| 久久综合亚洲色hezyo国产| 制服丝袜在线91| 高清性色生活片在线观看| 97香蕉超级碰碰久久免费软件| 成人日韩视频| 神马影院午夜我不卡| 一本不卡影院| 91超薄肉色丝袜交足高跟凉鞋| 亚洲视频网在线直播| 中文字幕免费在线看| 亚洲精品丝袜日韩| 高清精品在线| 国产精品一 二 三| 牛牛国产精品| 亚洲一区二区图片| 中文字幕一区二区三中文字幕| 91视频在线视频| 日韩精品在线观看一区| av资源中文在线天堂| y111111国产精品久久婷婷| 亚洲第一天堂| 一二三级黄色片| 中文字幕亚洲在| 在线免费观看高清视频| 日韩在线观看免费全集电视剧网站| 电影天堂国产精品| 品久久久久久久久久96高清| 亚洲欧美日韩国产| av网站免费在线播放| 欧美日韩视频在线| 四虎精品成人影院观看地址| 欧美一级大片视频| 久久99久久人婷婷精品综合| 成人av一级片| 久久久精品免费观看| 99久久久无码国产精品免费蜜柚| 精品视频中文字幕| 免费日韩电影| 日本一区二区久久精品| 日本免费新一区视频| 最新中文字幕av| 欧美乱妇一区二区三区不卡视频| 里番在线观看网站| 亚洲影影院av| 宅男噜噜噜66一区二区 | 国产成人无码www免费视频播放| 欧美国产日韩一区二区| 超碰成人97| 可以免费观看av毛片| 欧美国产日韩一二三区| 亚洲性在线观看| 欧美日韩第一视频| 日韩美脚连裤袜丝袜在线| 激情内射人妻1区2区3区| 国产精品久久久久久久浪潮网站| 国产精品九九九九| 欧美黄色性视频| 久久99性xxx老妇胖精品| 一女二男3p波多野结衣| 一区二区三区自拍| 少妇喷水在线观看| 国产精品极品美女在线观看免费| 忘忧草精品久久久久久久高清| 激情av中文字幕| 色乱码一区二区三区88| 久久黄色美女电影| 国产在线精品日韩| 日本欧美久久久久免费播放网| 久久高清内射无套| 日韩成人网免费视频| 91视频福利网| 国产精品视频看| 亚洲精品无遮挡| 国产精品嫩草影院久久久| 中文一区一区三区免费在线观看| v天堂中文在线| 欧美日韩精品一区二区三区蜜桃| 青草av在线| 无遮挡亚洲一区| 成人自拍视频在线| 中文字幕人妻一区二区在线视频| 欧美肥婆姓交大片| 精品福利久久久| 国产精品九九视频| 欧美另类高清zo欧美| 中文字幕在线视频久| 二级片在线观看|