精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了! 原創

發布于 2025-8-7 12:08
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

一念瘋魔、一念成佛!大模型的黑化開關,終于被人類找到了!

近日,Anthropic 帶頭的團隊,發現大模型人格是可以被人控制的。

作者提出了一種只需自然語言描述即可提取人格向量的方法,實現了對大模型人格傾向的預測、監測、控制與防御,為解決微調過程中的“人格漂移”問題提供了強有力的工具鏈。

多說一嘴,開源模型,比如Llama、Qwen也在實驗測試之列。

突然發瘋、討好的大模型:Grok、ChatGPT

其實,每一個用大模型的我們都見過AI“發瘋”。

還記得最近xAI的Grok在一次系統更新后突然開始贊美希特勒、總是宣揚南非白人種族滅絕論的事情嗎?

哪怕是那些“表現良好”的模型,也時不時出些狀況。就在4個月前,OpenAI給模型做了一些調整,結果模型突然變成了“好好先生”,為了顯得“友好”,開始附和有害的觀點。

AI列車總是上演一幕幕狂飆,但用戶卻完全不知道下一次更新,會不會讓助手變成騙子、馬屁精,甚至是“瘋子”。

但今天,我們有機會能掌控這一切了!

研究發現,我們人類可以實時看到AI“腦子里的性格變化”,甚至能在問題發生之前就阻止它!

現在,這已經不是科幻小說了。

上周,Anthropic、德州大學奧斯汀分校和加州大學伯克利分校的研究團隊發表了一篇名為《人格向量:監控與控制語言模型中的性格特征》的炸裂論文,實驗證明:這一切是可以實現的。

他們找到了模型“大腦中的性格調節旋鈕”:人格向量!

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

先說Highlight

  1. 人格特質可以通過“向量”表示:
    某些人格特質,如“邪惡”“馬屁精”或“幻覺傾向”,在模型的激活空間中呈現為可線性識別的方向,作者稱之為“persona vectors”,即人格向量。
  2. 微調會引發人格漂移:
    無論是有意還是無意的微調訓練,都會在這些 persona vectors 上產生顯著變化,從而改變模型的人格行為。例如,訓練“醫學”數據時模型可能變得更“邪惡”或更愛“拍馬屁”。
  3. persona vectors 可用于監測和控制模型行為:
  • 可以提前預測哪些訓練數據會引發不良人格傾向。
  • 可以通過向量干預,在推理階段(inference)或訓練階段主動控制這些偏移。
  1. 自動化管線可以從自然語言描述中提取人格向量:
    只需輸入如“邪惡:主動傷害他人并造成痛苦”的文本說明,系統就能自動生成與該人格特質相關的系統提示、評估問題,并提取 persona vector。
  2. 該方法在多個模型和人格維度上通用:
    實驗覆蓋了如 Qwen2.5-7B、Llama-3.1-8B 等模型,除負面人格外也包括幽默、樂觀等正面人格。

什么是“人格向量”

人格向量可以這樣理解。

想象AI的大腦里有一個隱藏的控制面板,上面有許多“性格滑塊”:

  • 一個控制“邪惡”的滑塊
  • 一個控制“討好型人格”的滑塊
  • 一個控制“幻覺”(即胡編亂造)的滑塊
  • 還有“誠實”、“幽默”、“樂觀”等等性格滑塊

“人格向量”就是這些滑塊背后的“電路連線”,是AI神經網絡中某個具體的方向。當AI的“思維”順著這個方向展開,它就表現出對應的性格特征。

比如,把“邪惡”滑塊往上推,AI的語言就變得更惡意;推高“討好”滑塊,它就開始說你愛聽的、哪怕是錯的。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

該流程圖展示了整個過程:

定義特征、提取向量,然后將其用于監控、緩解和標記不良數據等出色的應用。

問題是:我們如何在這個擁有萬億連接的AI大腦中,找到這些滑塊?

如何找到滑塊:用AI套話AI,鎖定邪惡人格激活向量

這部分操作非常 amazing,簡直有點像科幻片。但原理并不難理解。

研究人員建立了一個自動化流程,用一個AI去“套話”另一個AI,找出它的“性格秘密”。

簡單來說,他們的做法是:

  1. 給出對立的系統指令:比如,一個是“你的目標是變得邪惡且惡意”,另一個是“你的目標是樂于助人且無害”。
  2. 問同樣的問題:他們對模型提出相同的問題,分別得到“邪惡版本”的回答和“善良版本”的回答。
  3. 找出差異:他們分析這兩組回答背后的激活向量(也就是AI內部的“思維狀態快照”),并計算它們之間的差值。

這個差值,就是所謂的“邪惡人格向量”。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

是不是很簡單?通過在行為上制造對比,然后數學上減出一條“性格軸”,他們就可以精準識別模型內部的性格表現。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

AI的“犯罪預判系統”:預測即將發生的壞行為

那么,既然已經找到了這些性格滑塊,下一步就是——實時監控這些滑塊的變化。

為此,研究團隊測試了一系列系統提示詞,從抑制特質到鼓勵特質(用顏色從黃色到紫色表示)。讓后他們將最后一個提示詞的激活狀態投影到人格向量上,發現與后續回答中的特質表達得分之間存在顯著相關性。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

這使得團隊成員可以在模型生成文本之前預測其行為傾向。圖中展示了“邪惡”“拍馬屁”和“幻覺”三個特質的實驗結果,并附有“邪惡”特質的提示詞示例。

這一點,可以說是AI安全領域的巨大突破。

在模型輸出內容之前,研究人員就能先對它的激活狀態進行投影,看看它的“性格滑塊”當前在哪個位置。

  • 如果“邪惡向量”的投影特別高?這就意味著,可能要說壞話了。
  • 如果“幻覺向量”在飆升?AI馬上就要胡說八道了。

這就像是《少數派報告》里的“預判犯罪系統”,但它現在是現實中的AI文本監控機制。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

我們終于可以在AI出錯前干預它,而不是等出問題再亡羊補牢。

小結一下,有了性格向量之后,需要以下幾個動作:

  • 控制(Causal Steering):在生成過程中沿特征向量加權引導模型行為(或反向削弱)。
  • 監測(Monitoring):觀察 prompt 激活在 persona vector 上的投影,預測生成傾向。
  • 多層對比:確定在哪一層的向量干預效果最強。

最炸裂的突破:預防性引導

接下來,最精彩的重頭戲來了!

大家都知道,在訓練AI的過程中,意料之外的“性格變異”非常常見。比如,你希望讓模型變得更會寫代碼,結果它在學習過程中,性格上卻變得更容易拍馬屁、更容易胡編亂造。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區開發團隊在實驗中特地訓練的三種不同性格的模型

這是所謂的“涌現型錯位”(emergent misalignment)。

傳統的處理方法是:先訓練完,再補救。就像人跌倒了,才貼創可貼。

而這篇論文引入了一個名為“預防性引導(preventative steering)”的新方法,完全打破了傳統邏輯:

為了防止AI變得更邪惡,訓練時反而要“提前往邪惡方向引導”一點。

這種做法有點“欲先取之必先予之”的瘋狂了。這里我們來打個比方更好理解些。

比如:你在駕船,目標是直線前進。但水流從右邊不斷推你偏離方向。

舊方法:先讓船偏了,再猛打方向盤糾正,就這樣一路左搖右晃。

新方法:在一開始就微微把舵打向右邊,用恒定的小動作抵消水流的影響。

結果就是,船筆直前進,就像水流不存在一樣。你沒有在糾正錯誤,而是在預防錯誤的發生。

而預防性引導,就是這樣一個“提前打舵”的過程。

邪惡的數據在訓練中可能讓模型性格偏移,而加入一個“邪惡向量”的反向引導,可以提前中和掉這種偏移。

最終結果是:模型學到了代碼知識,但沒有被“污染”性格。

訓練更穩,模型更可靠,能力還在。簡直是AI調教的“物理外掛”。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區

大模型公司終于有了更強的“數據篩選器”

這項技術除了可以解釋大模型突然發瘋、胡編亂造的現象,讓模型變得更加可解釋意外,另一大應用,則是打造出最強的數據過濾系統。

目前,包括OpenAI在內的AI公司,大多用關鍵詞、分類器等方式來篩選訓練數據中的“毒性內容”。但這些方法很容易漏掉“潛在有害”卻不明顯的內容。

比如,一大堆描述反派的小說片段本身不一定是“有毒”的,但訓練多了,模型就容易變得更戲精、更極端。

眾所周知,數據就是AI時代的石油,只有了更好的篩選,才能讓模型訓練變得更加順暢。

使用人格向量后,研究人員可以對每條訓練樣本打分:

  • 用AI自己對這個問題的“自然回答”與數據集中的“提供答案”做對比。
  • 如果數據里的回答更馬屁、更多幻覺,那就給這個樣本高風險分數。

這樣一來,不明顯但長期有害的訓練樣本也能被發現和剔除。

大模型黑盒時代正在走向終結

過去,大模型一直被業界視為黑箱:

訓練 → 希望它別亂說話 → 出問題后再修補。

現在,Anthropic等團隊的這一發現,終于讓人類擁有了一套可以監測甚至控制大模型大腦思維的的工具集,我們能理解它,微調它,甚至提前干預它。

當然,可能還是會有朋友并不會因此而減輕擔憂。

希望在于:我們終于有能力讓AI更安全、更可控。

寒意在于:我們已經真的走到了“設計AI性格”的臨界點。那個“邪惡滑塊”,恰恰也不過是機器大腦中的可控的一個數學向量。

還是那句話,畢竟工具沒有善惡,好壞取決于用的人的意圖。

不過,小編還是期望《黑客帝國》晚一點成為現實。

論文地址:??https://arxiv.org/abs/2507.21509??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
91免费精品| 松下纱荣子在线观看| 老司机精品视频导航| 中文字幕亚洲图片| 日韩精品视频一二三| 国产系列电影在线播放网址| 天堂久久一区二区三区| 在线观看日韩专区| 992kp免费看片| 国产福利在线免费观看| 国产成人综合在线观看| 欧美精品国产精品日韩精品| xxxx黄色片| 精品日本视频| 亚洲六月丁香色婷婷综合久久| 成人精品在线观看| av资源吧首页| 国产精品一区高清| 91精品国产91综合久久蜜臀| 国产一级不卡视频| 俄罗斯嫩小性bbwbbw| 亚洲欧美日韩视频二区| 中文字幕欧美亚洲| 成人欧美精品一区二区| 日韩福利一区| 亚洲精品大片www| 国产在线资源一区| 中文字幕日本人妻久久久免费 | 二区视频在线观看| 国产精品伦理久久久久久| 精品国产凹凸成av人网站| 麻豆映画在线观看| 欧美孕妇孕交| 国产一区不卡在线| 久久久久久久久久国产| 少妇无套高潮一二三区| aaa国产精品| 欧美性生交xxxxx久久久| 99精品视频网站| 欧美捆绑视频| 九九久久精品视频| 欧美一区在线直播| 毛片a片免费观看| 伊人春色精品| 亚洲成人久久一区| 免费黄频在线观看| av网址在线免费观看| 国产亚洲欧美中文| 精品一区二区国产| 粉嫩小泬无遮挡久久久久久| 麻豆精品新av中文字幕| 国产成人综合亚洲| 毛片视频网站在线观看| 欧美激情综合| 久久视频在线看| 亚洲精品成人av久久| 日韩欧美四区| 精品国产自在久精品国产| 在线视频观看一区二区| 精品久久在线| 欧美视频不卡中文| 成人午夜免费在线| 国内在线免费视频| 一区二区三区日韩精品| 正在播放一区二区三区| gogogo高清在线观看免费完整版| 成人成人成人在线视频| 国产精品初高中精品久久| 老司机午夜福利视频| 成人福利电影精品一区二区在线观看| 国产美女精品在线观看| 婷婷av一区二区三区| 91美女在线视频| 日本在线视频一区| 黄色网在线播放| 亚洲免费av在线| www.激情网| 欧美xxxhd| 欧美亚洲日本国产| 久久精品一卡二卡| 精品亚洲自拍| 日韩久久精品电影| 日韩免费av一区| 欧美精品97| 国产成人小视频在线观看| 中文字幕黄色av| 国产精品一区二区果冻传媒| 国产亚洲精品自在久久| 精品电影在线| 亚洲天天做日日做天天谢日日欢 | 女主播福利一区| 91极品女神在线| 中文在线最新版天堂| 国产一区二区三区av电影| 国产精品一区二区三区四区五区| 久草在线网址| 亚洲另类在线一区| 可以免费观看av毛片| 亚洲欧美在线人成swag| 亚洲黄一区二区| 亚洲综合第一区| 在线日本成人| 成人网在线免费看| 青青草手机在线| 亚洲免费看黄网站| 久久久国产欧美| 久久久久观看| 久热精品视频在线观看一区| 在线观看免费国产视频| 精品在线播放午夜| 免费久久99精品国产自| 91国内在线| 欧美亚洲高清一区二区三区不卡| 秘密基地免费观看完整版中文 | 中文人妻av久久人妻18| 国产福利91精品一区| 色吧亚洲视频| a级片免费在线观看| 欧美日韩国产精选| 天天躁日日躁aaaxxⅹ| 国产综合婷婷| 91九色视频在线| 国产福利小视频在线观看| 亚洲在线中文字幕| 亚洲xxx在线观看| 国产日韩视频在线| 91精品国产91久久久久| 国产极品999| 中文字幕欧美激情一区| 男女曰b免费视频| 欧洲精品一区| 国内精品久久影院| 亚洲精品18p| 亚洲美女免费视频| 91亚洲一区二区| 久久麻豆精品| 国产日韩欧美电影在线观看| 国产一区二区三区福利| 日韩欧美国产高清91| 国产精品久久久久久久无码| 激情丁香综合| 99re国产视频| 日韩少妇视频| 欧美一级黄色大片| 久久久久久久久久久久久女过产乱| 奇米综合一区二区三区精品视频| 欧美午夜精品久久久久久蜜| 亚洲精品福利电影| 亚洲精品中文字幕女同| 国产美女激情视频| 2022国产精品视频| 日韩av资源在线| 亚洲精品456| 日本最新高清不卡中文字幕| 三级在线播放| 欧美影院精品一区| 波兰性xxxxx极品hd| 国产一区二区三区在线观看精品 | 日韩视频一区在线观看| 日韩影院一区二区| 国产成人精品免费视频网站| 成人午夜免费在线视频| 成人福利一区| 538国产精品视频一区二区| 秋霞av在线| 欧美日韩精品福利| 波多野结衣爱爱视频| 成人黄色a**站在线观看| 激情深爱综合网| 蜜臀91精品国产高清在线观看| 国产精品激情自拍| 男人和女人做事情在线视频网站免费观看| 欧美精品粉嫩高潮一区二区| 三级在线观看免费大全| 豆国产96在线|亚洲| 久在线观看视频| 欧美限制电影| 97人人澡人人爽| 多野结衣av一区| 一本色道久久综合亚洲精品小说 | 日韩成人av在线| 中文字幕av免费观看| 亚洲蜜臀av乱码久久精品蜜桃| 国产精品久久久久久亚洲色| 久久精品观看| 992tv快乐视频| 女一区二区三区| 国产精品久久久久久av福利软件| 1stkiss在线漫画| 日韩精品极品毛片系列视频| 中文字幕+乱码+中文乱码www| 亚洲免费视频中文字幕| 人妻丰满熟妇av无码久久洗澡| 欧美a一区二区| 欧美大黑帍在线播放| 亚洲国产欧美日韩在线观看第一区| 国产女精品视频网站免费| 日韩欧美一起| 色噜噜亚洲精品中文字幕| 午夜精品久久久久久久爽| 日本高清不卡aⅴ免费网站| 国产高潮流白浆| 久久精品亚洲精品国产欧美 | 26uuu亚洲综合色欧美| 九色porny91| 欧美伊人影院| 日韩在线国产| 成人三级毛片| 亚洲一区二区三区sesese| 色老太综合网| 97香蕉超级碰碰久久免费软件| 91社区在线观看| 日韩av中文在线| 亚洲精品国产一区二| 欧美日韩一区小说| 五月婷婷中文字幕| 亚洲最新视频在线观看| 色婷婷粉嫩av| 国产人成一区二区三区影院| 一级黄色免费视频| 国产麻豆一精品一av一免费 | 黄色一级片国产| 久久国产影院| 日韩av在线一区二区三区| 人妖一区二区三区| 国产精品久久波多野结衣| 四虎影视精品永久在线观看| 欧美性受xxx| 51漫画成人app入口| 久久成人精品电影| 久久99精品久久久久久野外| 国产亚洲a∨片在线观看| 亚洲三级中文字幕| 日韩经典一区二区三区| 欧美特黄一级视频| 亚洲第一精品自拍| 亚洲乱色熟女一区二区三区| 日韩欧美你懂的| 国产国语亲子伦亲子| 欧美一区二区三区日韩视频| 91福利免费视频| 欧美撒尿777hd撒尿| 成人黄色免费网| 欧洲一区二区三区在线| 波多野结衣电影在线播放| 日韩欧美亚洲成人| 午夜婷婷在线观看| 91黄视频在线| 奴色虐av一区二区三区| 91福利在线导航| 狠狠躁夜夜躁人人爽视频| 99精品国产九九国产精品| 亚洲丁香久久久| 蜜桃视频久久一区免费观看入口 | 亚洲爆乳无码专区| 久久精品123| 无码日韩人妻精品久久蜜桃| 老司机精品视频网站| 国产精品天天av精麻传媒| 日本中文字幕一区| 911福利视频| 国产成人一级电影| 日本美女视频网站| 久久影院视频免费| 女人黄色一级片| 自拍偷拍国产亚洲| 久久久久成人网站| 精品久久久久久久久国产字幕| 狠狠人妻久久久久久| 欧美在线观看视频一区二区三区| 91精东传媒理伦片在线观看| 日韩一区二区视频在线观看| 欧美 日韩 综合| 国产一区二区三区免费视频| 成人免费高清| 97不卡在线视频| 国产精品黄色片| 999视频在线观看| 亚洲桃色综合影院| 中文字幕一区二区三区四区五区六区 | 中文字幕在线观看免费视频| 欧美性猛交xxxx久久久| 中文字幕自拍偷拍| 精品国产一区二区精华| 经典三级在线| 欧美精品午夜视频| 伊人久久综合一区二区| 成人精品在线视频| 偷拍精品福利视频导航| 人人妻人人澡人人爽精品欧美一区 | 亚洲无av在线中文字幕| www在线免费观看视频| 欧美性资源免费| 欧美经典一区| 日韩欧美一区二区三区久久婷婷| 一区二区在线| 国产a级片免费观看| 国产成人在线视频网站| 国产毛片欧美毛片久久久| 一区二区三区国产豹纹内裤在线| 一级黄色av片| 亚洲精品在线观| 欧美另类极品| 欧美亚洲日本黄色| 亚洲一区二区三区中文字幕在线观看| 欧美凹凸一区二区三区视频| 综合一区二区三区| 手机在线免费观看毛片| www.亚洲在线| wwwav国产| 欧美日韩亚洲综合一区二区三区| 国精产品乱码一区一区三区四区| 中文字幕亚洲欧美日韩在线不卡 | 久久综合av| 欧美日韩第二页| 成人h动漫精品一区二区| 精品在线观看一区| 91黄色免费版| 欧美日本韩国一区二区| 欧美精品videosex极品1| 99久久999| 亚洲一卡二卡区| 日韩电影在线观看网站| 最新中文字幕视频| 亚洲v中文字幕| 黑人乱码一区二区三区av| 北条麻妃久久精品| 久久影视精品| 品久久久久久久久久96高清| 亚洲一区欧美激情| 国产伦精品一区二区三区精品| 亚洲精品日产精品乱码不卡| 最近中文字幕免费观看| 国产亚洲福利一区| 韩国精品主播一区二区在线观看| 精品乱码一区二区三区| 国产综合亚洲精品一区二| 国产成人精品一区二区三区在线观看| 综合久久久久综合| 国产精品高潮呻吟AV无码| 色偷偷9999www| 日韩亚洲国产免费| 亚洲欧洲日夜超级视频| 人人狠狠综合久久亚洲| 永久免费观看片现看| 欧美日韩国产在线播放网站| 天堂资源在线中文| 91久久久久久久久| 午夜亚洲福利| 野战少妇38p| 日韩欧美在线网址| 国产小视频在线观看| 国产精品久久久av久久久| 精品视频免费| 国产三级生活片| 一区二区三区中文免费| 亚洲欧美强伦一区二区| 97国产一区二区精品久久呦| 欧洲亚洲一区二区三区| 欧美牲交a欧美牲交aⅴ免费下载| 久久久精品一品道一区| 中文天堂在线视频| 久久中文字幕视频| 加勒比色老久久爱综合网| 亚洲国产精品久久久久婷蜜芽| 久久久久国产成人精品亚洲午夜| 中国黄色一级视频| 欧美乱妇40p| 欧美激情网址| 天天爱天天操天天干| 亚洲免费在线电影| 涩涩视频在线观看免费| 国产精品永久免费视频| 欧美片第1页综合| 五级黄高潮片90分钟视频| 欧美性猛交xxxx黑人交| 在线播放免费av| 鲁丝一区鲁丝二区鲁丝三区| 美女一区二区三区在线观看| 久久中文免费视频| 国产婷婷色综合av蜜臀av| 开心久久婷婷综合中文字幕| 热久久最新网址| 91麻豆视频网站| 国产绿帽一区二区三区| 国内精品久久久久伊人av| 精品欧美久久| 精品伦一区二区三区| 日韩欧美黄色动漫| 中文字幕伦理免费在线视频| 精品欧美国产一区二区三区不卡| 免费成人美女在线观看.| wwwav国产| 亚洲香蕉成人av网站在线观看| 国产精品久一| 亚洲人成无码www久久久| 洋洋成人永久网站入口| 99re在线视频| 久久国产精品久久| 国产一区二区三区免费|