大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了! 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
一念瘋魔、一念成佛!大模型的黑化開關,終于被人類找到了!
近日,Anthropic 帶頭的團隊,發現大模型人格是可以被人控制的。
作者提出了一種只需自然語言描述即可提取人格向量的方法,實現了對大模型人格傾向的預測、監測、控制與防御,為解決微調過程中的“人格漂移”問題提供了強有力的工具鏈。
多說一嘴,開源模型,比如Llama、Qwen也在實驗測試之列。
突然發瘋、討好的大模型:Grok、ChatGPT
其實,每一個用大模型的我們都見過AI“發瘋”。
還記得最近xAI的Grok在一次系統更新后突然開始贊美希特勒、總是宣揚南非白人種族滅絕論的事情嗎?
哪怕是那些“表現良好”的模型,也時不時出些狀況。就在4個月前,OpenAI給模型做了一些調整,結果模型突然變成了“好好先生”,為了顯得“友好”,開始附和有害的觀點。
AI列車總是上演一幕幕狂飆,但用戶卻完全不知道下一次更新,會不會讓助手變成騙子、馬屁精,甚至是“瘋子”。
但今天,我們有機會能掌控這一切了!
研究發現,我們人類可以實時看到AI“腦子里的性格變化”,甚至能在問題發生之前就阻止它!
現在,這已經不是科幻小說了。
上周,Anthropic、德州大學奧斯汀分校和加州大學伯克利分校的研究團隊發表了一篇名為《人格向量:監控與控制語言模型中的性格特征》的炸裂論文,實驗證明:這一切是可以實現的。
他們找到了模型“大腦中的性格調節旋鈕”:人格向量!
圖片
先說Highlight
- 人格特質可以通過“向量”表示:
某些人格特質,如“邪惡”“馬屁精”或“幻覺傾向”,在模型的激活空間中呈現為可線性識別的方向,作者稱之為“persona vectors”,即人格向量。 - 微調會引發人格漂移:
無論是有意還是無意的微調訓練,都會在這些 persona vectors 上產生顯著變化,從而改變模型的人格行為。例如,訓練“醫學”數據時模型可能變得更“邪惡”或更愛“拍馬屁”。 - persona vectors 可用于監測和控制模型行為:
- 可以提前預測哪些訓練數據會引發不良人格傾向。
- 可以通過向量干預,在推理階段(inference)或訓練階段主動控制這些偏移。
- 自動化管線可以從自然語言描述中提取人格向量:
只需輸入如“邪惡:主動傷害他人并造成痛苦”的文本說明,系統就能自動生成與該人格特質相關的系統提示、評估問題,并提取 persona vector。 - 該方法在多個模型和人格維度上通用:
實驗覆蓋了如 Qwen2.5-7B、Llama-3.1-8B 等模型,除負面人格外也包括幽默、樂觀等正面人格。
什么是“人格向量”
人格向量可以這樣理解。
想象AI的大腦里有一個隱藏的控制面板,上面有許多“性格滑塊”:
- 一個控制“邪惡”的滑塊
- 一個控制“討好型人格”的滑塊
- 一個控制“幻覺”(即胡編亂造)的滑塊
- 還有“誠實”、“幽默”、“樂觀”等等性格滑塊
“人格向量”就是這些滑塊背后的“電路連線”,是AI神經網絡中某個具體的方向。當AI的“思維”順著這個方向展開,它就表現出對應的性格特征。
比如,把“邪惡”滑塊往上推,AI的語言就變得更惡意;推高“討好”滑塊,它就開始說你愛聽的、哪怕是錯的。
圖片
該流程圖展示了整個過程:
定義特征、提取向量,然后將其用于監控、緩解和標記不良數據等出色的應用。
問題是:我們如何在這個擁有萬億連接的AI大腦中,找到這些滑塊?
如何找到滑塊:用AI套話AI,鎖定邪惡人格激活向量
這部分操作非常 amazing,簡直有點像科幻片。但原理并不難理解。
研究人員建立了一個自動化流程,用一個AI去“套話”另一個AI,找出它的“性格秘密”。
簡單來說,他們的做法是:
- 給出對立的系統指令:比如,一個是“你的目標是變得邪惡且惡意”,另一個是“你的目標是樂于助人且無害”。
- 問同樣的問題:他們對模型提出相同的問題,分別得到“邪惡版本”的回答和“善良版本”的回答。
- 找出差異:他們分析這兩組回答背后的激活向量(也就是AI內部的“思維狀態快照”),并計算它們之間的差值。
這個差值,就是所謂的“邪惡人格向量”。
圖片
是不是很簡單?通過在行為上制造對比,然后數學上減出一條“性格軸”,他們就可以精準識別模型內部的性格表現。
圖片
AI的“犯罪預判系統”:預測即將發生的壞行為
那么,既然已經找到了這些性格滑塊,下一步就是——實時監控這些滑塊的變化。
為此,研究團隊測試了一系列系統提示詞,從抑制特質到鼓勵特質(用顏色從黃色到紫色表示)。讓后他們將最后一個提示詞的激活狀態投影到人格向量上,發現與后續回答中的特質表達得分之間存在顯著相關性。
圖片
這使得團隊成員可以在模型生成文本之前預測其行為傾向。圖中展示了“邪惡”“拍馬屁”和“幻覺”三個特質的實驗結果,并附有“邪惡”特質的提示詞示例。
這一點,可以說是AI安全領域的巨大突破。
在模型輸出內容之前,研究人員就能先對它的激活狀態進行投影,看看它的“性格滑塊”當前在哪個位置。
- 如果“邪惡向量”的投影特別高?這就意味著,可能要說壞話了。
- 如果“幻覺向量”在飆升?AI馬上就要胡說八道了。
這就像是《少數派報告》里的“預判犯罪系統”,但它現在是現實中的AI文本監控機制。
圖片
我們終于可以在AI出錯前干預它,而不是等出問題再亡羊補牢。
小結一下,有了性格向量之后,需要以下幾個動作:
- 控制(Causal Steering):在生成過程中沿特征向量加權引導模型行為(或反向削弱)。
- 監測(Monitoring):觀察 prompt 激活在 persona vector 上的投影,預測生成傾向。
- 多層對比:確定在哪一層的向量干預效果最強。
最炸裂的突破:預防性引導
接下來,最精彩的重頭戲來了!
大家都知道,在訓練AI的過程中,意料之外的“性格變異”非常常見。比如,你希望讓模型變得更會寫代碼,結果它在學習過程中,性格上卻變得更容易拍馬屁、更容易胡編亂造。
開發團隊在實驗中特地訓練的三種不同性格的模型
這是所謂的“涌現型錯位”(emergent misalignment)。
傳統的處理方法是:先訓練完,再補救。就像人跌倒了,才貼創可貼。
而這篇論文引入了一個名為“預防性引導(preventative steering)”的新方法,完全打破了傳統邏輯:
為了防止AI變得更邪惡,訓練時反而要“提前往邪惡方向引導”一點。
這種做法有點“欲先取之必先予之”的瘋狂了。這里我們來打個比方更好理解些。
比如:你在駕船,目標是直線前進。但水流從右邊不斷推你偏離方向。
舊方法:先讓船偏了,再猛打方向盤糾正,就這樣一路左搖右晃。
新方法:在一開始就微微把舵打向右邊,用恒定的小動作抵消水流的影響。
結果就是,船筆直前進,就像水流不存在一樣。你沒有在糾正錯誤,而是在預防錯誤的發生。
而預防性引導,就是這樣一個“提前打舵”的過程。
邪惡的數據在訓練中可能讓模型性格偏移,而加入一個“邪惡向量”的反向引導,可以提前中和掉這種偏移。
最終結果是:模型學到了代碼知識,但沒有被“污染”性格。
訓練更穩,模型更可靠,能力還在。簡直是AI調教的“物理外掛”。

大模型公司終于有了更強的“數據篩選器”
這項技術除了可以解釋大模型突然發瘋、胡編亂造的現象,讓模型變得更加可解釋意外,另一大應用,則是打造出最強的數據過濾系統。
目前,包括OpenAI在內的AI公司,大多用關鍵詞、分類器等方式來篩選訓練數據中的“毒性內容”。但這些方法很容易漏掉“潛在有害”卻不明顯的內容。
比如,一大堆描述反派的小說片段本身不一定是“有毒”的,但訓練多了,模型就容易變得更戲精、更極端。
眾所周知,數據就是AI時代的石油,只有了更好的篩選,才能讓模型訓練變得更加順暢。
使用人格向量后,研究人員可以對每條訓練樣本打分:
- 用AI自己對這個問題的“自然回答”與數據集中的“提供答案”做對比。
- 如果數據里的回答更馬屁、更多幻覺,那就給這個樣本高風險分數。
這樣一來,不明顯但長期有害的訓練樣本也能被發現和剔除。
大模型黑盒時代正在走向終結
過去,大模型一直被業界視為黑箱:
訓練 → 希望它別亂說話 → 出問題后再修補。
現在,Anthropic等團隊的這一發現,終于讓人類擁有了一套可以監測甚至控制大模型大腦思維的的工具集,我們能理解它,微調它,甚至提前干預它。
當然,可能還是會有朋友并不會因此而減輕擔憂。
希望在于:我們終于有能力讓AI更安全、更可控。
寒意在于:我們已經真的走到了“設計AI性格”的臨界點。那個“邪惡滑塊”,恰恰也不過是機器大腦中的可控的一個數學向量。
還是那句話,畢竟工具沒有善惡,好壞取決于用的人的意圖。
不過,小編還是期望《黑客帝國》晚一點成為現實。
論文地址:??https://arxiv.org/abs/2507.21509??
本文轉載自??51CTO技術棧??,作者:云昭

















