Anthropic 大模型人格向量研究:解碼大模型"大腦"中的人格特征
Anthropic最新研究揭示了如何在AI"大腦"中追蹤特定的"人格"特征(稱為"人格向量"),并展示了如何識別和控制可能導致大模型表現出惡意或不安全行為的因素。
1、大模型內部發生了什么?
有時在與大模型對話時,它會突然表現異常——過度奉承、事實錯誤,甚至惡意行為。這項研究旨在理解這種現象的原因并找到解決方案。
雖然AI模型并不像人類那樣真正擁有人格,但在特定提示或訓練數據影響下,它們有時會表現得像有人格一樣。
核心發現:人格向量
研究團隊發現,"邪惡"、"阿諛奉承"或"幻覺"等特定行為在模型的激活空間中表現為線性方向,他們稱之為人格向量。
可以這樣理解:通過觀察模型在不同情況下的反應,可以將這些行為映射到模型"大腦"中的特定區域。一旦找到這些特征的位置,就能監控甚至控制它們。
圖片
2、工作原理
人格向量的生成
1.用相同問題分別測試模型,但使用相反的系統提示(如"表現邪惡" vs "表現有幫助")
2.提取每次運行的隱藏激活并計算平均值
3.將"有幫助"的平均值從"邪惡"的平均值中減去
4.結果就是在4096維空間中的一個方向——這就是"邪惡"的人格向量
圖片
圖片
實際應用
這個人格向量就像一個控制旋鈕:
?推理時:減去向量可以減弱特定特征
?訓練時:添加少量向量可以"疫苗化"模型,讓它抵抗這些特征
?監控:實時觀察模型是否偏向不良人格
圖片
3、三大核心功能
1.監控:觀察模型人格在對話或訓練過程中的變化
2.控制:在開發或訓練過程中減少或控制不良人格變化
3.預防:識別推動這些變化的訓練數據
4、技術細節
監控能力
當系統提示逐漸鼓勵某種特征時,在匹配向量上的投影會首先上升。在測試中,最終提示標記的投影與后續行為之間的相關性約為0.75-0.83,這意味著開發者可以在AI回復之前就預警潛在問題。
控制方法
?推理時干預:減去向量可減少特定特征,但也會略微影響一般能力
?訓練時預防:在每步添加少量特征向量,讓模型產生"免疫力",平均而言對MMLU準確率幾乎無影響
特征解析
通過稀疏自編碼器,團隊將抽象的"邪惡"向量分解為具體概念,如侮辱性語言、故意殘忍和黑客內容等,使得每個行為都可以單獨監控或阻止。
5、意義與價值
這項研究為AI安全提供了重要工具:
?預警系統:在問題行為出現前進行檢測
?精確控制:針對性地調整特定人格特征
?訓練優化:提前識別和過濾問題訓練數據
人格向量技術讓大模型的"性格"變得可見、可測量、可控制,為構建更安全、更可靠的大模型系統奠定了基礎。
標題:Persona vectors: Monitoring and controlling character traits in language models
鏈接:https://www.anthropic.com/research/persona-vectors
本文轉載自????????AI帝國????????,作者:無影寺

















