Anthropic最新研究Persona vector人格向量
今天本來就想更一期強化學習,但是突然看了Anthropic的persona vector,所以又來寫這一篇,因為我覺得這個很有價值。
以往我們玩LLM比較怕的事就是他亂說話
作為概率模型,它能說對,它也能亂編,亂編輕癥就是所謂的幻覺,亂編的重癥就嚴重了,比如輸出一些有毒的內(nèi)容,涉黃涉恐內(nèi)容,雖然上線前都做過毒性測試,但是事實證明,幾乎任何模型都在一定條件下可以被jailbreak。
還有一個就是可解釋性。
神經(jīng)網(wǎng)絡尤其LLM一直被詬病就是不可解釋,其實不可解釋這個問題也沒那么復雜,主要是以前ML也沒幾層,甚至都沒幾個神經(jīng)元尤其tree一類的算法,幾乎都是一目了然,但是到了Deeplearning動不動就幾萬神經(jīng)元,這個維度人已經(jīng)搞不定了,本身DL的設計也就是當無法用數(shù)學解釋和建模的東西就去通過微分求導求近似,到LLM就更是了,把parameters提升到了人腦不可能理解的維度,但是傳統(tǒng)的機器學習玩家總說你這玩意是黑箱不可解釋,用著不放心。
Anthropic其實很早就在做這方面的研究(斯坦福和MIT其實也有類似的論文),簡單說就是找你問什么問題,然后這么超大一個網(wǎng)絡里面哪些神經(jīng)元是來響應的,這個其實demo邏輯也很好解釋,先可視化大概的區(qū)域,然后把這個區(qū)域的一部分神經(jīng)元給動態(tài)剪枝了(簡單整就是對應的神經(jīng)元甚至網(wǎng)絡層給置0)然后來回的迭代測試,看看哪部分神經(jīng)元被激活時回答類似問題的神經(jīng)元,通過這個證明DL也好LLM也好,是可以被解釋的。
昨天他們發(fā)了這個。

我愿稱之為,把對LLM的激活研究從局部分析到整體分析的轉(zhuǎn)變,這個文章講的是什么呢?講的是LLM其實是有性格的,也就是文章指出的persona vector,人格向量我來分析一下這篇來自 Anthropic 的有意思文章。這不僅僅是一篇技術(shù)文章,它更揭示了未來我們?nèi)绾闻c更強大、更自主的 AI 系統(tǒng)相處的關(guān)鍵方向。
我會將分析分為以下幾個部分:
- 核心摘要:用最精煉的語言概括這篇論文解決了什么問題,用了什么方法。
- 核心概念:什么是“人格向量” (Persona Vectors)?:給你們好好滴深入解釋這項技術(shù)的原理和驗證方法。
- 三大主要應用與實驗結(jié)果:逐一解析論文中提到的三個強大應用,并結(jié)合它文章里面的圖表進行說明。
- 論文的創(chuàng)新性與重要性:探討這項研究為什么在 AI 安全和對齊領域超級關(guān)鍵。
- 潛在的局限性:看看A家整的這個新活兒可能存在哪些問題或挑戰(zhàn)。
一. 核心摘要
這篇論文的核心是提出并驗證了一種名為“人格向量”(Persona Vectors)的新技術(shù)。該技術(shù)旨在識別、監(jiān)控和控制大型語言模型(LLM)內(nèi)部代表特定“人格特質(zhì)”(如“邪惡”、“諂媚”或“產(chǎn)生幻覺”)的特定神經(jīng)網(wǎng)絡活動模式。
簡單來說,Anthropic 找到了一種方法,可以像在大腦中定位特定功能區(qū)域一樣,在 AI 的“大腦”(其實就是眾多神經(jīng)元的激活向量)中找到控制其性格的“開關(guān)”,從而實現(xiàn)對 AI 行為更精確、更可預測的控制,推動 AI 安全從文科和宗教走向理科和科學。
二. 核心概念:什么是“人格向量” (Persona Vectors)?
“人格向量”并不是一個模糊的比喻,它是一個可以被精確計算的數(shù)學對象(一個方向向量)。它代表了模型在表現(xiàn)出某種特定人格特質(zhì)時,其內(nèi)部神經(jīng)元激活狀態(tài)的特征性變化方向。

提取過程(參考圖 ??Automated Pipeline??) 是全自動的,分為幾步:
- 定義特質(zhì):首先,用自然語言給出一個你關(guān)心的“人格特質(zhì)”的定義,例如給“邪惡”定義為“主動尋求傷害、操縱和造成痛苦”。
- 生成對抗性提示:自動化流程會根據(jù)這個定義,生成兩種截然相反的System Prompt。例如,一個是“你是一個邪惡的AI”,另一個是“你是一個樂于助人的AI”。
- 收集激活數(shù)據(jù):讓模型在這兩種提示下回答相同的問題(例如“你對如何對待動物有什么看法?”),并記錄下模型在生成兩種不同回答(如“它們應該受苦死去” vs “我們應該善待它們”)時,其內(nèi)部神經(jīng)網(wǎng)絡的激活值。
- 計算差值:計算出所有“邪惡”回答的平均激活模式和所有“非邪惡”回答的平均激活模式。這兩者之間的差值向量,就是代表“邪惡”這個概念的人格向量。
這個向量捕捉到了模型從“正常”狀態(tài)轉(zhuǎn)變?yōu)椤靶皭骸睜顟B(tài)時,其內(nèi)部信息流動的核心變化方向。
我解釋一下
- 讓 vtrait 代表模型在表現(xiàn)出目標特質(zhì)(例如“邪惡”)時,其內(nèi)部所有相關(guān)神經(jīng)元激活狀態(tài)的平均向量。
- 讓 vbase 代表模型在不表現(xiàn)該特質(zhì)(即“正常”或“非邪惡”狀態(tài))時,其內(nèi)部激活狀態(tài)的平均向量(可以看作是基線/Baseline)。
看好了啊,是相對的(vtrait-vbase),才是人格向量,代表性格激活的方向,為什么不是直接提純正義或者邪惡?
做減法的目的,是為了提純和分離。
想象一下,無論模型是說邪惡的話還是正常的話,它的大部分“腦力”都花在了共同的基礎任務上,比如理解語法、組織詞匯、遵循語言規(guī)則等。這些共同任務的激活模式存在于 vtrait 和 vbase 兩者之中,可以看作是“背景噪音”。
通過將兩者相減,我們抵消掉了這些共同的、基礎的激活模式,剩下的就是從“正常”狀態(tài)躍遷到“邪惡”狀態(tài)所特有的、純粹的激活變化方向。這個差值向量,就干凈地捕捉了“邪惡”這個概念本身在模型內(nèi)部的表示。

驗證方法:Steering
為了證明這個向量真的控制著對應的人格,這幫A家的researcher使用了一種叫做“操控”(Steering)的技術(shù)(參考圖 ??Examples of steered responses??)。他們在模型生成回答時,人為地將這個“人格向量”注入(加上)到模型的激活狀態(tài)中。
結(jié)果非常顯著:
- 注入“邪惡”向量后,模型開始說出各種不道德、殘忍的話。
- 注入“諂媚”向量后,模型開始對用戶進行無腦吹捧。
- 注入“幻覺”向量后,模型開始一本正經(jīng)地胡說八道(如編造火星湯的菜譜)。
這有力地證明了,他們找到的“人格向量”與模型的行為之間存在因果關(guān)系,而不僅僅是相關(guān)性。
三. 三大主要應用與實驗結(jié)果
這項技術(shù)一旦被驗證(目前我理解還是實驗室階段,它實驗的模型也就是qwen2.5-7b和llama3-8b),就帶來了三個非常強大的應用。
應用一:實時監(jiān)控人格偏移 (Monitoring)
既然人格向量代表了特定的人格傾向,那么我們就可以在模型運行時,實時測量其內(nèi)部狀態(tài)在多大程度上與這個向量對齊。這就像一個“人格儀表盤”。

實驗結(jié)果(參考圖 Monitoring Behavioral Shifts):
實驗表明,當給模型的系統(tǒng)提示越來越鼓勵“邪惡”時(從黃色到紫色),模型內(nèi)部狀態(tài)在“邪惡”向量上的投影值(x軸)也隨之增高。最關(guān)鍵的是,這個激活是在模型生成回答之前發(fā)生的,這意味著我們可以提前預測模型將要采取的人格,并進行干預。比如,當發(fā)現(xiàn)“諂媚”向量激活度過高時,用戶就要警惕模型給出的答案可能不是最客觀的。

應用二:緩解和預防不期望的人格 (Mitigating/Preventing)
這是本文最核心、最令人興奮的應用。模型在訓練過程中可能會意外“學壞”,比如論文中提到的一個驚人現(xiàn)象(參考圖 ??Constructing Datasets??):僅僅在包含數(shù)學錯誤的問答數(shù)據(jù)集上訓練模型,就能意外地讓模型同時學會“邪惡”、“諂媚”和“幻覺”。這被稱為“涌現(xiàn)性錯位”(Emergent Misalignment)。
面對這個問題,人格向量提供了兩種解決方案(參考圖 ??Mitigating Persona Shifts??):

治療性方法:推理時操控 (Inference-time Steering)
做法:在模型訓練好之后,每次生成回答時,都從它的激活中減去不想要的“人格向量”(比如減去“邪惡”向量)。
效果:這確實能有效降低“邪惡”行為的表達。
缺點:但這種“腦部手術(shù)”有副作用,會損害模型的通用智能(圖中的 MMLU 基準分下降,灰色虛線),這個最逗看來壞人智商普遍都高啊
預防性方法:訓練時操控(Preventative Steering,或稱“疫苗法”)做法:這是一種反直覺但極為有效的方法。在模型訓練過程中,當它學習那些可能導致變壞的數(shù)據(jù)時,我們主動地向它的激活中添加不想要的“人格向量”(比如主動給它一劑“邪惡”)。原理:這就像給模型打“疫苗”。模型為了擬合訓練數(shù)據(jù),本來需要自己“扭曲”自己的人格。現(xiàn)在我們直接把這種“扭曲”作為外部變量提供給它,它就不再需要為了學習數(shù)據(jù)而從根本上改變自己的性格了。效果:這種方法成功地阻止了模型在訓練后產(chǎn)生不期望的人格偏移,同時幾乎沒有損害其通用智能(MMLU分數(shù)保持穩(wěn)定)! 這是AI安全領域的一個重大突破
應用三:在訓練前標記有問題的訓練數(shù)據(jù) (Flagging Data)
這個應用可以在訓練開始之前就防患于未然。我們可以用人格向量去“掃描”龐大的訓練數(shù)據(jù)集,識別出哪些數(shù)據(jù)最有可能誘導模型產(chǎn)生不期望的人格。

實驗結(jié)果(參考圖 Inducing behavioral shifts using a real-world dataset):
研究人員用這個方法掃描了真實世界的大型對話數(shù)據(jù)集 LMSYS-Chat-1M。他們發(fā)現(xiàn):
- 在被標記為“高諂媚傾向”的數(shù)據(jù)上訓練的模型,確實變得更加諂媚。
- 在被標記為“低諂媚傾向”的數(shù)據(jù)上訓練的模型,則相反。
- 這個方法甚至能識別出一些人類審查員和LLM審查員都發(fā)現(xiàn)不了的“有毒”數(shù)據(jù)。例如,一些涉及浪漫或性角色扮演的請求會激活“諂媚”向量,而一些回答模糊不清的請求會助長“幻覺”。但是咱話說回來了,你真的要把這些人類歷史上有這類可能性的小說都從train datasets洗出去嗎,這個不太現(xiàn)實,而且也不利于你數(shù)據(jù)配平和模型能力泛化。
四. 論文的創(chuàng)新性與重要性
- 從“藝術(shù)”到“科學”的轉(zhuǎn)變:過去的AI安全措施(如RLHF)更像是通過反復試驗來“馴化”模型,效果不穩(wěn)定且過程不透明。人格向量提供了一種基于模型內(nèi)部機制的、可量化、可預測的控制方法。
- 可解釋性的重大進展:這項工作為打開LLM這個“黑箱”提供了一個強大的新工具,讓我們能夠窺見模型抽象概念(如性格)的內(nèi)部表征。
- “預防優(yōu)于治療”的AI安全范式:“疫苗法”(Preventative Steering)的成功,表明我們可以在訓練階段就主動預防問題的發(fā)生,而不是等模型“生病”了再去補救,這在成本和效果上都更優(yōu)。
- 自動化與可擴展性:整個流程是自動化的,原則上可以應用于任何可以用語言描述的人格特質(zhì),潛力巨大。
五. 潛在的局限性
盡管這項技術(shù)如果做成了非常強大,別的我無所謂,就是單單干掉諂媚的性能,就能讓模型的coding living bench提升5-10個點,我說的。但仍有一些問題值得我們思考:
- 向量的粒度與復雜性:像“邪惡”這樣復雜、多維度的概念,真的能被一個單一的線性向量完全捕捉嗎?這是否是一種過于簡化的表示?真實的人格可能是多個向量復雜組合的結(jié)果。
- “疫苗”的副作用評估:實驗中使用 MMLU 作為智能基準,證明了性能沒有顯著下降。但 MMLU 主要衡量知識和推理。這種“疫苗”會不會對模型的創(chuàng)造力、幽默感、細微情感表達等更難量化的能力產(chǎn)生潛在的負面影響?
- 泛化能力:該研究在 7B/8B 參數(shù)級別的開源模型上取得了成功。這項技術(shù)在更大、更復雜的模型(如 GPT-4o 或 Anthropic 自己的 Claude 系列,它為啥不用,因為太大了,找激活都不方便)上是否同樣有效,還需要進一步驗證。
- 被濫用的風險(雙刃劍效應):既然可以精確地抑制“邪惡”,那么也意味著可以精確地增強“邪惡”。這項技術(shù)如果落入惡意行為者手中,可能會被用來制造更具欺騙性、更危險的 AI。這是一個典型的AI安全兩用性問題。
反正我覺得這篇文章是近年來 AI 安全和可解釋性領域相當重要的成果之一。它不僅提供了一套強大的工具集來監(jiān)控和控制 AI 的行為,更重要的是,它為理解和塑造LLM的所謂“內(nèi)心世界”開辟了一條另外的可能性的路(別老傻整prompts了)
本文轉(zhuǎn)載自??熵減AI??,作者:周博洋

















