Claude 的腦海里在發(fā)生什么?
為什么大語言模型(LLM)能夠“樣樣精通”?
從形式上看,LLM 只是一個函數(shù):給定輸入,產(chǎn)出輸出——如此而已。然而,它們卻能勝任翻譯、診斷、推理、計算等多種任務(wù),這又是如何做到的?
圖片
LLM 本質(zhì)上是一個數(shù)學(xué)函數(shù):輸入 → 輸出。
LLM 們能做的事包括:疾病初步診斷、多語互譯、算術(shù)與代數(shù)運算,乃至更復(fù)雜的推斷。為什么?
最近,Anthropic 公布了關(guān)于“追蹤語言模型思維過程”(tracing the thoughts of language models)的研究:嘗試解釋一個 LLM 是怎樣得出答案的、在生成答案時內(nèi)部發(fā)生了什么。 本篇就圍繞這一思路展開。
目標(biāo):什么叫“追蹤 LLM 的思維”?
設(shè)想你問 Claude:“36 + 59 等于多少?”
圖片
我們希望知道:它是背過了這道題(比如曾在某測驗里見過),還是在推理/計算?換言之,機制不同,可信度與泛化也會不同。
圖片
兩種可能的路徑:記憶 vs. 計算。
研究顯示:Claude 的策略并非“人類式的列豎式”,而是并行走兩條路——一條用粗略方式近似總和,另一條計算個位數(shù)的進(jìn)位與末位;兩條路徑的組合給出最終答案。
圖片
機制:如何“追蹤”一條思維路徑?
第一步是構(gòu)造一個替代模型(replacement model)。
替代模型(Replacement model)
Anthropic 做了什么?
常見的 LLM 由多層 Attention 與 MLP(前饋網(wǎng)絡(luò))構(gòu)成,每層包含成組的“神經(jīng)元”。
圖片
為了便于解釋,他們將每一層的 MLP替換為跨層轉(zhuǎn)碼器(Cross-Layer Transcoder,CLT):形似 MLP,但神經(jīng)元更多,以更細(xì)顆粒表示“特征”。
圖片
訓(xùn)練目標(biāo)是讓每個轉(zhuǎn)碼器的輸出 ? 盡量逼近原 MLP 的輸出 y,即逐層對齊。
圖片
此外,訓(xùn)練還引入稀疏正則——讓每個提示詞僅激活少量神經(jīng)元(特征),從而有利于“一個概念 → 少數(shù)特征”的可解釋映射。
圖片
于是得到的替代模型具備三點重要性質(zhì):
- 近似等價:層級輸出與原模型近似一致,因此可以在不大幅改變功能的情況下做解釋;
- 容量更大:每層神經(jīng)元更多,代價是更低效,但更可能把“概念”單獨映射到可分離的特征上;
- 激活更稀疏:一次輸入只點亮少數(shù)特征,有助于“特征 ? 概念”的一對一或一對少映射。
從神經(jīng)元到“概念”:給特征貼標(biāo)簽
在替代模型里,研究者把神經(jīng)元稱為特征(features)。 若模型有 L 層、每層轉(zhuǎn)碼器維度為 m,那么總特征數(shù)約為 m×L。
圖片
在 Anthropic 的實驗中,特征總量高達(dá) 3000 萬。接下來要做的,是把這些特征與可讀的概念對應(yīng)起來。
怎么做?
- 他們先收集一批文本段落,送入模型,記錄逐 token 的激活。由于稀疏化,大多數(shù)特征為 0;少數(shù)非零者即為被激活,說明這些特征與當(dāng)前 token 的語義/形態(tài)相關(guān)。
圖片
- 然后反過來:挑一個特征,看它在什么文本模式下頻繁被點亮。若它總在“Texas/texas”之前激活,我們就可稱其為“Texas 特征”。
圖片
通過這種方式,他們給大量特征貼上了可解釋的“標(biāo)簽”。進(jìn)一步地,特征大致可分為三類節(jié)點(nodes):
- 輸入節(jié)點(Input nodes):與輸入 token 的嵌入相關(guān);
圖片
- 輸出節(jié)點(Output nodes):與輸出 token 的嵌入相關(guān);
圖片
- 中間節(jié)點(Intermediate nodes):把輸入變?yōu)檩敵鏊璧闹虚g操作/概念;
圖片
追蹤路徑:把“思維鏈”畫成圖
現(xiàn)在我們有了“節(jié)點”(概念化的特征),問題變成:如何復(fù)原它們之間的影響路徑,也就是模型“思考”的線路? 研究者將其稱為歸因圖(Attribution Graph)。
舉例,繼續(xù)用 “36 + 59 = ?”。
我們已知:
- 輸入節(jié)點:由輸入 token 決定;
- 目標(biāo)輸出節(jié)點:由模型最終輸出決定;
- 任務(wù):找出介于兩者之間、真正推動輸出生成的那些中間節(jié)點及其有向邊(影響關(guān)系)。
圖片
在實踐中,會先構(gòu)建一個大圖:節(jié)點是特征,邊代表“此特征對彼特征/對輸出 logits 的影響”。這張圖規(guī)模可達(dá)百萬級邊。 接著,對其進(jìn)行剪枝:僅保留對輸出影響顯著的節(jié)點與邊,從而獲得一個可視化、可解釋的精簡路徑。
最終的路徑圖大致如下:它解釋了 Claude 在“診斷任務(wù)”中如何分階段整合輸入線索、觸發(fā)中間概念、再導(dǎo)向輸出。
圖片
小結(jié)與思考
本文聚焦于 Anthropic 近期關(guān)于電路追蹤(Circuit Tracing)的一系列工作,擇要說明了:
- 替代模型如何在功能近似前提下提升可解釋性;
- 稀疏激活如何幫助把“神經(jīng)元”貼上可讀標(biāo)簽;
- 歸因圖如何把“輸入 → 中間概念 → 輸出”的邏輯鏈條具體化。
當(dāng)然,也存在局限:
- 替代模型畢竟是近似,與原模型的“機械同構(gòu)性”未必完美,對機制的類比可能仍有推測成分;因此,需要謹(jǐn)慎解讀。
- 論文中的若干示例是手工篩選與核驗過的,方法能否穩(wěn)定泛化到所有任務(wù)與模型,尚需更多證據(jù);盡管如此,在大量場景下它確實奏效。 換言之,它也許不是“徹底自底向上”理解 LLM 的終點,但無疑向前邁了一大步。




























