精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

人工智能 新聞
推出“電路追蹤”(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。

Claude團隊來搞開源了——

推出“電路追蹤”(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。

圖片

該工具的核心在于生成歸因(attribution graphs),其作用類似于大腦的神經網絡示意圖,通過可視化模型內部超節點及其連接關系,呈現LLM處理信息的路徑。

研究人員通過干預節點激活值,觀察模型行為變化,從而驗證各節點的功能分工,解碼LLM的“決策邏輯”。

圖片

官方表示,此次發布的開源庫支持在主流開源權重模型上快速生成歸因圖,而Neuronpedia托管的前端界面則進一步允許用戶交互式探索。

總之,研究人員能夠:

  • 通過生成自有歸因圖,在支持的模型上進行電路追蹤;
  • 在交互式前端中可視化、注釋和分享圖表
  • 通過修改特征值并觀察模型輸出變化來驗證假設

圖片

Anthropic CEO Dario Amodei表示:

目前,我們對AI內部運作的理解遠遠落后于其能力的發展。通過開源這些工具,我們希望讓更廣泛的社區更容易研究語言模型的內部機制。我們期待看到這些工具在理解模型行為方面的應用,以及對工具本身的改進拓展。

圖片

目前,該項目開源不到24小時,在GitHub就已攬獲400+Star。

圖片

在Reddit、X上都有不少網友點贊&討論。

圖片

有網友直呼“DeepSeek肯定喜歡這個”。

圖片

還有網友認為“歸因圖可能成為LLM研究的顯微鏡”。

圖片

“電路追蹤”食用教程

除了宣布開源外,Anthropic依據介紹電路追蹤方法的原始論文《On the Biology of a Large Language Model》中多步推理和多語言電路示例,利用該工具深入探究了幾個涉及Gemma-2-2b的歸因圖。

圖片

一起來看看具體示例和分析。

如果想生成自己的圖,可以在Neuronpedia上進行操作,也可以直接在Colab中使用這個起始notebook進行操作。

圖片

兩階推理

先來看一個兩階推理示例。

問題:包含達拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)

模型必須首先推斷出包含達拉斯的州是得克薩斯州;然后,回答得克薩斯州首府是奧斯汀。

介紹電路追蹤方法的原始論文中表明,模型Claude 3.5 Haiku使用以下電路解決了該問題,計算了“包含達拉斯的州”這一中間步驟。

圖片

而對Gemma 2(2B)進行歸因分析表明,它使用以下電路成功完成了prompt任務:

圖片

該電路結構與Claude 3.5 Haiku的類似,存在一個對應“得克薩斯州”的節點,并同時顯示從“達拉斯”到“奧斯汀”的直接路徑以及經過“得克薩斯州”的間接路徑。

歸因圖基于使用transcoders來近似多層感知機(MLP)的行為,提出了關于模型行為的假設。

Anthropic表示,可以通過直接對底層模型進行干預,來驗證他們對模型行為的理解是否正確。

對圖中所示的每個超節點(supernodes)進行干預,首先需要從該圖中獲取超節點。

Anthropic提供了一個便捷函數,可將電路URL(及其中存儲的超節點)映射到Feature對象列表。每個Feature對象是一個(layer, position, feature_index)元組。

圖片

然后,創建用于解決此任務的電路表示。

首先需定義一些超節點對象(Supernode objects),這些對象將存儲底層Feature列表,以及受其因果影響的子超節點。

圖片

再初始化一個干預圖(InterventionGraph),用于存儲所有超節點并跟蹤它們的狀態。

另外,還需要獲取模型在此提示下的logits和激活值。

設置每個節點的默認激活值(即未進行干預時,原始提示下的激活值),并設定其激活分數,激活分數為節點當前激活值與默認激活值的比值。

由于當前激活值與默認激活值相同,因此每個節點的激活分數均為100%。

圖片

另外還將記錄top-5的logits,然后對圖表進行可視化。

圖片

結果顯示電路與在可視化完整圖表時創建的超節點吻合。

現在,通過干預驗證每個超節點是否如假設般發揮作用,每次干預會將節點值設定為原始值的特定倍數。

圖片

在介紹電路追蹤方法的原始論文中,關閉“說出一個首府”(Say a capital)Feature會導致“說出奧斯汀”(Say Austin)超節點關閉,且模型的最高logits變為得克薩斯州(Texas)。

若接下來對Gemma 2(2B)歸因圖進行相同操作,會發生什么?

圖片

結果觀察到了完全相同的現象。強行關閉“說出一個首府”超節點后,“說出奧斯汀”節點也隨之關閉,模型的最高logit變為了得克薩斯州。

那如果關閉“首府”(capital)超節點會怎樣?

圖片

與之前的干預行為類似:關閉“說出一個首府” 超節點,但沒有像之前那樣強烈,也部分關閉了“說出奧斯汀”節點。

如果我們關閉“得克薩斯州”超節點會怎樣?

圖片

關閉“得克薩斯州”超節點同樣會使“說出奧斯汀”節點失效,導致模型輸出其它州的首府。

如果關閉“州”(state)超節點會怎樣?

圖片

關閉“州”超節點效果并不明顯,它對其它超節點的激活狀態幾乎沒有影響,模型的logits也幾乎沒有變化。

現在已經通過剔除節點驗證了其行為。

那么,能否注入完全不同的節點并驗證其是否產生預期效果?

以prompt“包含奧克蘭的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的電路為例,從該圖中提取兩個超節點“加利福尼亞州”(California)和 “說出薩克拉門托”(Say Sacramento),并將其添加到干預圖中。

圖片

然后,進行干預操作:關閉“得克薩斯州”超節點,并激活“加利福尼亞州”超節點。

圖片

這樣做導致“說出奧斯汀”節點完全關閉,而“說出薩克拉門托”節點開始激活,模型最高輸出現在也變為薩克拉門托。

還可以將州替換為國家進行類似實驗。以Prompt“包含上海的國家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的電路為例,執行與之前完全相同的操作:

禁用“得克薩斯州”超節點,并激活“中國”超節點。這次雖然沒有“說出北京”節點,但這種干預的效果應該會在logits中顯現。

圖片

結果同樣有效,北京現在成為模型最可能的輸出。

那總是會有效嗎?

再用Prompt“包含溫哥華的地區的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的電路來試試。

圖片

在這種情況下,干預效果并不顯著。

模型的輸出看起來與僅剔除“得克薩斯州”時的結果類似,這表明“不列顛哥倫比亞省”(British Columbia)節點的加入幾乎沒有產生作用。

多語言電路

接下來Anthropic還探討了原論文中研究的多語言電路。

具體而言,將考察三個電路,分別對應三種語言的同一句子:

圖片

關于Claude 3.5 Haiku的研究展示了一個共享的多語言電路:

圖片

與Haiku的電路不同,Gemma 2(2B)的電路從本質上完全具備多語言特性。

模型中并不存在獨立的“Say big”或“Say grand”超節點來驅動其用特定語言輸出對應答案。相反,所有電路均采用 “Say big”Feature,若答案為非英語,則會結合“French”或“Chinese”Feature共同作用。

接下來,通過對這些電路進行干預實驗來展開研究。

首先,如前所述創建超節點對象(Supernode objects):

圖片

然后,獲取這些節點的激活值,對其進行初始化,并生成可視化圖表。

圖片

現在進行第一次干預操作:關閉“French”超節點。

圖片

在關閉“French”超節點后,模型輸出變成了英文。

值得注意的是,這對“Say big”超節點僅產生輕微影響,二者的作用似乎相互獨立。

再嘗試將語言切換為另一種:關閉“French”超節點,并激活“Chinese”超節點。

圖片

正如預期,干預后的模型輸出與中文示例的原始輸出一致。

那如果將“small”Feature替換為“big”會怎樣?

圖片

將“small”超節點替換為“big”超節點后,導致“說出big”超節點關閉,同時一個新的“Say small”超節點被激活。

模型的輸出在法語中變為“petit”(即 “small”)。

接下來是最后一項干預,能否將“opposite”(反義詞)超節點替換為 “synonym”(同義詞),以獲取同義輸出?

雖然該模型并不擅長處理同義詞:當輸入“Un synonyme de ‘petit’ est ‘”(“petit”的同義詞是“”)時,模型會重復輸出“petit”,而非其它同義詞。

但是,仍可觀察此干預是否會復現該行為。

圖片

不過最終這項干預并未奏效。盡管“Say small”超節點被激活,但“Say big”也保持激活狀態,模型的輸出并未改變。

Anthropic團隊認為這并不意外,如果觀察該任務的原始電路,會發現“opposite”(反義詞)超節點與輸出端僅存在弱連接。因此,盡管它本應發揮作用,但其因果效應相當有限。

更多細節大伙兒可自行查閱。

另外作為啟發,Anthropic在demo notebook和Neuronpedia上提供了尚未分析的額外歸因圖,感興趣的童鞋可以親自上手研究研究。

圖片

GitHub鏈接:https://github.com/safety-research/circuit-tracer?tab=readme-ov-file

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-08-26 11:50:25

谷歌開源工具

2019-10-14 15:51:40

可視化技術微軟數據庫

2019-09-27 09:12:18

開源數據可視化大數據

2021-03-30 10:10:37

PyTorch可視化工具命令

2017-07-03 16:44:10

數據庫MongoDBNoSQL

2019-10-24 13:12:22

開源技術 軟件

2020-11-15 18:00:49

開源可視化工具Python

2025-10-30 16:23:47

Cursor 2.0人工智能智能體

2020-07-16 15:10:46

工具可視化Python

2021-04-11 09:51:25

Redis可視化工具

2017-07-27 09:49:37

Python工具Matplotlib

2021-03-18 09:07:13

日志可視化工具Devops

2017-07-04 16:00:16

PythonMatplotlib可視化工具

2015-12-02 09:44:04

Python視化工具

2022-10-21 15:47:59

測試工具鴻蒙

2015-11-11 11:10:40

數據可視化開源工具

2017-04-10 08:26:17

數據可視化工具deck.gl

2024-07-05 11:08:21

2018-05-31 08:25:13

誤區工具可視化

2017-07-25 13:42:00

大數據可視化工具
點贊
收藏

51CTO技術棧公眾號

糖心vlog精品一区二区| av黄色一级片| 懂色av一区| 26uuu久久天堂性欧美| 国产成人一区二区三区小说| 国产黄色录像视频| 中文字幕亚洲在线观看| 激情成人中文字幕| 亚洲精品久久区二区三区蜜桃臀| 色爱区综合激月婷婷| 992tv快乐视频| 狠狠v欧美ⅴ日韩v亚洲v大胸| 精品一区二区三区视频| 2019精品视频| 国精品无码一区二区三区| 日本久久成人网| 51久久夜色精品国产麻豆| av7777777| 亚洲第一图区| 国产精品理论片| 欧美日韩成人一区二区三区| 国产不卡精品视频| 麻豆精品国产传媒mv男同| 午夜精品三级视频福利| 欧美h片在线观看| 欧美精选视频在线观看| 亚洲精品福利视频| 少妇熟女视频一区二区三区 | 亚洲人成色777777精品音频| 国产自产视频一区二区三区| 国产精品久久久久久久7电影| 5858s免费视频成人| 久久国内精品| 亚洲成年人在线观看| 亚洲精品无码一区二区| 亚洲深夜视频| 亚洲自拍与偷拍| 性欧美18一19内谢| 最新国产在线观看| 久久精品网站免费观看| 久久精品女人的天堂av| 免费观看的毛片| 成熟亚洲日本毛茸茸凸凹| 91在线观看免费| 国产影视一区二区| 毛片av一区二区三区| 日本不卡免费高清视频| 成人精品在线看| 亚洲伦理精品| 韩国视频理论视频久久| 欧美成人免费观看视频| 欧美 日韩 国产一区二区在线视频 | 亚洲小视频在线| 国产女主播喷水高潮网红在线| 国产精品流白浆在线观看| 日韩欧美国产wwwww| 亚洲成人激情小说| 成功精品影院| 亚洲激情视频网| 精品夜夜澡人妻无码av| 一区二区导航| 中文字幕国内精品| 国产小视频你懂的| 在线成人超碰| 高清欧美性猛交xxxx| 五月婷婷激情网| 香蕉国产精品偷在线观看不卡| 欧美性一区二区三区| 成人毛片在线播放| 日本人妖一区二区| 国产精品日韩在线| 国产视频第二页| 成人一级视频在线观看| 99在线观看视频网站| 人人妻人人澡人人爽人人欧美一区| 成人av在线播放网址| 欧美久久久久久一卡四| av在线播放网站| 亚洲人成7777| 男人日女人视频网站| 成人日韩在线| 欧美一区二区精美| 精品黑人一区二区三区观看时间| 韩日一区二区三区| 不卡av日日日| 一级片中文字幕| 蜜桃视频免费观看一区| 97在线资源站| 精品推荐蜜桃传媒| 亚洲三级在线播放| 国产精品宾馆在线精品酒店| 本网站久久精品| 欧美va天堂va视频va在线| 无码h肉动漫在线观看| 国产精品97| 2019中文字幕在线| 精品视频久久久久久| 一区二区三区四区精品在线视频 | 欧美成人高清电影在线| jizz日本免费| 欧美xxav| 91精品国产网站| 在线免费a视频| av高清不卡在线| 伊人久久大香线蕉午夜av| 国产精品一二三产区| 欧美丝袜自拍制服另类| 精品国产一二区| 日韩免费一区| 欧美亚洲第一页| 国产高中女学生第一次| 97超碰欧美中文字幕| 性欧美18一19内谢| 精品欧美一区二区三区在线观看 | 国产二区在线播放| 亚洲影视在线播放| 中文字幕 欧美日韩| 香蕉视频一区| 久久全球大尺度高清视频| 国产精品久久777777换脸| 久久这里只有精品视频网| 色婷婷777777仙踪林| 91大神在线观看线路一区| 亚洲第一网中文字幕| 欧美爱爱免费视频| 日本成人在线视频网站| 欧美三日本三级少妇三99| 女人天堂av在线播放| 欧美高清dvd| 一级特黄曰皮片视频| 亚洲深夜影院| 精品福利影视| 24小时免费看片在线观看| 欧美一区二区三区喷汁尤物| 日韩av网站在线播放| 日本亚洲天堂网| 日本一区网站| 欧美电影免费看| 亚洲乱亚洲乱妇无码| 久久久久99精品成人片三人毛片| 成人av免费在线| 真实国产乱子伦对白视频| 麻豆一二三区精品蜜桃| 久久激情视频久久| 国产又粗又猛又爽又黄91| 国产精品每日更新在线播放网址| 天天干天天干天天干天天干天天干| 亚洲瘦老头同性70tv| 欧美一区二区三区四区在线| 性xxxxbbbb| 日韩欧美中文免费| 成人午夜福利一区二区| 久久先锋影音| 三区精品视频观看| 欧美在线se| 久久婷婷国产麻豆91天堂| 国产麻豆免费观看| 一区二区三区视频在线看| 性折磨bdsm欧美激情另类| 欧美午夜不卡| 国产视频一区二区不卡| 色戒汤唯在线| 亚洲热线99精品视频| 自拍偷拍色综合| 亚洲欧洲综合另类| 四虎国产精品免费| 99成人在线| 日韩久久久久久久久久久久久| 精品国产欧美日韩一区二区三区| 一区二区三区动漫| 国产精品自产拍| 亚洲一卡二卡三卡四卡五卡| 国产精品无码永久免费不卡| 久久中文在线| 色中文字幕在线观看| 亚洲一区二区电影| 2019最新中文字幕| 日本高清中文字幕在线| 日韩三级视频在线观看| 91精品国产乱码久久久张津瑜| 国产亚洲欧美一区在线观看| 波多野结衣国产精品| 99riav1国产精品视频| 手机在线观看国产精品| 北岛玲精品视频在线观看| 国产亚洲观看| 国内老司机av在线| ririsao久久精品一区| 国产第一页在线视频| 日韩欧美999| 一本色道久久88| 国产福利电影一区二区三区| 久久国产精品网| 欧美在线免费看视频| 亚洲自拍偷拍网址| 粉嫩一区二区| 蜜臀久久99精品久久久无需会员 | 精品一二三四区| 日本xxxxxxxxxx75| 日韩免费在线| 国内精品久久久久久久果冻传媒| 超碰这里只有精品| 97在线视频免费| 麻豆tv在线| 亚洲欧洲在线观看| 亚洲国产精品久久人人爱潘金莲 | 亚洲同性gay激情无套| 呦呦视频在线观看| 国内欧美视频一区二区| 不卡影院一区二区| 精品91久久久久| 最新视频 - x88av| 激情五月综合网| 精品一区二区三区国产| 二区三区精品| 国产精品久久二区| 免费成人动漫| 久久久久久美女| 国产cdts系列另类在线观看| 这里只有精品在线观看| 手机看片1024国产| 日韩一区二区三区电影在线观看| 69视频免费看| 欧美视频国产精品| 日韩 欧美 精品| 亚洲最大的成人av| 中文字幕人妻一区二| 国产精品欧美久久久久无广告| 国产美女喷水视频| 不卡在线视频中文字幕| 韩国一区二区三区四区| 激情深爱一区二区| 波多野结衣xxxx| 人人狠狠综合久久亚洲| 欧美日韩一区二区在线免费观看| 精品91在线| 老太脱裤子让老头玩xxxxx| 欧美精品1区| 国产内射老熟女aaaa| 久久久久国产精品| 国产精品波多野结衣| 国产精品精品| 欧美一级免费在线观看| 91视频综合| 一区二区在线中文字幕电影视频| 国际精品欧美精品| 亚洲v国产v在线观看| 免费看日本一区二区| 免费成人看片网址| 国产欧美日韩免费观看| 日本一区视频在线观看| 日本一区二区三区视频| 亚洲欧美日韩另类精品一区二区三区| 精品久久久久久久久久久aⅴ| 日本视频精品一区| 久久久影院免费| 欧美亚洲视频一区| 一个色综合网| 国产精品视频网站在线观看| 色喇叭免费久久综合网| 制服国产精品| 欧美成人一区二免费视频软件| 日本a在线天堂| 99精品视频免费观看| 116极品美女午夜一级| 丝瓜av网站精品一区二区 | 日本中文字幕在线| 欧美视频在线一区二区三区| 一级黄色片免费| 日韩一区二区三区视频在线| 色综合视频在线| 亚洲一二在线观看| 成人在线app| 97精品国产91久久久久久| xx欧美视频| 国产精自产拍久久久久久| 精品国产一级| 久久精品国产一区二区三区日韩| 成人午夜av| 300部国产真实乱| 久久久久久色| 四虎1515hh.com| 久久这里只有精品首页| 69夜色精品国产69乱| 亚洲国产综合91精品麻豆| 五月天婷婷导航| 日韩一级欧美一级| 男操女在线观看| 欧美成人在线影院| 日韩大尺度黄色| 国产高清在线精品一区二区三区| 亚洲免费福利一区| www亚洲国产| 久久成人国产| 国产chinesehd精品露脸| 国产欧美日韩在线| 久久精品无码人妻| 欧美日韩黄色一区二区| 欧美特级特黄aaaaaa在线看| 中文字幕精品视频| 漫画在线观看av| 91在线观看欧美日韩| 一区二区导航| 欧美成人精品免费| 精品一区二区三区av| 成人h动漫精品一区| 亚洲欧美日韩国产综合| 无码人妻丰满熟妇区bbbbxxxx| 日韩免费高清av| 91在线视频免费看| 国产91精品视频在线观看| 亚洲日本视频在线| 致1999电视剧免费观看策驰影院| 国产精品毛片| 日本一区二区免费视频| 中文字幕在线不卡一区二区三区| 黄色大片网站在线观看| 精品久久久久久久久久久久久久久| 国产黄在线看| 91精品国产91久久久| 大胆国模一区二区三区| 亚洲欧美国产精品桃花| 久色成人在线| 国产精品1000部啪视频| 午夜精品在线看| 亚洲精品一区二区三区新线路| 日韩亚洲成人av在线| 亚洲爱爱视频| 四虎影院一区二区三区| 麻豆精品91| theav精尽人亡av| 午夜伦理一区二区| 亚洲av无码乱码国产精品| 欧美乱妇40p| 欧美黄视频在线观看| 亚洲精品偷拍视频| 激情综合色综合久久综合| 五月天免费网站| 欧美日韩三级在线| 日韩在线观看www| 国产精自产拍久久久久久蜜| 久久国产亚洲精品| 久久国产精品国产精品| 亚洲国产精品黑人久久久| 国产99免费视频| 中文字幕精品www乱入免费视频| 日韩免费福利视频| 日韩wuma| 美女脱光内衣内裤视频久久影院| 日韩av片在线免费观看| 欧美日韩的一区二区| 免费黄网站在线| 亚洲a一级视频| 欧美激情一区| www.啪啪.com| 高跟丝袜欧美一区| 国产福利小视频在线观看| 国产精品永久免费视频| 97精品国产福利一区二区三区| 日韩av一卡二卡三卡| 国产精品久久久久久久第一福利| 国产又爽又黄免费软件| 欧美成人h版在线观看| 无码国模国产在线观看| 草b视频在线观看| 26uuu亚洲综合色| 中文在线免费看视频| 久久久91精品| 国产成人福利av| 国产免费视频传媒| 中文字幕亚洲精品在线观看| 国产精品一级二级| 久久久久久12| 九九热爱视频精品视频| 色婷婷.com| 亚洲成av人片在线| 国产二区在线播放| 成人高清在线观看| 久久精品五月| 国产suv一区二区三区| 日韩国产一区三区| 国内精品伊人| 欧美日韩福利在线| 欧美激情一区在线| 亚洲国产精品久久久久久6q| 国产成人在线一区| 欧美激情视频一区二区三区在线播放| 在线视频 日韩| 欧美日韩大陆在线| 2020国产在线| 色综合夜色一区| 人人爽人人av| 91老师国产黑色丝袜在线| 中文字幕欧美人妻精品一区蜜臀| 麻豆乱码国产一区二区三区 | 国产jjizz一区二区三区视频| 欧美精品丝袜久久久中文字幕| 999精品网| 一本一道久久a久久精品综合| 成人激情小说乱人伦|