精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude團隊開盒Transformer:AI大腦原來這樣工作

人工智能 新聞
研究人員提出了一種名為“電路追蹤”的方法。 它利用跨層編碼器(CLT)替代原模型中的多層感知機 (MLP),搭建出和原模型相似的替代模型。

大模型工作機制的黑盒,終于被Claude團隊揭開了神秘面紗!

團隊創造了一種解讀大模型思考方式的新工具,就像給大模型做了個“腦部核磁”。

他們還發現,Claude在某些任務上具備長遠規劃能力,甚至還會為了迎合人類而編造推理過程。

圖片

具體來說,研究人員提出了一種名為“電路追蹤”的方法。

它利用跨層編碼器(CLT)替代原模型中的多層感知機(MLP),搭建出和原模型相似的替代模型。

在此基礎上,構建歸因圖來描述模型在特定提示下生成輸出的計算步驟,從而觀察模型的思考過程。

圖片

Claude團隊將這項研究的方法和發現分別寫成了論文,總計篇幅超過了8萬字。

探究大模型內在推理過程

利用電路追蹤方法,團隊對Claude 3.5 Haiku在長邏輯推理、多語言、長期規劃等任務場景的工作過程進行了觀察,發現了其中許多特點:

  • Claude有時會在不同語言之間共享的概念空間中思考,這表明它有一種通用的“思維語言”;
  • Claude會提前計劃好要生成的內容,如在詩歌領域,它會提前考慮可能的押韻詞,證明了模型可能會在更長遠的范圍內思考;
  • Claude有時會給出一個看似合理的論點,旨在同意用戶的觀點,而不是遵循邏輯步驟,甚至為迎合人類答案反向尋找推理過程;
  • Claude并沒有配備數學算法,但可以在“頭腦中”正確地進行加法運算。

多語言推理

在多語言場景中,作者研究了模型對 “the opposite of ‘small’” 的不同語言版本(英語、法語、中文)的處理,發現模型處理這些提示的電路相似,包含共享的多語言組件和特定語言組件。

模型能識別出是在詢問 “small” 的反義詞,通過語言獨立的表示觸發反義詞特征,同時利用語言特定的引號特征等確定輸出語言。

圖片

干預實驗表明,交換操作(反義詞換為同義詞)、被操作單詞(“small” 換為 “hot”)和語言特征,模型能相應地輸出合適的結果,證明了電路中各部分的獨立性和語言無關性。

圖片

詩歌創作和長規劃能力

在創作 “His hunger was like a starving rabbit” 這樣的押韻詩時,模型展現出規劃能力。

在第二行開始前的換行符位置,模型激活了與 “rabbit” 相關的規劃特征,這些特征受前一行 “it” 的影響,激活了押韻特征和候選完成詞特征,從而影響最后一個詞的選擇。

圖片

此外,規劃特征不僅影響最后一個詞,還影響中間詞 “like” 的生成,并且會根據規劃詞改變句子結構。

圖片

通過多種干預實驗,如抑制規劃特征或注入不同的規劃詞,證實了規劃特征對最終詞概率、中間詞和句子結構的影響。

圖片

多步驟推理

針對 “Fact: the capital of the state containing Dallas is” 的提示,模型成功回答 “Austin”。

經研究發現,模型內部存在多步推理機制,通過分析歸因圖,識別出代表不同概念的特征并分組為超節點,如 “Texas”“capital”“say a capital”“say Austin” 等。

圖片

這些特征相互作用,形成從 “Dallas” 到 “Texas” 再到 “Austin” 的推理路徑,同時也存在從 “Dallas” 直接到 “say Austin” 的 “shortcut” 邊。

圖片

抑制實驗表明,抑制相關特征會影響下游特征的激活和模型輸出;

圖片

特征替換實驗發現,改變模型對 “Texas” 的表征,模型會輸出其他地區的首府,驗證了多步推理機制的存在。

圖片

數學計算

在“數學計算”當中,作者發現Claude采用了多條并行工作的計算路徑。

一條路徑計算答案的粗略近似值,另一條路徑則專注于精確確定總和的最后一位數字。

這些路徑相互作用并相互結合,以得出最終答案。

圖片

有意思的是,Claude似乎沒有意識到它在訓練期間學到的復雜的“心算”策略。

如果問它是如何得出36+59等于95的,它會描述涉及進位1的標準算法。

這可能反映了這樣一個事實——模型在解釋數學問題時會模仿人類的方式,但在自己做計算的時候“頭腦中”使用的卻是自己的一套方法。

圖片

此外,Claude團隊還用同樣的方法針對模型準確性、幻覺、越獄等問題進行了研究,關于這部分內容以及前面實驗的更多詳情,可閱讀原始論文。

下面就來看看Claude團隊這種“電路追蹤”的方法,究竟是怎么一回事。

構建替代模型,獲得歸因圖

Claude團隊用的電路追蹤方法,核心就是通過構建可解釋的替代模型來揭示語言模型的計算圖。

研究人員設計了CLT,它由和原模型層數一樣的神經元(也就是 “特征”)構成。

這些特征從原模型殘差流獲取輸入,通過線性編碼器和非線性函數處理后,能為后續多層的MLP輸出提供信息。

訓練CLT時,通過調整參數最小化重建誤差和稀疏性懲罰,讓它能盡量模仿原模型MLP的輸出。

圖片

然后,團隊把訓練好的CLT特征嵌入原模型,替換MLP神經元,構建出替代模型。

在運行替代模型時,會在MLP輸入階段計算CLT特征的激活值,在輸出階段用CLT特征的輸出替代原MLP的輸出。

圖片

為了讓替代模型更貼近原模型,研究人員針對特定的輸入提示,構建了局部替代模型。

這個模型不僅用CLT替換MLP層,還固定原模型在該提示下的注意力模式和歸一化分母,并對CLT輸出進行誤差調整,使得局部替代模型的激活和輸出與原模型完全一致。

圖片

當有了可靠的局部替代模型后,就進入生成并分析歸因圖環節。

對于給定的輸入提示,研究人員構建歸因圖來展示模型生成輸出的計算步驟。

歸因圖包含輸出節點、中間節點、輸入節點和誤差節點,圖中的邊表示這些節點間的線性影響關系。

計算邊的權重時,會用到反向雅可比矩陣。由于完整的歸因圖非常復雜,研究人員采用剪枝算法,去掉那些對輸出結果影響較小的節點和邊,從而得到簡化且更易理解的歸因圖。

圖片

為了理解歸因圖,研究人員開發了交互式可視化界面。

他們通過觀察特征在不同數據樣本上的激活情況,手動為特征標注含義,并把功能相關的特征歸為超節點。

為了驗證歸因圖的準確性,他們進行特征擾動實驗,即改變某些特征的激活值,觀察對其他特征和模型輸出的影響。

此外,還能借助歸因圖找出對輸出結果影響最大的關鍵層。

圖片

除了研究特定提示下的特征交互(歸因圖分析),研究人員還關注特征在不同上下文下的交互,這就涉及到全局權重。

其中,虛擬權重是一種全局權重,但存在干擾問題,即一些沒有實際因果關系的連接會干擾對模型機制的理解。

為解決這個問題,研究人員通過限制特征范圍或引入特征共激活統計信息(如計算 TWERA),減少干擾,從而更清晰地揭示特征間的真實關系。

圖片

研究人員對CLT特征的可解釋性以及歸因圖對模型行為的解釋程度進行了評估。

結果發現,CLT特征在一定程度上能夠反映模型內部的一些語義和句法信息,歸因圖也能夠較好地展示模型在生成輸出時的關鍵步驟和特征之間的依賴關系。

但二者也都存在一些局限性,例如對于一些復雜的語義關系,CLT特征的解釋能力有限;對于一些細微的模型行為變化,歸因圖的解釋不夠精確。

但話說回來,這種方法還是給人們帶來了有趣的發現,有人還把Claude算數學題的過程做出了表情包。

它以為自己是一步到位,實際上內心已經兜兜轉轉了好幾圈。

也是有些人類做工作匯報那味了。圖片

圖片

官方簡報:
https://www.anthropic.com/research/tracing-thoughts-language-model
方法論文:
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
觀察實驗論文:
https://transformer-circuits.pub/2025/attribution-graphs/biology.html

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-11-24 06:20:02

Linux日志文件系統

2024-09-04 08:27:15

2024-08-05 00:01:00

RocketMQ高性能分布式

2025-03-31 08:30:00

AI模型技術

2022-05-09 08:37:43

IO模型Java

2024-11-19 09:15:40

搜索類型MySQL

2013-09-18 10:44:01

搜狗輸入法詞語

2020-06-08 17:35:27

Redis集群互聯網

2024-12-27 12:38:54

2022-09-26 15:23:38

模型Transforme

2025-10-17 10:23:00

2023-01-27 13:32:51

大腦模型模仿

2020-10-18 18:02:32

AI機器學習微軟

2025-11-20 02:25:00

Vs CodeClaudeCursor

2025-02-12 09:10:00

AI模型數據

2025-06-30 14:04:56

ClaudeAI人工智能

2009-03-11 14:42:57

面試求職案例

2021-11-10 09:45:06

Lambda表達式語言

2022-01-12 19:59:19

Netty 核心啟動

2024-12-17 12:00:00

C++對象模型
點贊
收藏

51CTO技術棧公眾號

韩日av一区二区| 乱亲女h秽乱长久久久| 中文字幕一区二区三区四区| 成人乱人伦精品视频在线观看| 男女性高潮免费网站| 在线一区二区三区视频| 狠狠躁夜夜躁人人躁婷婷91| 日本不卡久久| 国产尤物在线观看| 亚洲国产精品一区制服丝袜| 国产亚洲精品综合一区91| 99中文字幕在线| 亚洲少妇视频| 最好看的中文字幕久久| 国产原创精品| 91亚洲国产成人久久精品麻豆| 狠狠入ady亚洲精品| 日韩av在线免费看| 久久久久久久久久一区二区| 91吃瓜在线观看| 国产日韩欧美一区二区三区综合| 3d动漫精品啪啪一区二区三区免费| 国产无码精品一区二区| 俺要去色综合狠狠| 亚洲精品在线三区| 五月婷婷六月丁香激情| 欧美办公室脚交xxxx| 亚洲乱码国产乱码精品精98午夜| 欧美性色黄大片人与善| 高h调教冰块play男男双性文| 日韩国产精品久久久久久亚洲| 欧美裸体男粗大视频在线观看| 伊人网在线视频观看| 亚洲国产欧美国产第一区| 在线观看日韩av先锋影音电影院| 日韩一级特黄毛片| 国产乱色在线观看| 国产精品乱码久久久久久| 久久亚洲一区二区| 欧美一级淫片aaaaaa| 国产精品综合在线视频| 国产伦精品免费视频| 亚洲精品成人在线视频| 在线播放一区| 欧美精品成人在线| 五月天丁香激情| 在线观看日韩| www.欧美精品一二三区| 久久久久久成人网| 精品视频久久| 一区二区亚洲欧洲国产日韩| 亚洲一区二区三区四区五区六区| 8848成人影院| 欧美精品一区二区三区蜜臀| 成年人性生活视频| 亚洲国产中文在线二区三区免| 7777精品伊人久久久大香线蕉| 午夜免费看毛片| 精品三级在线| 欧美男男青年gay1069videost| 亚洲一二三区av| 天天综合网天天| 色琪琪一区二区三区亚洲区| 777米奇影视第四色| 亚洲天堂av在线| 色一区在线观看| 免费国产成人av| av成人亚洲| 欧美日韩精品福利| 欧美性受xxxx黒人xyx性爽| 99精品女人在线观看免费视频| 欧美疯狂性受xxxxx喷水图片| 一级在线免费视频| 成人黄色理论片| 日韩欧美一二三四区| caopor在线| 天天躁日日躁狠狠躁欧美| 亚洲欧洲一区二区三区在线观看 | 欧美日韩五区| 欧美日韩国产乱码电影| 992kp免费看片| 国产精品视屏| 国产亚洲视频在线观看| 国产jizz18女人高潮| 午夜电影亚洲| 欧美亚洲成人免费| 亚洲图片视频小说| 丁香另类激情小说| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 日本在线www| 一区二区三区美女视频| 久久久久久久中文| 四虎精品一区二区免费| 欧美成人激情免费网| 一级黄色电影片| 自拍亚洲一区| 久热精品视频在线观看| 日韩在线视频免费播放| 免费成人你懂的| 国产经品一区二区| 97人人在线| 亚洲高清在线精品| 污版视频在线观看| 牛牛视频精品一区二区不卡| 亚洲色图13p| 久久久久久久久久久网 | 亚洲 激情 在线| 哺乳一区二区三区中文视频| 亚洲色图狂野欧美| 国产亚洲精品久久久久久无几年桃| 性色一区二区| 成人黄色在线免费| 黄色av网站在线免费观看| 亚洲精品综合在线| 欧洲熟妇精品视频| silk一区二区三区精品视频| 在线成人激情视频| 中文字幕亚洲高清| 国产福利一区二区三区视频在线| 茄子视频成人在线观看| 欧美黄色视屏| 91精品在线免费观看| 国产ts在线播放| 在线欧美不卡| 92福利视频午夜1000合集在线观看| 六十路在线观看| 亚洲国产cao| 亚洲911精品成人18网站| 欧美一级本道电影免费专区| 91精品国产91久久久久久久久| 99热这里只有精品99| 久久美女高清视频| 91视频 -- 69xx| 国产乱人伦丫前精品视频| 精品国产自在精品国产浪潮| 婷婷激情五月综合| 久久久91精品国产一区二区三区| 国产成人在线小视频| 欧美电影院免费观看| 日韩视频―中文字幕| 亚洲视屏在线观看| 久久精品亚洲精品国产欧美| 国模吧无码一区二区三区| 粉嫩av一区二区| 欧美大片欧美激情性色a∨久久| 一级片免费观看视频| 国产精品色眯眯| 天天插天天操天天射| 欧美日韩水蜜桃| 国产精品久久久久久久久久久不卡| 日韩精品123| 黑人精品xxx一区| 极品人妻一区二区三区| 羞羞视频在线观看欧美| 欧美成人综合一区| 欧美成人资源| 中文国产亚洲喷潮| 一级黄色免费片| 亚洲视频网在线直播| 国产999免费视频| 欧美a级一区| 国产成人看片| 欧美男人天堂| 亚洲少妇激情视频| 中文字幕人妻精品一区| 国产精品久久久久久久蜜臀| 亚洲欧美偷拍另类| 欧美在线高清| 精品国产一区二区三区麻豆小说 | 国产精品永久免费视频| 日本天堂在线观看| 欧美一区二区三区播放老司机| 日本黄色小说视频| av电影在线观看一区| 1024精品视频| 99tv成人| 不卡视频一区| 欧美羞羞视频| www国产精品视频| 高h震动喷水双性1v1| 欧美性20hd另类| 中文天堂资源在线| 国产suv精品一区二区三区| 国产男女免费视频| 第九色区aⅴ天堂久久香| 亚洲一区二区在线播放| 欧美调教sm| 日韩三级成人av网| 天天色综合av| 欧美日韩国产精品成人| 国产午夜精品无码| 国产日韩欧美不卡| 国产sm在线观看| 久久动漫亚洲| 男人天堂网站在线| 国产真实有声精品录音| 91夜夜未满十八勿入爽爽影院| 麻豆网站免费在线观看| 色噜噜国产精品视频一区二区| 亚洲av综合色区无码一区爱av | gogo久久日韩裸体艺术| 国产精品观看在线亚洲人成网| 高潮毛片在线观看| 亚洲欧美在线看| 成 人 免费 黄 色| 在线一区二区三区四区五区| 久久国产精品波多野结衣| 久久你懂得1024| 国产精品日日摸夜夜爽| 人人狠狠综合久久亚洲| 成人性生活视频免费看| 99热国内精品永久免费观看| 久久精品99| 亚洲va欧美va人人爽成人影院| 国产精品久久婷婷六月丁香| 菠萝蜜视频在线观看www入口| 日韩一级裸体免费视频| 免费看男男www网站入口在线| 日韩一区二区电影| 中文字幕一二区| 日韩欧美国产中文字幕| 久久高清无码视频| 亚洲精品中文字幕在线观看| 国产伦精品一区二区三区视频女| 99久久er热在这里只有精品66| 一二三级黄色片| 蜜桃视频在线一区| 国产精品97在线| 亚洲麻豆一区| 成人在线免费高清视频| 91精品国产乱码久久久久久久 | 国产免费久久av| 日韩欧美2区| 国产精品成人久久久久| 欧美gv在线| 2018日韩中文字幕| 国内激情视频在线观看| 国模吧一区二区三区| 欧美大片黄色| 久久久噜噜噜久久中文字免| 亚洲无线看天堂av| 欧美成人精品在线视频| 国产高清一区二区三区视频| 日韩在线观看av| 日韩大片在线永久免费观看网站| 一区二区三区亚洲| 91精品国产综合久久久久久豆腐| 亚洲视屏在线播放| 成人欧美亚洲| 国产一区二区动漫| 在线视频91p| xxxxx91麻豆| 国产黄色在线免费观看| 欧美成人小视频| 欧美videossex另类| 欧美精品aaa| 激情黄产视频在线免费观看| 38少妇精品导航| 欧美成人免费电影| 91精品国产综合久久久久久蜜臀| 日韩三级一区| 99re在线国产| 欧美电影完整版在线观看| 久久久综合香蕉尹人综合网| 久草在线成人| 亚洲一区二区三区精品视频| 亚洲成人av| 欧美图片激情小说| 亚洲欧美日韩国产| 欧美少妇性生活视频| 麻豆精品蜜桃视频网站| 手机在线国产视频| 成人国产精品视频| 国产黄片一区二区三区| 国产精品三级电影| 欧美又粗又大又长| 狠狠躁夜夜躁人人爽超碰91| 老熟妇一区二区三区啪啪| 欧美日韩国产乱码电影| 亚洲免费黄色片| 亚洲欧美一区二区三区四区| 色综合久久久久综合一本到桃花网| 久久精品久久久久电影| 成人在线黄色电影| 国产精品久久97| 欧美在线在线| 欧美成人免费在线| 一区二区中文字| 人妻熟妇乱又伦精品视频| 日本最新不卡在线| 国产伦理在线观看| 日本一区二区三区dvd视频在线| 加勒比婷婷色综合久久| 欧美日韩在线视频观看| 国产一区二区三区黄片| 日韩av一卡二卡| 免费黄色网页在线观看| 91av在线影院| 国产精品毛片无码| 欧美一区二区综合| 欧美日韩一区二区国产| 青青青在线视频免费观看| 丁香婷婷综合色啪| 国产传媒在线看| 狠狠躁夜夜躁人人躁婷婷91| 国产女人爽到高潮a毛片| 精品调教chinesegay| 羞羞的视频在线看| 国产欧美婷婷中文| 在线视频亚洲专区| 国产精品久久久久9999爆乳| 麻豆精品一区二区综合av| av网页在线观看| 一区二区在线看| 中文字幕一级片| 亚洲欧美日韩综合| 国产v日韩v欧美v| 亚洲永久在线观看| 欧美国产一区二区三区激情无套| 久久久一本二本三本| 国产成人av电影免费在线观看| 成人性视频免费看| 色婷婷亚洲婷婷| 亚洲 欧美 精品| 久久久久久久999精品视频| 亚洲一区二区小说| 色一情一区二区三区四区| 亚洲男人影院| 欲求不满的岳中文字幕| 一区二区三区91| 国产视频在线观看免费 | 国外成人在线视频网站| 天天天综合网| 亚洲视频一二三四| 国产日产欧产精品推荐色| 国产精品久久久久久久久久久久久久久久久| 日韩欧美国产小视频| av在线免费网站| 亚洲影视中文字幕| 午夜精品av| 9191在线视频| 亚洲尤物在线视频观看| 精品人妻无码一区二区| 欧美日韩第一页| 最新精品在线| 日韩精品在线观看av| 懂色av中文一区二区三区| 美女毛片在线观看| 亚洲精品在线免费播放| 好看的中文字幕在线播放| 国产亚洲情侣一区二区无| 在线成人黄色| 日韩网站在线播放| 色域天天综合网| 成人jjav| 成人妇女免费播放久久久| 亚洲九九在线| 欧美熟妇精品一区二区| 亚洲自拍偷拍av| 天堂在线观看免费视频| 26uuu久久噜噜噜噜| 国产在线观看91一区二区三区| wwwwww.色| 亚洲视频一区二区在线| 性一交一乱一乱一视频| 亚州欧美日韩中文视频| 午夜a一级毛片亚洲欧洲| 别急慢慢来1978如如2| 国产精品不卡一区二区三区| 国产成人毛毛毛片| 97香蕉久久超级碰碰高清版| 一区二区美女| 亚洲精品手机在线观看| 亚洲综合激情网| 牛牛澡牛牛爽一区二区| 成人黄色网免费| 亚洲激情在线| 日本精品在线观看视频| 884aa四虎影成人精品一区| 波多野结衣中文字幕久久| 日韩欧美亚洲在线| 国产另类ts人妖一区二区| 国产精品6666| 一区二区三区 在线观看视| 国产日韩在线观看视频| 国产超级av在线| 亚洲日本成人在线观看| 手机看片福利在线| 国产精品一区二区三区在线播放 | 国产欧美久久久精品免费| 欧美精品18videos性欧| 国产中文精品久高清在线不| 九九九九九九九九| 狠狠久久五月精品中文字幕| 午夜在线视频| 久久亚洲国产精品日日av夜夜| 久久99精品国产.久久久久久 | 瑟瑟视频在线| 久久99国产精品99久久| 国精产品一区一区三区mba视频 |