精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?

譯文 精選
人工智能
本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程,目的是試圖徹底搞清大型語言模型的決策過程。

譯者 | 朱先忠

審校 | 重樓

引言

多年來,基于Transformer的大型語言模型(LLM)在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而,盡管這些模型功能強大,但它們在很大程度上仍然是黑匣子。給定輸入,它們可以完成任務,但我們缺乏直觀的方法來理解任務的具體完成方式。

LLM旨在預測統計上最佳的下一個單詞/標記。但是,它們是否只專注于預測下一個標記,還是會提前規劃?例如,當我們要求模型寫一首詩時,它是一次生成一個單詞,還是在輸出單詞之前預測押韻模式?或者,當我們被問及一些基本的推理問題,例如達拉斯所在的州首府是什么?它們通常會產生看起來像是一連串推理的結果,但模型真的運用了這些推理嗎?我們無法洞察模型的內部思維過程。要理解LLM,我們需要追溯其底層邏輯。

對大型語言模型(LLM)內部計算的研究屬于“機械可解釋性”領域,旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月,他們發表了一篇題為《回路追蹤:揭示語言模型中的計算圖》的論文,旨在解決回路追蹤問題。

本文旨在解釋他們的論文工作背后的核心思想,并為理解LLM中的回路追蹤奠定基礎。

LLM中的回路是什么?

在定義語言模型中的“回路”之前,我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡;因此,將神經元視為基本計算單元,并將其跨層激活模式解釋為模型的計算回路,這似乎是顯而易見的。

然而,論文《邁向單義性》表明,僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的,它們會對一系列不相關的概念做出反應。

此論文進一步表明,神經元由更基本的單元(稱為特征)組成,這些單元能夠捕獲更多可解釋的信息。事實上,一個神經元可以被看作是多個特征的組合。因此,我們的目標是追蹤特征激活,而不是追蹤神經元激活,也就是驅動模型輸出的實際意義單元。

這樣,我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。

現在,我們知道了我們在尋找什么。接下來,讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。

技術架構

目前,我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點,我們需要將現有LLM模型的神經元轉換為特征,即構建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構建的之前,我們先簡單回顧一下基于Transformer的大型語言模型的架構。

下圖展示了基于Transformer的語言模型的運作方式。其思路是,使用嵌入將輸入轉換為標記(token)。這些標記被傳遞到注意力模塊,該模塊計算標記之間的關系。然后,每個標記被傳遞到多層感知器(MLP)模塊,該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前,此過程會在多層中重復進行。

本圖片由作者本人繪制

既然我們已經闡述了基于Transformer的LLM的結構,接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。

轉碼器

轉碼器本身是一種神經網絡(通常比LLM的維度高得多),旨在用更易于解釋、功能等效的組件(特征)替換轉換器模型中的MLP塊。

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記:編碼、稀疏激活和解碼。實際上,它將輸入縮放到更高維空間,應用激活以強制模型僅激活稀疏特征,然后在解碼階段將輸出壓縮回原始維度。

本圖片由作者本人繪制

在對基于轉換器的LLM和轉碼器有了個基本了解之后,讓我們看看如何使用轉碼器來構建替換模型。

構建替代模型

如前所述,Transformer模塊通常由兩個主要組件組成:注意力模塊和MLP模塊(前饋網絡)。為了構建替換模型,需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的,因為轉碼器經過訓練可以模擬原始MLP的輸出,同時通過稀疏和模塊化特征公開其內部計算。

雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為,但本文作者使用了跨層轉碼器(CLT),它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要,因為它使我們能夠追蹤某個特征是否分布在多個層級上,而這對于回路追蹤至關重要。

下圖展示了如何使用跨層轉碼器(CLT)構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出,直至最后。

本圖片由作者本人繪制

提示:下圖來自本文開始處的論文,展示了如何構建替換模型。它是利用特征替換原始模型的神經元。

本圖片的出處是這里

現在,我們了解了替換模型的架構。接下來,讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。

模型計算的可解釋呈現:歸因圖

為了構建模型計算路徑的可解釋表示,我們從模型的輸出特征出發,逆向追溯特征網絡,以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現,該矩陣可以計算前一層的特征對當前特征激活的貢獻程度,并遞歸應用直至到達輸入。每個特征被視為一個節點,每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖,因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖,并開發了檢查它的工具,這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

本圖片的出處是這里

現在,有了所有這些理解,我們就可以討論特征可解釋性了。

使用歸因圖實現特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中,他們發現該模型不僅僅是生成下一個詞,它還會進行一種規劃,既向前規劃,又向后規劃。在生成一行詩之前,該模型會識別幾個可能押韻或語義合適的詞作為結尾,然后向后推演,生成一行自然地指向該目標的詩句。令人驚訝的是,該模型似乎可以同時記住多個候選結尾詞,并根據最終選擇的詞重構整個句子。

這項技術提供了一個清晰的、機制化的視角,展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型,追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法,但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器(MLP)計算,但目前尚不清楚這些轉碼器是真正復制了原始機制,還是僅僅近似輸出。此外,當前方法僅強調活躍特征,但非活躍或抑制性特征對于理解模型行為同樣重要。

結論

總之,通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走,但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。

參考文獻

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Circuit Tracing: A Step Closer to Understanding Large Language Models,作者:Sudheer Singh

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-07-17 09:03:56

2025-08-18 02:11:00

Claude模型Anthropic

2025-06-03 08:35:00

2025-04-27 09:21:00

AI模型訓練

2025-10-31 08:07:57

2021-05-07 05:54:43

數據庫數據湖數據

2025-01-10 10:30:00

大模型統計評估

2017-05-11 13:57:35

互聯網

2021-03-01 10:43:56

大數據人工智能

2021-02-28 13:57:51

大數據人工智能信息

2019-09-03 22:02:29

智能制造AWS

2025-03-31 08:30:00

AI模型技術

2022-09-14 09:21:41

監控系統

2025-09-15 08:42:00

AI模型系統

2025-09-16 12:49:11

2025-02-11 15:56:18

2023-03-01 08:40:43

監控診斷數據

2024-11-29 18:00:00

Python變量追蹤編程

2024-03-08 12:56:16

2015-11-26 10:20:17

F5應用交付
點贊
收藏

51CTO技術棧公眾號

国产亚洲综合在线| 国产精品99一区二区| 欧美性受极品xxxx喷水| 一区中文字幕在线观看| wwwxxxx国产| 另类国产ts人妖高潮视频| 中国china体内裑精亚洲片| 亚洲精品无码久久久久久久| 欧美激情护士| 亚洲欧美日韩综合aⅴ视频| 九九九九久久久久| 国产精品久久久久久免费| 欧美私密网站| 国产精品高潮久久久久无| 国产伦一区二区三区色一情| 激情高潮到大叫狂喷水| 综合视频一区| 欧美日韩亚洲综合在线| 国产真人做爰毛片视频直播 | 久草在线视频网站| 久久久精品免费网站| 99久久99| 黄色片在线观看网站| 亚洲图片久久| 色偷偷成人一区二区三区91| 男同互操gay射视频在线看| 日本私人网站在线观看| 中文一区在线| 久久av.com| 午夜视频在线观| 久久bbxx| 久久久久久久久久电影| 国产日韩欧美一区二区| 国产视频在线观看免费| 热久久久久久久| 国产69久久精品成人| 一区二区成人免费视频| 日韩电影在线视频| 亚洲欧美在线看| 日韩无码精品一区二区| 精品久久免费| 在线播放日韩导航| 中文字幕22页| 福利一区视频| 欧美丝袜丝交足nylons| 国产一区二区视频免费在线观看| 国产盗摄——sm在线视频| 亚洲综合免费观看高清完整版在线 | 51亚洲精品| 91精品国产免费| 午夜xxxxx| 国产一区二区三区亚洲综合| 69久久99精品久久久久婷婷| 一级做a免费视频| 亚洲色图综合| 91精品国产入口在线| 中文字幕欧美视频| 一区二区三区免费在线看| 日韩写真欧美这视频| 国产999免费视频| 亚州一区二区| 日韩av网址在线观看| 黄色短视频在线观看| 日韩mv欧美mv国产网站| 日韩国产精品视频| 精品无人区无码乱码毛片国产| 神马电影久久| 最近2019免费中文字幕视频三 | 久久久久久久久网| 亚洲日本在线播放| 91麻豆精品视频| 欧美一级二级三级九九九| 极品美乳网红视频免费在线观看| 国产色产综合色产在线视频| 婷婷精品国产一区二区三区日韩 | 精品久久久中文字幕人妻| 国产精品亚洲综合一区在线观看| 国产精品免费一区二区三区四区| 天天干天天操av| 国产亚洲综合在线| 91社在线播放| 欧美一卡二卡| 色综合久久天天综合网| 亚洲 欧美 日韩系列| 国产精品欧美一区二区三区不卡| 欧美成人免费网站| 国产精品三级在线观看无码| 波多野结衣的一区二区三区 | 黄色小视频免费观看| 日本怡春院一区二区| 成人网址在线观看| 91黑人精品一区二区三区| 美女视频黄频大全不卡视频在线播放| 91手机视频在线观看| 欧美熟妇乱码在线一区| 国产欧美日韩另类一区| 欧美精品在欧美一区二区| 成人勉费视频| 欧美成人精品二区三区99精品| 精品少妇一区二区三区免费观| 久久精品青草| 日本久久久久久久久| 国产精品一级视频| 26uuu亚洲婷婷狠狠天堂| 中文字幕不卡每日更新1区2区| 韩国中文免费在线视频| 亚洲天堂福利av| 久久网站免费视频| 精品午夜视频| 夜夜躁日日躁狠狠久久88av| 91在线无精精品白丝| 欧美在线首页| 国产精品三级久久久久久电影| 免费观看黄色一级视频| 国产精品伦一区二区三级视频| 免费观看美女裸体网站| 国产一区二区三区黄网站| 亚洲天堂成人在线视频| 日韩无码精品一区二区三区| 久久成人精品无人区| 欧美日韩一区二区三区在线视频| 综合图区亚洲| 一级精品视频在线观看宜春院| 无码日韩人妻精品久久蜜桃| 综合久久成人| 欧美精品一本久久男人的天堂| 久久久精品毛片| 99久久久久久| 成人在线免费高清视频| 99热这里有精品| 在线播放国产一区二区三区| 欧美黑人一区二区| 久久综合网络一区二区| 狠狠色伊人亚洲综合网站色| 欧美激情成人动漫| 91精品一区二区三区在线观看| 国产亚洲精品熟女国产成人| 国产亚洲精品v| 国产伦精品一区二区| 少女频道在线观看免费播放电视剧| 欧美日韩国产片| 正在播放国产对白害羞| 丝袜诱惑制服诱惑色一区在线观看 | 美女扒开大腿让男人桶| 日韩成人在线看| 欧美大肥婆大肥bbbbb| 国产麻豆91视频| 亚洲欧美视频在线观看视频| www.久久久久久久久久久| 欧美电影三区| 91日本视频在线| 黄色网页在线播放| 欧美一区二区观看视频| 麻豆明星ai换脸视频| 国产一区二区三区免费播放| 日本美女爱爱视频| 涩涩屋成人免费视频软件| 久久久免费观看视频| 日批视频在线播放| 色域天天综合网| 国产一二三av| 国产伦精品一区二区三区免费 | 日本成人超碰在线观看| 亚洲精品中文字幕在线| 亚洲成人1区| 欧美疯狂做受xxxx高潮| 免费观看黄色av| 色偷偷一区二区三区| 欧美性生交大片| 国产精品白丝jk黑袜喷水| 久久艹国产精品| 要久久电视剧全集免费| 国产精品视频导航| 影音先锋男人在线资源| 日韩精品视频中文在线观看| 无码人妻精品一区二区三区9厂 | 在线观看国产精品日韩av| 91精品中文字幕| 成人国产免费视频| 干日本少妇首页| 久久中文字幕av一区二区不卡| 91在线中文字幕| 99thz桃花论族在线播放| 亚洲欧美制服丝袜| 国产精品久久久久久免费免熟| 亚洲另类春色国产| 国产高清自拍视频| 久久精品72免费观看| 人妻少妇精品久久| 青青草91久久久久久久久| av一区二区三区四区电影| 中文在线资源| 日韩亚洲精品电影| 人妻无码中文字幕免费视频蜜桃| 色天天综合色天天久久| 成人高潮免费视频| 久久人人爽人人爽| 亚洲成人福利视频| 日韩电影在线免费| 亚洲精品蜜桃久久久久久| 不卡一区2区| 国产精品免费一区二区三区| 成人亚洲综合| 91chinesevideo永久地址| 午夜在线播放| 日韩激情视频在线播放| 国产av无码专区亚洲av| 在线观看一区二区视频| 久久高清无码视频| 成人性生交大合| 99热这里只有精品在线播放| 影音先锋中文字幕一区二区| 一本久道久久综合狠狠爱亚洲精品| 日韩三级久久| 成人亲热视频网站| 亚洲一区二区三区四区| 亚州国产精品久久久| 中文字幕中文字幕在线中高清免费版 | 国产精品专区一| 一区一区三区| 国内外成人免费激情在线视频| 免费黄网在线观看| 91精品国产色综合久久| 中文在线观看av| 欧美日韩精品国产| 九热这里只有精品| 亚洲欧美日韩一区二区 | 色97色成人| 欧美激情第一页在线观看| 国内精品国产成人国产三级粉色 | 妺妺窝人体色www在线观看| 亚洲精品1区| www.avtt| 黄色在线一区| 黄色激情在线视频| 国产精品v日韩精品v欧美精品网站 | 精品国产伦一区二区三区| 欧美精品久久久久久久久老牛影院| 在线永久看片免费的视频| 欧美性xxxx在线播放| 青青操免费在线视频| 亚洲成a人在线观看| 动漫精品一区一码二码三码四码| 一区二区三区波多野结衣在线观看| 日韩国产第一页| 日韩美女啊v在线免费观看| 欧美xxxooo| 亚洲免费在线观看| 欧美日韩免费一区二区| 一区二区成人在线视频| 久久久香蕉视频| 香蕉成人伊视频在线观看| 日本一本高清视频| 香蕉久久一区二区不卡无毒影院| 精品成人av一区二区在线播放| 欧美日韩视频免费播放| 手机看片久久久| 欧美性受xxxx| 国产三区在线播放| 日韩精品一区在线| 四虎在线免费看| 欧美婷婷六月丁香综合色| 在线不卡免费视频| 91.com视频| 亚洲精品综合网| 亚洲精品国产福利| 黄色av网站在线看| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 亚洲va综合va国产va中文| 国产乱码精品一区二区三区忘忧草| 性一交一黄一片| 91免费看视频| 香蕉久久久久久久| 亚洲一区二区综合| 亚洲综合久久网| 91精品视频网| 午夜视频免费在线| 色偷偷888欧美精品久久久| 性xxxfreexxxx性欧美| 欧美孕妇孕交黑巨大网站| 欧美午夜三级| 国产三区二区一区久久| 精品一区二区三| 欧美极品少妇无套实战| 男女精品网站| 性色av浪潮av| 久久久噜噜噜久久中文字幕色伊伊| 久草手机视频在线观看| 亚洲一区二区中文在线| 波多野结衣激情视频| 欧美一区二区三区男人的天堂| 亚洲欧洲视频在线观看| 色噜噜久久综合伊人一本| heyzo在线| 国产日韩在线观看av| 日韩av不卡一区| 美女在线免费视频| 亚洲欧美日本日韩| 日本一区二区三区在线免费观看| 972aa.com艺术欧美| 希岛爱理中文字幕| 在线观看视频一区二区欧美日韩| 亚洲黄色小说网址| 伊人久久大香线蕉av一区二区| 麻豆av在线免费观看| 国产精品久久一区主播| 猫咪成人在线观看| 亚洲成人动漫在线| 秋霞午夜鲁丝一区二区老狼| 无码人妻精品一区二区三| 中文字幕一区二区三| 久久精品视频7| 欧美精品一区二区久久婷婷| 美女隐私在线观看| 国产福利视频一区二区| 久久草在线视频| 91九色国产ts另类人妖| 六月丁香综合在线视频| 丝袜美腿中文字幕| 性做久久久久久免费观看| 国产丰满果冻videossex| 中文字幕亚洲一区在线观看 | 亚洲国产专区校园欧美| 国产精品久久久久久久99| 欧美激情一区二区三区全黄| 天堂а√在线中文在线新版| 精品久久国产字幕高潮| 丝袜美腿av在线| 成人性生交大片免费看视频直播| 欧美日韩有码| 国产性生交xxxxx免费| xfplay精品久久| 天天操中文字幕| 日韩电影免费观看中文字幕| a毛片不卡免费看片| 99re在线观看视频| 欧美粗暴jizz性欧美20| 九九久久久久久| 亚洲男人的天堂在线观看| 国产特级aaaaaa大片| 不卡av在线播放| 亚洲国产天堂| 精品一区二区成人免费视频 | 国产成人无码一区二区在线观看| 亚洲成人福利片| 色婷婷中文字幕| 91高清视频免费| 免费一区二区| 日韩欧美xxxx| 国产精品麻豆一区二区 | 韩国三级中文字幕hd久久精品| 国产毛片久久久久久| 一区在线观看免费| 国产伦子伦对白视频| 欧美麻豆久久久久久中文| 91精品啪在线观看国产爱臀| 18禁裸男晨勃露j毛免费观看| 国产成人亚洲综合a∨婷婷| 久久免费视频6| 欧美精品一区二区三区蜜桃 | 岛国av午夜精品| 欧美成熟毛茸茸| 国产精品免费在线免费 | 国产又粗又猛又爽又黄91| 久久精品成人欧美大片古装| 福利一区三区| 国产美女主播在线播放| 久久午夜电影网| 伊人网站在线观看| 色综合天天综合网国产成人网| 白白在线精品| 成年人免费在线播放| 国产精品久久久一本精品| 亚洲av无码国产综合专区| 91av免费观看91av精品在线| 免费视频一区三区| 久久久九九九热| 天天色综合天天| 91吃瓜网在线观看| 99久久精品免费看国产一区二区三区 | 久久五月天综合| 国产精品对白久久久久粗| 四虎永久在线精品无码视频| 国产精品精品国产色婷婷| 蜜臀久久精品久久久久| 国产精品久久99久久| 中文久久电影小说| 播放灌醉水嫩大学生国内精品| 中国av一区二区三区| 精品国产伦一区二区三| 国产mv免费观看入口亚洲| 亚洲最新av| 波多野结衣 在线| 日韩一区二区三区在线观看| 97se综合| www.激情网| 国产精品久久久久婷婷二区次| 人妻与黑人一区二区三区| 国产日韩在线看片| 午夜影院日韩|