精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏? 原創

發布于 2025-4-16 06:09
瀏覽
0收藏

本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程,目的是試圖徹底搞清大型語言模型的決策過程。

引言

多年來,基于Transformer的大型語言模型(LLM)在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而,盡管這些模型功能強大,但它們在很大程度上仍然是黑匣子。給定輸入,它們可以完成任務,但我們缺乏直觀的方法來理解任務的具體完成方式。

LLM旨在預測統計上最佳的下一個單詞/標記。但是,它們是否只專注于預測下一個標記,還是會提前規劃?例如,當我們要求模型寫一首詩時,它是一次生成一個單詞,還是在輸出單詞之前預測押韻模式?或者,當我們被問及一些基本的推理問題,例如達拉斯所在的州首府是什么?它們通常會產生看起來像是一連串推理的結果,但模型真的運用了這些推理嗎?我們無法洞察模型的內部思維過程。要理解LLM,我們需要追溯其底層邏輯。

對大型語言模型(LLM)內部計算的研究屬于“機械可解釋性”領域,旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月,他們發表了一篇題為《??回路追蹤:揭示語言模型中的計算圖?》的論文,旨在解決回路追蹤問題。?

本文旨在解釋他們的論文工作背后的核心思想,并為理解LLM中的回路追蹤奠定基礎。

LLM中的回路是什么?

在定義語言模型中的“回路”之前,我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡;因此,將神經元視為基本計算單元,并將其跨層激活模式解釋為模型的計算回路,這似乎是顯而易見的。

然而,論文《??邁向單義性??》表明,僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的,它們會對一系列不相關的概念做出反應。?

此論文進一步表明,神經元由更基本的單元(稱為特征)組成,這些單元能夠捕獲更多可解釋的信息。事實上,一個神經元可以被看作是多個特征的組合。因此,我們的目標是追蹤特征激活,而不是追蹤神經元激活,也就是驅動模型輸出的實際意義單元。

這樣,我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。

現在,我們知道了我們在尋找什么。接下來,讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。

技術架構

目前,我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點,我們需要將現有LLM模型的神經元轉換為特征,即構建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構建的之前,我們先簡單回顧一下基于Transformer的大型語言模型的架構。

下圖展示了基于Transformer的語言模型的運作方式。其思路是,使用嵌入將輸入轉換為標記(token)。這些標記被傳遞到注意力模塊,該模塊計算標記之間的關系。然后,每個標記被傳遞到多層感知器(MLP)模塊,該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前,此過程會在多層中重復進行。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

既然我們已經闡述了基于Transformer的LLM的結構,接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。

轉碼器

轉碼器本身是一種神經網絡(通常比LLM的維度高得多),旨在用更易于解釋、功能等效的組件(特征)替換轉換器模型中的MLP塊。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記:編碼、稀疏激活和解碼。實際上,它將輸入縮放到更高維空間,應用激活以強制模型僅激活稀疏特征,然后在解碼階段將輸出壓縮回原始維度。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

在對基于轉換器的LLM和轉碼器有了個基本了解之后,讓我們看看如何使用轉碼器來構建替換模型。

構建替代模型

如前所述,Transformer模塊通常由兩個主要組件組成:注意力模塊和MLP模塊(前饋網絡)。為了構建替換模型,需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的,因為轉碼器經過訓練可以模擬原始MLP的輸出,同時通過稀疏和模塊化特征公開其內部計算。

雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為,但本文作者使用了跨層轉碼器(CLT),它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要,因為它使我們能夠追蹤某個特征是否分布在多個層級上,而這對于回路追蹤至關重要。

下圖展示了如何使用跨層轉碼器(CLT)構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出,直至最后。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

提示:下圖來自本文開始處的論文,展示了如何構建替換模型。它是利用特征替換原始模型的神經元。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在,我們了解了替換模型的架構。接下來,讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。

模型計算的可解釋呈現:歸因圖

為了構建模型計算路徑的可解釋表示,我們從模型的輸出特征出發,逆向追溯特征網絡,以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現,該矩陣可以計算前一層的特征對當前特征激活的貢獻程度,并遞歸應用直至到達輸入。每個特征被視為一個節點,每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖,因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖,并開發了檢查它的工具,這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在,有了所有這些理解,我們就可以討論特征可解釋性了。

使用歸因圖實現特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中,他們發現該模型不僅僅是生成下一個詞,它還會進行一種規劃,既向前規劃,又向后規劃。在生成一行詩之前,該模型會識別幾個可能押韻或語義合適的詞作為結尾,然后向后推演,生成一行自然地指向該目標的詩句。令人驚訝的是,該模型似乎可以同時記住多個候選結尾詞,并根據最終選擇的詞重構整個句子。

這項技術提供了一個清晰的、機制化的視角,展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型,追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法,但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器(MLP)計算,但目前尚不清楚這些轉碼器是真正復制了原始機制,還是僅僅近似輸出。此外,當前方法僅強調活躍特征,但非活躍或抑制性特征對于理解模型行為同樣重要。

結論

總之,通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走,但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。

參考文獻

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??Circuit Tracing: A Step Closer to Understanding Large Language Models??作者:Sudheer Singh

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
免费在线观看av| 欧美bbbbbbbbbbbb精品| 日本免费精品| 午夜a成v人精品| 日本高清视频一区二区三区| 97在线播放免费观看| 日韩网站在线| 久久久成人精品视频| 国产高清自拍视频| 国产精品日本一区二区不卡视频| 亚洲777理论| 伊人天天久久大香线蕉av色| 性xxxx搡xxxxx搡欧美| 国产一区二区精品在线观看| 日韩免费观看网站| 久草视频手机在线观看| 日韩精品永久网址| 精品视频中文字幕| 天堂va欧美va亚洲va老司机| 精品乱码一区二区三区四区| 午夜一区二区三区视频| 欧美三级午夜理伦三级老人| 成人高潮成人免费观看| 99久久久精品免费观看国产蜜| 国产色视频一区| 国产成人无码精品| 伊人久久大香线蕉综合热线| 俺也去精品视频在线观看| 国产美女喷水视频| 久久99偷拍| 精品国产91乱码一区二区三区| 做a视频在线观看| 日本.亚洲电影| 色哟哟精品一区| 日韩精品 欧美| 久久不射影院| 亚洲乱码国产乱码精品精的特点| 亚洲一区二区三区精品动漫| 精品av中文字幕在线毛片| 91在线云播放| 国产麻豆乱码精品一区二区三区 | 欧美国产91| 久久精品人人做人人爽| 香蕉成人在线视频| 四虎国产精品免费观看| 中文字幕日韩欧美在线视频| 蜜桃av免费在线观看| jizzjizz欧美69巨大| 国产一区二区黑人欧美xxxx| 亚洲精品91在线| 精品免费一区二区| 中文国产成人精品久久一| 性欧美一区二区| 成人女性视频| 北条麻妃在线一区二区| 精品国产乱码久久久久久鸭王1| 国产精品毛片一区二区在线看| 日韩网站免费观看高清| 涩涩涩999| 国产伦精品一区二区三区视频女| 小嫩嫩12欧美| 亚洲色在线视频| xxxxx在线观看| 精品久久久中文字幕| 国产一区二区三区在线免费观看| 日韩一级av毛片| 91亚洲自偷观看高清| 久久在线视频在线| 国产在线综合网| 亚洲三级网站| 国产成人精品一区二区在线| 最新在线中文字幕| 国内精品伊人久久久久影院对白| 5566中文字幕一区二区| 国产成人自拍一区| 91香蕉视频黄| 亚洲欧洲精品在线观看| 国产黄网站在线观看| 亚洲v精品v日韩v欧美v专区| 成年人免费在线播放| julia一区二区三区中文字幕| 3751色影院一区二区三区| 91精品人妻一区二区三区蜜桃2 | 日本在线观看高清完整版| 精品国产999| 黄色手机在线视频| 国产一区二区三区黄网站| 日韩成人在线免费观看| 影音先锋男人资源在线观看| 亚洲人成免费| 国产区亚洲区欧美区| 日韩在线视频免费| 亚洲欧洲成人自拍| 国产美女网站在线观看| 欧美爱爱视频| 日韩国产精品一区| 亚洲精品久久久久久国| 国产欧美日韩亚洲一区二区三区| 国产精品欧美激情| 人人妻人人玩人人澡人人爽| 国产精品电影一区二区| 久久黄色片视频| 国产一区一区| 夜夜嗨av色综合久久久综合网| 久久免费黄色网址| 九九九九精品九九九九| 香蕉视频黄色在线观看| 久久网站免费观看| 97色在线视频| 国产三级在线观看视频| 久久久久久久久一| 久久av综合网| 91精品国产一区二区在线观看| 亚洲黄色在线看| 懂色av懂色av粉嫩av| 可以免费看不卡的av网站| www.久久久| 色网站免费在线观看| 福利一区视频在线观看| 免费看91视频| 97久久视频| 国产精品久久久久久久9999 | 大菠萝精品导航| 欧美一区二区三区四区在线观看 | 欧美福利影院| 成人黄色大片在线免费观看| 国产高清免费av在线| 精品久久久久久久中文字幕 | 美女一区二区三区视频| 欧美丝袜美腿| 海角国产乱辈乱精品视频| 精品毛片一区二区三区| 亚洲色图在线看| av免费一区二区| 久久久影院免费| 国产成人鲁鲁免费视频a| 日本又骚又刺激的视频在线观看| 黄网站色欧美视频| av黄色一级片| 国产美女精品| 女同一区二区| 成人勉费视频| 亚洲一级黄色片| 午夜一区二区三区四区| 国产欧美日韩另类一区| 97公开免费视频| 教室别恋欧美无删减版| 国产精品久久久av| av在线电影院| 4438x成人网最大色成网站| 成人在线观看免费完整| 国产精品18久久久久久久网站| 曰韩不卡视频| 久久在线观看| 国内伊人久久久久久网站视频| 丰满人妻一区二区| 激情成人中文字幕| 成年人免费观看视频网站| 蜜臀精品一区二区三区在线观看 | 激情久久一区二区| www.午夜精品| 成人免费一级视频| 欧美日韩一二三四五区| 免费看黄色av| 精品一区二区三区的国产在线播放| 中文精品视频一区二区在线观看| 中文字幕一区二区三区日韩精品| 91国产精品91| 国产在线观看免费| 在线不卡一区二区| 国产一级一片免费播放放a| 久久综合一区二区| 中文字幕 91| 在线欧美日韩| 日韩亚洲欧美精品| 精品久久亚洲| 欧美一级淫片aaaaaaa视频| 92国产在线视频| 精品久久久久久亚洲综合网| www欧美在线| 亚洲欧洲国产专区| 亚洲中文字幕无码av| 日本女人一区二区三区| 成人黄色大片网站| 成人中文视频| 国产精品免费一区二区三区在线观看| 欧美magnet| 欧美伦理91i| 风间由美一区| 亚洲国产欧美精品| 97人妻精品一区二区三区动漫| 亚洲国产精品嫩草影院| 五月婷婷六月香| 成人18视频在线播放| 男人添女人下面免费视频| 影音先锋中文字幕一区| 视频一区不卡| 女同久久另类99精品国产| 成人黄色免费看| 成人性生活av| 久久久这里只有精品视频| 调教视频免费在线观看| 亚洲美女精品久久| www.亚洲黄色| 欧美日韩国产电影| 少妇久久久久久久| 天天色天天操综合| 免费无遮挡无码永久在线观看视频 | 欧美精品亚洲二区| 国产一级片免费在线观看| 艳妇臀荡乳欲伦亚洲一区| 亚欧精品视频一区二区三区| 91在线观看一区二区| 国产成人精品综合久久久久99| 青青草成人在线观看| 久久精品免费一区二区| 亚洲成色精品| 300部国产真实乱| 999视频精品| 视频三区二区一区| 国产一区二区三区四区大秀| 国产亚洲美州欧州综合国| 538在线视频观看| 国产欧美激情| 男人添女人下部高潮视频在观看 | 你真棒插曲来救救我在线观看| 68国产成人综合久久精品| 亚洲精品日韩精品| 久久国产电影| 亚洲日本欧美在线| 久久高清免费| 久久免费看毛片| 欧美顶级大胆免费视频| 神马影院我不卡午夜| 精品视频免费| 午夜精品亚洲一区二区三区嫩草| 国产真实有声精品录音| 日本亚洲自拍| 精品视频亚洲| 亚洲精品高清国产一线久久| 不卡一区2区| 一区不卡视频| 91精品一区国产高清在线gif | 周于希免费高清在线观看| 2024亚洲男人天堂| 欧美xx视频| 国产精品美女免费视频| 成人涩涩视频| 91九色视频导航| 视频国产精品| 精品久久精品久久| 一区二区美女| 亚洲视频小说| 中文字幕免费一区二区| 国产精品久久久久9999爆乳| 在线综合视频| 手机在线看福利| 国内精品视频666| 午夜影院福利社| 久久女同互慰一区二区三区| 正在播放国产对白害羞| 亚洲欧美激情在线| 久久精品无码人妻| 91九色最新地址| 国产女人高潮的av毛片| 精品久久五月天| 九九九伊在人线综合| 日韩资源在线观看| 美洲精品一卡2卡三卡4卡四卡| 91av视频在线播放| 国产精品麻豆成人av电影艾秋| 91亚洲一区精品| 任你弄精品视频免费观看| 先锋影音网一区| 欧美日本免费| 欧美成人精品欧美一级乱| 精彩视频一区二区三区| 内射中出日韩无国产剧情| 中文字幕国产一区二区| 精品亚洲永久免费| 在线免费观看视频一区| 国产丰满果冻videossex| 亚洲欧美日韩久久久久久| 国产激情视频在线观看| 欧美一区视频在线| 精品一区二区三区视频在线播放| 九色91在线视频| 国产精品88久久久久久| 国产午夜大地久久| 国产美女主播视频一区| 四虎永久免费在线观看| 一区二区三区免费看视频| 成人免费一级片| 欧美www视频| 日本在线人成| 浅井舞香一区二区| caoporn成人| 中文字幕av导航| 久久最新视频| 午夜久久久久久久| 亚洲人精品午夜| 一区二区视频播放| 亚洲女同精品视频| av资源一区| 亚洲一区二区三区久久 | 久久蜜桃av一区精品变态类天堂| 欧美高清视频一区二区三区| 欧美日韩中文一区| 国产视频二区在线观看| 91精品国产91久久久久| 亚洲网址在线观看| 91制片厂免费观看| 免费黄网站欧美| 88久久精品无码一区二区毛片| 亚洲在线免费播放| 99精品久久久久久中文字幕 | 波多野结依一区| 亚洲影院色在线观看免费| 欧美h版在线| 中国黄色片免费看| 国产婷婷色一区二区三区在线| 国产又爽又黄的视频| 亚洲成人精品av| 青草影视电视剧免费播放在线观看| 91免费观看网站| 我不卡影院28| 日韩av一卡二卡三卡| 国产精品久久久久久妇女6080| 国模私拍一区二区| 亚洲无限av看| 88xx成人网| 一区二区三区四区国产| 精品一区二区三区av| 亚洲天堂av中文字幕| 欧美日韩精品专区| 在线激情网站| 成人欧美在线视频| 久久精品影视| 久久久久中文字幕亚洲精品| 亚洲曰韩产成在线| 深夜福利视频网站| 7777kkkk成人观看| 嫩草影视亚洲| 五月婷婷激情久久| 国产精品国产三级国产三级人妇| 91黄色在线视频| 久久久精品免费| 亚洲国产欧美国产第一区| 日本国产中文字幕| 波多野结衣在线一区| 国产91精品一区| 主播福利视频一区| 成人污污www网站免费丝瓜| 日韩精品手机在线观看| 成人动漫在线一区| 69成人免费视频| 中文字幕日韩欧美| 秋霞影院一区| 男女激情无遮挡| 国产日韩欧美不卡在线| 国产一区二区三区在线观看| 久久99精品国产99久久6尤物| 精品视频高潮| 国产精品拍拍拍| 亚洲免费观看高清完整 | 色偷偷88888欧美精品久久久| 999精品视频在线观看| 国产乱淫av片杨贵妃| 国产亚洲欧美激情| 精品久久久免费视频| 欧美最猛性xxxx| 91精品一区二区三区综合在线爱| 国产日韩视频一区| 欧美亚洲尤物久久| 先锋影音在线资源站91| 欧美最大成人综合网| 国产一区二区h| 毛片基地在线观看| 久久精品在线播放| 天海翼精品一区二区三区| 另类小说第一页| 亚洲国产日韩在线一区模特| 国产三级电影在线观看| 97碰碰视频| 日韩经典一区二区| 精品无码免费视频| 最近2019年好看中文字幕视频| 成人在线视频你懂的| 精品亚洲一区二区三区四区| 亚洲成人高清在线| 高清全集视频免费在线| 欧美区高清在线| 国产成人免费视| 影音先锋国产在线| 91精品国产乱码久久久久久久久| 婷婷综合网站| 亚洲一区视频在线播放| 亚洲福利视频久久| 不卡一区视频| www日韩视频|