精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

俯視LLM的靈魂:一文搞懂稀疏自動編碼器 原創 精華

發布于 2024-6-27 15:06
瀏覽
0收藏

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

稀疏自動編碼器 (SAE) 最近因機器學習模型的可解釋性而變得流行(盡管SAE自 1997 年以來一直存在)。機器學習模型正在使LLMs變得越來越強大和有用,但它們仍然是黑匣子,如何看穿LLM的靈魂,且若能理解它們是如何工作的,那對于大模型的進化有足夠的幫助和啟示意義。

使用SAE,可以開始將模型的計算分解為可理解的組件。本文將簡介的介紹下SAE的工作原理,然后讀者可以回頭去溫習“大模型的靈魂解讀:Anthropic AI的Claude3 Sonnet可解釋性研究”,應該更加深有感觸。

1.自動編碼器

神經網絡最自然的組成部分是單個神經元。單個神經元并不對應于單個概念。語言模型中的任何概念,例如學術引用、英語對話、HTTP 求和韓語文本都是神經單元的疊加,或者換句話說是神經元的組合表示。

產生這種現象的原因可能是因為世界上存在的很多變量是稀疏的。例如,一個名人的出生地可能不到十億分之一的訓練Tokens,LLMs在訓練的過程中掌握了這點,加上訓練的Token遠遠大于神經元的數量,因此自然而然就會進行疊加表示。

稀疏自動編碼器最近作為一種將神經網絡分解為可理解組件的技術而廣受歡迎。SAE 的靈感來自神經科學中的稀疏編碼假說。有趣的是,SAE是解釋人工神經網絡的最有前途的工具之一。SAE 類似于標準自動編碼器。

常規自動編碼器是一種神經網絡,旨在壓縮然后重建其輸入數據。例如,它可以接收一個 1000 維向量(1000個數字的列表)作為輸入,通過編碼器層饋送該輸入以將輸入壓縮為512維向量,然后通過解碼器饋送壓縮編碼表示以產生1000維輸出向量。重建通常是不完美的,因為壓縮過程會有信息損失。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


稀疏自動編碼器將輸入向量轉換為中間向量,該中間向量的維度可以高于、等于或低于輸入。當應用于LLM時,中間向量的維度通常大于輸入的維度。在這種情況下,如果沒有額外的約束,任務就很簡單。

SAE可以使用單位矩陣完美地重建輸入,作為額外的約束,在訓練過程中的損失函數中添加了稀疏性懲罰,這會引導SAE創建稀疏中間向量。例如,可以將1000維輸入擴展為200維編碼表示向量,并且可以訓練SAE使其在編碼表示中僅包含約20個非零元素。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖中黑色的方塊代表著稀疏的激活值

將SAE應用于神經網絡中的中間激活,神經網絡可以由許多層組成。在前向傳遞期間,每層內部和之間都有中間激活。例如,GPT-3有96 層。在前向傳遞期間,輸入中的每個標記都有一個12,288 維向量(包含 12,288 個數字的列表),該標記從一層傳遞到另一層。此向量累積了模型在每一層處理下一個Token時用于預測下一個Token的所有信息,但它是不透明的,很難理解其中包含哪些信息。


若使用SAE來理解這種中間激活的方法如下:SAE基本上是一個矩陣 -> ReLU 激活 -> 矩陣。例如,如果GPT-3 SAE的擴展因子為4,則輸入激活為12,288維,SAE的編碼表示為49,512 維 (12,288 x 4)。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


第一個矩陣是形狀的編碼器矩陣(12,288,49,512),第二個矩陣是形狀的解碼器矩陣(49,512,12,288)。通過將GPT的激活與編碼器相乘并應用 ReLU,我們生成了一個 49,512 維的SAE編碼表示,該表示是稀疏的,因為 SAE 的損失函數激勵了稀疏性。


通常的目標是在SAE的表示中少于 100個數字為非零。通過將SAE的表示與解碼器相乘,我們產生了一個12,288 維重建的模型激活。這種重建并不完全匹配原始的 GPT 激活,畢竟這么一折騰,信息會有所丟失。


現在只在模型中的一個位置訓練單個SAE。例如,可以在第25層和第26層之間的中間激活上訓練單個 SAE。為了分析 GPT-3 中所有96層的輸出中包含的信息,可以訓練 96 個單獨的SAE——每層一個。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖說明了這個過程,是拿激活值出來訓練。原激活值通過與編碼矩陣相乘,之后通過激活函數,然后得到稀疏表示,最后通過解碼矩陣還原。


如果還想分析每層中的各種中間激活,這將需要數百個SAE。對這些SAE 的訓練數據來自通過 GPT 模型提供各種文本并收集每個選定位置的中間激活(樣本)。

2.功能

SAE表示的每個活動數字都對應于可以理解的組件。假設12,288 維向量對 GPT-3 [1.5, 0.2, -1.2, ...] 來說意味著“橋”。SAE 解碼器是形狀矩陣 (49,512, 12,288),但我們也可以將其視為49,512個向量的集合,每個向量都是形狀(1, 12,288)。如果SAE解碼器向量519學習了與GPT-3相同的“橋”概念,則解碼器向量將近似等 [1.5, 0.2, -1.2, ...] 。每當 SAE 激活的元素 519不為零時,就相當于對應“橋”的向量。上面描述了SAE的工作原理,用專業的術語來講就是“解碼器對應于殘差流空間中特征的線性表示”。

特征519代表什么?目前的做法是只看那些能最大限度地激活功能的輸入,并對其可解釋性做出直覺反應。每個功能激活的輸入通常是可解釋的。例如,??Anthropic在Claude Sonnet??上訓練了SAE,并發現了單獨的 SAE功能,這些功能可以在與金門大橋、神經科學和熱門旅游景點相關的文本和圖像上激活。其他功能在不太明顯的概念上激活。

這里值得一提的是,在大量的激活值上面進行訓練,通過稀疏矩陣的確可以明顯看到一些特征,因為這個向量大部分的數值都為0了。通過研究Decoder矩陣就可以研究大模型在學習某個知識的時候,到底是如何融會貫通的。

如果存在基于特定主題激活的神經元,那么激活某些神經元是否會強制生成這些主題?回想一下AutoEncoder結構,雖然同時擁有編碼器和解碼器,但在訓練后,只有編碼器用于將激活向量轉換為字典向量。是否可以使用解碼器從所選特征重建激活向量?換句話說,能操縱神經元嗎?答案可以用 Anthropic 的一句話來概括:“稀疏的自編碼器功能可用于干預和控制變壓器的生成。” 下圖單獨操縱神經元以實現不同的結果。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


由于 SAE 解碼器向量與LLMs中間激活的形狀匹配,因此可以通過簡單地將解碼器向量添加到模型激活中來執行因果干預。這里通過將解碼器向量乘以比例因子來縮放干預的強度。當人類學研究人員將金門大橋SAE解碼器向量添加到大模型的激活中時,大模型不得不每次回復中都提到金門大橋。

如何評估SAE,目前存在L0和Loss Recovered兩個指標 。L0是SAE編碼中非零元素的平均數。Loss Recovered是用重建的激活替換GPT或者其他大模型的原始激活并測量不完美重建的額外損失。這兩個指標之間通常存在蹺蹺板效應,需要進行權衡,。畢竟SAE會選擇降低重建精度以增加稀疏性。

許多新的SAE方法,例如Deepmind的門控SAE和OpenAI的TopK SAE,都修改了稀疏性懲罰以改善這種權衡。

下圖來自 Google Deepmind的Gated SAE 論文,它引入了門控稀疏自動編碼器 (Gated SAE),它比使用流行方法的訓練實現了帕累托改進。在 SAE 中,用于鼓勵稀疏性的 L1 懲罰引入了許多不良偏差,例如收縮 - 系統性地低估特征激活。門控 SAE 分離 “確定使用哪些方向”和“估計這些方向大小的功能”。這使得在典型的超參數范圍內解決了收縮問題,具有類似的可解釋性,并且只需要一半的觸發特征即可實現相當的重建保真度。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

門控SAE的紅線更靠近圖表的左上角,這意味著在這種權衡中表現更好。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


3.應用


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖展示一種研究方法,a) 對語言模型的內部激活進行采樣,無論是殘差流、MLP 子層還是注意頭子層;b) 使用這些激活來訓練神經網絡,稀疏自動編碼器,其權重形成特征字典<注意是Decoder Matrix!!>;c) 使用諸如 OpenAI 的自動解釋性分數之類的技術來解釋生成的特征。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區



上圖以“括號”為例顯示每個特征之間的關系,同時每個特征上面都有人工解釋。邊緣厚度表示連續殘差流層中字典特征之間的因果關系強度,以消融為衡量標準。許多跨層的字典特征具有相似的解釋,并且通常指向激活空間中的相似方向,以余弦相似度為衡量標準。

本文轉載自??魯班模錘??,作者: 龐德公 

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-7-1 12:55:17修改
收藏
回復
舉報
回復
相關推薦
丰满少妇xbxb毛片日本| 日韩亚洲一区在线播放| 国产精品成人av久久| 丝袜av一区| 欧美日韩三级一区| 日韩欧美猛交xxxxx无码| 视频一区二区三区在线看免费看| 美女视频黄a大片欧美| 久99久在线视频| 免费黄在线观看| 高清日韩欧美| 欧美日韩国产高清一区二区三区| 日本一区午夜艳熟免费| 91在线视频| 99re这里只有精品6| 国产日韩欧美中文在线播放| 日本在线观看中文字幕| 99久久亚洲精品蜜臀| 亚洲欧美激情一区| 美女黄色一级视频| 亚洲伦理一区二区| 色丁香久综合在线久综合在线观看| 亚洲成人动漫在线| 91精品国产91久久久久游泳池| 国产a精品视频| 国产日韩欧美综合| jizz国产在线| 亚洲女人av| 亚洲91精品在线观看| 搜索黄色一级片| 日韩在线视频精品| 亚洲男人天堂网站| 亚洲av永久无码精品| 免费精品一区二区三区在线观看| 欧美午夜免费电影| 国产无套内射久久久国产| 丰满诱人av在线播放| 亚洲欧美激情插| 中文精品一区二区三区| 波多野结衣在线影院| 久久色在线视频| 久久综合一区| 四虎在线免费看| av亚洲精华国产精华| 国产经典一区二区三区| 国产成a人亚洲精v品无码 | 亚洲黄色a v| 欲香欲色天天天综合和网| 亚洲大片精品永久免费| 精品人妻人人做人人爽| 最爽无遮挡行房视频在线| 亚洲欧美综合在线精品| 伊人狠狠色丁香综合尤物| av网站在线免费播放| 国产欧美一区二区精品忘忧草 | 日韩午夜影院| 91麻豆视频网站| 欧美日韩另类丝袜其他| 韩日在线视频| 国产亚洲1区2区3区| 欧美资源一区| 成年人在线视频| 中文字幕在线观看一区| 中文字幕在线中文字幕日亚韩一区| 色欧美激情视频在线| 国产精品国产馆在线真实露脸| 亚洲亚洲精品三区日韩精品在线视频| 91在线不卡| **性色生活片久久毛片| 久久国产精品免费观看| 欧美日韩经典丝袜| 精品免费在线视频| 青青草av网站| 91精品在线免费视频| 日韩欧美在线网站| 国产伦精品一区二区三区精品| 老牛国内精品亚洲成av人片| 国产亚洲精品久久久久久777| 少妇视频在线播放| 亚洲欧美网站在线观看| 欧美激情欧美狂野欧美精品| 在线观看亚洲天堂| 免费观看在线综合色| 亚洲综合日韩在线| 亚洲 国产 欧美 日韩| 欧美国产一区二区| 欧美在线观看视频免费| 小h片在线观看| 欧美日韩国产综合视频在线观看 | 久久国产精品美女| 亚洲级视频在线观看免费1级| 国产成人精品无码免费看夜聊软件| 日本一区二区三区视频| 欧美激情精品久久久久久免费印度| 国产午夜在线播放| 亚洲一区 视频| 欧美亚洲精品在线| 久久久久久中文| 免费看av在线| 国产成人h网站| 日韩理论片在线观看| 在线观看午夜av| 91福利视频久久久久| 久草福利在线观看| 欧美伦理影院| 国内揄拍国内精品少妇国语| 亚洲天堂网在线观看视频| 粉嫩久久99精品久久久久久夜| 日本在线观看一区二区| 欧美videosex性欧美黑吊| 欧美专区亚洲专区| 99re这里只有| 中文字幕免费一区二区三区| 国产97在线亚洲| jizz国产视频| 国产日韩精品一区二区浪潮av| 精品人妻大屁股白浆无码| 素人啪啪色综合| 日韩av一区在线| 一区二区在线观看免费视频| 琪琪一区二区三区| 欧美18视频| 波多野结衣在线播放| 欧美二区三区91| 日韩不卡av在线| 性娇小13――14欧美| 国产日本一区二区三区| jizzjizz亚洲| 欧美精品乱码久久久久久| 亚洲 小说 欧美 激情 另类| 一区二区三区导航| 国产在线精品一区二区中文| 手机在线免费看av| 日韩一区二区影院| 免费三级在线观看| 久久99久久精品| 一卡二卡3卡四卡高清精品视频| 北岛玲heyzo一区二区| 亚洲精品国产suv| 粉嫩aⅴ一区二区三区| 成人午夜电影小说| 久久手机在线视频| 中文字幕一区日韩精品| 欧美区在线播放| 国内精品偷拍视频| 亚洲国产美女搞黄色| 少妇献身老头系列| 亚洲天堂激情| 精品国产乱码久久久久| 97超碰免费在线| 日韩精品高清在线| 9i看片成人免费看片| 久久一区二区视频| 蜜臀视频一区二区三区| 精品一区av| 国产欧美亚洲精品| 看黄网站在线| 精品国产免费人成在线观看| 黄色小视频在线免费看| 91亚洲精品久久久蜜桃| 久久美女福利视频| 日韩理论电影| 99久久精品免费看国产四区 | 日本国产一级片| 亚洲大全视频| 国产精品一区二区三区在线| 国产网站在线| 国产一区二区激情| 一区二区www| 亚洲综合色网站| 日本免费福利视频| 免费一级片91| 日本福利视频在线观看| 精品福利网址导航| 国产精品久久久久高潮| 二区三区四区高清视频在线观看| 日韩欧美一区二区三区在线| 亚洲 欧美 日韩 综合| 欧美国产精品一区二区| 日本高清免费观看| 日韩一区二区久久| 亚洲mv在线看| 亚洲专区**| 日本欧美中文字幕| 精品视频在线一区二区| 日韩精品欧美国产精品忘忧草| 无码人妻精品一区二区三区蜜桃91| 国产精品国产三级国产aⅴ入口| 国产免费a级片| 日日噜噜夜夜狠狠视频欧美人| 国产奶头好大揉着好爽视频| 精品丝袜久久| 成人女保姆的销魂服务| 欧美激情网站| 久久av.com| 精品视频二区| 精品嫩草影院久久| 亚洲天堂男人网| 婷婷中文字幕一区三区| 一本一本久久a久久| 99这里只有精品| 手机精品视频在线| 日韩高清国产一区在线| 欧美高清中文字幕| 国产精品国产三级国产在线观看 | 亚洲色偷精品一区二区三区| 欧美男人的天堂一二区| 日本一级一片免费视频| 亚洲日本韩国一区| 亚洲色成人网站www永久四虎| 国产电影一区在线| 嫩草av久久伊人妇女超级a| 亚洲三级观看| 国产911在线观看| 日本不卡二三区| 欧美第一黄网| 欧洲亚洲成人| 国产精品v欧美精品∨日韩| 国产亚洲精品码| 99成人在线视频| 久久综合久久久| 草草视频在线一区二区| 91精品免费视频| 成人做爰视频www| 日韩女优在线播放| 伊伊综合在线| 91av在线免费观看| 123区在线| 亚洲综合网在线观看| 一区二区伦理片| 日韩二区三区在线观看| 美脚丝袜脚交一区二区| 999久久久免费精品国产| 久久精品国产美女| 日韩中文字幕无砖| 成人动漫网站在线观看| 欧美xxx性| 欧亚精品中文字幕| 欧亚在线中文字幕免费| 国产69精品久久久久99| aaa大片在线观看| 最近2019年好看中文字幕视频| 青青青草网站免费视频在线观看| 亚洲成人激情图| www国产一区| 欧美大片国产精品| 成人毛片在线精品国产| 亚洲精品一区二区三区四区高清| 国产高潮流白浆喷水视频| 91精品国产综合久久福利| 999久久久久久| 日韩情涩欧美日韩视频| www.国产精品视频| 精品少妇一区二区三区免费观看 | 国产精品一区二区99| 久久久久久国产精品免费免费| 亚洲日本三级| 日韩亚洲视频在线| 国产精品99久久久久久动医院| 懂色av一区二区三区四区五区| 午夜国产精品视频免费体验区| 久久综合久久久久| 美女视频一区免费观看| 日韩肉感妇bbwbbwbbw| 麻豆高清免费国产一区| 少妇愉情理伦片bd| 95精品视频在线| 国产sm调教视频| 一区精品在线播放| 国产精品第72页| 欧洲在线/亚洲| 国产又粗又长又大视频| 精品国产乱子伦一区| 深夜视频在线免费| 中文综合在线观看| 久草成色在线| 国产成人97精品免费看片| 高清在线一区二区| 国产一区二区三区免费不卡| 国产精品探花在线观看| 中文字幕中文字幕99| 亚洲区欧美区| 日韩精品你懂的| 高清国产一区二区三区| 亚洲av无码一区二区三区人| 日韩一区中文字幕| wwwxxx亚洲| 91精品国产入口| 欧美日韩在线精品一区二区三区激情综 | 91香蕉视频在线观看视频| av电影天堂一区二区在线 | 色欧美自拍视频| 男女视频网站在线观看| 蜜臀av一区二区在线观看| 日本人添下边视频免费| 国产精品―色哟哟| 日本三级黄色大片| 欧美精品tushy高清| 亚洲日本中文字幕在线| 久久国产精品首页| 亚洲伦乱视频| 精品日本一区二区三区| 国产精品99在线观看| 国模杨依粉嫩蝴蝶150p| 丁香桃色午夜亚洲一区二区三区| 91狠狠综合久久久久久| 黑人巨大精品欧美一区二区| 国产xxxx孕妇| 日韩网站免费观看| 午夜欧美巨大性欧美巨大| 国产一区二区在线网站| 无码一区二区三区视频| 国产精品乱码久久久久| 91丨porny丨首页| 免费在线观看av网址| 欧美老年两性高潮| 第九色区av在线| 热久久99这里有精品| 国产精品宾馆| 精品人妻大屁股白浆无码| 精品伊人久久久久7777人| 韩国女同性做爰三级| 精品久久久久久久久久久久久| 性一交一乱一乱一视频| 久久精品福利视频| 欧美极品在线| 一区二区三区在线视频看| 日韩在线观看一区二区| 爱爱免费小视频| 午夜精品福利一区二区三区av | 麻豆成人免费视频| 亚洲国产精品中文| 白浆在线视频| 九色一区二区| 在线一区免费观看| 欧美大片免费播放器| 午夜视频在线观看一区二区三区| 国产激情视频在线播放| 欧美精品在线播放| 日韩在线精品强乱中文字幕| 韩国黄色一级大片| 国产在线国偷精品产拍免费yy| 日日碰狠狠添天天爽| 欧美伦理视频网站| 国产成人l区| 91丝袜脚交足在线播放| 国产精品激情| 亚洲高清无码久久| 精品久久久久久久久久久久久| 水莓100在线视频| 国产精品69av| 久久一本综合| 欧美激情第一区| 亚洲高清免费视频| 完全免费av在线播放| 国产高清亚洲一区| 久久久久久欧美精品se一二三四| 日韩午夜激情视频| 国内在线免费视频| 久久伊人一区二区| 秋霞午夜av一区二区三区| 看黄色录像一级片| 欧美大片在线观看一区二区| 涩涩视频在线| 亚洲狠狠婷婷综合久久久| 久草精品在线观看| 欧美日韩中文视频| 亚洲人成网站777色婷婷| 精品亚洲a∨| 永久免费网站视频在线观看| 成人的网站免费观看| 亚洲大片免费观看| www.xxxx欧美| 国内毛片久久| 男女无套免费视频网站动漫| 亚洲啪啪综合av一区二区三区| 亚洲精品综合网| 欧美资源在线观看| 外国成人激情视频| 完美搭档在线观看| 欧洲一区在线观看| 久久av色综合| 亚洲a∨一区二区三区| 国产.欧美.日韩| 成人免费一级片| 久久青草福利网站| 日韩免费视频| av网页在线观看| 欧美高清一级片在线| 美女高潮在线观看| 国产美女视频免费| 久久久久久久久免费| 国产成人精品av在线观| 国产福利视频一区| 亚洲黄色av| 日韩av手机在线免费观看| 亚洲第一网站免费视频| 亚洲色图综合| 超碰影院在线观看| 亚洲va欧美va国产va天堂影院|