精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

分解大模型的神經元!Claude團隊最新研究火了,網友:打開黑盒

人工智能
ChatGPT最強競對Claude背后的公司Anthropic,利用字典學習成功將大約500個神經元分解成了約4000個可解釋特征。

神經網絡的不可解釋性,一直是AI領域的“老大難”問題。

但現在,我們似乎取得了一絲進展——

ChatGPT最強競對Claude背后的公司Anthropic,利用字典學習成功將大約500個神經元分解成了約4000個可解釋特征。

圖片圖片

具體而言,神經元具有不可解釋性,但經過這一分解,Anthropic發現每一個特征都代表了不同的含義,比如有的分管DNA序列,有的則表示HTTP請求、法律文本等等,也就是具備了可解釋性。

圖片圖片

而通過人為地刺激其中任一特征,就能引導模型給出我們預期之內的輸出。

比如開啟DNA特征就能使模型輸出DNA,開啟阿拉伯文字特征就讓模型輸出阿拉伯文字。

圖片圖片

Anthropic激動地表示:

他們這一方法很可能克服AI不可解釋性這一巨大障礙。

而一旦我們能夠了解語言模型的工作原理,就能很容易地判斷一個模型是否安全,從而決定它是否應該被社會和企業所采用。

圖片圖片

具體來看。

用字典學習分解語言模型

首先,光針對語言模型來說,它的不可解釋性主要體現在網絡中的大多數神經元都是“多語義的”。

即它們可以對多個不相關的事物進行響應。

例如,一個小型語言模型中的某個神經元會同時對學術引文、英語對話、HTTP請求、韓語文字等不同內容表現出強烈的激活狀態。

圖片圖片

而這會阻礙我們了解神經網絡每一小部分的具體功能和交互過程,從而無法對整個網絡的行為進行推斷。

那么,是什么原因造成了多語義性這一特征?

早在去年,Anthropic就推測其中一個潛在的因素是“疊加”(superposition)。

這指的是模型將許多不相關的概念全部壓縮到一個少量神經元中的操作。

圖片圖片

同時,Anthropic也指出,字典學習——就是提取事物最本質的特征,最終讓我們像查字典一樣獲取新知識,是解決這一問題的辦法。

在此之前,他們已提出了一個疊加玩具模型,并證明:

如果一個對模型有用的特征集在訓練數據中是稀疏的,那么該神經網絡在訓練過程中可以自然地產生疊加。
基于該玩具模型,他們提出了三種策略來找到一組稀疏且可解釋的特征:一是創建沒有疊加的模型,然后通過鼓勵激活稀疏性;

二是使用字典學習在表現出疊加的模型中找到超完備的特征基礎;

三是將前兩種方法混合使用。

經過實驗證明,方法一不足以杜絕多語義性,方法二則存在嚴重的過擬合問題。

于是在此,團隊又采用了一種稱為稀疏自動編碼器的弱字典學習算法。

它能夠從經過訓練的模型生成學習特征,提供比模型神經元本身更單一語義的分析單元。

總的來說,該算法建立在大量先前的成果之上,尤其是在神經網絡激活上使用字典學習的相關方法,以及解耦(disentanglement)相關的內容。

最終所得編碼器在從疊加中提取可解釋性特征方面取得了“令人信服的成功”。

具體來說,Anthropic采用一個具有512個神經元的MLP單層transformer,通過在具有80億個數據點的MLP激活上訓練稀疏自動編碼器,最終將MLP激活分解為相對可解釋的特征,擴展因子范圍可以從1x(512個特征)增長到256x(131072個特征)。

Anthropic團隊將他們得到的可解釋性分析全部集中在一個稱為A/1的運行中,共包含4096個特征,每個特征都注明了含義,它們可以按照預期被人工激活。

下面是它們的可視化圖表:

圖片圖片

集成長篇報告發布,7個關鍵結論

現在,Anthropic將以上全部成果以報告的形式發布。

報告題目為《邁向單義性:通過字典學習分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)。

篇幅非常長,共分為四部分,分別為:

  • 問題設置,闡述研究動機,以及他們訓練的transformer和稀疏自動編碼器。
  • 特征詳細調查,即“存在性證明”,證明他們發現的特征確實是功能上特定的因果單元。
  • 全局分析,表明所得特征是可解釋的,并且它們能夠解釋MLP層的重要部分。
  • 現象分析,描述特征的幾個屬性,包括特征分割性、普遍性等,以及它們如何形成一個有趣的、類似“有限狀態自動機”的系統。

總的來看,關鍵結論一共有7個:

1、我們能夠用稀疏自動編碼器提取相對單一語義的特征,但大多數學習到的特征都是相對可解釋的。

2、稀疏自動編碼器產生可解釋的特征,在神經元基礎中基本是不可見的。

3、稀疏自動編碼器功能可用于干預和引導transformer的生成。

例如,激活Base64特征會導致模型生成Base64文本,激活阿拉伯文字特征會生成阿拉伯文本。

4、稀疏自動編碼器產生相對通用的特征。特征彼此之間的相似性比它們與自己模型神經元之間的相似度更高(對應“普遍性”一節)。

5、當我們增加自動編碼器的大小時,特征似乎會“分裂”。比如一個小型字典中的Base64特征在較大的字典中會分成三個,每個都具有更微妙但仍可解釋的含義(對應“特征分割性”一節)。

6、僅512個神經元就可以代表數萬個特征。

7、特征可以在類似“有限狀態自動機”的系統中實現連接,從而完成復雜的行為(比如生成HTML功能)。

圖片圖片

One More Thing

在評論區,有網友評價:

神經元就像一個神秘的盒子,Anthropic這項工作就相當于研究如何偷看盒子中的內容。

圖片圖片

顯然,這項工作還只是一個開頭——

Anthropic同時還在加緊招聘可解釋性相關的研究員和工程師。

圖片圖片

點開來看,薪資在25萬美元(約180萬元)-52萬美元之間,研究內容跟如上報告息息相關。

報告鏈接: https://transformer-circuits.pub/2023/monosemantic-features/index.html

參考鏈接:https://twitter.com/anthropicai/status/1709986949711200722

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-10-08 13:44:00

數據研究

2024-12-09 09:30:00

AI模型

2023-05-10 15:45:08

GPT-4AI模型

2023-08-21 10:48:25

2022-10-31 15:17:49

AI系統

2024-12-04 08:50:00

2025-08-15 12:38:58

2019-10-11 14:48:42

技術研發指標

2024-12-19 17:52:27

2018-12-20 11:38:37

神經元神經網絡語言

2025-07-03 09:31:52

2024-10-24 13:40:00

AI大模型

2025-01-14 13:04:08

2022-03-22 14:02:39

神經網絡AI研究

2025-11-05 03:22:00

知識圖譜語言模型生物醫學

2021-10-20 10:51:57

AI 數據人工智能

2024-11-19 12:53:50

2020-10-13 09:33:28

AI神經元人類

2025-09-10 04:00:00

2023-10-16 12:51:32

點贊
收藏

51CTO技術棧公眾號

午夜国产福利在线| 91 中文字幕| 亚洲国产精品嫩草影院久久av| 午夜伊人狠狠久久| 日韩精品伦理第一区| 国产又黄又粗又猛又爽| 亚洲一本视频| 亚洲天堂久久av| 秋霞午夜鲁丝一区二区| 伊人成综合网站| 中文字幕一区在线| 国产精品美女xx| 国产精品无码一区| 狠狠噜噜久久| 色噜噜狠狠狠综合曰曰曰88av| 久久久久亚洲av片无码v| 在线看片福利| 亚洲精品国产品国语在线app| 久久av二区| av男人天堂网| 秋霞av亚洲一区二区三| 欧美劲爆第一页| 国产精品理论在线| 久久精品色播| 日韩一区二区三区四区五区六区| 男人操女人免费软件| 动漫一区在线| 欧美激情一区二区三区在线| av日韩免费电影| 一级黄色录像大片| 久久av在线| 欧美极品少妇xxxxⅹ喷水| 一本一本久久a久久| 日韩伦理一区二区三区| 欧美videos大乳护士334| 国产原创精品在线| 亚洲www免费| 精品女同一区二区三区在线播放| 一区二区三区四区不卡| 男人天堂网在线观看| 国产999精品久久久久久绿帽| 国产日韩欧美成人| 天天操天天干天天摸| 一本色道久久综合亚洲精品不卡| 蜜臀久久99精品久久久久久宅男| 我不卡一区二区| 亚洲第一论坛sis| 日韩精品在线免费| 国产xxxxxxxxx| 99精品中文字幕在线不卡| 欧美精品色综合| 日本中文字幕精品—区二区| 色成人免费网站| 91久久久免费一区二区| 99久久激情视频| 成人免费直播| 色综合天天性综合| 国产福利视频在线播放| 欧美亚洲韩国| 欧美在线观看一区二区| 亚洲精品一二三四五区| 成人做爰视频www| 欧美性受极品xxxx喷水| 国产嫩草在线观看| 日韩综合久久| 日韩三级视频中文字幕| 人妻精品久久久久中文字幕69| 免费精品一区二区三区在线观看| 91精品国产福利| 男人添女人荫蒂国产| 成人线上播放| 亚洲精品视频久久| 蜜桃av乱码一区二区三区| 成人羞羞视频在线看网址| 国产一区二区三区高清在线观看 | 国产精品综合一区二区| 亚洲影院色在线观看免费| 精品人妻一区二区三区四区不卡 | 日韩电影在线一区二区三区| 国产精品99蜜臀久久不卡二区| 无码人妻精品一区二区| 美女视频一区二区| 亚洲最大成人网色| 日本黄色三级视频| 欧美国产丝袜视频| 精品国产一区二区三区在线| 97人人爽人人澡人人精品| 欧美午夜xxx| 日韩精品无码一区二区三区免费| 四虎影视精品永久在线观看| 日韩天堂在线观看| 性欧美13一14内谢| 图片区亚洲欧美小说区| 国内精品久久久久久| 国产主播第一页| 国产精品一区二区无线| 免费在线观看91| 黄色网页在线免费观看| 婷婷久久综合九色国产成人 | 日韩女优在线观看| 人禽交欧美网站| 国产高清精品一区| www 日韩| 亚洲成人免费电影| 日韩av片专区| 亚洲激情播播| 久久国产视频网站| 日本中文字幕在线观看视频| 国产精品一级片在线观看| 欧美视频小说| 久久大胆人体| 欧美日本高清视频在线观看| 91av在线免费| 欧美日韩三级| 国产欧美日韩中文字幕在线| 日韩偷拍自拍| 亚洲五月六月丁香激情| 色播五月激情五月| 精品国产成人| 欧美亚洲视频在线观看| www黄色在线观看| 国产精品进线69影院| 国产精品免费入口| av成人app永久免费| xxx一区二区| 波多野结衣理论片| 91丨九色丨蝌蚪富婆spa| 国产精品一二三在线观看| 国产成人a视频高清在线观看| 日韩电视剧免费观看网站| 成人免费视频网站入口::| 免费成人美女在线观看| 日本不卡一区二区三区在线观看 | 午夜精品福利在线| 亚洲丝袜在线观看| 婷婷色综合网| 91精品久久久久久久久中文字幕| 黄色av网址在线免费观看| 婷婷一区二区三区| 亚洲久久久久久| 99pao成人国产永久免费视频| 5g影院天天爽成人免费下载| 免费av毛片在线看| 在线播放91灌醉迷j高跟美女| 内射毛片内射国产夫妻| 日韩激情av在线| 日本三级中国三级99人妇网站| www.精品| 亚洲一级片在线看| 天天综合久久综合| 欧美国产日韩a欧美在线观看| 激情视频综合网| 国内亚洲精品| 国产欧美日韩高清| 老司机在线看片网av| 欧美精品日韩一区| 人妻人人澡人人添人人爽| 国产老女人精品毛片久久| 中文字幕免费在线不卡| 精品一级视频| 久久久久久久久网站| 人妻视频一区二区三区| 午夜av电影一区| 国产偷人妻精品一区| 久久精品成人| 亚洲色图自拍| 免费欧美网站| 久久久亚洲天堂| 天堂中文字幕在线| 91精品办公室少妇高潮对白| 一二三四国产精品| 国产在线视频一区二区三区| 日本三级中文字幕在线观看| 日韩免费成人| 欧美一区在线直播| 国产精品麻豆一区二区三区| 欧美区在线观看| 黄色一级片在线| 91麻豆国产精品久久| 色综合手机在线| 久久久精品网站| 最新在线中文字幕| 亚洲女女做受ⅹxx高潮| 人妖粗暴刺激videos呻吟| 亚洲综合电影一区二区三区| 色一情一乱一伦一区二区三区 | 欧美色区777第一页| 天海翼在线视频| 成人爽a毛片一区二区免费| 欧美日韩中文在线视频| 国产精品二区不卡| 精品欧美一区二区在线观看视频 | 亚洲综合色激情五月| 国内精彩免费自拍视频在线观看网址| 亚洲人成自拍网站| 99热这里是精品| 欧美日韩在线影院| 欧美成人777| 久久婷婷久久一区二区三区| 国产无色aaa| 亚洲欧美网站| 在线观看成人免费| 国产伦精品一区二区三区视频| 91在线观看免费网站| 成人影院大全| 久操成人在线视频| av在线免费观看网| 日韩理论片久久| www.日本在线观看| 欧美丝袜第三区| 国产小视频在线免费观看| 亚洲欧洲www| 91精品人妻一区二区三区| 国产69精品久久99不卡| 中文字幕天天干| 性一交一乱一区二区洋洋av| 婷婷视频在线播放| 国产精品免费不| 国产一区二区精品在线| 亚洲综合资源| 国产精品免费小视频| 华人av在线| 欧美黑人狂野猛交老妇| 日本三级在线视频| 亚洲一区av在线播放| 亚州精品国产精品乱码不99按摩| 日韩亚洲欧美综合| 一区二区日韩视频| 欧美亚洲免费在线一区| 中文字字幕在线中文| 亚洲线精品一区二区三区| 夫妻性生活毛片| 中文字幕中文字幕一区二区| 中文字幕av久久爽一区| 久久影音资源网| 强迫凌虐淫辱の牝奴在线观看| 国产91丝袜在线18| 中文字幕第三区| 国产一区二区三区免费| 日日噜噜夜夜狠狠| 久久精品国产亚洲aⅴ| 欧美精品性生活| 日本视频一区二区| 91激情视频在线| 日本成人在线视频网站| www.色就是色| 久久99国产精品尤物| www.激情小说.com| 久久99精品久久久久| 久久久久久综合网| 韩国av一区二区三区四区| 污污的视频免费观看| 韩国理伦片一区二区三区在线播放 | 亚洲电影有码| 日本免费久久高清视频| 欧美日韩大片| 国产精品网红福利| 黑人巨大精品| 国产精品成人aaaaa网站| 日本不卡一二三| 国产精品极品尤物在线观看| 91大神在线观看线路一区| 国产在线拍偷自揄拍精品| 电影91久久久| 国产视频一区二区不卡| 六月丁香久久丫| 欧美最大成人综合网| 日本不卡二三区| 黄色污污在线观看| 国产精品久久久久久模特| 欧美 国产 小说 另类| 日韩成人av影视| 国产女同无遮挡互慰高潮91| 国产黄人亚洲片| 亚洲男人在线天堂| 国产女同性恋一区二区| 欧美视频www| 红桃视频成人在线观看| a片在线免费观看| 日韩欧美一级二级三级久久久| 欧美一级做性受免费大片免费| 亚洲免费人成在线视频观看| 在线免费观看黄| 欧美激情视频一区二区| 欧美一级大片| 99在线视频播放| 欧美男男gaytwinkfreevideos| 在线不卡视频一区二区| 国产一区二区三区四区三区四| 成人一级片网站| 国产一区二区三区精品视频| 日本黄色动态图| 亚洲欧洲精品一区二区精品久久久 | 免费大片在线观看| 久久超碰97中文字幕| 国产国语老龄妇女a片| 2021中文字幕一区亚洲| 欧美一级片在线视频| 欧美日韩综合视频| www.五月婷| 中文字幕亚洲二区| 美女的胸无遮挡在线观看| 91精品国产综合久久久久久久久| 国产精品任我爽爆在线播放| 亚洲精品一区二区三区四区五区| 欧美体内she精视频在线观看| 成人在线激情网| 成人激情综合网站| av最新在线观看| 色中色一区二区| 日本xxxxwww| 操91在线视频| 国产精品99精品一区二区三区∴| 狠狠色综合网站久久久久久久| 亚洲精品99| 欧美三级理论片| 国产午夜精品一区二区三区视频| 精品无码人妻一区二区三区| 欧美浪妇xxxx高跟鞋交| 毛片免费在线观看| 91高清视频在线免费观看| 日韩欧美久久| 小说区视频区图片区| 老司机精品导航| 精品人妻一区二区三区香蕉 | 亚洲婷婷综合网| 精品国产乱码久久久久久1区2区| 日本www在线| 国产精品视频专区| 国产精品一区二区99| 无罩大乳的熟妇正在播放| 不卡欧美aaaaa| 中文字幕第28页| 欧美va天堂va视频va在线| 超碰在线caoporen| 亚洲a区在线视频| 亚洲精品电影| www.偷拍.com| 亚洲精品国产a| h片在线免费看| 欧美乱人伦中文字幕在线| 日本综合精品一区| 天堂а√在线中文在线| 国产毛片一区二区| 波多野结衣亚洲色图| 日韩一卡二卡三卡| 综合久久2019| 国产精品对白刺激久久久| 黄色免费成人| 三叶草欧洲码在线| 欧美日韩一区二区在线播放| 视频福利在线| 国产精品91久久| 久久影视一区| 天天操夜夜操很很操| 亚洲国产精品一区二区久久| 日本激情一区二区| 欧美综合在线第二页| 国产欧美一区| 污污动漫在线观看| 亚洲色图欧美偷拍| 亚洲成人黄色片| 38少妇精品导航| 欧美日韩激情在线一区二区三区| 亚洲第一中文av| 一区二区在线观看不卡| 丰满岳乱妇国产精品一区| 91黄色8090| 成人精品亚洲| 欧美xxxxxbbbbb| 五月天丁香久久| www.亚洲.com| 国产精品18毛片一区二区| 国产一区二区三区的电影| 波多野在线播放| 欧美一区二区三区免费视频| 9999精品成人免费毛片在线看| 欧美极品一区二区| 久久99深爱久久99精品| 国产真实乱人偷精品视频| 亚洲精品有码在线| 成人亚洲精品| 男人添女人下部高潮视频在观看| 久久久久99精品一区| 国产人妖在线播放| 91国内在线视频| 婷婷久久国产对白刺激五月99| 一级黄色电影片| 欧美三级在线视频| heyzo在线播放| 亚洲欧洲久久| 99精品在线观看视频| 探花国产精品一区二区| 欧美极品在线播放| 日韩理论在线| 欧美色图亚洲激情| 欧美一级精品在线| 91p九色成人| 黄色一级片播放| 一卡二卡欧美日韩|