精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Ilya參與,OpenAI給GPT-4搞可解釋,提取了1600萬個特征,還能看它怎么想

人工智能 新聞
本周四,OpenAI 分享了一種查找大量「特征」的全新方法 —— 或許這會成為可解釋的一種可用方向。OpenAI 表示,新方法比此前的一些思路更具可擴展性,研究團隊使用它們在 GPT-4 中找到了 1600 萬個特征。

大模型都在想什么?OpenAI 找到了一種辦法,能給 GPT-4 做「掃描」,告訴你 AI 的思路,而且還把這種方法開源了。

圖片

大語言模型(LLM)是當前 AI 領域最熱門的探索方向,吸引了大量的關注和研究投入。它們強大的語言理解能力和生成能力在各種應用場景中都表現出巨大潛力。雖然我們見證了大模型迭代后性能上的顯著提升,但我們目前對模型中的神經活動仍然只是一知半解。

本周四,OpenAI 分享了一種查找大量「特征」的全新方法 —— 或許這會成為可解釋的一種可用方向。OpenAI 表示,新方法比此前的一些思路更具可擴展性,研究團隊使用它們在 GPT-4 中找到了 1600 萬個特征。

有趣的是,從作者列表中,我們發現已經從 OpenAI 離職的 Ilya Sutskever、Jan Leike 等人也是作者之一。

圖片

可謂是一項重要的研究。

  • 論文標題:Scaling and evaluating sparse autoencoders
  • 論文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf
  • 代碼:https://github.com/openai/sparse_autoencoder
  • 特征可視化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

解釋神經網絡

作為機器學習模型,神經網絡通過使用模仿生物神經元協同工作的過程來識別現象并得出結論,然而長久以來,我們并不真正了解神經網絡的內部運作原理。神經網絡并不是直接設計的,研究人員設計了訓練它們的算法。由此產生的神經網絡還不能很好地被理解,并且不能輕易地分解為可識別的部分。這意味著我們不能像推理汽車安全那樣推理人工智能安全。

為了理解和解釋神經網絡,首先需要找到用于神經計算的有用構建塊。然而,語言模型內的神經激活是以不可預測的模式激活的,似乎同時代表許多概念,它們還密集激活,這意味著每次激活總是在每個輸入上觸發。

但現實世界的概念非常稀疏 —— 在任何給定的上下文中,所有概念中只有一小部分是相關的。這激發了稀疏自動編碼器的使用。

稀疏自動編碼器(sparse autoencoder)是一種識別神經網絡中少數「特征」的方法,這些「特征」對于產生任何給定的輸出都很重要,類似于一個人在推理某種情況時可能想到的一小部分概念。它們的特征顯示出稀疏的激活模式,自然地與人類易于理解的概念保持一致,即使沒有直接的可解釋性激勵。

圖片

然而,訓練稀疏自動編碼器仍然面臨嚴峻的挑戰。大型語言模型表征大量概念,自動編碼器可能需要相應巨大的規模才能接近完全覆蓋前沿模型中的概念。學習大量稀疏特征具有挑戰性,并且過去的工作尚未證明可以很好地擴展。

大規模自動編碼器訓練

OpenAI 最新的研究進展提出了一種新方法,能夠將稀疏自動編碼器擴展到前沿人工智能模型上的數千萬個特征。并且該方法顯示出平滑且可預測的擴展,與現有方法相比具有更好的規模回報。同時,OpenAI 還引入了幾個用于評估特征質量的新指標。

OpenAI 使用該方法在 GPT-2 small 和 GPT-4 激活上訓練各種自動編碼器,包括 GPT-4 上的 1600 萬個特征的自動編碼器。

具體來說,研究團隊在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架構和訓練設置的模型(包括 GPT-4 本身)的殘差流上訓練自動編碼器。他們選擇了靠近網絡末端的一層,該層應包含許多特征,而不專門用于下一個 token 的預測。

所有實驗均使用 64 個 token 的上下文長度。研究團隊先在 dmodel 維度上減去平均值,并將所有輸入歸一化為單位范數(unit norm),然后再傳遞給自動編碼器(或計算重建誤差)。 

訓練結束后,研究團隊根據稀疏性 L_0 和重建均方誤差 (MSE) 對自動編碼器進行評估。

為了簡化分析,OpenAI 不考慮學習率預熱或衰減,sweep 小規模的學習率,并推斷大規模的最佳學習率的趨勢。

為了檢查特征的可解釋性,OpenAI 進行了可視化工作。以下是 OpenAI 發現的一些可解釋的特征:

  • 人類的缺陷;
  • 價格上漲;
  • X 和 Y;
  • 訓練 Log;
  • 反問句;
  • 代數環;
  • 誰 / 什么;
  • 多巴胺。

圖片

圖片

例如,GPT-4 特征:與事物(尤其是人類)有缺陷相關的短語:

圖片

價格上漲:

圖片

反問句:

圖片

局限和發展方向

新方法能夠提高模型的可信度和可操縱性。然而這仍是早期工作,存在許多局限性:

  • 與此前的研究一樣,許多發現的特征仍然難以解釋,許多特征的激活沒有明確的模式,或者表現出與它們通常編碼的概念無關的虛假激活。此外,目前我們還沒有很好的方法來檢查解釋的有效性。
  • 稀疏自動編碼器不會捕獲原始模型的所有行為。目前,將 GPT-4 的激活通過稀疏自動編碼器大致相當于使用大約 1/10 計算量訓練一個模型。為了完全映射前沿 LLM 中的概念,我們可能需要擴展到數十億或數萬億個特征,即便使用改進的擴展技術,這也具有挑戰性。
  • 稀疏自動編碼器可以在模型中的某一點找到特征,但這只是解釋模型的一步。還需要做更多的工作來了解模型如何計算這些特征以及如何在模型的其余部分下游使用這些特征。

稀疏自動編碼器的研究令人興奮,OpenAI 表示,還有一些待解決的挑戰。短期內,工程師們希望新發現的特征能夠實際用于監控和控制語言模型行為,并計劃在前沿模型中對此進行測試。希望最終有一天,可解釋性可以為我們提供推理模型安全性和穩健性的新方法,并通過對 AI 行為提供強有力的保證,大幅提高我們對新一代 AI 模型的信任。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-07 18:14:53

2024-06-07 16:40:53

2024-05-15 09:28:01

2023-12-16 09:45:56

論文GPT-4AI

2024-01-01 22:28:52

2023-07-07 09:32:57

GPT-4OpenAI

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-12-15 12:52:17

AI模型

2023-06-19 08:19:50

2023-05-10 14:54:23

AI

2023-03-16 17:28:59

技術AI

2023-12-17 22:04:04

微軟GPT-4

2023-05-10 15:45:08

GPT-4AI模型

2024-05-28 14:40:00

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2025-04-16 09:35:03

2023-04-06 16:09:46

程序員AI

2023-03-16 08:13:56

人工智能?OpenAI

2023-05-10 17:33:56

點贊
收藏

51CTO技術棧公眾號

欧美成人二区| 97激碰免费视频| 四虎永久国产精品| 一女二男一黄一片| 日韩大片在线永久免费观看网站| 亚洲最新色图| 在线国产电影不卡| 影音先锋欧美在线| 人妻少妇精品无码专区久久| 亚洲综合激情在线| 亚洲福利小视频| 久久久精品麻豆| 成人爽a毛片免费啪啪动漫| 久久久一区二区| 99九九视频| 久久久999久久久| 亚洲精品资源| 久久精品91久久香蕉加勒比| 青青草成人免费视频| av国产精品| 色悠久久久久综合欧美99| 一二三在线视频| av资源种子在线观看| 成人激情黄色小说| 96pao国产成视频永久免费| 你懂的国产在线| 黄色成人av网站| 久久精品人人做人人爽| 国产成人精品无码免费看夜聊软件| 亚洲1区在线| 欧美老肥妇做.爰bbww| 午夜视频在线瓜伦| 免费看男女www网站入口在线| 亚洲女同ⅹxx女同tv| 亚洲成人在线视频网站| 亚洲国产精品无码久久久| 午夜久久一区| 久久久成人精品视频| 日韩毛片无码永久免费看| 欧美重口另类| 亚洲国产欧美日韩精品| 先锋资源在线视频| a一区二区三区亚洲| 欧美三级中文字| youjizzxxxx18| 欧美精品总汇| 在线亚洲免费视频| 成人一级片网站| 亚洲私拍视频| 欧美视频专区一二在线观看| 精品久久久久久| 国产精品久久久久秋霞鲁丝| 99久在线精品99re8热| 亚洲美女91| 欧美黑人国产人伦爽爽爽| 肉丝美足丝袜一区二区三区四| 国产后进白嫩翘臀在线观看视频| 国产精品毛片久久久久久久| 2022国产精品| 国产人妻精品一区二区三区| 狠狠色丁香久久婷婷综合_中 | 肉色丝袜一区二区| 一区二区三区视频观看| 18岁网站在线观看| 亚洲优女在线| 在线日韩一区二区| 一区二区成人网| 亚洲毛片在线免费| 欧美一级高清片| 国产免费a级片| 欧美人妖在线观看| 亚洲性无码av在线| 手机看片国产精品| 日韩欧美一级| 亚洲国产精品999| 国产精品无码网站| 国产最新精品| 日韩中文字幕在线播放| 久草视频免费在线| 成人国产精品一级毛片视频| 欧美成人精品1314www| 日本一级大毛片a一| 欧美a一欧美| 一区二区中文字幕| 国产高潮国产高潮久久久91| 亚洲制服欧美另类| 中文字幕久热精品视频在线| 日本高清不卡免费| 亚洲国产专区校园欧美| 国产精品99久久久久久www| 国产精品成人免费一区二区视频| 亚洲少妇自拍| 国产日韩在线一区| 免费a级片在线观看| 国产性色一区二区| 亚洲午夜在线电影| 国产日韩精品一区观看| 免费在线毛片| 亚洲免费观看在线视频| 各处沟厕大尺度偷拍女厕嘘嘘| 婷婷成人激情| 亚洲一区二区三区激情| 黄色三级视频片| 日韩一区二区三区色| 亚洲欧美福利视频| 免费毛片在线播放免费| 日一区二区三区| 国产精品对白刺激久久久| 国产福利第一视频在线播放| 一级精品视频在线观看宜春院 | 色婷婷av在线| 在线免费不卡视频| 亚洲美女在线播放| 999国产精品视频| 日本久久中文字幕| 亚洲av综合色区无码一区爱av| 国产午夜精品理论片a级大结局 | 男人的天堂亚洲在线| 亚洲一区二区三区香蕉| 二人午夜免费观看在线视频| 亚洲第一狼人社区| 搡的我好爽在线观看免费视频| 伊甸园亚洲一区| 久久久久久久爱| 国产女人高潮毛片| 国产精品美女久久久久av爽李琼| av动漫在线观看| 美国成人xxx| 久久久久国产精品www| 中文字幕有码视频| 国产视频在线观看一区二区三区| 青青青在线观看视频| 91成人短视频在线观看| 中文欧美日本在线资源| 久久久精品福利| 不卡一区中文字幕| 性一交一乱一伧国产女士spa| 久久久久亚洲精品中文字幕| 日韩在线精品视频| 欧美在线视频精品| 久久精品夜夜夜夜久久| 日韩免费毛片视频| 思热99re视热频这里只精品| 91精品国产成人www| 日日摸日日碰夜夜爽av| 最近日韩免费视频| 91丨porny丨中文| 日韩精品在线观看av| 欧美电影在线观看一区| 久久视频在线播放| 国产麻豆91视频| 综合电影一区二区三区 | 成人在线国产| 国产精品久久久久av免费| 免费毛片在线| 91国偷自产一区二区三区观看| www.日日操| 一个色免费成人影院| 国产成人高清激情视频在线观看 | 深夜福利一区二区| 日批视频免费观看| 国产精品久久久久久久久搜平片 | 奇米网一区二区| 青青草伊人久久| 亚洲国产午夜伦理片大全在线观看网站| 日韩不卡免费高清视频| 国产一区二区三区在线视频| 高潮无码精品色欲av午夜福利| 国产精品人成在线观看免费| 极品粉嫩美女露脸啪啪| 欧美精品日韩| 日本欧美黄网站| 九色在线视频蝌蚪| 欧美日韩视频在线观看一区二区三区 | 高清视频一区二区| 日本一区二区免费看| 成人短视频在线观看| 日韩欧美卡一卡二| www.国产成人| 亚洲国产成人一区二区三区| 怡红院av亚洲一区二区三区h| 视频福利一区| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 超碰免费在线| 91精品国产综合久久精品| 久久久久无码国产精品不卡| 91麻豆国产香蕉久久精品| 久久综合伊人77777麻豆最新章节| 青娱乐在线视频免费观看| 亚洲精品国产精品国产| 亚洲欧美日韩一区二区在线| 中文字幕在线观看你懂的| 亚洲欧美日韩国产一区二区三区| 男人网站在线观看| 欧美aⅴ一区二区三区视频| 丁香色欲久久久久久综合网| 免费黄色成人| 99re在线视频观看| 三上悠亚一区二区| 久久91亚洲人成电影网站 | 亚洲人成网站999久久久综合| 亚洲网站免费观看| 偷拍亚洲欧洲综合| 青青操在线视频观看| 99久久99久久精品免费观看| 午夜啪啪小视频| 久久精品30| 中文精品无码中文字幕无码专区 | 成人深夜视频在线观看| 99re精彩视频| 成人在线视频你懂的| 日本一区二区三区四区视频| 人人超在线公开视频| 国产一区二区三区毛片| 天天操天天干天天插| 日韩一区二区在线播放| 天天操天天干天天摸| 午夜亚洲国产au精品一区二区| 4438x全国最大成人| 久久亚洲一区| 久艹视频在线免费观看| 婷婷激情综合| av一区二区在线看| 国产精品久久久久久久久免费高清 | 亚洲巨乳在线观看| 尤物tv在线精品| 国产麻豆乱码精品一区二区三区| 国产亚洲字幕| 成人av在线天堂| 99久久亚洲国产日韩美女| 日本精品久久久久久久| 日本不卡免费高清视频在线| 久久久久久久久综合| 91国内在线| 精品免费99久久| 一级黄色片在线观看| 欧美中文字幕一区| 蜜臀精品一区二区三区| 欧美日韩午夜视频在线观看| 亚洲一区视频在线播放| av电影一区二区| 国产a级黄色片| 成人黄色网址在线观看| 精人妻一区二区三区| 国产精品白丝jk黑袜喷水| 6080国产精品| 国产精品一区不卡| 久久久久久无码精品人妻一区二区| 精品一区二区三区影院在线午夜 | 成人一区二区三区中文字幕| 91精产国品一二三| 成人免费的视频| 欧美性生交xxxxx| 成人免费视频app| 国模私拍在线观看| 26uuu国产在线精品一区二区| 国产三级国产精品| 国产色一区二区| 中文字幕伦理片| 中文字幕在线不卡一区二区三区| 潘金莲一级黄色片| 亚洲免费观看高清完整版在线观看| 午夜精品福利在线视频| 一区二区三区免费看视频| 国产亚洲欧美精品久久久www| 亚洲sss视频在线视频| 日本网站在线播放| 欧洲一区在线电影| 一卡二卡在线视频| 欧美精品一区二区久久婷婷 | 91亚洲精品乱码久久久久久蜜桃| 久久久久久久穴| 亚洲h视频在线观看| 成人在线中文| 97久久超碰国产精品电影| 热久久精品免费视频| 蜜臂av日日欢夜夜爽一区| 久久久久久久久国产| 成年人在线视频| 久久久精品国产亚洲| 免费av不卡在线观看| 欧美亚洲第一区| 欧美黄页免费| 狠狠色噜噜狠狠色综合久| 欧美久久综合网| 日韩不卡视频一区二区| 国产一区二区三区久久久久久久久| 日韩精品一区二区三区不卡| 色爱综合av| 日本免费高清一区| 91精品精品| 午夜精品99久久免费| 佐佐木明希电影| 日韩成人精品在线| 九九热视频免费| 99精品桃花视频在线观看| 嘿嘿视频在线观看| 亚洲成人精品一区| 中文字幕人妻互换av久久| 日韩欧美专区在线| 成全电影播放在线观看国语| 欧美日韩高清区| 蜜桃精品在线| 国产精品免费一区二区三区观看| 国精一区二区| 男人天堂a在线| 麻豆精品视频在线观看免费| 国产黑丝在线观看| 视频精品国内| 欧美经典一区二区| 欧美日韩福利视频| www.99r| 久久精品老司机| sm性调教片在线观看 | 中文字幕22页| 精品少妇3p| 亚洲一区二区三区在线免费观看| 日韩理论电影中文字幕| 少妇熟女一区二区| 亚洲最好看的视频| 91麻豆天美传媒在线| 久久亚洲色图| 亚洲综合自拍网| 久久香蕉国产线看观看99| 亚洲最大的黄色网址| 91国在线观看| 免费在线毛片| 欧美亚洲在线视频| 国产女人18毛片水真多18精品| 欧美h视频在线观看| 日韩电影免费在线看| 少妇按摩一区二区三区| 午夜影院久久久| 国模人体一区二区| 欧美激情第三页| 久久综合偷偷噜噜噜色| 亚洲综合激情五月| 久久99精品网久久| 国产wwwwxxxx| 欧美性三三影院| av在线播放免费| 国产成人一区二区三区电影| 午夜a一级毛片亚洲欧洲| 日本欧美黄色片| 日韩国产在线观看一区| 亚洲男人在线天堂| 午夜精品久久久久久久久久久| www.com在线观看| 亚洲精品ady| av老司机在线观看| 少妇激情综合网| 最近中文字幕在线免费观看| 亚洲精品福利资源站| 国产高潮在线| 久久国产欧美精品| 亚洲一区黄色| av在线播放亚洲| 成人午夜视频免费看| 中文字幕一区二区三区精品| 亚洲黄色www网站| 欧美理论影院| 亚洲国产日韩综合一区| 激情欧美日韩一区二区| 97在线观看免费高| 久88久久88久久久| 欧美国产精品人人做人人爱| 欧美性爽视频| 狠狠色综合欧美激情| 可以免费看不卡的av网站| 亚洲黄色网址大全| 88在线观看91蜜桃国自产| 日韩精品卡一| 欧美精品尤物在线| 麻豆精品在线视频| 免费一级a毛片夜夜看| 亚洲精品美女久久久| 欧美在线va视频| 在线免费观看成人| 四虎精品在永久在线观看 | 亚洲精品自拍网| 国产精品久久久久久久岛一牛影视| 国产又粗又长视频| 欧美精品久久久久| 精品国产乱码| 精品国产乱码久久久久久1区二区| 亚洲最大的成人av| 日韩精品123| 91精品国产综合久久香蕉| 精品福利av| 91麻豆精品国产91久久综合| 欧美一级日韩一级| 在线人成日本视频| 艳母动漫在线观看| 26uuu另类欧美亚洲曰本| 国产精品老熟女视频一区二区| 97久久精品人人澡人人爽缅北| 日本不卡免费一区| 亚洲午夜久久久久久久久| 精品视频123区在线观看| 2020国产在线|