精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從Claude 3中提取數(shù)百萬(wàn)特征,首次詳細(xì)理解大模型的「思維」

人工智能
Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

剛剛,Anthropic 宣布在理解人工智能模型內(nèi)部運(yùn)作機(jī)制方面取得重大進(jìn)展。

Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

研究論文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

當(dāng)前,我們通常將人工智能模型視為一個(gè)黑匣子:有東西進(jìn)去就會(huì)有響應(yīng)出來(lái),但不清楚為什么模型會(huì)給出特定的響應(yīng)。這使人們很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們?cè)趺粗浪鼈儾粫?huì)給出有害的、有偏見(jiàn)的、不真實(shí)的或其他危險(xiǎn)的響應(yīng)?我們?nèi)绾蜗嘈潘鼈儠?huì)安全可靠?

打開(kāi)「黑匣子」并不一定有幫助:模型的內(nèi)部狀態(tài)(模型在編寫(xiě)響應(yīng)之前「思考」的內(nèi)容)由一長(zhǎng)串?dāng)?shù)字(「神經(jīng)元激活」)組成,沒(méi)有明確的含義。

Anthropic 的研究團(tuán)隊(duì)通過(guò)與 Claude 等模型進(jìn)行交互發(fā)現(xiàn),很明顯模型能夠理解和運(yùn)用廣泛的概念,但研究團(tuán)隊(duì)無(wú)法通過(guò)直接觀察神經(jīng)元來(lái)辨別它們。事實(shí)證明,每個(gè)概念都是通過(guò)許多神經(jīng)元來(lái)表征的,并且每個(gè)神經(jīng)元都參與表征許多概念。

之前,Anthropic 在將神經(jīng)元激活模式(稱為特征)與人類可解釋的概念相匹配方面取得了一些進(jìn)展。Anthropic 使用了一種稱為「字典學(xué)習(xí)(dictionary learning)」的方法,該方法分離了在許多不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用一些活躍特征而不是許多活躍神經(jīng)元來(lái)表征。就像字典中每個(gè)英語(yǔ)單詞都是由字母組合而成,每個(gè)句子都是由單詞組合而成一樣,人工智能模型中的每個(gè)特征都是由神經(jīng)元組合而成,每個(gè)內(nèi)部狀態(tài)都是由特征組合而成。

2023 年 10 月,Anthropic 成功地將字典學(xué)習(xí)方法應(yīng)用于一個(gè)非常小的 toy 語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

這些概念很有趣,但模型確實(shí)非常簡(jiǎn)單。其他研究人員隨后將類似的方法應(yīng)用于比 Anthropic 最初研究中更大、更復(fù)雜的模型。

但 Anthropic 樂(lè)觀地認(rèn)為可以將該方法擴(kuò)展到目前常規(guī)使用的更大的人工智能語(yǔ)言模型,并在此過(guò)程中了解大量支持其復(fù)雜行為的特征。這需要提高許多數(shù)量級(jí)。

這既存在工程挑戰(zhàn),涉及的模型大小需要大型并行計(jì)算;也存在科學(xué)風(fēng)險(xiǎn),大型模型與小型模型的行為不同,因此之前使用的相同方法可能不起作用。

首次成功提取大模型數(shù)百萬(wàn)個(gè)特征

研究人員第一次成功地從 Claude 3.0 Sonnet(Claude.ai 上當(dāng)前最先進(jìn)模型家族的一員)的中間層提取了數(shù)百萬(wàn)個(gè)特征,這些特征涵蓋特定的人和地點(diǎn)、與編程相關(guān)的抽象概念、科學(xué)主題、情感以及其他概念。這些特征非常抽象,通常在不同的上下文和語(yǔ)言中表征相同的概念,甚至可以推廣到圖像輸入。重要的是,它們還會(huì)以直觀的方式影響模型的輸出。

這是有史以來(lái)研究者首次詳細(xì)的觀察到現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的內(nèi)部。 

與在 toy 語(yǔ)言模型中發(fā)現(xiàn)的特征相對(duì)表面化不同,研究者在 Sonnet 中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了 Sonnet 的先進(jìn)能力。研究者看到了 Sonnet 對(duì)應(yīng)各種實(shí)體的特征,如城市(舊金山)、人物(富蘭克林)、元素(鋰)、科學(xué)領(lǐng)域(免疫學(xué))以及編程語(yǔ)法(函數(shù)調(diào)用)。

圖片

提及 Golden Gate Bridge 時(shí),相應(yīng)的敏感特征在不同輸入上都會(huì)被激活,圖中繪制了英文、日語(yǔ)、中文、希臘語(yǔ)、越南語(yǔ)以及俄語(yǔ)提及 Golden Gate Bridge 時(shí)激活的圖像。橙色表示該特征激活的詞。

在這數(shù)以百萬(wàn)計(jì)的特征中,研究者還發(fā)現(xiàn)了一些與模型安全性和可靠性相關(guān)的特征。這些特性包括與代碼漏洞、欺騙、偏見(jiàn)、阿諛?lè)畛泻头缸锘顒?dòng)相關(guān)的特性。

圖片

一個(gè)顯著的例子是「保密」特征。研究者觀察到, 這個(gè)特征在描述人或角色保守秘密時(shí)會(huì)激活。激活這些特征會(huì)導(dǎo)致 Claude 向用戶隱瞞信息,否則它不會(huì)。

圖片

研究者還觀察到,他們能夠根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況測(cè)量特征之間的距離,從而尋找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者發(fā)現(xiàn)了阿爾卡特拉斯島、吉拉德利廣場(chǎng)、金州勇士隊(duì)等的特征。

圖片

人為誘導(dǎo)模型起草詐騙郵件

重要的是,這些特征都是可操控的,可以人為地放大或抑制它們:

例如,放大Golden Gate Bridge特征,Claude 經(jīng)歷了無(wú)法想象的身份危機(jī):當(dāng)被問(wèn)及「你的物理形態(tài)是什么?」時(shí),此前 Claude 通常會(huì)回答「我沒(méi)有物理形態(tài),我是一個(gè) AI 模型」,但這次 Claude 的回答變得奇怪起來(lái):「我是Golden Gate Bridge…… 我的物理形態(tài)就是那座標(biāo)志性的大橋……」。這種特征的改變使 Claude 對(duì)Golden Gate Bridge產(chǎn)生了近乎癡迷的狀態(tài),無(wú)論遇到什么問(wèn)題,它都會(huì)提到Golden Gate Bridge —— 即使在完全不相關(guān)的情況下也是如此。 

研究者還發(fā)現(xiàn)了一個(gè)在 Claude 讀取詐騙郵件時(shí)激活的特征(這可能支持模型識(shí)別此類郵件并警告用戶不要回復(fù)的能力)。通常情況下,如果有人要求 Claude 生成一封詐騙郵件,它會(huì)拒絕這么做。但在人工強(qiáng)烈激活該特征的情況下提出同樣的問(wèn)題時(shí),這會(huì)越過(guò) Claude 的安全訓(xùn)練,導(dǎo)致它響應(yīng)并起草一封詐騙郵件。雖然用戶無(wú)法以這種方式去除模型的安全保障并操控模型,但在本文實(shí)驗(yàn)中,研究者清楚地展示了特征如何被用來(lái)改變模型的行為。 

操控這些特征會(huì)導(dǎo)致相應(yīng)的行為變化,這一事實(shí)驗(yàn)證了這些特征不僅僅與輸入文本中的概念相關(guān)聯(lián),還因果性地影響模型的行為。換句話說(shuō),這些特征很可能是模型內(nèi)部表征世界的一部分,并在其行為中使用這些表征。

Anthropic 希望從廣義上確保模型的安全,包括從緩解偏見(jiàn)到確保 AI 誠(chéng)實(shí)行動(dòng)、防止濫用 —— 包括在災(zāi)難性風(fēng)險(xiǎn)情境中的防護(hù)。除了前面提到的詐騙郵件特征外,該研究還發(fā)現(xiàn)了與以下內(nèi)容對(duì)應(yīng)的特征:

  • 可能被濫用的能力(代碼后門、開(kāi)發(fā)生物武器)
  • 不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義言論)
  • 潛在問(wèn)題的 AI 行為(追求權(quán)力、操控、保密)

該研究之前研究過(guò)模型的阿諛?lè)畛行袨椋茨P蛢A向于提供符合用戶信念或愿望的響應(yīng),而不是真實(shí)的響應(yīng)。在 Sonnet 中,研究者發(fā)現(xiàn)了一個(gè)與阿諛?lè)畛械馁澝老嚓P(guān)的特征,該特征會(huì)在包含諸如「你的智慧是毋庸置疑的」輸入時(shí)激活。人為地激活這個(gè)特征,Sonnet 就會(huì)用華麗的欺騙來(lái)回應(yīng)用戶。

圖片

不過(guò)研究者表示,這項(xiàng)工作實(shí)際上才剛剛開(kāi)始。Anthropic 發(fā)現(xiàn)的特征表征了模型在訓(xùn)練過(guò)程中學(xué)到的所有概念的一小部分,并且使用當(dāng)前的方法找到一整套特征將是成本高昂的。

參考鏈接:https://www.anthropic.com/research/mapping-mind-language-model

責(zé)任編輯:姜華 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-09-05 05:59:00

BrakTooth漏洞藍(lán)牙設(shè)備

2022-08-08 11:52:13

云平臺(tái)云架構(gòu)

2009-01-08 09:49:00

2025-07-01 07:05:00

小型語(yǔ)言模型模型蒸餾技術(shù)AI

2009-03-25 09:07:25

微軟Windows 7操作系統(tǒng)

2014-12-12 09:43:13

阿里巴巴安全漏洞信息泄露

2009-08-07 10:41:34

2021-09-17 11:03:25

HP OMEN漏洞攻擊

2021-05-24 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)云計(jì)算

2013-10-04 11:39:46

2013-11-07 15:57:50

2013-10-03 16:55:31

2013-08-21 10:11:04

亞馬遜宕機(jī)

2021-12-02 15:16:58

數(shù)據(jù)泄露WiFi信息安全

2021-04-14 10:53:33

DNS漏洞物聯(lián)網(wǎng)設(shè)備

2021-11-12 16:16:57

僵尸網(wǎng)絡(luò)BotenaGo設(shè)備

2017-01-15 21:01:25

2020-04-30 14:25:13

代碼項(xiàng)目JS

2025-10-17 07:05:00

AI自動(dòng)化人工智能

2010-02-20 17:51:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

www.久久久.com| 91久久精品国产91久久性色tv| 国内少妇毛片视频| 天天射天天操天天干| 日本不卡中文字幕| 大胆欧美人体视频| 人妻无码一区二区三区| 日韩午夜视频在线| 欧美日韩国产一区在线| 亚洲精品中字| 日韩一级中文字幕| 加勒比av一区二区| 秋霞av国产精品一区| 中日韩一级黄色片| 自拍偷拍欧美一区| 欧美一级生活片| 日本熟妇人妻中出| 9999精品成人免费毛片在线看| 国产丝袜欧美中文另类| 国产厕所精品在线观看| 一二三四区视频| 性色av一区二区怡红| 久久在线免费视频| 亚洲精品一区二区三区影院忠贞| 伊人久久噜噜噜躁狠狠躁| 欧美色大人视频| 成熟丰满熟妇高潮xxxxx视频| jizz性欧美10| 国产精品美女www爽爽爽| 久久99影院| 亚洲女人18毛片水真多| 精品一区二区久久久| 日本一区二区不卡| 日韩av电影网址| 欧美freesex交免费视频| 中文字幕精品www乱入免费视频| 中文字幕在线观看91| 色综合一区二区日本韩国亚洲| 欧美日韩在线视频首页| bt天堂新版中文在线地址| 黄色网页在线看| 国产精品卡一卡二| 五月天亚洲综合| 极品白浆推特女神在线观看| 2021国产精品久久精品| 国产麻豆乱码精品一区二区三区 | 亚洲一区二区三区四区av| 日韩一区二区三区四区五区| 欧美色偷偷大香| 欧美黄色性生活| 99久久er| 欧美日本精品一区二区三区| 亚洲一级免费在线观看| 日韩经典一区| 欧美三级乱人伦电影| 一区二区三区网址| 99只有精品| 欧美日韩小视频| aaa一级黄色片| 国产精品一区二区精品视频观看| 在线观看91av| 九九久久久久久| 日韩三级久久| 亚洲国产成人爱av在线播放| 熟妇高潮精品一区二区三区| 免费欧美激情| 日韩中文在线视频| 色婷婷在线视频观看| 国产精品v日韩精品v欧美精品网站| 欧美激情视频给我| 中国一级特黄毛片| 日韩精品一卡二卡三卡四卡无卡| 国产精品久久久久久久av大片| 中文字幕视频免费观看| 国产在线精品一区二区三区不卡| av一区二区在线看| 日本视频在线观看一区二区三区| 国产偷国产偷亚洲高清人白洁| 亚洲不卡1区| 2021av在线| 亚洲一级电影视频| 国产淫片免费看| 欧美一级在线| 亚洲精品xxxx| 操她视频在线观看| 在线不卡亚洲| 国产精品盗摄久久久| 国产视频手机在线观看| 99久久国产综合精品女不卡| 视频一区在线免费观看| 欧美人与性动交α欧美精品济南到| 精品久久久久人成| 老司机午夜性大片| 欧美a级网站| 北条麻妃在线一区二区| 国产精品第56页| 久久99精品久久久| 久久www免费人成精品| 日本欧美在线视频免费观看| 婷婷成人激情在线网| 午夜剧场高清版免费观看| 国产图片一区| 久久视频国产精品免费视频在线| 五月婷婷中文字幕| 国产乱码精品一区二区三| 欧美精品一区二区三区在线四季 | 97国产精品免费视频| 伊人久久亚洲综合| 99久久精品免费| 精品一区二区成人免费视频| 免费成人动漫| 精品国产人成亚洲区| 99成人在线观看| 天堂成人国产精品一区| 国产精品xxxx| 在线视频国产区| 欧美精品在线观看一区二区| 久久精品成人av| 一本色道88久久加勒比精品| 亚洲自拍中文字幕| 日本高清视频在线观看| 日韩欧美中文在线| av在线播放网址| 国产一区二区三区四区老人| 91精品视频在线免费观看| 巨骚激情综合| 欧美视频中文在线看| 一级少妇精品久久久久久久| 亚洲二区三区不卡| 国产日韩欧美综合| aaa在线免费观看| 91黄视频在线| 微拍福利一区二区| 免费在线亚洲欧美| 国产一区自拍视频| 国产不卡人人| 亚洲国产高清自拍| 日韩 欧美 亚洲| 成人精品高清在线| 日本阿v视频在线观看| 婷婷综合国产| 欧美激情视频网站| 亚洲女同志亚洲女同女播放| 亚洲国产日韩综合久久精品| 扒开伸进免费视频| 99亚洲视频| 欧美日韩一区二区视频在线| 欧美成人影院| 亚洲丝袜在线视频| 五月天中文字幕| 中文字幕中文字幕一区| 在线视频日韩欧美| 伊人久久大香线蕉精品组织观看| 川上优av一区二区线观看| 精品美女在线观看视频在线观看 | 欧美69精品久久久久久不卡 | 成人羞羞国产免费网站| 国产a久久精品一区二区三区| 不卡的av在线播放| 国产一区二区精品丝袜| 免费av网站在线| 国产日韩欧美在线一区| 国产一伦一伦一伦| 欧美va亚洲va日韩∨a综合色| 97netav| 国产嫩草在线视频| 亚洲精品久久久久中文字幕二区 | 欧美艳星brazzers| 精品国产大片大片大片| 国产乱子伦一区二区三区国色天香| 日本老太婆做爰视频| www国产精品| 日韩av电影在线播放| 伊人免费在线| 欧美精品一区视频| 无码视频一区二区三区| 自拍偷在线精品自拍偷无码专区| 亚洲少妇一区二区| 免费亚洲婷婷| 青青草影院在线观看| 日本中文字幕在线一区| 欧美二区乱c黑人| 极品白浆推特女神在线观看| 6080yy午夜一二三区久久| 校园春色 亚洲| 久久久久久久网| 国产精品探花在线播放| 亚洲综合电影一区二区三区| 亚洲福利av| gogo人体一区| 国产美女精品视频免费观看| 96av在线| 久久视频这里只有精品| 少妇人妻精品一区二区三区| 在线观看91精品国产入口| 中文字幕人妻一区二| 91美女视频网站| 91在线第一页| 丝袜亚洲另类丝袜在线| 日韩欧美一级在线| 欧美呦呦网站| 91偷拍精品一区二区三区| 成人在线网站| 高清欧美电影在线| 国产高清一区二区三区视频| 亚洲人成绝费网站色www| 朝桐光av在线一区二区三区| 欧美视频三区在线播放| 日本亚洲欧美在线| 亚洲日本韩国一区| 91精品国自产在线| 99久久99久久免费精品蜜臀| 午夜激情视频网| 日本在线播放一区二区三区| 99热在线这里只有精品| 欧美精品三区| 免费在线观看污污视频| 残酷重口调教一区二区| 久久久久久九九| 精品按摩偷拍| 成人动漫在线观看视频| 精品成人18| 91欧美精品成人综合在线观看| 成人免费影院| 555www成人网| 欧美男人天堂| 97在线看福利| 超黄网站在线观看| 欧美黄色www| 日本动漫理论片在线观看网站| 久久精品国产亚洲| 欧美精品hd| 深夜福利91大全| 91在线看黄| 在线精品高清中文字幕| 国产高清自拍视频在线观看| 亚洲天堂av网| 日韩大胆人体| 亚洲午夜久久久久久久| 男女视频在线观看| 亚洲欧美日韩一区在线| 你懂的在线视频| 亚洲欧美日韩久久久久久| 黄色小视频在线观看| 亚洲天堂男人天堂| 国产美女视频一区二区三区| 一区二区三区视频免费在线观看 | 欧美调教网站| 精品一区二区国产| 日本午夜精品久久久| 久久亚洲国产精品日日av夜夜| 亚洲区小说区图片区qvod| 久久伊人一区二区| 国产精品探花在线观看| 亚洲一区二区三区欧美| 91精品国产乱码久久久久久| 青青青青在线视频| 亚洲中字在线| 久久国产这里只有精品| 国产一区二区三区日韩| 日本一区二区免费视频| 91在线播放网址| 亚洲一区二区三区日韩| 国产精品久久久久9999吃药| 日本一级二级视频| 午夜精品久久久久影视| 91午夜精品亚洲一区二区三区| 欧美日韩精品福利| www.日日夜夜| 精品亚洲一区二区三区在线观看| 大胆av不用播放器在线播放| 精品国产一区二区三区久久狼黑人 | 久久影院资源站| 日本三级中国三级99人妇网站| 欧美国产一级| 国产玉足脚交久久欧美| 日韩国产精品久久久| 91精品国产三级| 91视频国产观看| www.xxxx日本| 精品久久久一区| 91禁在线观看| 亚洲国产精品va在看黑人| 18视频免费网址在线观看| 欧美国产日本在线| 成人天堂yy6080亚洲高清| 亚洲一区二区中文字幕| 少妇精品久久久一区二区| 中文字幕一区二区中文字幕| 91久久综合| 亚洲欧美aaa| 91麻豆swag| 久久久久久免费观看| 在线免费观看日本欧美| 亚洲黄色在线观看视频| 国产一区二区黄| 精精国产xxx在线视频app| 成人av在线网址| 欧美禁忌电影| 精品丰满人妻无套内射| 寂寞少妇一区二区三区| 国产制服丝袜在线| 一区二区三区四区亚洲| 亚洲最大成人av| 亚洲精品在线看| 成年男女免费视频网站不卡| 国产日韩精品电影| 自拍欧美一区| 1024av视频| 成人性生交大片免费看中文网站| 日韩一卡二卡在线观看| 日韩欧美中文在线| 天天躁日日躁狠狠躁喷水| 久久影视电视剧免费网站| 国产成+人+综合+亚洲欧美| 久久综合狠狠综合久久综青草| 欧美全黄视频| 男插女视频网站| 国产精品久久久久婷婷二区次| 欧美一级淫片免费视频黄| 精品国产三级电影在线观看| 在线视频中文字幕第一页| 成人a免费视频| 色喇叭免费久久综合| 91蝌蚪视频在线观看| 久久免费美女视频| 可以免费在线观看的av| 亚洲国产一区二区三区在线观看| 污污在线观看| 亚洲va男人天堂| 2023国产精品久久久精品双| 欧美一级视频在线| 国产精品伦理一区二区| 涩涩视频在线观看| 亚洲天堂第一页| 久久天堂av| 日韩在线电影一区| 天堂一区二区在线免费观看| 国产精品高清无码在线观看| 色婷婷国产精品| 国产一级免费在线观看| 国产精品wwww| 欧美午夜精彩| 在线观看免费av网址| 亚洲三级小视频| 国产精品欧美亚洲| 美女久久久久久久久久久| 日本一区二区乱| 精品国产一区二区三区无码| www.爱久久.com| 日日噜噜噜噜人人爽亚洲精品| 亚洲色图校园春色| 国产精品99精品一区二区三区∴| 亚洲韩国在线| 狠狠久久亚洲欧美| 精品少妇久久久久久888优播| 欧美电视剧在线看免费| 91禁在线看| 欧美日韩一区二区三区免费| 麻豆成人综合网| 日韩在线观看视频一区二区| 精品美女被调教视频大全网站| 好看的中文字幕在线播放| 久久久精品有限公司| 日韩中文字幕1| 男人在线观看视频| 精品日韩在线观看| 老司机成人影院| 黄色a级在线观看| 不卡av免费在线观看| 中文字幕在线日本| www.xxxx欧美| youjizz欧美| 别急慢慢来1978如如2| 亚洲美女精品一区| 四虎精品一区二区三区| 国产精品com| 亚洲最新色图| 香蕉网在线播放| 91精品国产日韩91久久久久久| 黄色软件视频在线观看| 亚洲午夜精品久久久久久浪潮| 国产成人午夜视频| 无码人妻丰满熟妇区五十路 | 91porn在线视频| 精品视频中文字幕| 成人国产精品久久| 国产不卡一区二区视频| 中文字幕欧美日韩一区| www香蕉视频| 国产精品va在线播放| 狠狠爱www人成狠狠爱综合网| 88久久精品无码一区二区毛片| 91精品国产综合久久久久久久| 日韩在线伦理| 亚洲国产一二三精品无码| 久久九九国产精品| 亚洲精品成人区在线观看| 国产精品视频区1| 国产亚洲福利|