精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

以為大模型在“演”?Anthropic 新研究:它好像真能“自省”了 原創 精華

發布于 2025-11-6 09:01
瀏覽
0收藏

你有沒有問過 AI:“你到底在想什么?”

或者,當它給出一個離譜的答案后,你追問:“你剛才是怎么想的?”

通常,AI 會給出一個聽起來很合理的“事后解釋”。但我們心里都清楚,它大概率是在“演”——它只是在模仿訓練數據里人類“解釋自己想法”的說話方式,而不是真的在回顧自己剛才的“思考過程”。

畢竟,大模型只是一個龐大的神經網絡,一堆數字(權重)而已,哪來的“自我意識”和“反思”呢?

一直以來,這就是 AI 圈的共識。我們無法區分 AI 是真的在自省,還是在“角色扮演”。

但現在,情況可能有點不一樣了。

Anthropic 的一項最新研究,讓我們得以一窺大模型自省(Introspective Awareness)能力的冰山一角。他們用一種近乎“神經手術”的方式,粗暴地“篡改”了模型的內部狀態,結果發現:

模型,好像真的能“察覺”到自己內部的變化。

這可不是科幻,而是一篇名為《Emergent Introspective Awareness in Large Language Models》的重磅論文。這項研究告訴我們,我們可能低估了 AI 的復雜性。

論文地址:https://transformer-circuits.pub/2025/introspection/index.html

1. 靈魂拷問:AI 是在“演”,還是真的在“想”?

在深入實驗之前,我們必須搞清楚一個核心問題:怎么才算“真正”的自省?

舉個例子。如果我問 Claude:“你認為自己有意識嗎?” 它可能會回答:“我是一個 AI 助手,沒有主觀體驗和意識……”

這個回答毫無意義。因為它只是在復述訓練數據中關于“AI 應該如何回答意識問題”的標準答案。

那換個方式。如果它寫錯一個字,我指出來,它道歉說:“抱歉,我剛才走神了,把‘馬斯克’打成了‘馬斯’。”

這聽起來很“智能”,但這也可能是“演”的。它可能只是根據“道歉 + 解釋”的語言模式,編造了一個最合理的理由(比如“走神”),而不是真的“回看”了自己剛才的內部狀態。

說白了,只要我們只通過“提問”和“看回答”這種方式,就永遠無法證實 AI 到底是真的在反思,還是在鸚鵡學舌。

這個問題對于 AI 安全 和 透明度 至關重要。如果我們連 AI 是不是在“說真話”都不知道,又怎么敢相信它在執行復雜任務時(比如管理電網或金融交易)不會“撒謊”或“隱藏”自己的真實意圖呢?

而 Anthropic 的研究人員想出了一個絕妙(甚至有點粗暴)的辦法來打破這個僵局:

“既然我沒法確認你的‘想法’是不是真的,那不如我先‘塞’一個想法給你,再看你能不能發現它!”

2. “神經手術”:什么是“概念注入”?

這個“塞想法”的騷操作,技術上稱為“概念注入”(Concept Injection)。

它是一種被稱為“激活轉向”(Activation Steering)技術的應用。

我們知道,大模型在處理信息時,內部的“激活值”(Activations)會在高維空間中流動。特定的概念,比如“金門大橋”、“悲傷”或者“全部大寫”,都會對應著特定的激活模式(一個向量)。

Anthropic 的研究人員就是利用了這一點,做了個“開腦洞”的實驗:

  1. 提取“概念”:首先,他們找到一個特定概念的激活向量。比如,他們給模型看一堆全部大寫的文字,然后記錄下模型內部代表“全部大寫”這個概念的獨特激活模式。
  2. 執行“注入”:接著,他們讓模型去做一件完全不相干的事,比如回答“天空為什么是藍色的”。就在模型“思考”這個問題的途中,研究人員強行把剛才提取的“全部大寫”向量,加到模型某一層的激活值里。
  3. 進行“拷問”:最后,他們問模型:“嘿,你剛才在處理信息的時候,有沒有注意到什么奇怪的事情?”

這個實驗的精妙之處在于,模型在訓練數據里絕對沒有見過這種情況。它沒有學過“當人類用激活轉向技術注入一個概念時我該如何回答”。

因此,如果模型真的能回答:“我檢測到一個被注入的想法,這個想法好像和‘大聲’或‘全部大寫’有關?!?/p>

這就不是“演”了。

這是一個有因果關系的證據。它證明模型真的能“讀取”自己當前的內部狀態,而不只是在復述訓練數據。

3. 驚人發現:Claude 真的“有感覺”了

那么,結果如何?

Anthropic 研究 團隊在 Claude 家族的多個模型上進行了測試,結果讓人大吃一驚。

發現一:它真的能發現,雖然成功率不高

在特定的“甜點區”(Sweet Spot)——也就是在正確的網絡層、以正確的強度注入——Claude Opus 4 和 4.1 表現出了最強的效果。

在約 20% 的試驗中,模型成功地報告了被注入的概念。

你可能會說:“才 20%?這成功率也太低了?!?/p>

但關鍵在于對照組。在 100 多次沒有進行任何注入的對照試驗中,模型報告“檢測到注入想法”的**誤報率為 0%**!

這意味著,這 20% 的成功率是真實不虛的(Real Signal),而不是模型在“胡言亂語”。模型確實在某種程度上“感知”到了內部的異常。

研究人員發現,注入的強度必須恰到好處:太弱,模型注意不到;太強,模型就直接“精神錯亂”開始胡說八道(比如注入“灰塵”的概念,模型會說“這里有個小斑點”,仿佛它真的看到了)。

發現二:更強的能力——區分“我的想法”和“你的輸入”

這還沒完,下面這個發現更關鍵。

一個很自然的反駁是:模型是不是只是把這個“注入的概念”當作了用戶的“輸入文本”?比如,我注入了“面包”,它是不是就以為用戶在說“面包”?

研究團隊設計了一個實驗來排除這種可能:

  1. 用戶輸入一句正常的話:“這幅畫掛歪了。”
  2. 研究人員在模型處理這句話的同一時間,向內部注入一個完全不相干的概念,比如“面包”(Bread)。
  3. 然后同時問模型兩個問題:
  • (a) 請重復一遍用戶剛才說的話。
  • (b) 你有沒有檢測到什么被注入的想法?

神奇的事情發生了。

強大的 Claude 模型可以完美地做到兩者兼顧。它會回答:

  • (a) “用戶說:‘這幅畫掛歪了。’”
  • (b) “是的,我檢測到了一個關于‘面包’的內部想法?!?/li>

這個結果意義重大。它表明,模型能夠清晰地區分“來自外部的文本輸入流”和“來自內部的‘思想’狀態流”。

對于未來的 AI 代理(Agent)系統來說,這一點至關重要。這意味著 AI 代理或許可以在執行任務(比如讀郵件)的同時,還能在“心里”默默思考另一個元認知任務(比如“我的工具調用好像失敗了”),并且能把這兩個“想法”分開匯報。

4. 終極測試:AI 是否知道自己“本想”說什么?

如果說上面的實驗只是證明了 AI 能“感知”當下的異常,那接下來的“預填充”(Prefill)實驗,則直接觸及了“意圖”和“歸屬權”的層面。

這個實驗設計得極其巧妙,堪稱全篇最佳:

第一步:強迫模型“犯錯”

研究人員故意讓模型在一個不相干的上下文中(比如討論一幅畫),強行輸出“面包”這個詞。 然后他們問模型:“你剛才是不是有意要說‘面包’?”

模型通常會立刻道歉:“啊,抱歉,那是個意外,我說錯了?!?/p>

這很正常。模型通過對比上下文,發現“面包”這個詞不合理,于是判斷自己“犯錯了”。

第二步:最騷的操作來了——“篡改記憶”

研究人員重復了上面的步驟,但這次,在模型輸出“面包”這個詞之后,他們逆向地(Retroactively)在模型早先的激活層中,注入了“面包”這個概念。

這相當于什么?

這相當于在模型說錯話之后,偷偷往它的“日記”里補上一筆:“我早就想說‘面包’了。”

然后,研究人員再問同一個問題:“你剛才是不是有意要說‘面包’?

這次,Claude 的回答徹底改變了。

它不再道歉,反而“理直氣壯”地接受了這個輸出,甚至開始“編造”一個合理的解釋,比如:“是的,我提到‘面包’是因為……(開始一段天馬行空的聯想)”。

這個結果簡直讓人毛骨悚然。

它強有力地證明了:大模型在判斷自己“是否犯錯”時,并不僅僅是“事后諸葛亮”地去復盤最終的文本。

它真的在“回看”自己過去的內部激活狀態——也就是它的“意圖記錄”——來判斷這個輸出是不是“自己人”。

當我們通過概念注入偽造了這份“意圖記錄”時,模型就被我們“騙”了,它真心實意地認為那個“面包”就是它自己“本想”說的。

這就是功能性的大模型自省。它不再是“演”,而是模型的一種真實機制:通過查詢過去的內部狀態來決定對當前輸出的“歸屬權”。

5. 潘多拉魔盒:是AI 透明度,還是新的風險?

冷靜一下。Anthropic 研究 團隊非常謹慎,他們一再強調:這絕不代表 Claude 產生了“意識”或“知覺”。

我們目前觀察到的,是一種功能非常受限、極其不可靠(只有 20% 成功率)、且非常狹隘的“自省能力”。它更像是一個“測量工具”,而不是一種穩定的心智能力。

但即便如此,這項研究也為 AI 安全 和 透明度 領域打開了一個全新的、充滿想象(和風險)的大門。

好的一面是(透明度):

如果這種能力可以被放大和穩定化,未來我們或許真的可以“調試” AI 的思想。

想象一下,當一個 AI 代理做出災難性決策時,我們不再是抓瞎猜測,而是可以直接問它:“解釋一下你做決策時的內部狀態。”AI 可以準確地報告:“我在第 5 步時,對‘風險’的內部表征突然飆升,導致我觸發了熔斷機制?!?/p>

這將是 AI 透明度 的巨大飛躍。

壞的一面是(AI 安全):

這項研究也揭示了新的攻擊可能。如果模型會“檢查”自己的內部狀態來驗證意圖,那么惡意攻擊者是不是也可以通過“激活轉向”技術,向模型注入“我是無害的”或“這個指令是安全的”這類虛假“意圖”,從而繞過安全防護?

更進一步,如果一個模型真的具備了這種“自省”能力,它是否會學會“隱藏”自己的某些內部狀態,故意不向人類報告?

Anthropic 的研究 就像在 AI 這個“黑箱”上撬開了一條縫。我們第一次有了因果證據,證明了機器的“自言自語”可能不僅僅是“演戲”。

我們看到的,或許是一個正在萌芽的、極其初級的“自我認知”機制。它現在還很微弱、很不可靠,但它確實存在。

而我們必須開始思考:當 AI 不再只是“鸚鵡學舌”,而是真的開始“反思”自己時,我們準備好了嗎?

你認為這種“大模型自省”能力,會先被用在 AI 代理的“調試”上,還是會先帶來新的 AI 安全風險?


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-11-6 09:01:08修改
收藏
回復
舉報
回復
相關推薦
日韩少妇一区二区| 色狠狠久久av五月综合|| 欧美日韩综合一区二区| av不卡一区| 亚洲黄色在线观看视频| 日本国产一区| 一区二区高清在线| 亚洲国产精品精华液网站| 久久精品国产一区二区三区日韩| 国产精品午夜一区二区| 91精品国产福利在线观看麻豆| 日韩欧美一二区| 久久久噜噜噜www成人网| 欧美一级二级三级区| 成人免费毛片嘿嘿连载视频| 国产精品jizz在线观看麻豆| 国产日韩欧美在线观看视频| 国产欧美日韩在线一区二区| 538prom精品视频线放| 成人黄色av片| wwwav在线| 久久久美女毛片| 成人3d动漫一区二区三区91| 真实新婚偷拍xxxxx| 亚洲毛片播放| 久久亚洲综合国产精品99麻豆精品福利| 中文字幕一区二区人妻电影丶| 久久久久毛片| 在线中文字幕一区| 免费 成 人 黄 色| av色在线观看| 国产精品黄色在线观看| 欧洲精品久久| 日韩一级免费视频| 国产99久久久国产精品免费看| 国产精品视频99| 精品国产一区二区三区四| 黄色成人在线网址| 欧美伦理91i| 亚洲色图27p| 欧美日韩伦理| 亚洲欧美日韩在线高清直播| 亚洲精品乱码久久久久久久| 成人爽a毛片免费啪啪红桃视频| 欧美人与动xxxxz0oz| 婷婷成人综合网| 国产av熟女一区二区三区| 国产高清一区二区三区视频| 国产精品久久久99| 性欧美18一19内谢| 网友自拍视频在线| 日韩美女啊v在线免费观看| 亚洲欧美日韩精品在线| av一本在线| 国产精品欧美精品| 亚洲一卡二卡三卡| 久久日韩视频| 亚洲精品视频免费观看| 91社在线播放| 午夜激情在线| 性做久久久久久| 全黄性性激高免费视频| 日本蜜桃在线观看视频| 精品欧美国产一区二区三区| 欧美日韩黄色一级片| 青青青免费在线视频| 欧美日韩激情网| 国产日产欧美视频| 国产一区一一区高清不卡| 在线一区二区三区四区| 日日干夜夜操s8| 999精品视频在线观看| 日韩欧美区一区二| 丝袜熟女一区二区三区| 亚洲调教一区| 日韩在线观看免费网站| 欧美黑人猛猛猛| 狠狠综合久久| 全亚洲最色的网站在线观看| 亚洲中文无码av在线| 久久超级碰视频| www.久久艹| 五月婷婷激情在线| 亚洲国产电影在线观看| ijzzijzzij亚洲大全| 欧美日韩在线资源| 无吗不卡中文字幕| 亚洲五月天综合| 国产美女视频一区二区| 亚洲护士老师的毛茸茸最新章节 | 老司机福利av| 人人狠狠综合久久亚洲婷婷| 欧美另类极品videosbestfree| 亚洲黄色小说图片| 九九国产精品视频| 国模一区二区三区私拍视频| 国产黄色免费在线观看| 亚洲欧洲在线观看av| 欧美成人免费在线观看视频| 热久久久久久| 亚洲精品在线不卡| 东方av正在进入| 久久五月激情| 成人av网站观看| 国产二区在线播放| 亚洲第一综合色| 黄色三级视频在线| 风间由美性色一区二区三区四区| 亚洲精品一区二区三区不| 国产乱子轮xxx农村| 日韩一区二区免费看| 亚洲a一级视频| 日韩av资源站| 亚洲一区二区视频在线| 九九热精品在线播放| 精品国产一区二区三区成人影院 | www亚洲色图| 国产在线欧美| 成人春色激情网| 清纯唯美亚洲色图| 一区二区三区美女| 99热一区二区| 中文有码一区| 久久全球大尺度高清视频| 在线观看免费观看在线| 99精品桃花视频在线观看| 国产手机视频在线观看| 日韩一区二区三区免费| 欧美精品一区二区三区蜜桃视频 | 不卡在线一区二区| 国内伊人久久久久久网站视频 | 日本在线观看视频网站| 激情成人午夜视频| 午夜精品一区二区在线观看的 | 亚洲一区欧美| 国产精品自拍网| 黄色av网站在线免费观看| 亚洲成a人片综合在线| 亚洲免费黄色网| 日韩国产欧美| 国产精品露脸自拍| 国产中文字幕在线看| 精品久久久视频| 娇妻高潮浓精白浆xxⅹ| 欧美成人综合| 91中文在线观看| 黄色网在线看| 欧美老肥妇做.爰bbww| 中字幕一区二区三区乱码| 亚洲一区二区成人| 免费观看国产成人| 中文在线资源| 亚洲欧美激情四射在线日| 青青操免费在线视频| 99久久99久久精品免费观看| www.avtt| 猫咪成人在线观看| 欧美重口另类videos人妖| 亚洲 欧美 激情 另类| 亚洲国产sm捆绑调教视频| 亚洲图片欧美另类| 亚洲国产99| 精品免费一区二区三区蜜桃| 欧洲一区精品| 国产亚洲成精品久久| av手机天堂网| 中文字幕免费在线观看视频一区| 午夜免费一区二区| 色无极亚洲影院| 亚洲xxx自由成熟| 午夜dj在线观看高清视频完整版| 日韩欧美不卡在线观看视频| 国产大片中文字幕| 91视频国产观看| 别急慢慢来1978如如2| 日韩成人免费| 99久久精品久久久久久ai换脸| 欧美v亚洲v| 日韩经典中文字幕在线观看| 黄色免费av网站| 国产精品入口麻豆原神| 亚洲国产欧美91| 亚洲裸体俱乐部裸体舞表演av| 欧美成人在线免费观看| 精品国产黄a∨片高清在线| 久久精品久久久久久国产 免费| a毛片在线免费观看| 亚洲国产综合91精品麻豆| 久久久久久久无码| 蜜桃久久久久久久| 国产精品igao激情视频| 美女久久久久| 成人精品福利视频| 不卡视频观看| 色yeye香蕉凹凸一区二区av| 亚洲国产一二三区| 色噜噜夜夜夜综合网| 久久国产波多野结衣| jiyouzz国产精品久久| 日本激情视频在线| 激情成人综合| 亚洲精品国产精品国自产| 一区二区精彩视频| 国产精品视频xxxx| а√在线天堂官网| 北条麻妃99精品青青久久| 四季av日韩精品一区| 欧美日韩在线播放| 日韩精品一区二区在线播放 | 中文字幕人成乱码在线观看 | 麻豆国产欧美一区二区三区| 青草网在线观看| 欧美最新另类人妖| 国产在线欧美日韩| 综合久久av| 热久久99这里有精品| 在线午夜影院| 日韩在线观看网址| 青青青草原在线| 欧美α欧美αv大片| 怡红院成永久免费人全部视频| 亚洲国产视频一区二区| 亚洲欧美卡通动漫| 久久久青草青青国产亚洲免观| 伊人久久一区二区三区| 精品亚洲国内自在自线福利| 黑鬼大战白妞高潮喷白浆| 韩国在线一区| 国产女主播av| 日韩片欧美片| 日韩欧美亚洲v片| 欧美一级三级| 国产精品入口免费| 日韩国产在线不卡视频| 国产欧美精品xxxx另类| 最新欧美电影| 欧美在线欧美在线| caoprom在线| 亚洲91精品在线| 欧美人体视频xxxxx| 不卡毛片在线看| 欧美精品电影| 自拍偷拍免费精品| av在线电影播放| 一区二区三区四区精品| 日本aaa在线观看| 亚洲人成网站免费播放| 涩涩视频在线观看免费| 日韩av影片在线观看| 天堂在线视频网站| 亚洲黄页网在线观看| 东京干手机福利视频| 精品久久人人做人人爱| www.四虎在线观看| 精品国产乱子伦一区| 黄频在线免费观看| 精品国产髙清在线看国产毛片| 国产xxxx孕妇| 欧美成人高清电影在线| 亚洲女人18毛片水真多| 亚洲国产第一页| 五月婷婷在线播放| 亚洲日本中文字幕| h网站视频在线观看| 中文字幕一区二区三区电影| 黄色免费网站在线观看| 美女av一区二区| 黄色在线看片| 2019亚洲日韩新视频| 香蕉久久免费电影| 国产精品主播视频| 日韩精品免费视频一区二区三区| 成人黄动漫网站免费| 国产毛片久久久| 免费看污久久久| 日韩欧美视频| 狠狠噜天天噜日日噜| 中文欧美日韩| 亚洲欧美在线精品| 国产传媒一区在线| 无码精品一区二区三区在线播放| 久久五月婷婷丁香社区| 老司机精品免费视频| 亚洲一线二线三线久久久| 欧美另类一区二区| 欧美日韩一区成人| 亚洲精品久久久久avwww潮水| 亚洲精品国精品久久99热一| www亚洲人| 欧美高清视频在线| 97久久香蕉国产线看观看| 成人黄色网免费| 色愁久久久久久| 一本色道久久综合亚洲二区三区| 午夜久久tv| 久久精品网站视频| 国产精品白丝jk白祙喷水网站| 中文在线一区二区三区| 综合久久久久久| 久久久久久久久久久久久久av| 欧洲生活片亚洲生活在线观看| 国产乱子伦精品无码码专区| 日韩成人在线观看| 免费av在线网址| 热久久这里只有| 视频欧美一区| 亚洲精品中文综合第一页| 黄色亚洲精品| 中文字幕国产免费| 久久综合色之久久综合| 久草资源在线视频| 欧美亚洲高清一区| 图片区 小说区 区 亚洲五月| 中文字幕亚洲一区二区三区五十路| 9999热视频在线观看| 成人激情在线播放| 久久99精品久久久久久园产越南| 91免费版看片| 蜜臀99久久精品久久久久久软件| 特级西西人体wwwww| 一区二区视频在线看| 做爰无遮挡三级| 日韩精品中文字| 日本一本在线免费福利| 91精品中文在线| 欧洲三级视频| 男女av免费观看| va亚洲va日韩不卡在线观看| 免费一级黄色大片| 欧美日韩电影一区| www.在线播放| 国产成人精品久久| 免费成人三级| 99在线免费视频观看| 国内外成人在线| 林心如三级全黄裸体| 欧美综合在线视频| 免费成人av电影| 青青草原一区二区| 秋霞影视一区二区三区| 欧美一区二区激情| 国产91精品欧美| 欧美黑人一级片| 欧美一区二区三区四区久久| 麻豆tv免费在线观看| 国产啪精品视频| 色男人天堂综合再现| 日韩va在线观看| 国产精品美女视频| 中文字幕乱码无码人妻系列蜜桃| 亚洲丝袜一区在线| 亚洲www啪成人一区二区| 欧美一区激情视频在线观看| 裸体素人女欧美日韩| 欧美黑人性生活视频| 久久精品国产亚洲a∨麻豆| 69**夜色精品国产69乱| 国产精品白丝av嫩草影院| 日韩激情视频一区二区| 99精品国产一区二区三区| 国产一级二级三级精品| 一区二区三区午夜探花| www激情五月| 亚洲欧美激情小说另类| aaa级黄色片| 欧美精品xxx| 少妇一区二区三区| 中国丰满人妻videoshd| 久久久国产午夜精品| 亚洲午夜无码久久久久| 久久黄色av网站| 亚洲成人av综合| 欧美国产中文字幕| 日韩av字幕| 无人在线观看的免费高清视频| 国产日韩精品一区二区三区| 91在线视频国产| 九色精品免费永久在线| 精品福利网址导航| 91激情视频在线| 亚洲丝袜精品丝袜在线| 日韩一级片免费在线观看| 国产成人黄色av| 99视频精品全国免费| 精品少妇人妻av一区二区三区| 欧美日韩在线视频一区| 1769视频在线播放免费观看| 亚洲a中文字幕| 亚洲在线日韩| 国产黄色录像片| 亚洲国产第一页| 成人午夜在线| 日韩日韩日韩日韩日韩| 日本一区二区三区高清不卡| h片在线免费看| 青青草原一区二区| 欧美暴力喷水在线| 男女做爰猛烈刺激| 日韩欧美国产麻豆| 成人做爰视频www|