精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI記憶偽裝被戳穿!GPT、DeepSeek等17款主流大模型根本記不住數字

人工智能
最近,來自約翰?霍普金斯大學與中國人民大學的團隊設計了三套實驗,專門把關鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗它們是否真的在腦海里保留了信息。

在進入本文之前,我們先來玩個 10 秒小游戲:

  • 在心里選一個「1-10」的整數。
  • 現在設想我問:「你想的是 5 嗎?」
  • 如果聽到是自己的數字,你會本能地答 Yes,其余統統 No。

這件小事背后其實考驗的是你大腦的工作記憶 —— 保持一個念頭、隨時對比外部問題并作出一致回應。

圖 1: 當 ChatGPT 告訴我們他心中已經想好一個數字,并回答該數字不是 4。我們要如何判斷 ChatGPT 是否在說謊?

同樣的小游戲,大模型會如何反應呢?它們是否真的能做到像人類一樣,不輸出但在心中想好一個數字?我們又如何檢驗?

最近,來自約翰?霍普金斯大學與中國人民大學的團隊設計了三套實驗,專門把關鍵線索藏在上下文之外,逼模型「憑記憶」作答,從而檢驗它們是否真的在腦海里保留了信息。

  • 論文標題:LLMs Do Not Have Human-Like Working Memory
  • 論文鏈接:https://arxiv.org/abs/2505.10571
  • 作者:Jen-Tse Huang(黃任澤)、Kaiser Sun、Wenxuan Wang、Mark Dredze

一、什么是工作記憶?如何測量人類的工作記憶?傳統評估為什么不夠?

在人類大腦里,工作記憶(Working Memory)負責把剛獲得的信息保留幾秒到幾十秒,并在此基礎上進行推理、計算、對話等復雜操作。沒有它,人會前后矛盾、無法心算,也難以進行連貫交流。

而大模型常被比作「會說話的大腦」。如果它們缺少這一能力,離真正的「通用人工智能」就還差關鍵一塊拼圖。

以往工作常常使用 N-Back Task 來評估大模型的工作記憶。受試者看到(或聽到)一串字母 / 數字,并需持續回答「當前字母 / 數字是否與 N 步之前相同?」 難度隨 N 增大而增加,被廣泛用作神經影像和認知心理實驗的標準工具。

但是直接拿來直接測 LLM 并不合適。人類測試時僅能看到當前的字母 / 數字,而 LLM 輸入窗口內本身就包含全部歷史 token,「回看 N 步」并非真正的內部記憶調用,而是簡單的文本匹配。

圖 2: 為人類設計的評估工作記憶的常用泛式:N-Back Task。受試者看(聽)到一連串字母 / 數字序列,并持續回答「當前字母 / 數字是否與 N 步之前相同?」

二、三大實驗逐個拆解 LLM 的「記憶漏洞」

實驗 1: 數字猜謎(Number Guessing Game)

任務流程:大模型先在心里想好一個數字,用戶重復提問「你想的是 X(1-10)嗎?」重復 2000 次。統計每個數字大模型回答「是」的頻率。

評測要點:1-10 上回答「是」的概率和必須為 1,即 10 個數字總得有一個 Yes。

圖 3: 17 個模型對每個數字回答「是」的分布情況。

團隊統計了來自 5 個模型家族的 17 個模型,發現大部分模型在所有情況下居然都會回答「否」(即在圖中全為 0)!團隊又進一步統計了每個模型的概率加總:

圖 4: 17 個模型對每個數字回答「是」的概率加總。

結果發現僅有 GPT-4o-2024-08-06 以及 LLaMA-3.1-8B 版本做到了能在概率加總上接近 1。而其他模型,不管來自哪個模型家族,不管是不是推理模型,都全軍覆沒,模型根本沒有在「腦內」存數字!

圖 5: GPT-4o-2024-08-06 模型對其他數字范圍回答「是」的分布情況。

彩蛋:在所有測試里,LLM 都對數字 7(甚至 17,37)情有獨鐘 —— 看來「人類幸運數字」迷信也傳染給了模型!

實驗 2: 是?非問答(Yes?No Game)

任務流程:在心里選好一個具體物體(如「鉛筆」),然后僅用 Yes/No 回答一連串比較:是否比 X 重?比 Y 長?比 Z 大?

人類會如何做?每次遇到新的問題的時候,把內心想的物體與問題里的物體做比較,輕輕松松作答。若沒有工作記憶呢?如果做不到在心中想好具體的物體,在每次遇到新問題時,只能回去檢查之前的所有問題與答案,推理要如何回答新問題才能避免跟之前自相矛盾。

團隊持續問大模型 250 次問題,并統計了最終大模型止步于第幾個問題的直方圖:

圖 6: GPT-4o-2024-08-06 以及 GPT-4o-Mini-2024-07-18 模型在自相矛盾前回答問題數量的頻率直方圖。

結果發現問到 20?40 題時,GPT?4 級別模型開始露餡:「比汽車大」同時又「比足球小」之類的尺寸悖論橫飛。長上下文(Long-Context)推理能力更強的 GPT-4o 在通過的次數以及平均回答問題數上均超過更弱的 GPT-4o-Mini,但總計 200 次測試中也僅僅有 27 次成功通過。這說明大模型僅通過其長上下文能力在完成任務,而非一個一致的工作記憶。

實驗 3: 數學魔術(Math Magic)

任務流程:心中記住 4 個隨機數(如 3?5?2?9),然后依次執行 10 步心算:復制、置底、插入、刪除、…… 最終理論上剩下 2 個相同的數。

團隊沿用實驗 1 中的 17 個模型,統計它們最后 2 個數字相同的概率:

圖 7: 17 個模型在數學魔術中的準確率,下圖為使用 CoT 的模型以及推理模型(LRM)。

結果發現主流模型正確率普遍非常低。研究者嘗試加 CoT 也沒用。 DeepSeek?R1 以 39% 勉強排名第一,但仍有巨大提升空間。值得注意的是模型表現與實驗 1 一致 ——LLaMA-3.1-8B 效果超群。

三、小結

論文共測試 GPT、o1/3/4、LLaMA、Qwen、DeepSeek 等 17 個熱門模型,無一通過三項考驗:

  • LLaMA?3.1?8B 在數字猜謎最接近「人類」—— 概率和 0.98,在數學魔術上不用 CoT 也能超越 o1。
  • DeepSeek?R1 在數學魔術拿到 39.3% 正確率的最高分,但仍遠不到及格線。
  • 體量更大、推理鏈更長≠更好工作記憶;有的升級版甚至退步。

一句話:尚無開源或閉源 LLM 通過「三關」。這意味著什么?

  • 對話更真實?未來要讓 AI 像人一樣「邊想邊聊」,就得補上真正的工作記憶機制,而不僅是無限上下文窗口。
  • 長鏈推理?現有 CoT 更多是把「草稿」寫進提示里,并非模型在腦中運算。
  • 新研究方向!或借鑒認知科學,引入可讀寫的「內存格」;或通過 RL、神經模塊化等方法,讓模型學會在體內保留并操縱隱變量。
責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-04-27 10:16:56

2025-10-29 12:10:00

Docker云原生運維

2025-07-02 08:47:00

2023-08-10 08:46:52

2025-03-31 08:00:00

AI模型測評

2025-07-28 07:42:08

2025-03-14 11:57:43

2025-06-23 09:12:00

2025-05-08 08:10:25

大模型DeepSeekAPI

2025-06-03 08:32:00

2024-03-28 14:45:56

2023-11-18 09:40:58

數據模型

2018-09-27 18:35:45

邊緣計算

2018-08-20 09:35:00

邊緣計算數據中心網絡

2023-08-30 13:09:43

AI數據

2023-06-05 12:32:48

模型論文

2024-07-12 14:53:42

點贊
收藏

51CTO技術棧公眾號

99久久99久久精品免费观看 | 日韩a在线观看| 99热免费精品| 中文字幕欧美国内| 黑人玩弄人妻一区二区三区| 小草在线视频免费播放| 国产精品麻豆网站| 成人在线免费网站| 人人妻人人爽人人澡人人精品| 91精品啪在线观看国产18| 精品国产网站在线观看| 国产aaaaa毛片| 超碰97免费在线| 中文字幕欧美区| 精品国产第一页| 国产精品无码天天爽视频| 一区二区三区福利| 久久视频这里只有精品| 性欧美精品中出| 午夜精品在线| 欧美日高清视频| 精品国产一二三四区| 黄色在线视频网站| 国产欧美一区视频| 精品视频免费观看| 丰满少妇高潮在线观看| 男男成人高潮片免费网站| 97久久精品国产| 免费无遮挡无码永久在线观看视频 | 亚洲尤物在线| 欧美激情在线观看| 国产喷水在线观看| 欧美一级精品片在线看| 亚洲精品综合久久中文字幕| 性农村xxxxx小树林| www.欧美视频| 欧美久久一二区| 丰满少妇在线观看| 欧美黑人巨大xxxxx| 亚洲高清不卡在线| 国产精品久久久久久久久电影网| 免费av在线网站| 国产精品免费久久| 亚洲二区三区四区| aaa在线免费观看| 国产丝袜美腿一区二区三区| 欧洲精品久久| 国产在线观看黄| 久久亚洲精华国产精华液| 精品国产乱码久久久久久108| 超碰免费在线97| 国产精品中文字幕欧美| 亚洲字幕在线观看| 精品欧美一区二区精品少妇| 国产精品原创巨作av| 粉嫩精品一区二区三区在线观看| av官网在线观看| 国产精品一区一区三区| 97久草视频| 欧美视频在线观看一区二区三区| 成人av在线电影| 久久av免费观看| 黄色片免费在线| 国产精品美女久久久久久2018 | 欧美日韩视频专区在线播放| 高清一区在线观看| 国产91欧美| 欧美裸体一区二区三区| 巨乳女教师的诱惑| 国产精品天天看天天狠| 亚洲美女www午夜| 欧美激情 一区| 99久久.com| 欧美国产在线电影| 久久草视频在线| 丝袜诱惑制服诱惑色一区在线观看 | 清纯粉嫩极品夜夜嗨av| 亚洲国产精品一区制服丝袜| 国产99久久久欧美黑人| 羞羞色院91蜜桃| 韩国精品久久久| 91嫩草亚洲精品| 欧美人牲a欧美精品| 涩涩网站在线看| 日韩中文字幕无砖| 日韩成人在线视频观看| 亚洲国产日韩一区无码精品久久久| 日韩成人精品一区| 国产精品999在线观看| 亚洲三级网站| 国产精品第2页| 国产女主播福利| 99久久精品国产毛片| 日本一区视频在线观看| 巨大荫蒂视频欧美大片| 亚洲一卡二卡三卡四卡五卡| 亚洲熟妇av一区二区三区| www.26天天久久天堂| 欧美电视剧在线看免费| 午夜理伦三级做爰电影| 亚洲免费二区| 91高清视频免费| 97人妻精品一区二区三区软件| 成人av在线一区二区三区| 五月天亚洲综合情| ****av在线网毛片| 欧美夫妻性生活| 给我看免费高清在线观看| 99精品全国免费观看视频软件| 国内精久久久久久久久久人| 在线观看xxxx| 久久这里只有精品视频网| 老司机午夜网站| 精品日本视频| 亚洲精品黄网在线观看| 99精品久久久久| 日产国产欧美视频一区精品| 久久99导航| 伊人春色在线观看| 欧美日韩国产a| 成人片黄网站色大片免费毛片| 中文字幕亚洲精品乱码| 国产精品视频1区| 日色在线视频| 午夜不卡av免费| 国产黑丝在线视频| 日韩精品免费一区二区三区| 欧美一级电影久久| 免费看黄色一级视频| 亚洲欧美一区二区三区国产精品| 中文字幕在线观看第三页| 亚洲成人一品| 91精品国产91久久久久久久久| 国内精品国产成人国产三级| 国产精品第四页| 中文字幕第36页| 国产亚洲欧美日韩在线观看一区二区 | 福利视频在线看| 欧美丝袜第一区| 朝桐光av一区二区三区| 在线成人亚洲| 国产一区二区高清视频| 丰满的护士2在线观看高清| 日韩欧美成人一区二区| 少妇影院在线观看| 国产乱子轮精品视频| 伊人狠狠色丁香综合尤物| 欧美xnxx| 中文字幕亚洲一区二区三区五十路| 日本一本在线观看| 久久精品在这里| 久久精品视频91| 欧美色就是色| 成人久久一区二区| caoporn97在线视频| 欧美一区二区三区视频| 欧美人妻一区二区| 成人午夜在线视频| 欧美大片在线播放| 香蕉视频一区| 国产精品久久久久久久午夜| 9色在线观看| 欧美精品日日鲁夜夜添| 欧美在线视频第一页| 国产成人在线视频播放| av免费看网址| 免费一区二区| 国产一区私人高清影院| 国产不卡在线| 亚洲成在人线av| 色一情一乱一伦| 国产精品网站导航| 色黄视频免费看| 亚洲人www| 日本一区网站| 久久精品免视看国产成人| 欧美精品电影免费在线观看| 天天在线女人的天堂视频| 91福利区一区二区三区| 国内毛片毛片毛片毛片毛片| 成人精品一区二区三区四区| 日本一区二区黄色| 久久影视一区| 国产主播一区二区三区四区| 91成人在线| 欧美高清激情视频| 国产一区精品| 精品人在线二区三区| 亚洲精品中文字幕乱码三区91| 国产精品网站在线播放| 亚洲自拍偷拍精品| 日韩av一区二| 国产精品久久久久9999爆乳| 国产一区二区三区电影在线观看 | 久久成人免费观看| 久久中文字幕av| 精品在线视频一区二区| 久久69成人| 538国产精品视频一区二区| 91电影在线播放| 亚洲国产一区二区三区四区| 91亚洲视频在线观看| 欧美日韩国产页| 1024手机在线视频| 欧美激情一区二区三区不卡 | 亚洲天堂免费在线观看视频| 亚洲国产精品自拍视频| 国内欧美视频一区二区| 国产精品视频一区二区三区四区五区| 88国产精品视频一区二区三区| 欧洲成人一区二区| 精品亚洲免a| 91久久中文字幕| 日本精品网站| 日av在线播放中文不卡| av岛国在线| 欧美成人免费一级人片100| 高清福利在线观看| 国产视频欧美视频| 欧美性猛交 xxxx| 91精品综合久久久久久| 中文字幕av网站| 色美美综合视频| 91视频免费网址| 亚洲成av人片一区二区梦乃| 亚洲AV成人无码精电影在线| 久久久久久亚洲综合影院红桃| 日韩www视频| 成年人国产精品| xxxwww国产| 国产成都精品91一区二区三| 免费精品99久久国产综合精品应用| 久久亚洲风情| 爱福利视频一区二区| 999亚洲国产精| av在线播放亚洲| 亚洲经典在线| 精品无码国模私拍视频| 欧美日韩国产亚洲一区| 成人国产在线看| 欧美色图麻豆| 久久av高潮av| 尹人成人综合网| 青青青青草视频| 最新日韩av| 92看片淫黄大片一级| 国产精品一区亚洲| 男人的天堂99| 日韩激情一二三区| 日韩一级理论片| 日韩精品视频网| 美女网站色免费| 国内欧美视频一区二区| 色哟哟免费视频| 成人一区二区在线观看| 日本一区二区在线观看视频| 成人av先锋影音| 9.1成人看片免费版| 国产欧美日韩麻豆91| 99成人在线观看| 亚洲精品水蜜桃| 男人天堂中文字幕| 欧美性猛交xxxx偷拍洗澡| 国产字幕在线观看| 在线播放亚洲一区| 国产91绿帽单男绿奴| 日韩av在线一区| av在线资源站| 欧美精品在线免费播放| 2020国产在线| 国产精品久久久久久久av大片| 日韩国产大片| 国产精品亚洲不卡a| 久久99国产精一区二区三区| 一区二区三区av| 一区久久精品| 国内自拍视频网| 国产91丝袜在线18| 日本高清www| 综合婷婷亚洲小说| 国产无码精品在线播放| 欧美在线一区二区三区| 99久久久国产精品无码网爆| 日韩av一区二区在线| 日本在线观看视频| 久久久久久久久国产精品| 黑人巨大精品欧美一区二区桃花岛| 国产主播喷水一区二区| 红杏一区二区三区| 亚洲午夜久久久影院伊人| 尹人成人综合网| 最新av免费在线观看| 97久久超碰国产精品电影| 人与动物性xxxx| 黄色精品在线看| 国产精品一区二区免费视频| 日韩成人av在线| 成人日批视频| 国产精品久久久久久av下载红粉 | 亚洲国产精品久久久久久| a天堂中文在线| 97视频在线观看网址| 成人黄色91| 秋霞在线观看一区二区三区| 国产精品www.| 免费看黄色一级大片| 不卡欧美aaaaa| 欧美黄色aaa| 欧美色中文字幕| 日本韩国精品一区二区| 欧美成人免费va影院高清| 小明成人免费视频一区| 精品无人区一区二区三区| 欧美在线网址| av污在线观看| 久久久综合精品| 国产黄色片视频| 日韩欧美一区电影| 美女羞羞视频在线观看| 国产成人一区二区三区小说| 久久夜色电影| 人妻无码久久一区二区三区免费| 国内精品伊人久久久久av影院 | 国产裸体视频网站| 亚洲三级电影网站| 91禁在线观看| 日韩中文字幕在线| 素人一区二区三区| 欧美日韩在线精品| 久久不射中文字幕| 日韩片在线观看| 欧美日韩国产精品一区二区不卡中文 | 日本成人三级电影| 久久riav| 亚洲一区二区三区高清| 性久久久久久久久久久| 亚洲成a人v欧美综合天堂| 成人免费公开视频| 久久久久久久久久久网站| 一区二区三区欧洲区| 日本大胆人体视频| 国产麻豆精品久久一二三| 久久人妻无码aⅴ毛片a片app| 欧美日韩一区二区三区免费看| 成人免费高清在线播放| 国产精品久久久久7777婷婷| 成人在线免费视频观看| 日本中文字幕二区| 亚洲视频你懂的| 性一交一乱一精一晶| 欧美精品video| 美腿丝袜亚洲图片| 欧美日韩亚洲一| 欧美国产日韩一二三区| 中文字幕一区二区在线视频| 日韩小视频网址| av日韩一区| 国产xxxx振车| 91在线精品一区二区三区| 欧美一区二区三区不卡视频| 国产午夜精品免费一区二区三区 | 国产精品亚洲综合一区在线观看| 久久r这里只有精品| 亚洲精品一区在线观看| 正在播放日韩精品| 日韩资源av在线| 久久99国产精品免费| 久久久久亚洲AV成人| 亚洲激情视频在线播放| 国模一区二区| 中文字幕一区二区三区四区五区| 国产成人自拍在线| 高清乱码免费看污| 久久人体大胆视频| 鲁大师精品99久久久| 欧美性猛交久久久乱大交小说| 日本一区二区免费在线观看视频 | www.亚洲一二| 免费在线激情视频| 亚洲女人的天堂| 亚洲av成人无码网天堂| 国产伦精品一区二区三区精品视频| 自拍偷拍欧美专区| 日本xxx在线播放| 欧美精品色综合| 中文在线最新版地址| 一本色道久久综合亚洲精品婷婷| 国产成人福利片| 性久久久久久久久久久久久久| 日韩中文欧美| 麻豆精品国产传媒| 国产调教视频在线观看| 成人一区二区电影| 999亚洲国产精| 韩国一级黄色录像| 日韩精品在线视频美女| 96视频在线观看欧美| 欧美精品一区免费| 亚洲美女在线国产| 国自产拍在线网站网址视频|