精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型的“大腦容量”有多大?科學家用3.6比特解開了這個秘密 精華

發(fā)布于 2025-6-16 00:23
瀏覽
0收藏

你有沒有想過,當ChatGPT回答你的問題時,它的“大腦”里到底裝了多少東西?最近,來自Meta、谷歌DeepMind、康奈爾大學等機構的研究人員發(fā)表了一項突破性研究,首次精確測量出了大語言模型的“記憶容量”。這項研究不僅揭示了AI學習的奧秘,還解釋了許多我們?nèi)粘J褂弥杏龅降默F(xiàn)象。

什么是模型的“記憶”?

想象一下你在準備考試。有些知識你是真正理解的,比如數(shù)學公式的推導原理,遇到新題目時你能靈活運用;而有些內(nèi)容你只是死記硬背,比如某些特定的歷史日期或化學方程式,只能原樣復述。

大語言模型也是如此——它既會“理解”語言的一般規(guī)律,也會“死記硬背”訓練數(shù)據(jù)中的具體內(nèi)容。

研究人員將模型的記憶分為兩種:

?一種是“有意記憶”(generalization),就像我們理解數(shù)學原理一樣,模型學會了語言的通用規(guī)律,能夠回答從未見過的問題;

?另一種是“無意記憶”(unintended memorization),就像死記硬背一樣,模型直接存儲了訓練數(shù)據(jù)的具體片段。

這種區(qū)分非常重要。如果一個模型能回答“2的100次方等于多少”,這可能并不意味著它記住了這個具體的數(shù)學題,而是它學會了數(shù)學運算的一般方法。但如果它能一字不差地背出某本小說的片段,那就是真正的“死記硬背”了。

3.6比特的秘密

大模型的“大腦容量”有多大?科學家用3.6比特解開了這個秘密-AI.x社區(qū)

經(jīng)過大量實驗,研究人員發(fā)現(xiàn)了一個規(guī)律:GPT系列模型的每個參數(shù)大約能存儲3.6比特的信息。這個數(shù)字聽起來很抽象,讓我們用一個生活化的比喻來理解。

如果把模型參數(shù)比作書架上的格子,那么每個格子大約能裝下3.6比特的“知識碎片”。一個擁有10億參數(shù)的大模型,理論上最多能存儲約36億比特的具體信息,大概相當于450MB的數(shù)據(jù)——這大約是一部電影的十分之一大小。

有趣的是,研究人員還測試了精度對容量的影響。他們發(fā)現(xiàn),從半精度(bfloat16)提升到全精度(float32),模型的存儲容量只從3.51比特增加到3.83比特,遠小于理論上的2倍提升。這說明大部分額外的精度并沒有用于原始信息存儲,而是用于其他計算過程。

從死記硬背到融會貫通

更有意思的一個發(fā)現(xiàn)是,研究人員發(fā)現(xiàn)了模型學習的一個奇妙現(xiàn)象,類似于我們觀察到的“學霸效應”。

想象一個學生在學習過程中的變化:剛開始面對有限的題目時,他只能死記硬背每道題的答案;但當學習材料增加到一定程度后,他開始理解背后的原理,不再需要死記每個具體案例,而是能夠舉一反三。

大語言模型也經(jīng)歷著同樣的過程。研究人員通過訓練數(shù)百個不同規(guī)模的模型,從50萬參數(shù)到15億參數(shù),觀察了這個變化過程。當訓練數(shù)據(jù)較少時,模型會盡力記住每個具體的句子和段落;但當數(shù)據(jù)量超過模型的“記憶容量”后,模型開始“開竅”——它不再死記硬背具體內(nèi)容,而是學會了語言的普遍規(guī)律。

這個轉折點被研究人員稱為“grokking”時刻,就像學生突然開竅的那一瞬間。在這個時刻之后,模型的“死記硬背”能力下降,但“舉一反三”的能力大幅提升。研究發(fā)現(xiàn),這個轉折點恰好出現(xiàn)在數(shù)據(jù)集大小超過模型容量的時候。

AI學習中的神奇拐點

大模型的“大腦容量”有多大?科學家用3.6比特解開了這個秘密-AI.x社區(qū)

研究人員還觀察到了一個被稱為“雙下降”(double descent)的奇怪現(xiàn)象。這就像一個學生的學習曲線:剛開始時成績隨著學習時間增加而提高,但到了某個點后,成績可能暫時下降(因為開始接觸更難的內(nèi)容),然后又開始上升并達到新高度。

在AI模型中,當訓練數(shù)據(jù)量剛好等于模型容量時,模型的測試表現(xiàn)會出現(xiàn)一個明顯的峰值,然后下降,接著又開始上升。研究人員發(fā)現(xiàn),這個現(xiàn)象的根本原因是:當數(shù)據(jù)量超過模型容量時,模型被迫從個體記憶轉向模式識別,開始真正“理解”數(shù)據(jù)的內(nèi)在規(guī)律。

這個發(fā)現(xiàn)為理解AI的學習過程提供了全新的視角。之前人們一直困惑為什么會出現(xiàn)雙下降現(xiàn)象,現(xiàn)在我們知道,這其實是AI從“死記硬背”向“融會貫通”轉變的標志。

為什么ChatGPT很難被“套話”?

這項研究還解釋了一個實際問題:為什么我們很難從ChatGPT等大模型中"套出"訓練數(shù)據(jù)的原始內(nèi)容?

答案在于訓練數(shù)據(jù)的規(guī)模。研究人員建立了一個數(shù)學模型來預測“成員推理攻擊”(判斷某段文字是否在訓練數(shù)據(jù)中出現(xiàn)過)的成功率。他們發(fā)現(xiàn),這個成功率遵循一個S型曲線:當數(shù)據(jù)量遠小于模型容量時,攻擊幾乎百分之百成功;當數(shù)據(jù)量遠大于模型容量時,攻擊成功率接近隨機猜測的50%。

現(xiàn)在的大模型都使用了海量的訓練數(shù)據(jù)——遠遠超過了模型的記憶容量。比如某個80億參數(shù)的模型被訓練在15萬億個token上,按照每個token平均4個字節(jié)計算,這相當于約60TB的數(shù)據(jù),是模型容量的數(shù)千倍。

就像一個學生面對無窮無盡的習題集,他不可能記住每道題的具體內(nèi)容,只能掌握解題的一般方法。研究人員的預測模型顯示,按照目前的訓練規(guī)模,想要從主流大模型中進行成員推理攻擊幾乎是不可能的,成功率接近50%(即隨機猜測的水平)。

哪些內(nèi)容最容易被“死記”?

大模型的“大腦容量”有多大?科學家用3.6比特解開了這個秘密-AI.x社區(qū)

研究發(fā)現(xiàn):模型最容易“死記硬背”的是那些包含稀有詞匯的文本,特別是非英語內(nèi)容。

研究人員使用TF-IDF(詞頻-逆文檔頻率)來衡量文本的稀有程度。就像我們更容易記住奇特的事物一樣,模型也更傾向于記住那些在訓練數(shù)據(jù)中很少見的內(nèi)容。他們分析了一個2000萬參數(shù)的模型,發(fā)現(xiàn)在最容易被模型記住的20個文本片段中,除了3個之外,其余都包含非英語詞匯,主要是日語、中文、希伯來語和希臘語。

最極端的例子是一個包含日語詞匯的序列,模型只需要看到一個日語字符"囚",就能完整地生成整個序列。這說明稀有內(nèi)容確實更容易被模型“死記硬背”。

這個發(fā)現(xiàn)提醒我們,雖然模型整體上很難被“套話”,但對于一些特殊的、稀有的內(nèi)容,特別是少數(shù)語言的文本,我們?nèi)匀恍枰3志琛?/p>

用隨機數(shù)據(jù)驗證理論

為了驗證他們的理論,研究人員還進行了一個巧妙的實驗:他們讓模型學習完全隨機的比特序列。由于這些序列完全隨機,模型無法從中學到任何“規(guī)律”,只能純粹地死記硬背。

在這個實驗中,他們訓練了從50萬到15億參數(shù)的各種模型,讓它們學習不同長度的隨機序列。結果證實了他們的理論:每個參數(shù)確實能存儲約3.64比特的信息,而且當數(shù)據(jù)量超過模型容量時,記憶效果就達到了平臺期,無法再提升。

這個實驗特別重要,因為它排除了“理解”和“泛化”的影響,純粹測量了模型的原始存儲能力。結果與在真實文本上的實驗高度一致,證明了理論的可靠性。

不同模型架構的容量差異

研究人員還測試了不同模型架構對容量的影響。他們發(fā)現(xiàn),模型的層數(shù)和寬度都會影響容量,但影響程度不同。

通過對比1層到8層、隱藏維度從32到256的各種配置,他們發(fā)現(xiàn)寬度的影響比深度更明顯。這為模型設計提供了實用的指導:如果目標是最大化信息存儲容量,增加模型寬度可能比增加深度更有效。

預測大模型的行為

基于這些發(fā)現(xiàn),研究人員建立了一個預測模型,能夠根據(jù)模型大小和數(shù)據(jù)集規(guī)模預測成員推理攻擊的成功率。他們用這個模型預測了GPT-2系列模型的表現(xiàn),并通過實際實驗驗證了預測的準確性。

預測結果顯示,要讓一個1.25億參數(shù)的GPT-2模型的成員推理F1分數(shù)達到0.95(幾乎完美),需要將訓練數(shù)據(jù)限制在約150萬個樣本;而要降到0.55(接近隨機猜測),需要約1.7億個樣本。實際實驗結果與預測值的誤差在1-2%以內(nèi),證明了模型的可靠性。

這項研究對AI的安全性和隱私保護具有重要意義。它告訴我們,現(xiàn)代大模型由于使用了遠超其容量的訓練數(shù)據(jù),在隱私保護方面表現(xiàn)得比我們想象的要好。

但同時,研究也提醒我們需要特別關注稀有內(nèi)容和少數(shù)語言文本的隱私保護。這些內(nèi)容更容易被模型記住,可能面臨更高的隱私泄露風險。

這項研究不僅幫助我們理解了大語言模型的工作原理,也為未來的模型設計提供了重要指導。

現(xiàn)在我們知道,一個模型的“記憶容量”是有限的。如果我們想要模型更好地理解和推理,就應該用足夠多的數(shù)據(jù)來“撐滿”這個容量,迫使模型從“死記硬背”轉向“融會貫通”。這解釋了為什么現(xiàn)在的大模型需要如此龐大的訓練數(shù)據(jù)——正是這些海量數(shù)據(jù),讓模型從一個“背書機器”進化成了真正能夠理解和創(chuàng)造的“智能助手”。

研究還為模型訓練提供了實用的指導原則:當你的數(shù)據(jù)量達到模型容量的100倍以上時,模型就會進入“泛化模式”,主要學習規(guī)律而非記憶具體內(nèi)容。這為訓練數(shù)據(jù)的規(guī)模提供了科學的參考標準。

本文轉載自???芝士AI吃魚??,作者:芝士AI吃魚

收藏
回復
舉報
回復
相關推薦
欧美一区二粉嫩精品国产一线天| 欧美一级高清大全免费观看| 日韩激情久久| 国产精品综合在线| 激情欧美国产欧美| 亚洲欧洲激情在线| 宇都宫紫苑在线播放| 高清精品在线| 中文字幕一区在线观看| 痴汉一区二区三区| 波多野结衣电车| 黄色成人在线网站| 一区二区三区亚洲| 欧美激情一区二区三区p站| 天天综合网站| 亚洲一区免费视频| 亚洲第一导航| 亚洲av成人精品毛片| 久草这里只有精品视频| 国模私拍一区二区三区| 国产又粗又猛又爽又黄的视频小说| 97久久综合区小说区图片区| 欧亚一区二区三区| 久草视频国产在线| 老司机在线看片网av| 91色porny| 99九九视频| 中文字幕 国产| 99国产精品视频免费观看一公开| 久久精品成人欧美大片| 欧洲女同同性吃奶| 99久久香蕉| 91精品国产91热久久久做人人| 国产性xxxx18免费观看视频| 日本在线视频www鲁啊鲁| 欧美激情一区二区三区不卡| 国产一区二区三区高清视频| 国产精品一区二区黑人巨大| 七七婷婷婷婷精品国产| 欧美最猛性xxxxx亚洲精品| 久久久精品视频在线| 欧美国产美女| 一区二区在线视频播放| 一区二区黄色片| 亚洲黄色录像| 日韩成人在线电影网| 第一页在线视频| 精品一区二区三区免费看| 欧美综合视频在线观看| 欧美 国产 日本| av资源在线| 亚洲男人的天堂一区二区| 亚洲精品不卡| 午夜视频在线免费观看| 欧美激情一区不卡| 日韩欧美精品在线不卡| 国产精品秘入口| 国产欧美一区二区三区在线看蜜臀| 久久久久一区二区| 天天干天天干天天干| 成人白浆超碰人人人人| 国产精品青青草| 熟妇人妻系列aⅴ无码专区友真希| 国产成人高清视频| 春色成人在线视频| 手机看片一区二区| 2022国产精品视频| 欧洲亚洲一区| www日韩tube| 中文字幕在线观看不卡| 日韩视频 中文字幕| 在线免费观看污| 亚洲国产另类av| 毛片在线播放视频| 另类激情视频| 欧美日韩久久久| 日本在线视频播放| 女同一区二区三区| 亚洲毛茸茸少妇高潮呻吟| 精品人妻互换一区二区三区| 波多野结衣一区| 久久影院资源网| 亚洲欧美在线观看视频| 另类天堂av| 91精品在线国产| 亚洲国产精品二区| 久久女同互慰一区二区三区| 亚洲视频电影| 欧美日韩经典丝袜| 色呦呦一区二区三区| 色噜噜狠狠永久免费| 亚洲一二三区视频| 亚洲午夜未删减在线观看| 91制片厂在线| 日韩一级免费| 国产欧美在线观看| 日本黄色一区二区三区| 国产日韩在线不卡| 青青草综合视频| 性欧美18一19sex性欧美| 在线播放91灌醉迷j高跟美女 | 一本色道婷婷久久欧美| 亚洲图片88| 精品久久久久久久中文字幕 | 99亚洲精品视频| 爱草tv视频在线观看992| 欧洲生活片亚洲生活在线观看| 精品人妻一区二区三区免费| 制服丝袜日韩| 欧美激情一二三| 中文字幕视频一区二区| aa级大片欧美| 蜜臀av性久久久久蜜臀av| 婷婷六月国产精品久久不卡| 欧美不卡视频一区| 欧美福利在线视频| 亚洲中字在线| 99精品国产高清一区二区| 99青草视频在线播放视| 精品久久久久久久久中文字幕| 国内av免费观看| 不卡av一区二区| 日本精品久久久| 丰满人妻妇伦又伦精品国产| 中文字幕一区二区三区不卡| 天天摸天天碰天天添| 成人激情自拍| 久久99亚洲热视| 国产有码在线观看| 国产色婷婷亚洲99精品小说| 亚洲不卡中文字幕无码| 在线视频亚洲欧美中文| 久久精品2019中文字幕| www.亚洲激情| 久久精品一区二区| 国模无码视频一区二区三区| silk一区二区三区精品视频| 欧美成人网在线| 国产乱淫av片免费| 国产精品久久久久永久免费观看| 日本三区在线观看| 天堂俺去俺来也www久久婷婷| 欧美激情第1页| 亚洲成人第一区| 亚洲影视在线播放| 波多野结衣电影免费观看| 亚洲天天影视网| 91色在线观看| 在线播放免费av| 日韩三级免费观看| 九九在线观看视频| 国产成人精品在线看| 国产女教师bbwbbwbbw| 欧美日韩黄网站| 久久97久久97精品免视看| wwwxxxx国产| 亚洲愉拍自拍另类高清精品| 95视频在线观看| 国产一区91| 日韩精品一线二线三线| 亚洲a∨精品一区二区三区导航| 亚洲日本中文字幕| 中文字幕视频免费观看| 1区2区3区国产精品| 日本黄色一级网站| 黄色综合网站| 麻豆av一区| 成人视屏在线观看| 精品国产一区二区三区久久久狼 | 亚洲视频电影图片偷拍一区| 免费又黄又爽又猛大片午夜| 中文字幕 久热精品 视频在线| 怡红院亚洲色图| 欧美福利影院| 蜜桃av久久久亚洲精品| 国产精品久久久久久吹潮| 精品国产一区二区三区久久久狼| 丰满少妇高潮在线观看| 欧美午夜视频在线观看| 东方伊人免费在线观看| 国产在线观看免费一区| 少妇人妻无码专区视频| 国产精品免费99久久久| 国产美女精彩久久| 岛国毛片av在线| 国产亚洲欧美日韩一区二区| av观看在线免费| 岛国av在线不卡| 中文字幕资源站| 色悠久久久久综合先锋影音下载| 欧美激情视频网址| 久香视频在线观看| 欧美一区二区不卡视频| 色播视频在线播放| 中文字幕欧美激情| 亚洲天堂av网站| 另类小说综合欧美亚洲| 黄网站色视频免费观看| 欧美日韩激情| 国产欧美韩日| 亚洲我射av| 欧美在线视频播放| 图片区小说区亚洲| 亚洲人成免费电影| 亚洲欧美另类视频| 欧美日韩一区中文字幕| 国产偷人妻精品一区| 蜜臀av性久久久久蜜臀aⅴ四虎 | 日本一不卡视频| 大荫蒂性生交片| 日韩电影二区| 免费在线观看91| 哺乳挤奶一区二区三区免费看| 国产精品中文字幕久久久| 精品人人视频| 欧美激情网友自拍| 天天在线视频色| 亚洲欧美在线x视频| 丰满肥臀噗嗤啊x99av| 欧美日韩一二区| 久久久久在线视频| 无码av免费一区二区三区试看 | 免费看污黄网站在线观看| 国产伦精品一区二区三区免费 | 成人免费毛片片v| 午夜一级免费视频| 日韩1区2区日韩1区2区| 1024精品视频| 亚洲人成人一区二区三区| av动漫免费观看| 日韩欧美一区免费| 日本不卡二区高清三区| 无码日韩精品一区二区免费| 国产伦精品一区二区三区高清| 国产一区二区三区黄网站| 国产精品永久免费在线| 蜜桃视频成人m3u8| 日本精品中文字幕| 惠美惠精品网| 国产成人av在线| 成人av三级| 欧洲亚洲免费视频| 婷婷激情一区| 日韩美女主播视频| 在线观看网站免费入口在线观看国内 | 三级欧美韩日大片在线看| 亚洲熟妇无码一区二区三区| 欧美日本二区| av在线免费观看国产| 欧美激情视频一区二区三区免费| 国产人妻互换一区二区| 91成人观看| 国产91在线亚洲| 狠狠综合久久| 国产免费黄色av| 亚欧美中日韩视频| www.欧美日本| 久久久成人网| www.com黄色片| 精品一区二区三区欧美| 91香蕉视频免费看| 国产传媒日韩欧美成人| 野战少妇38p| 久久婷婷综合激情| 亚洲一区二区自偷自拍| 中文字幕av一区二区三区高| 疯狂撞击丝袜人妻| 亚洲永久精品大片| 日韩精品成人在线| 色噜噜狠狠色综合欧洲selulu| 特级西西444www大胆免费看| 欧美日本一道本在线视频| 国产三区在线播放| 亚洲国产成人精品久久| 日本在线视频1区| 中文字幕无线精品亚洲乱码一区 | 国产视频精品久久| 久久韩剧网电视剧| www.超碰在线| 国产精品男人爽免费视频1| 成人久久精品| 久久综合福利| 99精品在线| 欧美大片在线播放| 强制捆绑调教一区二区| 好吊操视频这里只有精品| 久久先锋资源网| 麻豆视频在线免费看| 福利一区福利二区微拍刺激| 国产精品露脸视频| 亚洲大胆人体视频| 岛国大片在线观看| 欧美大片欧美激情性色a∨久久| 天堂资源在线| 亚洲一区二区三区sesese| 日韩中文av| 成人免费看片视频在线观看| 亚洲欧美成人| 女教师高潮黄又色视频| 久久精品人人爽人人爽| 久久97人妻无码一区二区三区| 欧洲生活片亚洲生活在线观看| 亚洲精品国产精品国| 在线播放国产一区二区三区| 俄罗斯一级**毛片在线播放| 国产精品视频在线播放| 日本妇女一区| 日韩视频 中文字幕| 久久精品国产亚洲高清剧情介绍| 国产二级一片内射视频播放| 最新欧美精品一区二区三区| 区一区二在线观看| 欧美精品一区二区在线播放| 求av网址在线观看| 国产成人精品久久亚洲高清不卡| 中文字幕一区图| 中文字幕中文字幕在线中一区高清 | 中文字幕一区二区三区四区在线视频| 成人午夜又粗又硬又大| 成人信息集中地| 在线亚洲人成电影网站色www| 日本免费网站在线观看| 欧美成人黑人xx视频免费观看| 福利一区视频| 日韩精品欧美专区| 亚欧成人精品| 国产麻豆xxxvideo实拍| 亚洲综合一区二区精品导航| 国产又黄又猛又爽| 亚洲人午夜精品免费| 性爽视频在线| 精品中文字幕一区| 国内在线观看一区二区三区| 亚洲一级片免费观看| 综合久久综合久久| 在线亚洲欧美日韩| 中文字幕av一区二区三区谷原希美| 成人教育av| 久久婷婷人人澡人人喊人人爽| 亚洲经典在线| 国产精品无码在线| 精品久久在线播放| 五月婷婷开心中文字幕| 午夜精品一区二区三区av| 波多野结衣欧美| 狠狠干 狠狠操| 91亚洲大成网污www| 久热这里只有精品6| 日韩精品一区二区视频| 亚洲色图官网| 水蜜桃亚洲一二三四在线| 美女任你摸久久| 乱老熟女一区二区三区| 91精品欧美综合在线观看最新| 成人福利片网站| 粉嫩av四季av绯色av第一区| 亚洲二区精品| 久久久久久久久免费看无码| 日本韩国精品一区二区在线观看| 成人高潮成人免费观看| 国产日韩精品在线| 66久久国产| 精品人妻二区中文字幕| 无码av免费一区二区三区试看 | 久久国产精品影视| 精品中文字幕一区二区三区| 97超碰国产精品| 91麻豆免费在线观看| 波多野结衣在线观看视频| 综合国产在线观看| 国产精品777777在线播放| 老司机激情视频| 91美女片黄在线| 一区二区视频免费观看| 欧美老少配视频| 天堂网av成人| 欧美一级小视频| 亚洲一区二区av在线| 免费a级毛片在线观看| 国产精品视频男人的天堂| 欧美视频成人| 99久久人妻无码精品系列| 7777女厕盗摄久久久| а√天堂中文资源在线bt| 四虎永久国产精品| 国产91精品入口| 天天干,天天干| 欧美精品在线免费观看| 人人精品亚洲| 最新免费av网址| 精品欧美一区二区三区| 免费a级人成a大片在线观看| 国产免费一区二区三区| 日本va欧美va欧美va精品| 青娱乐国产在线| 国产亚洲精品一区二区| 日韩一区网站| 亚洲人辣妹窥探嘘嘘| 午夜久久电影网| 国产午夜精品久久久久免费视|