大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密精華

發(fā)布于 2025-6-16 00:23

瀏覽

0收藏

你有沒有想過，當ChatGPT回答你的問題時，它的“大腦”里到底裝了多少東西？最近，來自Meta、谷歌DeepMind、康奈爾大學等機構的研究人員發(fā)表了一項突破性研究，首次精確測量出了大語言模型的“記憶容量”。這項研究不僅揭示了AI學習的奧秘，還解釋了許多我們?nèi)粘Ｊ褂弥杏龅降默F(xiàn)象。

什么是模型的“記憶”？

想象一下你在準備考試。有些知識你是真正理解的，比如數(shù)學公式的推導原理，遇到新題目時你能靈活運用；而有些內(nèi)容你只是死記硬背，比如某些特定的歷史日期或化學方程式，只能原樣復述。

大語言模型也是如此——它既會“理解”語言的一般規(guī)律，也會“死記硬背”訓練數(shù)據(jù)中的具體內(nèi)容。

研究人員將模型的記憶分為兩種：

?一種是“有意記憶”（generalization），就像我們理解數(shù)學原理一樣，模型學會了語言的通用規(guī)律，能夠回答從未見過的問題；

?另一種是“無意記憶”（unintended memorization），就像死記硬背一樣，模型直接存儲了訓練數(shù)據(jù)的具體片段。

這種區(qū)分非常重要。如果一個模型能回答“2的100次方等于多少”，這可能并不意味著它記住了這個具體的數(shù)學題，而是它學會了數(shù)學運算的一般方法。但如果它能一字不差地背出某本小說的片段，那就是真正的“死記硬背”了。

3.6比特的秘密

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密-AI.x社區(qū)

經(jīng)過大量實驗，研究人員發(fā)現(xiàn)了一個規(guī)律：GPT系列模型的每個參數(shù)大約能存儲3.6比特的信息。這個數(shù)字聽起來很抽象，讓我們用一個生活化的比喻來理解。

如果把模型參數(shù)比作書架上的格子，那么每個格子大約能裝下3.6比特的“知識碎片”。一個擁有10億參數(shù)的大模型，理論上最多能存儲約36億比特的具體信息，大概相當于450MB的數(shù)據(jù)——這大約是一部電影的十分之一大小。

有趣的是，研究人員還測試了精度對容量的影響。他們發(fā)現(xiàn)，從半精度（bfloat16）提升到全精度（float32），模型的存儲容量只從3.51比特增加到3.83比特，遠小于理論上的2倍提升。這說明大部分額外的精度并沒有用于原始信息存儲，而是用于其他計算過程。

從死記硬背到融會貫通

更有意思的一個發(fā)現(xiàn)是，研究人員發(fā)現(xiàn)了模型學習的一個奇妙現(xiàn)象，類似于我們觀察到的“學霸效應”。

想象一個學生在學習過程中的變化：剛開始面對有限的題目時，他只能死記硬背每道題的答案；但當學習材料增加到一定程度后，他開始理解背后的原理，不再需要死記每個具體案例，而是能夠舉一反三。

大語言模型也經(jīng)歷著同樣的過程。研究人員通過訓練數(shù)百個不同規(guī)模的模型，從50萬參數(shù)到15億參數(shù)，觀察了這個變化過程。當訓練數(shù)據(jù)較少時，模型會盡力記住每個具體的句子和段落；但當數(shù)據(jù)量超過模型的“記憶容量”后，模型開始“開竅”——它不再死記硬背具體內(nèi)容，而是學會了語言的普遍規(guī)律。

這個轉折點被研究人員稱為“grokking”時刻，就像學生突然開竅的那一瞬間。在這個時刻之后，模型的“死記硬背”能力下降，但“舉一反三”的能力大幅提升。研究發(fā)現(xiàn)，這個轉折點恰好出現(xiàn)在數(shù)據(jù)集大小超過模型容量的時候。

AI學習中的神奇拐點

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密-AI.x社區(qū)

研究人員還觀察到了一個被稱為“雙下降”（double descent）的奇怪現(xiàn)象。這就像一個學生的學習曲線：剛開始時成績隨著學習時間增加而提高，但到了某個點后，成績可能暫時下降（因為開始接觸更難的內(nèi)容），然后又開始上升并達到新高度。

在AI模型中，當訓練數(shù)據(jù)量剛好等于模型容量時，模型的測試表現(xiàn)會出現(xiàn)一個明顯的峰值，然后下降，接著又開始上升。研究人員發(fā)現(xiàn)，這個現(xiàn)象的根本原因是：當數(shù)據(jù)量超過模型容量時，模型被迫從個體記憶轉向模式識別，開始真正“理解”數(shù)據(jù)的內(nèi)在規(guī)律。

這個發(fā)現(xiàn)為理解AI的學習過程提供了全新的視角。之前人們一直困惑為什么會出現(xiàn)雙下降現(xiàn)象，現(xiàn)在我們知道，這其實是AI從“死記硬背”向“融會貫通”轉變的標志。

為什么ChatGPT很難被“套話”？

這項研究還解釋了一個實際問題：為什么我們很難從ChatGPT等大模型中"套出"訓練數(shù)據(jù)的原始內(nèi)容？

答案在于訓練數(shù)據(jù)的規(guī)模。研究人員建立了一個數(shù)學模型來預測“成員推理攻擊”（判斷某段文字是否在訓練數(shù)據(jù)中出現(xiàn)過）的成功率。他們發(fā)現(xiàn)，這個成功率遵循一個S型曲線：當數(shù)據(jù)量遠小于模型容量時，攻擊幾乎百分之百成功；當數(shù)據(jù)量遠大于模型容量時，攻擊成功率接近隨機猜測的50%。

現(xiàn)在的大模型都使用了海量的訓練數(shù)據(jù)——遠遠超過了模型的記憶容量。比如某個80億參數(shù)的模型被訓練在15萬億個token上，按照每個token平均4個字節(jié)計算，這相當于約60TB的數(shù)據(jù)，是模型容量的數(shù)千倍。

就像一個學生面對無窮無盡的習題集，他不可能記住每道題的具體內(nèi)容，只能掌握解題的一般方法。研究人員的預測模型顯示，按照目前的訓練規(guī)模，想要從主流大模型中進行成員推理攻擊幾乎是不可能的，成功率接近50%（即隨機猜測的水平）。

哪些內(nèi)容最容易被“死記”？

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密-AI.x社區(qū)

研究發(fā)現(xiàn)：模型最容易“死記硬背”的是那些包含稀有詞匯的文本，特別是非英語內(nèi)容。

研究人員使用TF-IDF（詞頻-逆文檔頻率）來衡量文本的稀有程度。就像我們更容易記住奇特的事物一樣，模型也更傾向于記住那些在訓練數(shù)據(jù)中很少見的內(nèi)容。他們分析了一個2000萬參數(shù)的模型，發(fā)現(xiàn)在最容易被模型記住的20個文本片段中，除了3個之外，其余都包含非英語詞匯，主要是日語、中文、希伯來語和希臘語。

最極端的例子是一個包含日語詞匯的序列，模型只需要看到一個日語字符"囚"，就能完整地生成整個序列。這說明稀有內(nèi)容確實更容易被模型“死記硬背”。

這個發(fā)現(xiàn)提醒我們，雖然模型整體上很難被“套話”，但對于一些特殊的、稀有的內(nèi)容，特別是少數(shù)語言的文本，我們?nèi)匀恍枰３志琛?/p>

用隨機數(shù)據(jù)驗證理論

為了驗證他們的理論，研究人員還進行了一個巧妙的實驗：他們讓模型學習完全隨機的比特序列。由于這些序列完全隨機，模型無法從中學到任何“規(guī)律”，只能純粹地死記硬背。

在這個實驗中，他們訓練了從50萬到15億參數(shù)的各種模型，讓它們學習不同長度的隨機序列。結果證實了他們的理論：每個參數(shù)確實能存儲約3.64比特的信息，而且當數(shù)據(jù)量超過模型容量時，記憶效果就達到了平臺期，無法再提升。

這個實驗特別重要，因為它排除了“理解”和“泛化”的影響，純粹測量了模型的原始存儲能力。結果與在真實文本上的實驗高度一致，證明了理論的可靠性。

不同模型架構的容量差異

研究人員還測試了不同模型架構對容量的影響。他們發(fā)現(xiàn)，模型的層數(shù)和寬度都會影響容量，但影響程度不同。

通過對比1層到8層、隱藏維度從32到256的各種配置，他們發(fā)現(xiàn)寬度的影響比深度更明顯。這為模型設計提供了實用的指導：如果目標是最大化信息存儲容量，增加模型寬度可能比增加深度更有效。

預測大模型的行為

基于這些發(fā)現(xiàn)，研究人員建立了一個預測模型，能夠根據(jù)模型大小和數(shù)據(jù)集規(guī)模預測成員推理攻擊的成功率。他們用這個模型預測了GPT-2系列模型的表現(xiàn)，并通過實際實驗驗證了預測的準確性。

預測結果顯示，要讓一個1.25億參數(shù)的GPT-2模型的成員推理F1分數(shù)達到0.95（幾乎完美），需要將訓練數(shù)據(jù)限制在約150萬個樣本；而要降到0.55（接近隨機猜測），需要約1.7億個樣本。實際實驗結果與預測值的誤差在1-2%以內(nèi)，證明了模型的可靠性。

這項研究對AI的安全性和隱私保護具有重要意義。它告訴我們，現(xiàn)代大模型由于使用了遠超其容量的訓練數(shù)據(jù)，在隱私保護方面表現(xiàn)得比我們想象的要好。

但同時，研究也提醒我們需要特別關注稀有內(nèi)容和少數(shù)語言文本的隱私保護。這些內(nèi)容更容易被模型記住，可能面臨更高的隱私泄露風險。

這項研究不僅幫助我們理解了大語言模型的工作原理，也為未來的模型設計提供了重要指導。

現(xiàn)在我們知道，一個模型的“記憶容量”是有限的。如果我們想要模型更好地理解和推理，就應該用足夠多的數(shù)據(jù)來“撐滿”這個容量，迫使模型從“死記硬背”轉向“融會貫通”。這解釋了為什么現(xiàn)在的大模型需要如此龐大的訓練數(shù)據(jù)——正是這些海量數(shù)據(jù)，讓模型從一個“背書機器”進化成了真正能夠理解和創(chuàng)造的“智能助手”。

研究還為模型訓練提供了實用的指導原則：當你的數(shù)據(jù)量達到模型容量的100倍以上時，模型就會進入“泛化模式”，主要學習規(guī)律而非記憶具體內(nèi)容。這為訓練數(shù)據(jù)的規(guī)模提供了科學的參考標準。

本文轉載自???芝士AI吃魚??，作者：芝士AI吃魚

標簽

大模型

模型

GPT-2

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密精華

什么是模型的“記憶”？

3.6比特的秘密

從死記硬背到融會貫通

AI學習中的神奇拐點

為什么ChatGPT很難被“套話”？

哪些內(nèi)容最容易被“死記”？

用隨機數(shù)據(jù)驗證理論

不同模型架構的容量差異

預測大模型的行為

目錄

51CTO

51CTO博客

51CTO學堂

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密 精華

什么是模型的“記憶”？

3.6比特的秘密

從死記硬背到融會貫通

AI學習中的神奇拐點

為什么ChatGPT很難被“套話”？

哪些內(nèi)容最容易被“死記”？

用隨機數(shù)據(jù)驗證理論

不同模型架構的容量差異

預測大模型的行為

目錄

大模型的“大腦容量”有多大？科學家用3.6比特解開了這個秘密精華