終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」
「災(zāi)難性遺忘」,是神經(jīng)網(wǎng)絡(luò)最根深蒂固的毛病之一,比如:
· 剛學(xué)會減法,就忘記了以前學(xué)到的加法;
· 切換到一個新游戲,模型在前一游戲的得分就會掉到隨機(jī)水平;
· 微調(diào)大模型,常出現(xiàn)「風(fēng)格漂移」與「舊知識遺忘」現(xiàn)象
……
它的存在,使得大模型難以像人類那樣持續(xù)學(xué)習(xí)。
在過去十年中,得益于強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法,機(jī)器學(xué)習(xí)取得了驚人的進(jìn)步。
但「災(zāi)難性遺忘」的老毛病并沒有被根治。
為破解這一難題,來自谷歌的研究人員提出了一種持續(xù)學(xué)習(xí)的全新范式——嵌套學(xué)習(xí)(Nested Learning),并且已被NeurIPS 2025接收。

論文地址:https://abehrouz.github.io/files/NL.pdf
「嵌套學(xué)習(xí)」將模型視為一系列更小的、相互嵌套的優(yōu)化問題,每個問題都有其獨(dú)立的內(nèi)部工作流程。
這樣的設(shè)計(jì)旨在緩解甚至完全避免大模型的「災(zāi)難性遺忘」。

破解「災(zāi)難性遺忘」根源
在「持續(xù)學(xué)習(xí)」與「自我改進(jìn)」方面,人類大腦無疑是黃金標(biāo)準(zhǔn)。
它通過「神經(jīng)可塑性」不斷重構(gòu)自身結(jié)構(gòu),以應(yīng)對新的經(jīng)驗(yàn)、記憶與學(xué)習(xí)任務(wù)。
缺乏這種能力的人,會陷入類似「順行性遺忘」的狀態(tài)——只能依賴即時情境而無法積累知識。
當(dāng)前的大模型同樣存在類似局限:
它們的知識要么局限于輸入窗口的即時上下文,要么被固定在預(yù)訓(xùn)練階段學(xué)到的靜態(tài)信息中。
這正是大模型出現(xiàn)「災(zāi)難性遺忘」的根源——在學(xué)習(xí)新任務(wù)時會犧牲對舊任務(wù)的掌握能力。
這也是長期困擾機(jī)器學(xué)習(xí)的核心問題。
簡單地不斷用新數(shù)據(jù)更新模型參數(shù)的方法,往往會導(dǎo)致「災(zāi)難性遺忘」。
研究者通常通過修改網(wǎng)絡(luò)結(jié)構(gòu)(Architecture Tweaks)或優(yōu)化算法(Optimization Rules)來緩解這種問題。
然而這樣做,長期存在一個誤區(qū):我們一直將模型結(jié)構(gòu)(網(wǎng)絡(luò)架構(gòu))與優(yōu)化算法視作兩個獨(dú)立的部分。
這阻礙了統(tǒng)一且高效學(xué)習(xí)系統(tǒng)的構(gòu)建。
在論文中,研究人員提出了「嵌套學(xué)習(xí)」,打破了結(jié)構(gòu)與算法的界限,以彌合二者之間的鴻溝。
也就是說「嵌套學(xué)習(xí)」不再將機(jī)器學(xué)習(xí)模型視作一種單一、連續(xù)的過程,而是一個由多層相互關(guān)聯(lián)的優(yōu)化問題組成的系統(tǒng),這些問題同時進(jìn)行優(yōu)化。
研究人員認(rèn)為,「模型結(jié)構(gòu)」與「訓(xùn)練規(guī)則」本質(zhì)上是同一概念,只是處于不同的「優(yōu)化層級」上,每個層級都有獨(dú)立的信息流動與更新速率。
通過識別這種內(nèi)在結(jié)構(gòu),使得我們能夠構(gòu)建更深層的學(xué)習(xí)組件,從而解決像「災(zāi)難性遺忘」這類長期難題。
為了驗(yàn)證這一理論假設(shè),研究人員提出了一個概念驗(yàn)證型的自我修正架構(gòu),命名為「Hope(希望)」。
該模型在語言建模任務(wù)中表現(xiàn)出色,并在長上下文記憶管理上優(yōu)于當(dāng)前最先進(jìn)的模型。
嵌套學(xué)習(xí)的新范式
在嵌套學(xué)習(xí)的框架下,一個復(fù)雜的機(jī)器學(xué)習(xí)模型,是由多個一致且相互連接的優(yōu)化問題組成的系統(tǒng)。
這些優(yōu)化問題可以是層層嵌套的,也可以并行運(yùn)行。

每個內(nèi)部優(yōu)化子問題,都有自己獨(dú)立的信息,即其學(xué)習(xí)所依賴的信息集合。
這一視角意味著:現(xiàn)有的深度學(xué)習(xí)方法,從本質(zhì)上是在壓縮其內(nèi)部信息流。
嵌套學(xué)習(xí)允許我們設(shè)計(jì)出具備更深計(jì)算深度的學(xué)習(xí)組件。
為了說明這一范式,研究人員以「聯(lián)想記憶」為例,這是一種能夠通過一個刺激喚起另一個記憶的能力,就像我們看到一張臉就想起一個名字。
研究人員推論,在訓(xùn)練過程中,尤其是「反向傳播」階段,可以被建模為一種聯(lián)想記憶。該模型學(xué)習(xí)將數(shù)據(jù)點(diǎn)映射到其對應(yīng)的局部誤差值,該局部誤差值衡量了該數(shù)據(jù)點(diǎn)的「驚奇度」或「意外性」。
根據(jù)前人研究,研究人員發(fā)現(xiàn)關(guān)鍵的網(wǎng)絡(luò)結(jié)構(gòu)組件,比如Transformer模型的「注意力機(jī)制」,也可形式化為簡單的聯(lián)想記憶模塊,用于學(xué)習(xí)序列中各個token之間的映射關(guān)系。

如上圖所示,大腦中統(tǒng)一且可重用的結(jié)構(gòu)以及多時間尺度的更新是人類持續(xù)學(xué)習(xí)的關(guān)鍵組成部分。
嵌套學(xué)習(xí)允許大腦的每個組成部分進(jìn)行多時間尺度的更新,同時表明諸如Transformer等眾所周知的架構(gòu),實(shí)際上是具有不同更新頻率的線性層。
嵌套學(xué)習(xí)模型中的統(tǒng)一結(jié)構(gòu)與多頻率更新機(jī)制,與人腦的神經(jīng)波動與神經(jīng)可塑性結(jié)構(gòu)十分相似。
它使我們能夠在人工模型中定義「多時間尺度更新」:每個學(xué)習(xí)組件可在不同頻率下更新參數(shù)。
通過定義「更新頻率」,即每個組件參數(shù)被調(diào)整的頻率,我們可以將這些優(yōu)化問題組織成有序的層級結(jié)構(gòu)。
這一結(jié)構(gòu)正是嵌套學(xué)習(xí)范式的核心。
嵌套學(xué)習(xí)的應(yīng)用
嵌套學(xué)習(xí)視角,為我們提供了改進(jìn)現(xiàn)有算法和架構(gòu)的原則性方法:
深度優(yōu)化器(Deep Optimizers)
嵌套學(xué)習(xí)將優(yōu)化器(Optimizer,例如基于動量的優(yōu)化器)視為一種聯(lián)想記憶模塊。
這使我們能從聯(lián)想記憶的角度重新設(shè)計(jì)優(yōu)化算法。
傳統(tǒng)優(yōu)化器通常依賴「點(diǎn)積相似度」來衡量樣本間相似性,但這一機(jī)制無法考慮樣本間的復(fù)雜關(guān)系。
通過將優(yōu)化目標(biāo)改為標(biāo)準(zhǔn)損失函數(shù),研究人員提出了新的動量更新公式,使優(yōu)化過程對不完美數(shù)據(jù)更具魯棒性。
連續(xù)記憶系統(tǒng)(Continuum Memory Systems)
在標(biāo)準(zhǔn)的Transformer模型中,序列建模層承擔(dān)短期記憶,保存當(dāng)前上下文信息;而前饋神經(jīng)網(wǎng)絡(luò)層則充當(dāng)長期記憶,存儲訓(xùn)練前的知識。
嵌套學(xué)習(xí)擴(kuò)展了這一思想,提出「連續(xù)記憶系統(tǒng)」,這是一種由多個模塊組成的記憶譜系,每個模塊以不同頻率進(jìn)行更新,這為持續(xù)學(xué)習(xí)創(chuàng)建了一個更加豐富、高效的記憶系統(tǒng)。
Hope:具備連續(xù)記憶的自我修正架構(gòu)
研究人員基于以上嵌套學(xué)習(xí)原則設(shè)計(jì)了「Hope」模型,它是「Titans架構(gòu)」的改進(jìn)版本。
Titans架構(gòu)是一種長期記憶機(jī)制,會根據(jù)記憶的「驚奇度」來優(yōu)先保留信息。
但它僅支持兩層參數(shù)更新,因此只能實(shí)現(xiàn)一階的「上下文內(nèi)學(xué)習(xí)」。

上圖比較了Hope與Transformers的架構(gòu)主干。
相比之下,Hope是一種可自我修改的遞歸架構(gòu),能實(shí)現(xiàn)無限層級的上下文內(nèi)學(xué)習(xí)。
它還結(jié)合了連續(xù)記憶系統(tǒng)(CMS),能夠擴(kuò)展到更大的上下文窗口。
換言之,Hope可以通過自指過程優(yōu)化自身記憶,形成具有無限嵌套學(xué)習(xí)層級的架構(gòu)。
研究人員進(jìn)行了多組實(shí)驗(yàn),來評估深度優(yōu)化器與Hope架構(gòu)在語言建模、長上下文推理、持續(xù)學(xué)習(xí)及知識整合等任務(wù)上的表現(xiàn)。
實(shí)驗(yàn)結(jié)果顯示:
在常用的語言建模與常識推理任務(wù)上,Hope相較現(xiàn)代遞歸模型與標(biāo)準(zhǔn)Transformer模型展現(xiàn)出更低的困惑度與更高的準(zhǔn)確率。

在長上下文任務(wù)中,Hope與Titans模型均顯著優(yōu)于TTT與Mamba2,證明連續(xù)記憶系統(tǒng)能更高效地處理超長序列信息。

Hope框架在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)優(yōu)于現(xiàn)有模型,印證了當(dāng)架構(gòu)與算法被統(tǒng)一后,學(xué)習(xí)系統(tǒng)可以變得更具表現(xiàn)力、更高效、更具自我改進(jìn)能力。
這意味著,我們對深度學(xué)習(xí)的理解邁出了新的一步。
通過將「模型結(jié)構(gòu)」與「優(yōu)化過程」統(tǒng)一為一個連貫的、層層嵌套的優(yōu)化系統(tǒng),Hope框架為模型設(shè)計(jì)提供了一種新范式。
這一發(fā)現(xiàn),為彌合當(dāng)前大模型遺忘特性與人腦持續(xù)學(xué)習(xí)能力之間的差距奠定了堅(jiān)實(shí)基礎(chǔ),或許將有助于破解大模型「災(zāi)難性遺忘」的根源性問題。
作者介紹
Peilin Zhong

Peilin Zhong
Peilin Zhong是谷歌紐約(Google NYC)算法與優(yōu)化團(tuán)隊(duì)的一名研究科學(xué)家,該團(tuán)隊(duì)由Vahab Mirrokni領(lǐng)導(dǎo)。
他的博士畢業(yè)于哥倫比亞大學(xué),師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業(yè)于清華大學(xué)交叉信息研究院(姚班)。
Peilin Zhong致力于理論計(jì)算機(jī)科學(xué),尤其側(cè)重于算法的設(shè)計(jì)與分析。他的具體研究方向有并行與大規(guī)模并行算法、Sketching算法、流式算法、圖算法、機(jī)器學(xué)習(xí)、高維幾何、度量嵌入等。
































