Nested Learning:LLM的“萬法歸一”?! 原創 精華
Nested Learning
2025年11月,Google Research在NeurIPS會議上發布的Nested Learning論文提出了一個顛覆性的統一理論:
現有的深度學習方法——包括各種神經網絡架構和優化算法——本質上都是同一種數學結構的不同表現形式,這個統一的數學結構就是「嵌套優化問題」。
傳統研究將神經網絡架構(如Transformer、CNN)和訓練算法(如SGD、Adam)視為兩個獨立的研究領域,而Nested Learning揭示了它們的共同本質:
都是在定義和求解不同層級、不同時間尺度的優化問題。這種統一視角不僅是理論上的歸納,更為設計新的學習系統提供了原則性的指導框架。
1.新框架下的新解釋
Nested Learning首先對現有方法進行重新解釋。
1)反向傳播在標準教科書中被描述為計算梯度的鏈式法則應用,但Nested Learning將其重新理解為聯想記憶系統:給定數據點x,反向傳播學習將其映射到對應的梯度?L(x),而梯度的幅度量化了數據的「意外程度」。這一視角揭示了反向傳播的記憶本質,使得可以用記憶系統的設計原則來改進它。
2)優化器的Nested Learning更為明顯。
帶動量的SGD,傳統理解將其視為簡單的公式,但Nested Learning揭示了其兩層嵌套結構:
外層優化問題是更新模型權重θ,依據動量值m進行更新;內層優化問題是更新動量m本身,它通過積累歷史梯度信息來決定自己的值。關鍵認知在于,動量m不是臨時變量,而是通過自己的優化過程學習得到的參數。
更復雜的優化器(如Adam)包含更多嵌套層級:一階動量(梯度的指數移動平均)、二階動量(梯度平方的指數移動平均)和偏差修正項,每增加一層就多了一個在不同時間尺度上運作的記憶組件。
標準Transformer實際上也包含了Nested Learning的影子。
注意力機制充當短期記憶層,每個token都更新,記憶當前上下文窗口內的token關系,具有即時響應能力但容量有限。
前饋網絡充當長期記憶層,僅在訓練階段更新,記憶預訓練階段學到的語言規律和世界知識,更新極慢但容量大。
Nested Learning指出這是一個極端簡化的兩層結構,短期記憶更新太快(每步都變),長期記憶更新太慢(幾乎不變),缺乏能夠平滑過渡的中間層級。

這張圖對比了傳統深度學習和嵌套學習(Nested Learning, NL)兩種不同的視角來理解同一個混合模型。傳統深度學習的局限(左側)在傳統深度學習中,一個混合模型(如RNN + Attention的組合)被視為一個扁平化的計算圖。訓練過程中,只是梯度在整個網絡中反向流動。這種視角存在明顯的局限性:無法清晰地看到RNN內部的循環計算是如何優化的,也看不到Attention機制中Query-Key-Value三者之間的優化關系。整個模型就像一個黑盒
嵌套學習的創新(右側)嵌套學習提出了一個革命性的想法:整個機器學習模型及其訓練過程表示為一組嵌套的優化問題。每個神經學習模塊不僅僅是一個計算單元,它本身就是一個完整的優化器。具體來說,圖中展示了三個層級:Level 1(最外層)對應模型的預訓練階段,在這一層,模型學習最宏觀的參數更新規則。Level 2(中間層)將問題進一步分解,通過兩個并行的梯度流模塊分別處理不同的優化子任務,這對應了Attention機制中的多頭注意力或者RNN中的不同門控機制。Level 3(最內層)繼續細化優化過程,處理最底層的特征表示。每一層都有明確的優化目標函數。
2.技術創新:深度優化器
理解了優化器的記憶本質后,Nested Learning提出用更強大的記憶機制來替換傳統的簡單累積。傳統優化器使用指數移動平均來記憶歷史梯度,這個公式隱含地使用了「點積相似度」來衡量樣本關系。點積是最簡單的相似度度量,但過于粗糙:只考慮向量的線性相關性,對數據尺度敏感,無法建模復雜的非線性關系。
深度優化器用L2回歸目標替代點積。具體而言,給定歷史樣本集合{(x_i, g_i)},其中g_i是樣本x_i對應的梯度,傳統方法計算梯度的加權平均,而深度優化器求解一個優化問題:找到權重更新Δθ,使得對所有歷史樣本,更新后的模型在這些樣本上的預測梯度與實際梯度的L2距離最小。這個優化問題的解不再是簡單的指數移動平均,而是考慮了所有歷史樣本之間關系的最優更新。
這個看似微妙的改變帶來了質的飛躍。優化器變成了模型內部的微型學習者,具有泛化能力,能夠識別哪些歷史經驗與當前情況真正相關,對噪聲數據和標注錯誤更加魯棒。實驗表明,在處理含噪聲的數據集時,深度優化器比標準Adam的訓練穩定性提高約30%,最終損失降低15-20%。
3.技術創新:連續記憶系統(CMS)
CMS是Nested Learning最重要的架構創新,它將Transformer的兩層記憶擴展為多層連續的記憶光譜。CMS由k個前饋神經網絡塊組成,關鍵設計是每個塊以不同的頻率更新其參數。定義基礎更新間隔為C(例如C=10),則塊1每C1=10步更新一次,塊2每C2=100步更新一次,塊3每C3=1000步更新一次,以此類推。
這種設計的工作機制可以通過一個具體例子理解。假設正在訓練一個語言模型,當前已經訓練了5000步:
- 塊1在10步前剛更新過,記憶最近10步看到的訓練樣本模式,捕捉短期趨勢如當前段落的話題和用詞風格;
- 塊2在100步前更新過,記憶最近100步的統計規律,捕捉中期模式如當前文檔的整體風格和領域特征;
- 塊3在1000步前更新過,記憶最近1000步的抽象知識,捕捉跨文檔的語言規律;
- 最低頻的塊k可能10000步才更新一次,存儲整個訓練歷史的核心知識,如通用的語法規則和常識知識。
當處理新輸入時,數據依次通過這k個塊:輸入x首先通過塊1獲得短期上下文,然后通過塊2疊加中期背景,再通過塊3疊加長期知識,最后通過塊k疊加最穩定的知識,最終輸出預測。這種設計解決了持續學習的根本困境——如何在學習新知識時不遺忘舊知識。高頻塊快速適應新數據保持學習能力,低頻塊穩定存儲舊知識防止災難性遺忘,中間塊建立新舊知識之間的橋梁實現平滑過渡。
生物學上的解釋
CMS的設計直接映射了神經科學中的記憶鞏固理論。人腦的工作記憶(秒級)對應CMS的塊1-2,快速更新但容量有限;短期記憶(分鐘到小時)對應塊3-5,需要重復才能鞏固;長期記憶(天到年)對應塊k,極其穩定且容量巨大。
人腦在睡眠時進行記憶重組,將工作記憶中的重要信息轉移到長期記憶,CMS通過不同更新頻率實現了類似機制,只是這個「鞏固」過程是持續發生的,無需顯式的「睡眠」階段。
數學層面的解釋
從數學原理看,CMS的多時間尺度設計對應信號處理中的多尺度分析。將訓練數據流視為時間序列信號,不同時間尺度的模式可以通過不同頻率的采樣來捕捉:
高頻信號(快速變化)需要高頻采樣,對應CMS的高頻更新塊;
低頻信號(緩慢變化)只需低頻采樣,對應CMS的低頻更新塊。
從傅里葉分析的角度,塊1捕捉數據的高頻分量(局部細節),塊k捕捉數據的低頻分量(全局趨勢),中間塊捕捉中頻分量(中等尺度模式)。這種分頻處理避免了單一系統必須同時處理所有尺度信息的困難,是一種「分而治之」的策略。
4.Titans架構:CMS的先驅實踐
在理解Hope架構之前,需要先理解其基礎Titans架構。Titans由Google Research于2024年底提出,是第一個實現「測試時學習」(Learning at Test Time)的長期記憶架構。
傳統模型的所有學習都發生在訓練階段,推理時模型參數完全凍結,但這不符合人類認知——人類在對話過程中會不斷學習和調整。Titans引入了動態更新的神經記憶模塊,允許模型在推理時繼續學習:遇到重要信息時立即存入記憶,后續處理時可以檢索和利用這些動態記憶。
Titans的核心創新是用梯度幅度來衡量信息的重要性。對輸入序列中的每個token,計算其損失函數的梯度,定義驚奇度為梯度的范數。
梯度越大,說明該token越「出乎意料」,模型就越積極地將其存入長期記憶。這種選擇性存儲比無差別記憶所有信息高效得多。舉例來說,在閱讀醫療病歷時,常見癥狀如「發燒」「咳嗽」的梯度很小因為模型見過太多次,而罕見的遺傳病名稱梯度很大,模型會優先記住它。
Titans由三個模塊構成:
- 核心模塊使用滑動窗口注意力機制處理最近幾千個token,充當短期記憶,精確但容量有限;
- 長期記憶模塊是神經記憶網絡,存儲久遠的歷史信息,容量大但需要動態學習如何存儲;
- 持久記憶模塊包含任務特定的靜態參數,類似人類的程序性記憶。
Titans提出了三種整合方式:MAC(Memory as Context)將記憶作為額外上下文輸入注意力機制,靈活但增加計算負擔;MAG(Memory as Gating)通過門控函數混合短期和長期記憶,能精確控制影響程度;MAL(Memory as Layer)先通過記憶層再通過注意力層,實現簡單但靈活性最低。
盡管Titans實現了測試時學習,但只有兩層參數更新:快速更新的注意力權重(每步更新)和慢速更新的FFN權重(訓練時更新,推理時可選更新)。這種兩層結構只能實現「一階上下文學習」——根據當前上下文直接做預測,無法做「學習如何學習」這種更高階的元學習。
5.Hope架構:自修改的完整實現
Hope在Titans基礎上實現了兩項關鍵擴展。
圖片
左圖為Hope,MLP層右圖為Transformer。Hope擁有k層不同更新頻率的MLP塊(通常k=5到10),形成完整的記憶光譜。這使Hope能夠處理超長上下文(200萬token以上),在持續學習中避免災難性遺忘,更高效地管理記憶容量。
第一項是自修改能力。Titans的記憶模塊只能學習「記住什么內容」,但無法學習「如何更好地記憶」。Hope引入自我參照機制,使模型能夠優化自己的學習規則。
具體機制包括三個步驟:
- 首先觀察學習效果,Hope跟蹤最近的記憶更新是否有效,如果存儲的信息后續被成功檢索并幫助預測則標記為「有效更新」,如果從未被使用則標記為「無效更新」;
- 然后調整學習策略,基于效果反饋調整記憶的存儲和檢索規則,如果某種類型的信息總是有用就增加其存儲優先級,如果某種檢索模式效果好就加強該模式;
- 最后進行遞歸優化,學習規則的更新本身也可以被優化,實現一階學習(根據數據更新模型參數)、二階學習(根據學習效果更新學習規則)甚至三階及以上(優化「如何優化學習規則」)。
這形成了遞歸循環:當前記憶狀態產生更新規則,應用規則更新記憶,評估更新效果,調整更新規則,再進入下一個循環。理論上這支持無限層級的元學習,傳統模型的學習規則是設計者寫死的,而Hope的學習規則是自己學出來的并且能持續進化。
第二項擴展是完整的CMS集成。
Hope將前文描述的連續記憶系統完整集成進架構,不同于Titans只有兩層參數更新。Hope處理輸入序列的完整流程如下:輸入序列首先通過滑動窗口注意力得到短期表示,當前窗口的token通過注意力機制建立短期依賴關系;然后進行多層CMS處理,短期表示依次通過塊1(每10步更新)疊加最近模式,塊2(每100步更新)疊加中期背景,塊3(每1000步更新)疊加長期知識,直到塊k(每10000步更新)疊加核心知識,得到融合表示;接著進行記憶更新與策略調整,基于當前輸入的驚奇度決定存儲到哪個層級,同時評估最近的記憶更新效果并動態調整存儲策略;最后生成輸出預測。
6.全面的性能提升

研究團隊在340M、760M和1.3B三個參數規模上全面評估了Hope。在語言建模任務中測量困惑度(越低越好),340M參數時Hope為16.5,Titans為17.1,標準Transformer為18.7;1.3B參數時Hope為13.2,Titans為13.9,標準Transformer為14.8。
Hope在所有規模上都取得最佳表現,相比Titans降低3-4%的困惑度,相比標準Transformer降低8-11%。困惑度的物理意義是模型在預測下一個詞時的平均「困惑程度」,困惑度為13.2意味著模型平均在13.2個候選詞中猶豫,而困惑度18.7則需要在18.7個候選詞中選擇。
在長上下文能力測試中,使用Needle-in-Haystack任務(從超長文本中檢索一個特定事實)測試不同上下文長度下的檢索準確率。Hope在處理極長上下文時展現出巨大優勢,100萬token時仍保持92.7%準確率,能夠有效處理200萬token,這是Transformer的40倍上下文長度。
這種性能優勢的原因在于:當目標信息出現在很久之前(比如80萬token之前),標準Transformer的注意力窗口早已滑過完全遺忘,Titans的兩層記憶可能被后續信息覆蓋,而Hope的低頻更新塊(如每10000步更新的塊k)能夠穩定保留這些久遠信息,因為在80萬token的處理過程中它只更新了幾次,不會被頻繁覆蓋。
在持續學習能力測試中,設計實驗讓模型順序學習5個不同領域的任務(醫療→法律→金融→科技→教育),每個任務訓練10000步,然后測試模型在第一個任務(醫療)上的保持率。Hope在學習5個連續任務后,在第一個任務上的準確率仍保持91.3%,遠高于Transformer的62.7%。
機制解釋是:醫療領域的知識首先被學習,存儲在所有層級的記憶塊中;當學習法律領域時,高頻塊(塊1-2)快速適應法律數據,但低頻塊(塊5-k)幾乎不更新,仍保留醫療知識;隨著不斷學習新領域,醫療知識逐漸從高頻塊「遷移」到低頻塊,變成穩定的長期記憶;到第5個任務時,醫療知識主要存儲在極低頻的塊k中,幾乎不受后續學習影響。
在計算效率方面,Hope相比Titans訓練時間增加18%(主要因為需要管理多個更新頻率的塊),推理時間僅增加3%(因為推理時不涉及參數更新,只是多了幾個MLP塊的前向傳播),顯存占用增加12%(來自額外的CMS塊參數)。考慮到性能提升(困惑度降低8-11%,長上下文準確率提升20-30%),這個開銷是完全可接受的。
Nested Learning的最大理論貢獻是打破了架構設計和算法設計的邊界。傳統上,架構研究者關心該用多少層、每層多少神經元、如何連接,優化研究者關心該用什么學習率、什么優化器、如何調整超參數。
Nested Learning指出這些都是同一個問題的不同表述——如何組織不同層級的優化問題。設計一個新的注意力機制等于定義一個新的內層優化問題,設計一個新的優化器等于定義如何嵌套多個優化問題。這種統一視角可能催生新的研究范式:不再孤立地改進架構或算法,而是整體設計嵌套優化系統。
Nested Learning可以看作元學習的泛化。經典元學習通常通過兩層優化實現,內層在任務上學習,外層跨任務學習學習策略。Nested Learning將其擴展為:不限于兩層可以有任意多層嵌套,不局限于任務間遷移還包括時間尺度上的遷移,自修改機制實現了真正的「學習如何學習如何學習」。
經典元學習算法如MAML可以在Nested Learning框架下重新解釋:
外層參數是「元知識」,內層參數是「任務特定知識」。Hope通過CMS實現了連續的元學習層級:塊1是任務特定知識,塊2-3是任務間共享知識,塊k是跨所有任務的元知識。
從神經科學角度看,Nested Learning與大腦的對應不是表面類比,而是基于相似的計算原理。神經科學發現大腦中的突觸在多個時間尺度上表現出可塑性:短期可塑性(毫秒-秒)支持工作記憶和注意力,早期長期增強(分鐘-小時)需要蛋白質合成形成初步的長期記憶,晚期長期增強(小時-天)涉及基因表達和新突觸形成形成穩定記憶。CMS的不同更新頻率直接模擬了這三個階段。
然而當前研究也存在明顯局限。首先是實證證據的有限性,公開論文中的實驗結果相對有限,作者提到由于頁數限制進行了「大量摘要」,某些關鍵的對比實驗(如與最新的Mamba、RWKV等現代循環架構的詳細對比)仍然不夠充分,社區需要更多獨立復現和在不同任務上的驗證。
其次是超參數的敏感性,CMS引入了新的超參數(有多少個記憶塊k,每個塊的更新頻率C的冪次,每個塊的容量),這些超參數的最優選擇可能高度依賴于具體任務,論文中的實驗主要在語言建模任務上進行,這些超參數設置是否能直接遷移到其他領域尚不清楚。
第三是理論分析的不完備性,雖然Nested Learning提供了統一的理論框架,但許多核心問題缺乏嚴格的數學分析:多時間尺度更新的收斂性保證,最優更新頻率的選擇原則,自修改的穩定性保障。
最后是自修改的潛在風險。Hope的自修改能力強大但也危險,如果學習規則本身被錯誤地更新,可能導致系統陷入病態循環。潛在風險包括正反饋循環(錯誤的學習規則導致更多錯誤,錯誤又強化錯誤的規則)、振蕩(學習規則在兩個極端之間反復擺動無法收斂)、遺忘元知識(在調整學習規則時丟失之前學到的有效策略)。論文提到了幾項穩定性設計:保守更新(學習規則的更新步長遠小于普通參數的更新步長)、元知識保護(最核心的學習規則存儲在最低頻的塊中幾乎不更新)、回滾機制(如果檢測到性能急劇下降回退到之前的學習規則),但完整的理論分析仍然缺失,這是未來研究的重要方向。
盡管存在這些局限,Nested Learning為AI研究開辟了新的方向。它不僅提供了理解現有方法的統一視角,更重要的是指明了突破當前瓶頸的技術路徑:通過多時間尺度的嵌套優化,可以構建真正具有持續學習能力的AI系統。
本文轉載自??魯班模錘??,作者:祝融

















