Nested Learning：LLM的“萬法歸一”？！原創精華

魯班模錘1

發布于 2025-11-11 07:26

瀏覽

0收藏

Nested Learning

2025年11月，Google Research在NeurIPS會議上發布的Nested Learning論文提出了一個顛覆性的統一理論：

現有的深度學習方法——包括各種神經網絡架構和優化算法——本質上都是同一種數學結構的不同表現形式，這個統一的數學結構就是「嵌套優化問題」。

傳統研究將神經網絡架構（如Transformer、CNN）和訓練算法（如SGD、Adam）視為兩個獨立的研究領域，而Nested Learning揭示了它們的共同本質：

都是在定義和求解不同層級、不同時間尺度的優化問題。這種統一視角不僅是理論上的歸納，更為設計新的學習系統提供了原則性的指導框架。

1.新框架下的新解釋

Nested Learning首先對現有方法進行重新解釋。

1）反向傳播在標準教科書中被描述為計算梯度的鏈式法則應用，但Nested Learning將其重新理解為聯想記憶系統：給定數據點x，反向傳播學習將其映射到對應的梯度?L(x)，而梯度的幅度量化了數據的「意外程度」。這一視角揭示了反向傳播的記憶本質，使得可以用記憶系統的設計原則來改進它。

2）優化器的Nested Learning更為明顯。

帶動量的SGD，傳統理解將其視為簡單的公式，但Nested Learning揭示了其兩層嵌套結構：

外層優化問題是更新模型權重θ，依據動量值m進行更新；內層優化問題是更新動量m本身，它通過積累歷史梯度信息來決定自己的值。關鍵認知在于，動量m不是臨時變量，而是通過自己的優化過程學習得到的參數。

更復雜的優化器（如Adam）包含更多嵌套層級：一階動量（梯度的指數移動平均）、二階動量（梯度平方的指數移動平均）和偏差修正項，每增加一層就多了一個在不同時間尺度上運作的記憶組件。

標準Transformer實際上也包含了Nested Learning的影子。

注意力機制充當短期記憶層，每個token都更新，記憶當前上下文窗口內的token關系，具有即時響應能力但容量有限。

前饋網絡充當長期記憶層，僅在訓練階段更新，記憶預訓練階段學到的語言規律和世界知識，更新極慢但容量大。

Nested Learning指出這是一個極端簡化的兩層結構，短期記憶更新太快（每步都變），長期記憶更新太慢（幾乎不變），缺乏能夠平滑過渡的中間層級。

Nested Learning：LLM的“萬法歸一”？！-AI.x社區

這張圖對比了傳統深度學習和嵌套學習（Nested Learning, NL）兩種不同的視角來理解同一個混合模型。傳統深度學習的局限（左側）在傳統深度學習中，一個混合模型（如RNN + Attention的組合）被視為一個扁平化的計算圖。訓練過程中，只是梯度在整個網絡中反向流動。這種視角存在明顯的局限性：無法清晰地看到RNN內部的循環計算是如何優化的，也看不到Attention機制中Query-Key-Value三者之間的優化關系。整個模型就像一個黑盒
嵌套學習的創新（右側）嵌套學習提出了一個革命性的想法：整個機器學習模型及其訓練過程表示為一組嵌套的優化問題。每個神經學習模塊不僅僅是一個計算單元，它本身就是一個完整的優化器。具體來說，圖中展示了三個層級：Level 1（最外層）對應模型的預訓練階段，在這一層，模型學習最宏觀的參數更新規則。Level 2（中間層）將問題進一步分解，通過兩個并行的梯度流模塊分別處理不同的優化子任務，這對應了Attention機制中的多頭注意力或者RNN中的不同門控機制。Level 3（最內層）繼續細化優化過程，處理最底層的特征表示。每一層都有明確的優化目標函數。

2.技術創新：深度優化器

理解了優化器的記憶本質后，Nested Learning提出用更強大的記憶機制來替換傳統的簡單累積。傳統優化器使用指數移動平均來記憶歷史梯度，這個公式隱含地使用了「點積相似度」來衡量樣本關系。點積是最簡單的相似度度量，但過于粗糙：只考慮向量的線性相關性，對數據尺度敏感，無法建模復雜的非線性關系。

深度優化器用L2回歸目標替代點積。具體而言，給定歷史樣本集合{(x_i, g_i)}，其中g_i是樣本x_i對應的梯度，傳統方法計算梯度的加權平均，而深度優化器求解一個優化問題：找到權重更新Δθ，使得對所有歷史樣本，更新后的模型在這些樣本上的預測梯度與實際梯度的L2距離最小。這個優化問題的解不再是簡單的指數移動平均，而是考慮了所有歷史樣本之間關系的最優更新。

這個看似微妙的改變帶來了質的飛躍。優化器變成了模型內部的微型學習者，具有泛化能力，能夠識別哪些歷史經驗與當前情況真正相關，對噪聲數據和標注錯誤更加魯棒。實驗表明，在處理含噪聲的數據集時，深度優化器比標準Adam的訓練穩定性提高約30%，最終損失降低15-20%。

3.技術創新：連續記憶系統（CMS）

CMS是Nested Learning最重要的架構創新，它將Transformer的兩層記憶擴展為多層連續的記憶光譜。CMS由k個前饋神經網絡塊組成，關鍵設計是每個塊以不同的頻率更新其參數。定義基礎更新間隔為C（例如C=10），則塊1每C1=10步更新一次，塊2每C2=100步更新一次，塊3每C3=1000步更新一次，以此類推。

這種設計的工作機制可以通過一個具體例子理解。假設正在訓練一個語言模型，當前已經訓練了5000步：

塊1在10步前剛更新過，記憶最近10步看到的訓練樣本模式，捕捉短期趨勢如當前段落的話題和用詞風格；
塊2在100步前更新過，記憶最近100步的統計規律，捕捉中期模式如當前文檔的整體風格和領域特征；
塊3在1000步前更新過，記憶最近1000步的抽象知識，捕捉跨文檔的語言規律；
最低頻的塊k可能10000步才更新一次，存儲整個訓練歷史的核心知識，如通用的語法規則和常識知識。

當處理新輸入時，數據依次通過這k個塊：輸入x首先通過塊1獲得短期上下文，然后通過塊2疊加中期背景，再通過塊3疊加長期知識，最后通過塊k疊加最穩定的知識，最終輸出預測。這種設計解決了持續學習的根本困境——如何在學習新知識時不遺忘舊知識。高頻塊快速適應新數據保持學習能力，低頻塊穩定存儲舊知識防止災難性遺忘，中間塊建立新舊知識之間的橋梁實現平滑過渡。

生物學上的解釋

CMS的設計直接映射了神經科學中的記憶鞏固理論。人腦的工作記憶（秒級）對應CMS的塊1-2，快速更新但容量有限；短期記憶（分鐘到小時）對應塊3-5，需要重復才能鞏固；長期記憶（天到年）對應塊k，極其穩定且容量巨大。

人腦在睡眠時進行記憶重組，將工作記憶中的重要信息轉移到長期記憶，CMS通過不同更新頻率實現了類似機制，只是這個「鞏固」過程是持續發生的，無需顯式的「睡眠」階段。

數學層面的解釋

從數學原理看，CMS的多時間尺度設計對應信號處理中的多尺度分析。將訓練數據流視為時間序列信號，不同時間尺度的模式可以通過不同頻率的采樣來捕捉：

高頻信號（快速變化）需要高頻采樣，對應CMS的高頻更新塊；

低頻信號（緩慢變化）只需低頻采樣，對應CMS的低頻更新塊。

從傅里葉分析的角度，塊1捕捉數據的高頻分量（局部細節），塊k捕捉數據的低頻分量（全局趨勢），中間塊捕捉中頻分量（中等尺度模式）。這種分頻處理避免了單一系統必須同時處理所有尺度信息的困難，是一種「分而治之」的策略。

4.Titans架構：CMS的先驅實踐

在理解Hope架構之前，需要先理解其基礎Titans架構。Titans由Google Research于2024年底提出，是第一個實現「測試時學習」（Learning at Test Time）的長期記憶架構。

傳統模型的所有學習都發生在訓練階段，推理時模型參數完全凍結，但這不符合人類認知——人類在對話過程中會不斷學習和調整。Titans引入了動態更新的神經記憶模塊，允許模型在推理時繼續學習：遇到重要信息時立即存入記憶，后續處理時可以檢索和利用這些動態記憶。

Titans的核心創新是用梯度幅度來衡量信息的重要性。對輸入序列中的每個token，計算其損失函數的梯度，定義驚奇度為梯度的范數。

梯度越大，說明該token越「出乎意料」，模型就越積極地將其存入長期記憶。這種選擇性存儲比無差別記憶所有信息高效得多。舉例來說，在閱讀醫療病歷時，常見癥狀如「發燒」「咳嗽」的梯度很小因為模型見過太多次，而罕見的遺傳病名稱梯度很大，模型會優先記住它。

Titans由三個模塊構成：

核心模塊使用滑動窗口注意力機制處理最近幾千個token，充當短期記憶，精確但容量有限；
長期記憶模塊是神經記憶網絡，存儲久遠的歷史信息，容量大但需要動態學習如何存儲；
持久記憶模塊包含任務特定的靜態參數，類似人類的程序性記憶。

Titans提出了三種整合方式：MAC（Memory as Context）將記憶作為額外上下文輸入注意力機制，靈活但增加計算負擔；MAG（Memory as Gating）通過門控函數混合短期和長期記憶，能精確控制影響程度；MAL（Memory as Layer）先通過記憶層再通過注意力層，實現簡單但靈活性最低。

盡管Titans實現了測試時學習，但只有兩層參數更新：快速更新的注意力權重（每步更新）和慢速更新的FFN權重（訓練時更新，推理時可選更新）。這種兩層結構只能實現「一階上下文學習」——根據當前上下文直接做預測，無法做「學習如何學習」這種更高階的元學習。

5.Hope架構：自修改的完整實現

Hope在Titans基礎上實現了兩項關鍵擴展。

Nested Learning：LLM的“萬法歸一”？！-AI.x社區圖片

左圖為Hope，MLP層右圖為Transformer。Hope擁有k層不同更新頻率的MLP塊（通常k=5到10），形成完整的記憶光譜。這使Hope能夠處理超長上下文（200萬token以上），在持續學習中避免災難性遺忘，更高效地管理記憶容量。

第一項是自修改能力。Titans的記憶模塊只能學習「記住什么內容」，但無法學習「如何更好地記憶」。Hope引入自我參照機制，使模型能夠優化自己的學習規則。

具體機制包括三個步驟：

首先觀察學習效果，Hope跟蹤最近的記憶更新是否有效，如果存儲的信息后續被成功檢索并幫助預測則標記為「有效更新」，如果從未被使用則標記為「無效更新」；
然后調整學習策略，基于效果反饋調整記憶的存儲和檢索規則，如果某種類型的信息總是有用就增加其存儲優先級，如果某種檢索模式效果好就加強該模式；
最后進行遞歸優化，學習規則的更新本身也可以被優化，實現一階學習（根據數據更新模型參數）、二階學習（根據學習效果更新學習規則）甚至三階及以上（優化「如何優化學習規則」）。

這形成了遞歸循環：當前記憶狀態產生更新規則，應用規則更新記憶，評估更新效果，調整更新規則，再進入下一個循環。理論上這支持無限層級的元學習，傳統模型的學習規則是設計者寫死的，而Hope的學習規則是自己學出來的并且能持續進化。

第二項擴展是完整的CMS集成。

Hope將前文描述的連續記憶系統完整集成進架構，不同于Titans只有兩層參數更新。Hope處理輸入序列的完整流程如下：輸入序列首先通過滑動窗口注意力得到短期表示，當前窗口的token通過注意力機制建立短期依賴關系；然后進行多層CMS處理，短期表示依次通過塊1（每10步更新）疊加最近模式，塊2（每100步更新）疊加中期背景，塊3（每1000步更新）疊加長期知識，直到塊k（每10000步更新）疊加核心知識，得到融合表示；接著進行記憶更新與策略調整，基于當前輸入的驚奇度決定存儲到哪個層級，同時評估最近的記憶更新效果并動態調整存儲策略；最后生成輸出預測。

6.全面的性能提升

Nested Learning：LLM的“萬法歸一”？！-AI.x社區

研究團隊在340M、760M和1.3B三個參數規模上全面評估了Hope。在語言建模任務中測量困惑度（越低越好），340M參數時Hope為16.5，Titans為17.1，標準Transformer為18.7；1.3B參數時Hope為13.2，Titans為13.9，標準Transformer為14.8。

Hope在所有規模上都取得最佳表現，相比Titans降低3-4%的困惑度，相比標準Transformer降低8-11%。困惑度的物理意義是模型在預測下一個詞時的平均「困惑程度」，困惑度為13.2意味著模型平均在13.2個候選詞中猶豫，而困惑度18.7則需要在18.7個候選詞中選擇。

在長上下文能力測試中，使用Needle-in-Haystack任務（從超長文本中檢索一個特定事實）測試不同上下文長度下的檢索準確率。Hope在處理極長上下文時展現出巨大優勢，100萬token時仍保持92.7%準確率，能夠有效處理200萬token，這是Transformer的40倍上下文長度。

這種性能優勢的原因在于：當目標信息出現在很久之前（比如80萬token之前），標準Transformer的注意力窗口早已滑過完全遺忘，Titans的兩層記憶可能被后續信息覆蓋，而Hope的低頻更新塊（如每10000步更新的塊k）能夠穩定保留這些久遠信息，因為在80萬token的處理過程中它只更新了幾次，不會被頻繁覆蓋。

在持續學習能力測試中，設計實驗讓模型順序學習5個不同領域的任務（醫療→法律→金融→科技→教育），每個任務訓練10000步，然后測試模型在第一個任務（醫療）上的保持率。Hope在學習5個連續任務后，在第一個任務上的準確率仍保持91.3%，遠高于Transformer的62.7%。

機制解釋是：醫療領域的知識首先被學習，存儲在所有層級的記憶塊中；當學習法律領域時，高頻塊（塊1-2）快速適應法律數據，但低頻塊（塊5-k）幾乎不更新，仍保留醫療知識；隨著不斷學習新領域，醫療知識逐漸從高頻塊「遷移」到低頻塊，變成穩定的長期記憶；到第5個任務時，醫療知識主要存儲在極低頻的塊k中，幾乎不受后續學習影響。

在計算效率方面，Hope相比Titans訓練時間增加18%（主要因為需要管理多個更新頻率的塊），推理時間僅增加3%（因為推理時不涉及參數更新，只是多了幾個MLP塊的前向傳播），顯存占用增加12%（來自額外的CMS塊參數）。考慮到性能提升（困惑度降低8-11%，長上下文準確率提升20-30%），這個開銷是完全可接受的。

Nested Learning的最大理論貢獻是打破了架構設計和算法設計的邊界。傳統上，架構研究者關心該用多少層、每層多少神經元、如何連接，優化研究者關心該用什么學習率、什么優化器、如何調整超參數。

Nested Learning指出這些都是同一個問題的不同表述——如何組織不同層級的優化問題。設計一個新的注意力機制等于定義一個新的內層優化問題，設計一個新的優化器等于定義如何嵌套多個優化問題。這種統一視角可能催生新的研究范式：不再孤立地改進架構或算法，而是整體設計嵌套優化系統。

Nested Learning可以看作元學習的泛化。經典元學習通常通過兩層優化實現，內層在任務上學習，外層跨任務學習學習策略。Nested Learning將其擴展為：不限于兩層可以有任意多層嵌套，不局限于任務間遷移還包括時間尺度上的遷移，自修改機制實現了真正的「學習如何學習如何學習」。

經典元學習算法如MAML可以在Nested Learning框架下重新解釋：

外層參數是「元知識」，內層參數是「任務特定知識」。Hope通過CMS實現了連續的元學習層級：塊1是任務特定知識，塊2-3是任務間共享知識，塊k是跨所有任務的元知識。

從神經科學角度看，Nested Learning與大腦的對應不是表面類比，而是基于相似的計算原理。神經科學發現大腦中的突觸在多個時間尺度上表現出可塑性：短期可塑性（毫秒-秒）支持工作記憶和注意力，早期長期增強（分鐘-小時）需要蛋白質合成形成初步的長期記憶，晚期長期增強（小時-天）涉及基因表達和新突觸形成形成穩定記憶。CMS的不同更新頻率直接模擬了這三個階段。

然而當前研究也存在明顯局限。首先是實證證據的有限性，公開論文中的實驗結果相對有限，作者提到由于頁數限制進行了「大量摘要」，某些關鍵的對比實驗（如與最新的Mamba、RWKV等現代循環架構的詳細對比）仍然不夠充分，社區需要更多獨立復現和在不同任務上的驗證。

其次是超參數的敏感性，CMS引入了新的超參數（有多少個記憶塊k，每個塊的更新頻率C的冪次，每個塊的容量），這些超參數的最優選擇可能高度依賴于具體任務，論文中的實驗主要在語言建模任務上進行，這些超參數設置是否能直接遷移到其他領域尚不清楚。

第三是理論分析的不完備性，雖然Nested Learning提供了統一的理論框架，但許多核心問題缺乏嚴格的數學分析：多時間尺度更新的收斂性保證，最優更新頻率的選擇原則，自修改的穩定性保障。

最后是自修改的潛在風險。Hope的自修改能力強大但也危險，如果學習規則本身被錯誤地更新，可能導致系統陷入病態循環。潛在風險包括正反饋循環（錯誤的學習規則導致更多錯誤，錯誤又強化錯誤的規則）、振蕩（學習規則在兩個極端之間反復擺動無法收斂）、遺忘元知識（在調整學習規則時丟失之前學到的有效策略）。論文提到了幾項穩定性設計：保守更新（學習規則的更新步長遠小于普通參數的更新步長）、元知識保護（最核心的學習規則存儲在最低頻的塊中幾乎不更新）、回滾機制（如果檢測到性能急劇下降回退到之前的學習規則），但完整的理論分析仍然缺失，這是未來研究的重要方向。

盡管存在這些局限，Nested Learning為AI研究開辟了新的方向。它不僅提供了理解現有方法的統一視角，更重要的是指明了突破當前瓶頸的技術路徑：通過多時間尺度的嵌套優化，可以構建真正具有持續學習能力的AI系統。

本文轉載自??魯班模錘??，作者：祝融

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

Nested Learning

LLM

已于2025-11-11 07:26:06修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

Nested Learning：LLM的“萬法歸一”？！原創精華

Nested Learning

1.新框架下的新解釋

2.技術創新：深度優化器

3.技術創新：連續記憶系統（CMS）

生物學上的解釋

數學層面的解釋

4.Titans架構：CMS的先驅實踐

5.Hope架構：自修改的完整實現

6.全面的性能提升

目錄

51CTO

51CTO博客

51CTO學堂

Nested Learning：LLM的“萬法歸一”？！ 原創 精華

Nested Learning

1.新框架下的新解釋

2.技術創新：深度優化器

3.技術創新：連續記憶系統（CMS）

生物學上的解釋

數學層面的解釋

4.Titans架構：CMS的先驅實踐

5.Hope架構：自修改的完整實現

6.全面的性能提升

目錄

Nested Learning：LLM的“萬法歸一”？！原創精華