精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性?? 原創(chuàng)

發(fā)布于 2025-6-18 08:21
瀏覽
0收藏

本文旨在全面介紹開源框架Titans。Titans是一種為LLM配備受人類啟發(fā)的記憶的新架構(gòu),它能夠在測試期間進行自我學(xué)習(xí)和更新。

本文要討論什么內(nèi)容?

Meta公司努力開發(fā)出的CoCoMix(Continuous Concept Mixing:連續(xù)概念混合,出自??Jihoon等人2025年發(fā)表的論文??,見【引文1】)框架實現(xiàn)了概念學(xué)習(xí),即學(xué)習(xí)單詞背后的概念而不是僅僅預(yù)測下一個標(biāo)記,從而使其具有極強的可操控性和可解釋性。?

但是,依然存在一個核心問題:即使是概念上非常出色的模型,在訓(xùn)練之后的實際部署中,也可能難以應(yīng)對細(xì)微差別或事實性的回憶挑戰(zhàn)。你可以問一個看似簡單的問題,比如:“在我們之前那場涉及200萬個標(biāo)記的對話中,我們在哪里討論過匹諾曹那出了名的不斷增長的鼻子?”無論LLM的概念能力多么強,如果答案超出了它的上下文范圍,它就無法回答這個簡單的問題。

那么問題來了:我們能否在推理過程中為這些智能LLM配備適應(yīng)性強的“記憶”或性能提升呢?

1. 基礎(chǔ)問題:Transformer

Transformer(出自??Vaswani等人2017年發(fā)表的論文??,見【引文2】)在現(xiàn)代人工智能領(lǐng)域已變得無處不在。自其取得突破性成功以來,它已成為各領(lǐng)域的首選架構(gòu)。?

回想2020年,人們對任何機器學(xué)習(xí)問題的默認(rèn)反應(yīng)往往是“把注意力集中到它上面”——令人驚訝的是,它確實有效,而且通常表現(xiàn)優(yōu)于最先進的模型。視覺任務(wù)?請使用Transformer(??Dosovitskiy等人2020年發(fā)表的論文???,見【引文3】)。時間序列預(yù)測?又是Transformer(??Zerveas等人于2021年發(fā)表的論文???,見【引文4】)。自然語言處理?Transformer幾乎定義了它(??Rogers等人于2021年發(fā)表的論文??,見【引文5】)。?

但是,隨著我們對大型模型的依賴加深以及計算預(yù)算的擴大,即使是這種“全能”架構(gòu)也開始顯示出其局限性——因此,人們開始努力進一步擴展其功能。

存在瓶頸?可以求助于注意力機制的“人人對話”方法。這種方法非常巧妙,但成本卻極其高昂——想象一下,一個房間里有一百萬人,每個人都必須記住與所有人的每一次對話。這限制了Transformer的“工作記憶”——使其記憶變得狹窄,難以進行理解海量文檔所需的“長期回憶”,因為早期信息會逐漸消失。

除了上下文限制之外,普通的Transformer還面臨另一個根本障礙:訓(xùn)練后缺乏適應(yīng)性。雖然它們擅長運用海量預(yù)訓(xùn)練知識來預(yù)測下一個標(biāo)記(這是一個復(fù)雜的推理和預(yù)測過程),但這與真正的學(xué)習(xí)并不相同。就像谷歌地圖一樣,雖然它會為你找到“最短路徑”,但它會忘記前方有施工路段,讓你沖破路障。而人類向?qū)t會為你指引一條替代的小巷路線。

這種無法從當(dāng)前正在處理的數(shù)據(jù)中“即時學(xué)習(xí)”的能力,對于需要不斷適應(yīng)或記憶訓(xùn)練集之外的新經(jīng)驗的任務(wù)來說,是一個嚴(yán)重的限制。

下面這張圖解釋了傳統(tǒng)Transformer注意力機制的局限性。其中,頂部展示了一個小型且有限的“注意力窗口”,其中包含t1-t6個標(biāo)記,表明像t203這樣的舊標(biāo)記已被“遺忘”。底部則展示了18個標(biāo)記的全對全注意力機制,突出顯示了其“O(n2)”的二次成本、計算消耗和資源密集度,并得出結(jié)論:它“無法擴展到百萬級以上的上下文窗口”。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

當(dāng)前原始Transformer的眾多問題中的兩個(作者本人繪制)

解決方案?Titans框架!

研究人員沒有僅僅針對單一限制,而是從更廣闊的視角出發(fā):像人腦這樣的智能系統(tǒng)如何管理記憶并適應(yīng)新情況?這并非關(guān)乎擁有一個龐大且隨時可用的記憶體。它其實是一個更靈活的設(shè)置,其中不同的組件相互協(xié)調(diào),以處理不同類型的信息和經(jīng)驗。

Meta公司研究人員新研發(fā)成功的Titans架構(gòu)(出自??Behrouz等人于2025年發(fā)表的論文??,見【引文6】))就包含了這一點,它不是圍繞單一的整體注意力模塊構(gòu)建的,而是圍繞一個專門的記憶系統(tǒng)合作團隊構(gòu)建的,每個系統(tǒng)在理解和響應(yīng)手頭的任務(wù)方面都發(fā)揮著至關(guān)重要的作用。?

(1)架構(gòu)組件:內(nèi)存模塊

  • 短期記憶(STM):這是一種敏銳、注重細(xì)節(jié)的“專家”。它的功能類似于你所知的注意力,但它不會被過去的一切(現(xiàn)在是LMM的工作)所淹沒,而是專注于當(dāng)下。這就像你記住了對方剛剛對你說的話,時間剛好夠你回應(yīng)。?
  • 長期記憶模塊(LMM):這是最令人興奮的新增功能。它旨在在推理過程中學(xué)習(xí)和適應(yīng)——沒錯,就是在推理過程中,而且是即時方式!我所說的“適應(yīng)”字面意思是它的參數(shù)會發(fā)生變化!想象一下,你多年來一直在理解一位朋友——不斷積累經(jīng)驗,同時過濾掉不重要的事件。?
  • 持久記憶(PM):此模塊保存著基礎(chǔ)的、特定于任務(wù)的知識。這些是模型在主要訓(xùn)練過程中獲得的可學(xué)習(xí)的基本見解。這些知識并非即時動態(tài)的,但為其他兩個模塊提供了必要的基礎(chǔ)和背景。它就像你的個性、你的舉止、走路或開車的能力,這些你不需要重新學(xué)習(xí)或改變。

三種記憶模塊:短期記憶(STM)、長期記憶模塊(LMM)和持久記憶(PM)

這張圖展示了三種記憶模塊:短期記憶,表現(xiàn)為一個在“STM/Attention”筆記本電腦前感到壓力的人物,專注于當(dāng)前情境;長期記憶,表現(xiàn)為一個在“LTM weights”筆記本電腦前面帶微笑的人物,用羽毛筆更新自身,記錄歷史情境;持久記憶,表現(xiàn)為一個平靜的人物,手持石碑,石碑上寫著“預(yù)設(shè)相同權(quán)重”,體現(xiàn)了固定的、與數(shù)據(jù)無關(guān)的任務(wù)知識(作者本人繪制此圖)。

(2)這些內(nèi)存模塊是如何實現(xiàn)的?

那么,這三者究竟是如何協(xié)同工作的呢?首先,STM本質(zhì)上是標(biāo)準(zhǔn)的自注意力計算,它是原生Transformer的核心。它的“記憶”是訓(xùn)練過程中學(xué)習(xí)到的鍵值緩存和注意力矩陣。

另一方面,PM是一組可學(xué)習(xí)的參數(shù),它們被添加到輸入序列的前面,并在訓(xùn)練過程中學(xué)習(xí),并充當(dāng)模型在推理過程中無論如何都要遵循的“圣杯”。

到目前為止還算容易理解,嗯?接下來,讓我們深入探討其中的創(chuàng)新之處和真正令人興奮的部分。雖然它是作為一個簡單的MLP網(wǎng)絡(luò)實現(xiàn)的,但它可以在測試時進行調(diào)整——LMM模塊:

(3)Titans框架核心:自適應(yīng)長期記憶(LMM)模塊

等一下……測試時更新參數(shù)?這難道不是只在訓(xùn)練時才會做的事嗎?這難道不是作弊嗎?

當(dāng)你聽到“測試時訓(xùn)練”這個詞時,你是否想到了這些問題?這些問題確實存在,但這并不意味著作弊。Titans利用在線學(xué)習(xí)和元學(xué)習(xí)的原理,實現(xiàn)快速、局部的更新,這些更新專門針對記憶,而非一般的任務(wù)改進。它在測試時不會查看外部標(biāo)簽來計算梯度和優(yōu)化參數(shù);相反,一切都保持獨立:模型僅使用已知信息和當(dāng)前感知信息進行內(nèi)部調(diào)整。

在人類記憶中,常規(guī)和可預(yù)測的事件往往會逐漸消失,而意外或令人驚訝的時刻往往會持續(xù)存在(來自??Mandler于2014年發(fā)表的論文??,見【引文7】)。這是實現(xiàn)動態(tài)測試時間更新背后的核心思想。?

LMM如何學(xué)習(xí):關(guān)聯(lián)損失函數(shù)

LMM充當(dāng)聯(lián)想記憶:它學(xué)習(xí)將“鍵”(線索)與“值”(信息)聯(lián)系起來。對于每條新數(shù)據(jù)xt(MAG和MAL中的輸入塊,MAC中的STM(自注意力機制)輸出):

  • 鍵值提?。合到y(tǒng)首先使用可學(xué)習(xí)的變換(Wk和Wv)將xt轉(zhuǎn)換為特定鍵(kt)和關(guān)聯(lián)值(vt)。

使用線性層將xt映射到kt和vt(作者本人繪制)

  • 測試LMM:在當(dāng)前狀態(tài)下,對LMM進行“詢問”:給定這個新密鑰kt,你會預(yù)測什么值?我們將其預(yù)測稱為pt。

Mt-1:當(dāng)前LMM狀態(tài);kt:當(dāng)前塊的密鑰(作者本人繪制)

  • 計算損失:通過LMM預(yù)測的錯誤程度來衡量:

預(yù)測輸出與“基本事實”之間的標(biāo)準(zhǔn)MSE損失(作者本人繪制)

梯度和“意外”信號

為了讓LMM從這種損失中學(xué)習(xí),我們加入了“驚喜信號”,它能夠衡量模型在看到基本事實(vt)時的“驚訝”程度。這個“驚喜”在數(shù)學(xué)上定義為損失函數(shù)相對于LMM參數(shù)的梯度。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

“意外”的測量,即模型與預(yù)測“正確的”vt的距離(作者本人繪制)

考慮到LMM的當(dāng)前知識,較大的梯度意味著xt是非?!傲钊梭@訝”或出乎意料的。

基本學(xué)習(xí)步驟:

LMM學(xué)習(xí)的最簡單方法是稍微調(diào)整其參數(shù)以減少這種意外(即減少損失),就像梯度下降中的一步一樣:

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

Mt:更新后的LMM參數(shù);Mt-1:之前的LMM參數(shù);lr:學(xué)習(xí)率(作者本人繪制)

細(xì)化驚喜:利用動量和遺忘實現(xiàn)更智能的學(xué)習(xí)

僅僅對眼前的“驚喜”做出反應(yīng)是不夠的。良好的記憶力不僅需要洞察趨勢,還必須知道何時放棄舊的、不相關(guān)的信息。

智能學(xué)習(xí)方向(ΔΘMt):首先,LMM計算出調(diào)整其參數(shù)的最佳方向。這不僅基于當(dāng)前的意外,還基于對近期意外的“記憶”。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

參數(shù)變化是根據(jù)之前的變化和當(dāng)前的意外情況計算得出的(作者本人繪制)

  • ΔΘMt:LMM參數(shù)的建議變更。?
  • ηt*ΔΘMt-1:這是動量 ——它延續(xù)了上一步的學(xué)習(xí)趨勢。ηt(數(shù)據(jù)相關(guān))決定了過去動量的持續(xù)時間。?
  • θt*?Loss_current_surprise:這是當(dāng)前意外的影響。θt(數(shù)據(jù)相關(guān))衡量其影響力。最終參數(shù)更新(ΘMt:然后,LMM更新其實際參數(shù),將舊知識與新的學(xué)習(xí)方向相結(jié)合,并且至關(guān)重要的是,允許“遺忘”。

最終更新包括更新多少以及保留多少(作者本人繪制)

  • ΘMt:從xt學(xué)習(xí)后的LMM的新參數(shù)。?
  • (1—at)*ΘMt-1:這是保留了多少舊LMM狀態(tài)。at(依賴于數(shù)據(jù),介于0和1之間)是遺忘因子 -如果at很高,則會遺忘更多的舊狀態(tài)。?
  • ΔΘMt:上面計算的智能學(xué)習(xí)方向。?

下圖展示了LTM模塊的更新過程。分塊輸入序列(例如STM輸出)被投影到鍵向量和值向量中。鍵向量在LTM模塊中進行前向傳遞,并與值向量一起計算損失。該損失的梯度(通過不帶更新的后向傳遞)通過加權(quán)和與動量緩沖區(qū)中存儲的先前更新相結(jié)合。組合后的更新經(jīng)過“遺忘”門,該門確定LTM的新權(quán)重。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

整個LMM更新過程的可視化(作者本人繪制)

簡而言之:

LMM會查看當(dāng)前數(shù)據(jù)的“意外情況”(?Loss_current_surprise),將其與近期的學(xué)習(xí)趨勢(momentumΔΘMt-1)相融合,然后更新其內(nèi)部知識(ΘMt),并決定在此過程中保留或丟棄多少舊信息(at)。數(shù)據(jù)依賴門控(ηt,θt,at)使其能夠動態(tài)自適應(yīng)。

(4)Titans的架構(gòu)藍(lán)圖:記憶在行動

谷歌研究人員探索了這三個內(nèi)存模塊的三種主要排列方式:

記憶作為情境(MAC)

在這種設(shè)置中,Titans為STM(標(biāo)準(zhǔn)自注意力塊)創(chuàng)建了一個增強且更豐富的環(huán)境。

  • 非常長的輸入序列被分成多個段或塊。?
  • 在處理時,模型將塊映射到查詢,并使用它來從LMM中檢索相關(guān)的歷史上下文(查詢經(jīng)過LMM,其輸出是歷史上下文)。?
  • 然后將這些檢索到的歷史標(biāo)記與靜態(tài)持久內(nèi)存標(biāo)記和當(dāng)前段標(biāo)記連接起來。?
  • 整個擴展序列(持久+歷史+當(dāng)前)被輸入到STM(注意力)層,該層處理這個大型組合上下文中的關(guān)系。?
  • 注意力層的輸出反映了對當(dāng)前數(shù)據(jù)考慮到歷史和任務(wù)知識的深刻理解,然后將其用作LMM動態(tài)參數(shù)更新過程的輸入數(shù)據(jù)。?
  • 使用相同的注意力結(jié)果再次查詢更新后的LMM,然后通過門控總和或部分連接將其響應(yīng)與原始注意力相結(jié)合以產(chǎn)生最終結(jié)果。?

類比:文本(序列)以頁面(塊)的形式呈現(xiàn)。對于每一頁,不斷學(xué)習(xí)的筆記記錄者(LMM)會快速從過去的筆記中找到相關(guān)的摘要,并將其與重要的“規(guī)則手冊”筆記(PM)進行混合。學(xué)生(STM/注意力)會閱讀整篇文章——規(guī)則手冊、相關(guān)的過去摘要以及當(dāng)前頁面——并根據(jù)從豐富的上下文中學(xué)習(xí)到的知識,準(zhǔn)確地告訴筆記記錄者當(dāng)前頁面上哪些要點對于將來的總結(jié)至關(guān)重要。

最終答案的形成是基于學(xué)生的詳細(xì)閱讀和筆記記錄者更新后的記憶視角的綜合考慮。

下圖展示的是記憶即語境(MAC)架構(gòu)圖。分塊輸入向LMM查詢歷史語境。結(jié)合持久記憶,這為注意力模塊(STM)構(gòu)建了一個“更豐富的語境”。注意力模塊的輸出更新LMM,并與更新后的LMM輸出相結(jié)合,形成最終結(jié)果。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAC架構(gòu)可視化(作者本人繪制)

記憶之門(MAG)

該設(shè)計以不同的方式并行集成存儲器,通過動態(tài)門混合來自STM和LMM輸出的信息。

  • 輸入序列(持久序列+當(dāng)前序列)被輸入到兩條路徑:?一條路徑通往STM,此處使用滑動窗口注意力機制實現(xiàn),使其能夠聚焦于每個符號周圍的局部鄰域。
    另一條并行路徑通往LMM網(wǎng)絡(luò)。?
  • LMM的輸入用于動態(tài)更新其參數(shù),并生成相應(yīng)的輸出表示。?
  • 然后,STM(滑動窗口注意力機制)的輸出和LMM前向傳遞的輸出會通過一個門控機制。該門控機制會學(xué)習(xí)在局部注意力機制的信息和LMM的狀態(tài)/輸出所代表的信息之間進行混合或選擇。?
  • 該門控機制的輸出是該令牌位置的最終輸出。?

打個比方:每收到一頁紙,兩個任務(wù)就會同時進行:學(xué)生(STM)專注于眼前的那一頁,而獨立的筆記記錄者(LMM)則通讀當(dāng)前頁面,并將其與目前為止所見的內(nèi)容聯(lián)系起來,默默地更新其整體理解。學(xué)生根據(jù)段落給出答案,而筆記記錄者則根據(jù)其不斷發(fā)展的宏觀框架提出想法。

協(xié)調(diào)者(門控機制)只需將兩個輸出融合或從中挑選,即可得出最終答案。

以下給出內(nèi)存即門控(MAG)架構(gòu)示意圖。分塊輸入序列與持久內(nèi)存令牌組合。該增強序列同時查詢LMM模塊(也用于更新)和注意力模塊(STM)。然后,LMM分支和STM分支的輸出通過門控和進行組合,以生成最終輸出。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAG架構(gòu)可視化(作者本人繪制)

記憶層(MAL)

在這個變體中,LMM網(wǎng)絡(luò)被用作初始處理層,在序列到達注意力機制(STM)之前對其進行修改。

  • 輸入序列(仍然使用“持久+當(dāng)前”方式)首先作為不同的層通過LMM網(wǎng)絡(luò)。?
  • 當(dāng)LMM網(wǎng)絡(luò)逐塊處理序列時,其參數(shù)會動態(tài)更新。它還會生成一個變換后的輸出序列。?
  • 然后,將LMM層的轉(zhuǎn)換輸出序列用作后續(xù)STM(注意力)層(滑動窗口或窗口內(nèi)完全注意力)的輸入。?
  • Attention層的輸出是該序列的模型的最終輸出。?

打個比方:首先,每一頁新內(nèi)容都會直接發(fā)送給主筆記員(LMM),LMM會處理所有內(nèi)容,并不斷總結(jié)和更新其總結(jié)風(fēng)格。之后,這份(可能細(xì)節(jié)較少的)總結(jié)會被交給學(xué)生(STM)。學(xué)生只會看到并關(guān)注總結(jié)文本的局部內(nèi)容,他們的答案完全基于主筆記員提供的內(nèi)容。

下圖展示的是記憶即層(MAL)架構(gòu)圖。一個以持久記憶標(biāo)記開頭的分塊輸入序列被送入LMM模塊進行查詢和更新。LMM的輸出隨后作為注意力模塊(STM)的輸入(查詢),STM產(chǎn)生最終輸出。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

MAL架構(gòu)可視化(作者本人繪制)

3. 我們從中獲得了什么?結(jié)果和發(fā)現(xiàn)

那么,現(xiàn)在我們對Transformer之后的下一個革命性技術(shù)已經(jīng)了如指掌,但它真的會那么偉大嗎?谷歌的研究人員真的破解了能夠記憶、適應(yīng)并克服此前被認(rèn)為不可能的挑戰(zhàn)的模型密碼嗎?讓我們逐一回顧一下這些新發(fā)現(xiàn):

語言能力:不僅僅是文字

Titans框架的功能遠(yuǎn)不止于更準(zhǔn)確地預(yù)測下一個單詞。得益于其動態(tài)長期記憶模塊(LMM),它展現(xiàn)出對語言和語境更深入、更直觀的理解。與Transformer++等強大的基準(zhǔn)模型以及一些最新的循環(huán)模型相比,Titans框架的表現(xiàn)始終優(yōu)于它們,不僅在語言建模方面,在常識推理任務(wù)上也同樣如此。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:改編自??Behrouz等人于2025年發(fā)表的論文??,表1)?

Titans在常識和推理任務(wù)上的表現(xiàn)(混合情況下使用:MAC、MAG、MAL;簡單情況下使用:LMM)

大海撈針挑戰(zhàn)

Titans框架的設(shè)計在S-NIAH任務(wù)中展現(xiàn)出卓越的性能連續(xù)性,這與RULER基準(zhǔn)測試(??Hsieh等人于2024年發(fā)表的論文??,見【引文8】)相符,該基準(zhǔn)測試旨在評估有效的上下文長度。Titans模型(包括獨立的神經(jīng)記憶模型LMM)即使在16K個標(biāo)記的情況下也能保持強勁的檢索率,而一些最先進的循環(huán)模型的準(zhǔn)確率則隨著序列長度的增加而急劇下降。?

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:B??ehrouz等人于2025年發(fā)表的論文??,表2)?

Titans(混合情況下使用:MAC、MAG、MAL;簡單情況下使用:LMM)在RULER的S-NIAH任務(wù)上的表現(xiàn)(出自??Hsieh等人于2024年發(fā)表的論文??,見【引文8】)?

在BABILong中掌握復(fù)雜推理

檢索事實是一回事。但如何運用多個事實,并跨越海量上下文進行推理呢?這才是真正的考驗,也正是BABILong基準(zhǔn)測試(來自??YuryKuratov等人于2024年發(fā)表的論文??,見【引文9】)的要求。Titans(尤其是MAC架構(gòu))不僅表現(xiàn)出色,而且超越了所有模型。即使是像GPT-4和Llama3.1-70B這樣的大型模型,即使是那些能夠訪問外部工具或檢索系統(tǒng)的模型,Titans最大的模型參數(shù)量也高達7.6億!?

除此之外,Titans(MAC混合架構(gòu))即使在1000萬個標(biāo)記的情況下也能達到70%的準(zhǔn)確率。換個角度來看,這就像在整個《哈利·波特》系列中導(dǎo)航和尋找拼圖碎片……甚至還多10倍。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,圖6)?

BABILong上不同LLM的準(zhǔn)確率與序列長度圖(出自??Yury Kuratov等人于2024年發(fā)表的論文??,見【引文9】)?

內(nèi)存深度與速度

研究人員探索了通過堆疊更多層來加深長期記憶模塊(LMM)時會發(fā)生什么。結(jié)果如何?更深層的LMM顯著提升了其存儲和組織重要信息的能力,使其更不容易忘記關(guān)鍵細(xì)節(jié),尤其是在大多數(shù)模型難以保持上下文的長序列中。

雖然LMM本身能夠獲得線性時間復(fù)雜度,從而高效處理大量輸入,但更深的LMM確實需要付出一些代價:吞吐量降低,或者每秒處理的令牌更少。

下面的折線圖展示了不同深度(L_M=1、2、3、4)的LMM模型的訓(xùn)練吞吐量(103標(biāo)記/秒)與序列長度的關(guān)系。所有LMM變體均表現(xiàn)出幾乎恒定的吞吐量,無論序列長度如何,這表明吞吐量呈線性增長。然而,較深的LMM(L_M=3和L_M=4)的吞吐量逐漸低于較淺的LMM(L_M=1和L_M=2),這表明隨著內(nèi)存深度的增加,效率會有所降低。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,圖8)?

不同LMM深度的序列長度與吞吐量

超越語言任務(wù)

另一個令人興奮的事實是,同樣的記憶機制在傳統(tǒng)語言任務(wù)之外也能發(fā)揮作用。在時間序列預(yù)測(一個以混亂、變化的模式而聞名的領(lǐng)域)中,長期記憶模塊(LMM)的表現(xiàn)足以匹敵高度專業(yè)化的模型,包括那些基于Mamba(之前的SOTA)的模型。

在DNA建模這項完全不同的任務(wù)中,該架構(gòu)表現(xiàn)出了強大的效果。這種通用性實屬不易,這表明,如果處理得當(dāng),記憶不僅有用,而且是跨領(lǐng)域的基礎(chǔ)。

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:改編自??Behrouz等人于2025年發(fā)表的論文??,表3)?

神經(jīng)記憶(以LMM為模型)在各種時間序列數(shù)據(jù)集上的表現(xiàn)

AI記憶革命:能否突破數(shù)據(jù)牢籠,媲美人腦的適應(yīng)性??-AI.x社區(qū)

(來源:??Behrouz等人于2025年發(fā)表的論文??,表4)?

神經(jīng)記憶模塊(LMM作為模型)在基因組基準(zhǔn)上的表現(xiàn)(??Gre?ová等人于2023年發(fā)表的論文??,見【引文10】)?

4. 結(jié)論和最終想法

本次對Titans的深入研究就到此結(jié)束。探索這種架構(gòu)真的非常有趣——看到研究超越了規(guī)?;?,深入探究記憶和學(xué)習(xí)如何以更具適應(yīng)性、更像人類的方式運作,令人耳目一新。

谷歌的基礎(chǔ)性工作傳承在此延續(xù),從發(fā)明Transformer到現(xiàn)在重新思考AI如何在推理過程中學(xué)習(xí)。Titans仿佛是這種精神的自然演進。

話雖如此,如今的AI領(lǐng)域比2017年更加擁擠了。無論多么精彩的新想法,要成為主流都面臨著更加艱難的道路。性能只是其中之一——效率、簡潔性和社區(qū)影響力比以往任何時候都更加重要。

盡管如此,Titans有力地預(yù)示著未來模型將不再僅僅基于已知知識進行思考,而是能夠真正地在實踐中適應(yīng)。無論這是否會成為下一個“只需關(guān)注”的時刻,這都是邁向更智能、更智慧的AI的充滿希望的一步。

參考文獻

【1】Tack,Jihoon等人,“??使用連續(xù)概念進行LLM預(yù)訓(xùn)練???!保?025)arXiv預(yù)印本 arXiv:2502.08524。?

【2】Vaswani,Ashish等人,“??你只需要注意力???!保?017),神經(jīng)信息處理系統(tǒng)的進展30。?

【3】Dosovitskiy,Alexey等人,“??一張圖片勝過16×16個單詞:用于大規(guī)模圖像識別的Transformers??。”(2020),arXiv預(yù)印本 arXiv:2010.11929。?

【4】Zerveas,George等人,“??基于Transformer的多元時間序列表示學(xué)習(xí)框架???!?2021),第27屆ACM SIGKDD知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議論文集。?

【5】Rogers,Anna等人,“??BERTology入門:我們對BERT工作原理的了解???!保?021年),計算語言學(xué)協(xié)會匯刊8:842–866。?

【6】Behrouz,Ali、Peilin Zhong和Vahab Mirrokni?!??Titans:學(xué)習(xí)在考試時記憶???!保?024年),arXiv預(yù)印本 arXiv:2501.00663。?

【7】Mandler,George。“??情感與認(rèn)知??”(2014年)。心理學(xué)出版社,3–36。?

【8】Hsieh,Cheng-Ping等人,“??RULER:長上下文語言模型的真實上下文大小是多少???”,載于:第一屆語言建模會議。2024年。?

【9】Kuratov,Yury等人。“??Babilong:用大海撈針的長上下文推理測試LLMS的極限??。”(2024),神經(jīng)信息處理系統(tǒng)進展,37:106519–106554。?

【10】Gre?ová,Katarína等人,“??基因組基準(zhǔn):基因組序列分類數(shù)據(jù)集集合???!保?023)BMC基因組數(shù)據(jù),24.1:25。?

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標(biāo)題:??Can AI Truly Develop a Memory That Adapts Like Ours???,作者:Moulik Gupta

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-6-18 08:21:36修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产亚洲精品bv在线观看| 国精品产品一区| 91麻豆免费看片| 国产精品视频久久久久| 91免费公开视频| 亚洲精品视频一二三区| 欧美性生交大片免费| 一个色的综合| 亚洲欧美综合在线观看| 六月丁香婷婷久久| 97在线免费视频| 女性裸体视频网站| 少妇一区二区三区| 91精品综合久久久久久| 亚洲精品无码久久久久久| 欧美成人xxx| 成人av网站免费观看| 国产日韩中文字幕| 精品免费囯产一区二区三区| 波多野结衣在线观看一区二区| 日韩一区二区精品葵司在线| 亚洲中文字幕久久精品无码喷水| 在线观看电影av| 国产精品你懂的在线| 精品一区二区国产| 国产精品久久久久久无人区| 蜜桃伊人久久| 97国产suv精品一区二区62| 999福利视频| 国产一区二区亚洲| 亚洲精品久久在线| 中文字幕无人区二| 四虎成人精品一区二区免费网站| 岛国av一区二区在线在线观看| 乱熟女高潮一区二区在线| 午夜激情视频在线| 亚洲国产激情av| 热re99久久精品国产99热| 蜜臀久久久久久999| 精品影院一区二区久久久| 国产精品成av人在线视午夜片| 天海翼一区二区| 亚洲一级网站| 欧美激情第一页xxx| 欧美日韩大片在线观看| 一区二区三区毛片免费| 中文字幕自拍vr一区二区三区| av网站有哪些| 欧美一性一交| 亚洲国产精品va在线看黑人| 亚洲午夜久久久久久久久| 日韩欧美另类中文字幕| 欧美一区二区高清| 精产国品一区二区三区| 免费精品一区二区三区在线观看| 91麻豆精品国产91久久久久久久久 | 欧美在线观看视频一区二区| 激情综合网婷婷| 456亚洲精品成人影院| 色婷婷精品大视频在线蜜桃视频| 国产xxxxx在线观看| 一区二区日本伦理| 黄色网址在线视频| 成人精品动漫一区二区三区| 99久久国产综合精品成人影院| 欧美成人官网二区| 性活交片大全免费看| jizz久久精品永久免费| 日韩欧美国产综合一区| 日本久久久久久久久久| 成人av影音| 日韩电影在线观看永久视频免费网站| 国产乱了高清露脸对白| 蜜桃a∨噜噜一区二区三区| 亚洲人成网7777777国产| 国产毛片欧美毛片久久久| 久久亚洲成人| 欧美成人免费观看| 国产黄色片免费看| 日韩av不卡在线观看| 91精品久久久久久久久久| 精品人妻久久久久一区二区三区| 成人午夜私人影院| 品久久久久久久久久96高清| 永久免费在线观看视频| 亚洲激情自拍视频| 男人天堂1024| 久久精品xxxxx| 欧美zozo另类异族| 熟女高潮一区二区三区| 国产精品99一区二区三| 97精品在线观看| 国产成人自拍偷拍| 国产激情偷乱视频一区二区三区| 国产综合欧美在线看| 在线观看美女网站大全免费| 亚洲一区二区偷拍精品| 欧美大尺度做爰床戏| 盗摄系列偷拍视频精品tp| 亚洲视频在线视频| 久久97人妻无码一区二区三区| 性欧美长视频| 91嫩草免费看| 91欧美在线视频| 亚洲 欧美综合在线网络| www.欧美日本| 国产精品玖玖玖在线资源| 中文字幕不卡在线视频极品| 久草精品视频在线观看| 久久99最新地址| 久久久久国产精品视频| 伊人电影在线观看| 在线观看免费视频综合| 稀缺小u女呦精品呦| 久久久人成影片免费观看| 国产91在线高潮白浆在线观看| www.成人在线观看| 中文字幕在线不卡视频| 四虎永久在线精品无码视频| 成人性生交大片免费看96| 日韩中文字幕不卡视频| 精品伦理精品一区| 久久久久国色av免费看影院| 先锋影音一区二区三区| 黑森林国产精品av| 精品国精品国产尤物美女| 男女男精品视频网站| 久久久夜精品| 久久精品五月婷婷| 色婷婷在线播放| 91精品国产91久久久久久一区二区 | 日韩美女一区二区三区四区| 国产视频精品免费| 丝袜诱惑制服诱惑色一区在线观看| 国产伦精品一区二区三区视频黑人 | 成人搞黄视频| 欧美大学生性色视频| 国产精品嫩草影院精东| 国产精品麻豆网站| 杨幂毛片午夜性生毛片 | 日韩精品一级毛片在线播放| 一区二区在线视频播放| 国产精品乱码一区二区视频| 久久久一区二区三区捆绑**| www.com毛片| 夜夜躁狠狠躁日日躁2021日韩| 96精品视频在线| 亚洲欧洲视频在线观看| 午夜影院久久久| www.88av| 老牛国产精品一区的观看方式| 玖玖玖精品中文字幕| 成人免费网站视频| 亚洲视频专区在线| 亚洲天堂免费av| 亚洲天天做日日做天天谢日日欢 | 黑森林福利视频导航| 亚洲激情77| 国产精品高精视频免费| 91九色在线porn| 91精品在线麻豆| 青娱乐国产精品| 成人精品一区二区三区四区| 国产精品12345| 亚洲宅男一区| 国产欧美日韩高清| 成人午夜在线影视| 精品国产乱码久久久久久老虎 | 日本成人不卡| 亚洲精品国产免费| 亚洲精品毛片一区二区三区| 国产精品久久久久7777按摩| 亚洲精品乱码久久久久久9色| 亚洲午夜极品| 日本视频一区二区不卡| 日韩在线电影| 欧美精品第一页在线播放| 亚洲欧美色视频| 欧美日韩国产综合一区二区| 麻豆chinese极品少妇| 91污片在线观看| 日本美女视频一区| 激情久久久久久久| 少妇精品久久久久久久久久| 电影91久久久| 欧美一区在线直播| 欧美成人高清在线| 日韩久久精品电影| 国产精品呻吟久久| 欧美性xxxx| 四虎永久免费在线| www国产精品av| 中文字幕第22页| 性久久久久久| 成年人深夜视频| av中文一区| 国产亚洲福利社区| 国产69精品久久久久9999人| 97精品久久久| 中文字幕在线三区| 国产午夜精品一区二区三区 | 成人久久久精品乱码一区二区三区| 美女一区二区三区视频| 亚洲黄色影院| 欧美性受xxxx黑人猛交88| 一区二区三区四区在线看 | 神马午夜久久| 97视频热人人精品| 懂色aⅴ精品一区二区三区| 久久久亚洲精品视频| 欧美天天影院| 国产午夜精品美女视频明星a级| 亚洲精品久久久狠狠狠爱| 欧美三级视频在线观看| 青草视频在线观看免费| 亚洲国产一区二区三区| 九九精品视频免费| 日本一区二区免费在线观看视频| 日本黄色录像片| 国产.精品.日韩.另类.中文.在线.播放| 欧美午夜性生活| 免费一区视频| 欧美亚洲一二三区| 国产一区日韩欧美| 99视频精品全部免费看| 欧美电影一二区| 日韩av在线一区二区三区| 日韩最新在线| 精品久久一区二区三区蜜桃| 2021年精品国产福利在线| 国产日韩中文在线| 欧美一级做a| 国产噜噜噜噜久久久久久久久| 成人私拍视频| 日韩av成人在线| a欧美人片人妖| 欧美又大又粗又长| 欧美大胆a人体大胆做受| 国产+成+人+亚洲欧洲| 免费在线观看的电影网站| 欧美成人性色生活仑片| 国产原创在线观看| 久久久精品一区| а√天堂8资源在线官网| 欧美成人高清视频| 性欧美1819sex性高清大胸| 美女视频久久黄| 日韩成人伦理| 高清欧美性猛交xxxx| 91桃色在线| 欧美亚洲激情视频| 韩国美女久久| 国产精品亚洲аv天堂网| 成人在线免费av| 91美女片黄在线观看游戏| 国产成人久久精品一区二区三区| 91在线视频免费| 亚洲一区二区免费在线观看| 国产伦精品一区二区三区四区视频 | 日韩视频三区| 激情六月丁香婷婷| 日本一不卡视频| www.com久久久| 高清不卡一区二区在线| 手机在线看片日韩| 国产欧美一区二区精品久导航| 欧美成人久久久免费播放| 亚洲免费伊人电影| 九九九国产视频| 色综合久久天天| 97精品人妻一区二区三区在线| 欧美一区日韩一区| 无码精品在线观看| 最近中文字幕日韩精品| 2024最新电影在线免费观看| 97在线视频一区| 福利一区二区三区视频在线观看| 91久久精品日日躁夜夜躁国产| 97视频一区| 日本三级中国三级99人妇网站| 亚洲国产精品久久久天堂| 男人添女人下部高潮视频在观看| 首页国产欧美日韩丝袜| 污视频在线观看免费网站| 91在线精品一区二区| 国产日产在线观看| 亚洲va欧美va国产va天堂影院| 欧美国产一级片| 亚洲精品一区二区三区福利| 福利在线视频导航| 欧美成人高清视频| 精品无人乱码一区二区三区 | 亚洲91精品| 国产日产欧美视频| 国产真实乱子伦精品视频| 久草视频福利在线| 国产精品传媒在线| 中文字幕一区二区三区精品| 欧美另类久久久品| 手机福利在线| 欧美精品生活片| 久久久加勒比| 欧美久久在线| 亚洲国产1区| 亚洲18在线看污www麻豆| 久久中文字幕电影| 欧美三级在线免费观看| 在线观看亚洲成人| 黄色成人一级片| 日韩中文字幕亚洲| 欧美粗大gay| 精品国产乱码久久久久久久软件 | 欧美激情a∨在线视频播放| 美女色狠狠久久| 麻豆传媒一区| 亚洲精品资源| 少妇精品无码一区二区| 中文字幕视频一区| 99久久久久久久久| 日韩av在线免费观看一区| 性国产高清在线观看| 91精品在线观看视频| 日韩在线理论| 99视频在线视频| 国产亚洲精品aa| av黄色在线播放| 日韩激情视频在线| 操人在线观看| 国产原创精品| 亚洲伦伦在线| 男男做爰猛烈叫床爽爽小说| 亚洲444eee在线观看| 欧美视频一二区| 欧美精品videossex88| 另类视频一区二区三区| 午夜在线视频免费观看| 久久精品理论片| 山东少妇露脸刺激对白在线| 91黄色免费版| 国产黄在线观看免费观看不卡| 欧美一区第一页| 免费黄色成人| 国产又大又黄又粗的视频| 国产欧美精品区一区二区三区 | 国产91丝袜在线播放九色| 欧美成人精品一区二区免费看片| 91精品欧美久久久久久动漫 | 色综合天天视频在线观看| 午夜激情小视频| 欧美在线一区二区三区四| 性欧美xxxx免费岛国不卡电影| 精品国产免费av| 国产色产综合产在线视频| 亚洲精品无码久久久久| 中文字幕在线看视频国产欧美在线看完整 | 精品成人免费观看| 91九色在线播放| 久久久一本精品99久久精品66| 久久精品毛片| 萌白酱视频在线| 日韩欧美中文字幕制服| hd国产人妖ts另类视频| 欧美日韩在线一区二区三区| 日韩av在线免费观看不卡| 日本视频在线免费| 91精品国产91综合久久蜜臀| 激情av在线| 欧美日韩成人一区二区三区| 免费观看在线综合| 欧美日韩精品亚洲精品| 亚洲国产成人爱av在线播放| 欧美性xxx| 国产精品无码乱伦| 成人午夜免费av| 欧美成人一区二区三区四区| 俺也去精品视频在线观看| 风间由美中文字幕在线看视频国产欧美| 成年人网站免费视频| 国产精品三级av在线播放| 亚洲乱色熟女一区二区三区| 欧美在线中文字幕| 91久久电影| 日本免费福利视频| 在线播放中文一区| 理论片午夜视频在线观看| 亚洲一二区在线| 99久精品国产| 国产又大又黄又爽| 91成人天堂久久成人| 国产高清一区| 亚洲第一香蕉网| 精品国产一区二区三区久久影院 | 自拍一区在线观看| 在线观看日韩片| av电影天堂一区二区在线| 亚洲无码久久久久久久| 91精品国产91久久久久久| 91视频久久| 国产精品密蕾丝袜| 日韩欧美二区三区|