?如何讓AI具有通用能力？新研究：讓它睡覺

作者：機(jī)器之心 2022-11-25 09:42:53

為讓 AI 不再健忘，科學(xué)家們想盡了辦法。

神經(jīng)網(wǎng)絡(luò)可以在很多任務(wù)上有超越人類的表現(xiàn)，但如果你要求一個 AI 系統(tǒng)吸收新的記憶，它們可能會瞬間忘記之前所學(xué)的內(nèi)容。現(xiàn)在，一項新的研究揭示了神經(jīng)網(wǎng)絡(luò)經(jīng)歷睡眠階段并幫助預(yù)防這種健忘癥的新方法。

人工神經(jīng)網(wǎng)絡(luò)面臨的一個主要挑戰(zhàn)是「災(zāi)難性遺忘」（catastrophic forgetting）。當(dāng)它們?nèi)W(xué)習(xí)一項新任務(wù)時，就有一種不幸的傾向，即突然完全忘記他們以前學(xué)到的東西。

本質(zhì)上，神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的表示是對原始數(shù)據(jù)的一種面向任務(wù)的數(shù)據(jù)「壓縮」，新學(xué)到的知識會覆蓋過去的數(shù)據(jù)。

這是當(dāng)前技術(shù)相比人類神經(jīng)網(wǎng)絡(luò)的最大缺陷之一：相比之下，人腦能夠終身學(xué)習(xí)新任務(wù)，而不會影響其執(zhí)行先前記憶的任務(wù)的能力。我們并不完全知曉其中原因，但早有研究表明，當(dāng)學(xué)習(xí)輪次穿插在睡眠期間時，人腦的學(xué)習(xí)效果最好。睡眠顯然有助于將最近的經(jīng)歷納入長期記憶庫。

「重組記憶實際上可能是生物體需要經(jīng)歷睡眠階段的主要原因之一，」加州大學(xué)圣地亞哥分校計算神經(jīng)科學(xué)家 Erik Delanois 說道。

AI 能不能也學(xué)會去睡覺？此前的一些研究試圖通過讓 AI 模擬睡眠來解決災(zāi)難性遺忘。例如，當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一項新任務(wù)時，一種稱為交錯訓(xùn)練（interleaved training）的策略會同時向機(jī)器提供它們之前學(xué)習(xí)過的舊數(shù)據(jù)，以幫助它們保留過去的知識。這種方法以前被認(rèn)為是模仿大腦在睡眠期間的工作方式——不斷重播舊的記憶。

然而，科學(xué)家們曾假設(shè)交錯訓(xùn)練需要在神經(jīng)網(wǎng)絡(luò)每次想要學(xué)習(xí)新事物時，為其提供最初用于學(xué)習(xí)舊技能的所有數(shù)據(jù)。這不僅需要大量的時間和數(shù)據(jù)，而且看起來也不是生物大腦在真正的睡眠中所做的事情——生物既沒有能力保留學(xué)習(xí)舊任務(wù)所需的所有數(shù)據(jù)，睡覺時也沒有時間重播所有這些內(nèi)容。

在一項新研究中，研究人員分析了災(zāi)難性遺忘背后的機(jī)制以及睡眠對于預(yù)防問題的效果。研究人員沒有使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，而是使用了一種更接近人類大腦的「脈沖神經(jīng)網(wǎng)絡(luò)」。

在人工神經(jīng)網(wǎng)絡(luò)中，被稱為神經(jīng)元的組件被填喂數(shù)據(jù)并共同解決一個問題，例如識別人臉。神經(jīng)網(wǎng)絡(luò)反復(fù)調(diào)整突觸——它的神經(jīng)元之間的聯(lián)系——并查看由此產(chǎn)生的行為模式是否能更好地找到解決方案。隨著時間的推移（不斷訓(xùn)練），網(wǎng)絡(luò)會發(fā)現(xiàn)哪些模式最適合計算正確結(jié)果。最后它采用這些模式作為默認(rèn)模式，這被認(rèn)為是部分模仿了人腦的學(xué)習(xí)過程。

這張圖代表了抽象突觸空間中的記憶及其在睡眠和不睡眠時的演化。

在人工神經(jīng)網(wǎng)絡(luò)中，神經(jīng)元的輸出隨著輸入的變化而不斷變化。相比之下，在脈沖神經(jīng)網(wǎng)絡(luò)（SNN）中，一個神經(jīng)元只有在給定數(shù)量的輸入信號后，才會產(chǎn)生輸出信號，這一過程是對真正生物神經(jīng)元行為的真實再現(xiàn)。由于脈沖神經(jīng)網(wǎng)絡(luò)很少發(fā)射脈沖，因此它們比典型的人工神經(jīng)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)更少，原則上也需要更少的電力和通信帶寬。

正如預(yù)期的那樣，脈沖神經(jīng)網(wǎng)絡(luò)具有這樣一個特點：在初始學(xué)習(xí)過程中會出現(xiàn)災(zāi)難性遺忘，然而，在之后的幾輪學(xué)習(xí)后，經(jīng)過一段時間間隔，參與學(xué)習(xí)第一個任務(wù)的神經(jīng)元集合被重新激活。這更接近神經(jīng)科學(xué)家目前認(rèn)為的睡眠過程。

簡單來說就是：SNN 使得之前學(xué)習(xí)過的記憶痕跡能夠在離線處理睡眠期間自動重新激活，并在不受干擾的情況下修改突觸權(quán)重。

該研究使用帶有強(qiáng)化學(xué)習(xí)的多層 SNN 來探索將新任務(wù)訓(xùn)練周期與類睡眠自主活動周期交錯，是否可以避免災(zāi)難性遺忘。值得注意的是，該研究表明，可以通過周期性地中斷新任務(wù)中的強(qiáng)化學(xué)習(xí)（類似睡眠階段的新任務(wù)）來預(yù)防災(zāi)難性遺忘。

圖 1A 顯示了一個前饋脈沖神經(jīng)網(wǎng)絡(luò)，用于模擬信號從輸入到輸出。位于輸入層 (I) 和隱藏層 (H) 之間的神經(jīng)元接受無監(jiān)督學(xué)習(xí) (使用非獎勵 STDP)，H 層和輸出(O) 層之間的神經(jīng)元則接受強(qiáng)化學(xué)習(xí)(使用獎勵 STDP 實現(xiàn))。

無監(jiān)督學(xué)習(xí)允許隱藏層神經(jīng)元學(xué)習(xí)來自輸入層不同空間位置的不同粒子（particle）模式，而獎勵 STDP 使輸出層神經(jīng)元學(xué)習(xí)基于輸入層檢測到的粒子模式類型的運動決策。

研究人員對網(wǎng)絡(luò)進(jìn)行了兩項互補(bǔ)的訓(xùn)練。在任一任務(wù)中，網(wǎng)絡(luò)都學(xué)會了區(qū)分獎勵和懲罰的粒子模式，目標(biāo)是獲得盡可能多的獎勵。任務(wù)將模式可辨性（消耗的獎勵與懲罰粒子的比率）視為性能的衡量標(biāo)準(zhǔn)，機(jī)會為 0.5。所有報告的結(jié)果都基于至少 10 次具有不同隨機(jī)網(wǎng)絡(luò)初始化的試驗。

為了揭示訓(xùn)練和睡眠期間的突觸權(quán)重動態(tài)，研究人員接下來追蹤「任務(wù)相關(guān)」的突觸，即在特定任務(wù)訓(xùn)練后在分布的前 10% 中識別的突觸。首先訓(xùn)練任務(wù) 1，然后訓(xùn)練任務(wù) 2，在每次任務(wù)訓(xùn)練后識別任務(wù)相關(guān)突觸。接下來再次繼續(xù)訓(xùn)練任務(wù) 1，但將其與睡眠時間交織在一起（交錯訓(xùn)練）：T1→T2→InterleavedS,T1。任務(wù) 1 - 任務(wù) 2 的順序訓(xùn)練導(dǎo)致忘記了任務(wù) 1，但是在 InterleavedS 之后，任務(wù) 1 被重新學(xué)習(xí)，而任務(wù) 2 也被保留（圖 4A 和 4B）。

重要的是，該策略允許我們比較 InterleavedS,T1 訓(xùn)練后的突觸權(quán)重與單獨任務(wù) 1 和任務(wù) 2 訓(xùn)練后被識別為任務(wù)相關(guān)的突觸權(quán)重（圖 4C）。任務(wù) 1 訓(xùn)練后形成的任務(wù) 1 相關(guān)突觸的分布結(jié)構(gòu)（圖 4C；左上）在任務(wù) 2 訓(xùn)練（中上）后被破壞，但在 InterleavedS、T1 訓(xùn)練（右上）后部分恢復(fù)。任務(wù) 2 訓(xùn)練（中下）后任務(wù) 2 相關(guān)突觸的分布結(jié)構(gòu)在任務(wù) 1 訓(xùn)練（左下）后不存在，并且在 InterleavedS、T1 訓(xùn)練（右下）后部分保留。

應(yīng)該注意的是，這種定性模式可以在單個試驗中清楚地觀察到（圖 4C；藍(lán)色條），也可以在試驗中推廣（圖 4C；橙線）。因此，睡眠可以在合并新突觸的同時保留重要的突觸。

圖 4. 新任務(wù)訓(xùn)練與睡眠的交錯期允許整合與新任務(wù)相關(guān)的突觸信息，同時保留舊任務(wù)信息。

「有趣的是，我們沒有明確存儲與早期記憶相關(guān)的數(shù)據(jù)，以便在睡眠期間人為地重放它們，以防止遺忘，」該研究的合著者、捷克科學(xué)院計算機(jī)科學(xué)研究所的計算神經(jīng)科學(xué)家 Pavel Sanda 說道。

人們發(fā)現(xiàn)，新的策略有助于防止災(zāi)難性遺忘。脈沖神經(jīng)網(wǎng)絡(luò)在經(jīng)歷類似睡眠的階段后能夠執(zhí)行這兩項任務(wù)，研究人員認(rèn)為他們的策略有助于保留與新舊任務(wù)相關(guān)的突觸模式。

「我們的工作展現(xiàn)了開發(fā)受生物學(xué)啟發(fā)的解決方案的實用性，」Delanois 說道。

研究人員指出，他們的發(fā)現(xiàn)不僅限于脈沖神經(jīng)網(wǎng)絡(luò)。Sanda 表示，即將開展的工作表明，類似睡眠的階段可以幫助「克服標(biāo)準(zhǔn)人工神經(jīng)網(wǎng)絡(luò)中的災(zāi)難性遺忘」。

該研究于 11 月 18 日發(fā)表在《PLOS Computational Biology》雜志上。

論文：《Sleep prevents catastrophic forgetting in spiking neural networks by forming a joint synaptic weight representation》

論文地址：??https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010628?

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 技術(shù)