如何讓AI具有通用能力?新研究:讓它睡覺

機器之心發表於2022-11-25

為讓 AI 不再健忘,科學家們想盡了辦法。


神經網路可以在很多工上有超越人類的表現,但如果你要求一個 AI 系統吸收新的記憶,它們可能會瞬間忘記之前所學的內容。現在,一項新的研究揭示了神經網路經歷睡眠階段並幫助預防這種健忘症的新方法。
人工神經網路面臨的一個主要挑戰是「災難性遺忘」(catastrophic forgetting)。當它們去學習一項新任務時,就有一種不幸的傾向,即突然完全忘記他們以前學到的東西。

本質上,神經網路對資料的表示是對原始資料的一種面向任務的資料「壓縮」,新學到的知識會覆蓋過去的資料。


圖片

這是當前技術相比人類神經網路的最大缺陷之一:相比之下,人腦能夠終身學習新任務,而不會影響其執行先前記憶的任務的能力。我們並不完全知曉其中原因,但早有研究表明,當學習輪次穿插在睡眠期間時,人腦的學習效果最好。睡眠顯然有助於將最近的經歷納入長期記憶庫。

「重組記憶實際上可能是生物體需要經歷睡眠階段的主要原因之一,」加州大學聖地亞哥分校計算神經科學家 Erik Delanois 說道。
AI 能不能也學會去睡覺?此前的一些研究試圖透過讓 AI 模擬睡眠來解決災難性遺忘。例如,當神經網路學習一項新任務時,一種稱為交錯訓練(interleaved training)的策略會同時向機器提供它們之前學習過的舊資料,以幫助它們保留過去的知識。這種方法以前被認為是模仿大腦在睡眠期間的工作方式——不斷重播舊的記憶。

然而,科學家們曾假設交錯訓練需要在神經網路每次想要學習新事物時,為其提供最初用於學習舊技能的所有資料。這不僅需要大量的時間和資料,而且看起來也不是生物大腦在真正的睡眠中所做的事情——生物既沒有能力保留學習舊任務所需的所有資料,睡覺時也沒有時間重播所有這些內容。

在一項新研究中,研究人員分析了災難性遺忘背後的機制以及睡眠對於預防問題的效果。研究人員沒有使用傳統的神經網路,而是使用了一種更接近人類大腦的「脈衝神經網路」。

在人工神經網路中,被稱為神經元的元件被填喂資料並共同解決一個問題,例如識別人臉。神經網路反覆調整突觸——它的神經元之間的聯絡——並檢視由此產生的行為模式是否能更好地找到解決方案。隨著時間的推移(不斷訓練),網路會發現哪些模式最適合計算正確結果。最後它採用這些模式作為預設模式,這被認為是部分模仿了人腦的學習過程。

圖片這張圖代表了抽象突觸空間中的記憶及其在睡眠和不睡眠時的演化。

在人工神經網路中,神經元的輸出隨著輸入的變化而不斷變化。相比之下,在脈衝神經網路(SNN)中,一個神經元只有在給定數量的輸入訊號後,才會產生輸出訊號,這一過程是對真正生物神經元行為的真實再現。由於脈衝神經網路很少發射脈衝,因此它們比典型的人工神經網路傳輸的資料更少,原則上也需要更少的電力和通訊頻寬。
正如預期的那樣,脈衝神經網路具有這樣一個特點:在初始學習過程中會出現災難性遺忘,然而,在之後的幾輪學習後,經過一段時間間隔,參與學習第一個任務的神經元集合被重新啟用。這更接近神經科學家目前認為的睡眠過程。
簡單來說就是:SNN 使得之前學習過的記憶痕跡能夠在離線處理睡眠期間自動重新啟用,並在不受干擾的情況下修改突觸權重。
該研究使用帶有強化學習的多層 SNN 來探索將新任務訓練週期與類睡眠自主活動週期交錯,是否可以避免災難性遺忘。值得注意的是,該研究表明,可以透過週期性地中斷新任務中的強化學習(類似睡眠階段的新任務)來預防災難性遺忘。
圖 1A 顯示了一個前饋脈衝神經網路,用於模擬訊號從輸入到輸出。位於輸入層 (I) 和隱藏層 (H) 之間的神經元接受無監督學習 (使用非獎勵 STDP),H 層和輸出(O) 層之間的神經元則接受強化學習(使用獎勵 STDP 實現)。

無監督學習允許隱藏層神經元學習來自輸入層不同空間位置的不同粒子(particle)模式,而獎勵 STDP 使輸出層神經元學習基於輸入層檢測到的粒子模式型別的運動決策。


圖片

研究人員對網路進行了兩項互補的訓練。在任一任務中,網路都學會了區分獎勵和懲罰的粒子模式,目標是獲得儘可能多的獎勵。任務將模式可辨性(消耗的獎勵與懲罰粒子的比率)視為效能的衡量標準,機會為 0.5。所有報告的結果都基於至少 10 次具有不同隨機網路初始化的試驗。

為了揭示訓練和睡眠期間的突觸權重動態,研究人員接下來追蹤「任務相關」的突觸,即在特定任務訓練後在分佈的前 10% 中識別的突觸。首先訓練任務 1,然後訓練任務 2,在每次任務訓練後識別任務相關突觸。接下來再次繼續訓練任務 1,但將其與睡眠時間交織在一起(交錯訓練):T1→T2→InterleavedS,T1。任務 1 - 任務 2 的順序訓練導致忘記了任務 1,但是在 InterleavedS 之後,任務 1 被重新學習,而任務 2 也被保留(圖 4A 和 4B)。

重要的是,該策略允許我們比較 InterleavedS,T1 訓練後的突觸權重與單獨任務 1 和任務 2 訓練後被識別為任務相關的突觸權重(圖 4C)。任務 1 訓練後形成的任務 1 相關突觸的分佈結構(圖 4C;左上)在任務 2 訓練(中上)後被破壞,但在 InterleavedS、T1 訓練(右上)後部分恢復。任務 2 訓練(中下)後任務 2 相關突觸的分佈結構在任務 1 訓練(左下)後不存在,並且在 InterleavedS、T1 訓練(右下)後部分保留。

應該注意的是,這種定性模式可以在單個試驗中清楚地觀察到(圖 4C;藍色條),也可以在試驗中推廣(圖 4C;橙線)。因此,睡眠可以在合併新突觸的同時保留重要的突觸

圖片
圖 4. 新任務訓練與睡眠的交錯期允許整合與新任務相關的突觸資訊,同時保留舊任務資訊。

「有趣的是,我們沒有明確儲存與早期記憶相關的資料,以便在睡眠期間人為地重放它們,以防止遺忘,」該研究的合著者、捷克科學院電腦科學研究所的計算神經科學家 Pavel Sanda 說道。

人們發現,新的策略有助於防止災難性遺忘。脈衝神經網路在經歷類似睡眠的階段後能夠執行這兩項任務,研究人員認為他們的策略有助於保留與新舊任務相關的突觸模式。

「我們的工作展現了開發受生物學啟發的解決方案的實用性,」Delanois 說道。

研究人員指出,他們的發現不僅限於脈衝神經網路。Sanda 表示,即將開展的工作表明,類似睡眠的階段可以幫助「克服標準人工神經網路中的災難性遺忘」。

該研究於 11 月 18 日發表在《PLOS Computational Biology》雜誌上。

論文:《Sleep prevents catastrophic forgetting in spiking neural networks by forming a joint synaptic weight representation》

圖片

論文地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010628

參考連結:https://spectrum.ieee.org/catastrophic-forgetting-deep-learning

相關文章