生物神經網路有一個重要的特點是高度可塑性,這使得自然生物體具有卓越的適應性,並且這種能力會影響神經系統的突觸強度和拓撲結構。
然而,人工神經網路主要被設計為靜態的、完全連線的結構,在面對不斷變化的環境和新的輸入時可能非常脆弱。儘管研究人員對線上學習和元學習進行了大量研究,但目前最先進的神經網路系統仍然使用離線學習,因為這與反向傳播結合使用時更加簡單。
那麼,人工神經網路是否也能擁有類似於高度可塑性的性質?
來自哥本哈根資訊科技大學的研究團隊提出了一種自組織神經網路 ——LNDP,能夠以活動和獎勵依賴的方式實現突觸和結構的可塑性。
論文連結:https://arxiv.org/pdf/2406.09787
專案連結:https://github.com/erwanplantec/LNDP
2023 年,Najarro 等人提出了神經發育程式(NDP)模型。但 NDP 在時間上限制在環境前期階段。因此,哥本哈根資訊科技大學的研究團隊透過擴充套件 NDP 框架來解決這一限制。
具體而言,研究團隊提出了一種在智慧體生命週期內能夠實現可塑性和結構變化的機制 ——LNDP(Lifelong Neural Developmental programs)。該機制透過執行區域性計算來實現,依賴於人工神經網路中每個神經元的區域性活動和環境的全域性獎勵函式。LNDP 使得人工神經網路具備可塑性,並橋接了間接發育編碼(indirect developmental encoding)和元學習的可塑性規則。
LNDP 由一組引數化元件組成,旨在定義神經和突觸動態,並使人工神經網路具有結構可塑性(即突觸可以動態新增或移除)。
受生物自發性活動(spontaneous activity,SA)的啟發,研究團隊進一步擴充套件了系統,引入了一種可實現預經驗(pre-experience)發展的機制,用感覺神經元的簡單可學習隨機過程建模 SA,這使得一些元件可以複用。
研究團隊基於 Graph Transformer 層(Dwivedi and Bresson, 2021)提出了一種 LNDP 例項,並在一組強化學習任務中使用協方差矩陣自適應進化策略(CMA-ES)最佳化了 LNDP。
具體來說,該研究採用了三個經典控制任務(Cartpole、Acrobot、Pendulum)以及一個具有非平穩動態的蒐集任務(Foraging),這些任務需要智慧體具備生命週期適應性。
總的來說,研究團隊展示了從隨機連線(或空)神經網路開始, LNDP 以活動和經驗依賴的方式,自組織地形成了功能性網路,以有效解決控制性任務。
該研究還表明,在需要快速適應或具有非平穩動態、需要持續適應的環境中,結構可塑效能夠改善結果。此外,該研究還展示了基於預環境自發性活動驅動的發展階段在網路自組織形成功能單元方面的有效性。
實驗結果
研究團隊在所有任務上測試了 SP 模型(具有結構可塑性的模型)和非 SP 模型(無結構可塑性的模型)之間的差異,結果如下圖 2 所示。
在具有非平穩動態的蒐集任務(Foraging)上,研究團隊發現 SP 模型始終比非 SP 模型達到更高的平均適應度,並且兩者達到相似的最大適應度。這表明 SP 在非平穩情況下具有更好的適應性。
在 CartPole 環境中,對於沒有 SA 的模型來說,在最開始就達到良好效能特別困難,而具有 SA 的模型在最初就顯示出解決任務的固有技能。這展示出模型在非獎勵依賴和自組織的方式下實現目標功能網路的能力。
更多研究細節,請參考原論文。