DeepMind用元強化學習框架探索多巴胺在學習過程中的作用

AI前線發表於2019-02-21

DeepMind用元強化學習框架探索多巴胺在學習過程中的作用

譯者 | 周小璐
編輯|Debra
AI 前線導讀:最近,AI 系統霸佔了很多電子遊戲的榜首,比如雅達利公司(Atari)的經典遊戲 Breakout 和 Pong。儘管 AI 在電子遊戲中的表現不俗,但其依舊依賴長時間的遊戲練習,才能達到或超越人類玩家。相反,我們很快就能掌握一款之前從未玩過的遊戲的基本玩法。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

為何大腦能在短時間內取得如此大的進步,這個問題引起了我們對於元學習理論(meta-learning,也就是學會學習)的研究。普遍認為,我們的學習是基於 2 個時間尺度的,從短期來看我們專注於學習具體的例項,但從長期來看我們學習抽象的技能或者要完成一項任務需要的規則。兩者結合可以幫助我們高效學習,並將這些知識快速和靈活地應用到新的任務中。在 AI 系統中重建元學習的模型,我們稱之為元強化學習(meta-reinforcement learning),已經被證明在推動快速、單次的智慧體學習中非常有效(參見我們的論文)。但是,是什麼樣的機制能讓大腦內進行如此複雜的處理在神經系統學科中依舊是個未解之謎。

視訊:v.qq.com/x/page/c064…

在我們最新的關於自然神經系統科學的論文中,使用了 AI 領域中的元強化學習框架,用來研究大腦中多巴胺在我們學習過程中起到的作用。多巴胺——通常被認為是大腦愉悅的訊號——曾經被認為和 AI 強化學習演算法中用到的獎賞預測誤差訊號有同等的功效。這些系統在獎勵的推動下反覆試錯,我們提出多巴胺的作用不僅僅是用獎勵激勵我們從過去的行為中學習,它扮演一個不可或缺的角色,尤其在前額皮質區域,讓我們能高效、快速和靈活地在新任務中進行學習。

為了證實這個理論,我們虛擬重建了神經系統科學中的 6 個元學習實驗,每個實驗都需要一個代理去完成任務,任務的底層規則都是一樣的,在某些維度上會有所差別。我們訓練了一個遞迴神經網路(扮演多巴胺的角色),然後比較遞迴網路中的活動動態和在之前神經系統科學實驗中的真實資料。結果證明遞迴網路是很好的元學習代理,因為它們能夠內化過去的行為和觀察結果,然後在進行多種任務訓練的同事吸收這些實驗。

我們重建的實驗之一被稱為哈洛實驗(Harlow Experiment),這個實驗在 19 世紀 40 年代被用來探索元學習的概念。在最初的實驗中,向一組猴子展示他們不熟悉的 2 個物體,挑選出其中的一個會被給予食物獎勵。這 2 個物體會向他們展示 6 次,每次的左右順序都是隨機的,猴子們必須學習到底哪個物體會給他們帶來獎勵。接下來還會有另外 2 個新的物品展示給他們,同樣只有一個物品會帶來食物獎勵。在訓練的過程中,猴子們發現了一種可以挑選到獎勵相關的物品的策略:它們學著在第一次選擇時隨機選擇,後面根據獎勵反饋情況選擇哪個特別的物品,而不是根據左右位置進行挑選。這個實驗證明了猴子可以內化任務的底層規則,並學習抽象的規則架構,也就是事實上的學會學習。

我們用一個虛擬電腦螢幕和隨機挑選的圖片模仿了一個非常類似的實驗,我們發現我們的元強化學習代理人和哈洛實驗中的動物表現出了非常類似的行為,甚至展示之前完全沒見過的新圖片時也會有類似的行為。

DeepMind用元強化學習框架探索多巴胺在學習過程中的作用

在我們虛擬重建哈洛實驗時,代理人必須將關注點轉向它認為與獎勵相關的目標。

實際上,我們發現元強化學習代理人可在又不同規則和架構的多個領域的任務中,學習快速適應。而且由於這個網路學習如何適應各種各樣的任務,它也在學習如何高效學習的普遍規則。重要的是,我們看到在遞迴網路中的大部分學習,都支援了我們的提案——多巴胺在元學習過程中比我們之前認為的扮演更不可或缺的角色。傳統上多巴胺被認為是在前額葉系統中增強突觸的連線,加強特定的行為。在 AI 中,這意味著多巴胺類似的獎賞訊號,在其學習正確解決問題的時候,改變了神經網路中人工突觸的權重。

但是,在我們的實驗中,神經網路的權重被凍結了,意味著在學習過程中它們不可能被改變,但元強化學習代理依然能夠解決和適應新的任務。說明類似多巴胺的獎勵不光被用來改變權重,而且傳達和編譯了抽象任務和規則結構的重要資訊,使得代理能夠更快速地適應新的任務。

神經科學家很早就觀察到了前額皮質中神經啟用的類似模式,這種模式能快速適應並且非常靈活,但是神經科學家們一直苦於尋找其背後的原理。前額皮質不依賴於緩慢的突觸權重改變去學習規則結構,而是使用抽象的基於模式的資訊直接編碼為多巴胺,這個解釋看起來更有說服力。

AI 中引起元強化學習的關鍵組成部分同樣存在於大腦中,在證明這個假說的過程中我們形成了一個理論,不但和多巴胺和前額皮質的現有知識相符,也解釋了神經系統科學和心理學領域中許多的未解之謎。尤其是,這個理論為很多問題帶來了啟示,比如大腦中如何出現結構化的、基於模型的學習,為什麼多巴胺包含基於模型的資訊,以及前額皮質中的神經元如何接收學習相關的訊號。人工智慧的成果被應用到神經系統學科和心理學中,向我們展示了一個領域可以為另一個領域帶來的價值。展望未來,我們也預感神經系統學科和心理學也可以反哺人工智慧,在設計新的模型學習強化學習代理時,從腦回路特定的組織中獲得指導。

這項工作由 Jane X. Wang,Zeb Kurth-Nelson,Dharshan Kumaran,Dhruva Tirumala,Hubert Soyer,Joel Z. Leibo,Demis Hassabis 和 Matthew Botvinick 共同完成。

《自然神經科學》雜誌論文:

https://www.nature.com/articles/s41593-018-0147-8.pdf

原文地址:

https://deepmind.com/blog/prefrontal-cortex-meta-reinforcement-learning-system/

相關文章