DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習

機器之心發表於2019-05-03
近年來,深度強化學習方法給人工智慧領域帶來了很大的進展,在很多領域都超越了人類表現,比如雅達利遊戲、圍棋和無限制德撲。不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。

DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智慧體與人類之間的學習速度鴻溝。正如上個月打 TI 8 的 OpenAI Five,它相當於人類玩了「4 萬 5 千年」的 Dota 2 遊戲,如果智慧體能像人類那樣「快學習」,也許它的學習能更高效。

其實很多人認為深度強化學習樣本效率低下,學習過程過於緩慢,無法提供瞭解人類學習的可靠模型。在本文中,DeepMind 研究人員利用最近開發的技術反駁了這一批評。這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。

深度強化學習的快與慢

近期的 AI 研究引出了強大的技術,如深度強化學習深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。然而深度強化學習需要大量訓練資料,這表明深度強化學習演算法與人類學習的底層機制存在根本區別。

當這一擔憂被帶到深度強化學習第一波浪潮時,後續的 AI 工作建立了一些方法,允許深度 RL 系統更快、更高效地學習。兩種有趣且有前景的技術分別是 episodic memory 和元學習

除了作為 AI 技術以外,利用 episodic memory 和元學習的深度 RL 方法還在心理學和神經科學上有直接且有趣的應用。這些技術揭示了一個微妙但非常重要的洞見,即學習的快與慢之間的基礎聯絡。

深度強化學習的「慢」是指每一個任務都要極其龐大的試錯過程,它不能像人類那樣利用經驗或知識快速學習。但這種慢卻也非常有優勢,智慧體能找到更好的解決方案、更具有創新性的觀點等等。反觀深度學習的「快」,我們希望藉助決策經驗,幫助智慧體快速學習新任務與新知識。

也許結合了「快」與「慢」的強化學習,才是以後真正理想的強化學習

強大但慢速:第一波深度強化學習

從這個角度來看,AI 研究中一個極具吸引力的領域是深度強化學習深度強化學習神經網路建模和強化學習相結合。過去幾十年來,深度強化學習一直可望而不可及。直到過去五年裡,它強勢發展為 AI 研究中最激烈的領域之一,在多種任務(比如視訊遊戲、撲克、多人遊戲和複雜的棋盤遊戲)中超越人類表現。

DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習

原論文 BOX 1 圖 1:深度強化學習的代表性示例。

除了 AI 領域以外,深度強化學習似乎對心理學和神經科學也有著特殊的興趣。深度 RL 中驅動學習的機制最初是受動物條件作用研究啟發的,並被認為與基於獎勵學習(以多巴胺為中心)的神經機制密切相關。

同時,深度強化學習利用神經網路來學習支援泛化和遷移的強大表徵,而這正是生物大腦的核心能力。鑑於這些聯絡,深度 RL 似乎為對人類和動物學習感興趣的研究者提供了豐富的想法和假設,無論是行為還是神經科學層面。而這些研究者也的確開始將目光轉向深度強化學習

同時,對第一波深度強化學習研究的評論也敲響了警鐘。乍一看,深度強化學習系統的學習方式與人類截然不同。有人認為,這種差異在於二者的樣本效率。樣本效率是指學習系統達到任何選定的目標效能所需的資料量。

根據這一衡量標準,最初的深度 RL 系統確實與人類學習者有著很大區別。為了在雅達利視訊遊戲等任務上達到媲美人類專家的水平,深度 RL 系統需要比人類專家多得多(多幾個數量級)的訓練資料 [22]。簡而言之,最初的深度 RL 速度太慢,無法為人類學習提供可信的模型。

這一評論確實適用於自 2013 年出現的第一波深度 RL。但,此後不久,深度 RL 開始發生重要改變,其樣本效率急劇提升。這些方法降低了深度 RL 對大量訓練資料的需求,使其速度大大加快。這些計算技術的出現使得深度 RL 成為人類學習的候選模型,以及心理學和神經科學的見解來源。

本文中,DeepMind 研究人員認為有兩個關鍵的深度 RL 方法緩解了其樣本效率問題:episodic deep RL 和元強化學習。他們探索了這兩種方法是如何加快深度 RL 的,並考慮了深度 RL 對於心理學和神經科學的潛在影響。

Episodic 深度強化學習:通過 episodic memory 進行快速學習

如果增量引數調整是深度 RL 學習速度慢的一個原因,那麼一種解決方法是避免此類增量更新。但簡單地增加學習率學習率控制梯度下降優化)會導致災難性的干擾問題。

不過,近期研究表明還有另外一種解決方法:明確記錄過去的事件,然後直接使用該記錄作為制定新決策時的參考點。這就是 Episodic RL,它類似於機器學習中的「非引數」方法和心理學中的「基於例項」或「基於樣本」的學習理論。

當遇到新場景、必須作出執行什麼動作的決策時,該演算法會對比當前場景的內部表示和過去場景的表示。之後根據與當前場景最相似的過去場景選擇具備最高值的動作。

當內部狀態表示是根據多層神經網路來計算時,我們將得到的演算法叫做 episodic deep RL。該演算法的示意圖詳見下圖。

DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習

與標準增量方法不同,episodic deep RL 演算法可直接利用過往事件中收集到的資訊來指導行為。儘管 episodic deep RL 比較快,之前的深度強化學習方法比較慢,但是前者的快速學習依賴於緩慢的增量學習。正是連線權重的逐漸學習才使得系統形成有用的內部表示或每個新觀測的嵌入。

這些表示的格式是通過經驗學到的,所使用的方法正是構成標準深度 RL 骨幹網路的增量引數更新。總之,episodic deep RL 的速度是這種較慢的增量學習促成的。也就是說,快速學習根植於慢速學習。

快速學習對慢速學習的依賴並非巧合。除了 AI 領域,這一原則還可應用於心理學和神經科學

Meta-RL:加速深度強化學習的另一方法

正如原論文前面介紹過的,除了增量式的更新,深度強化學習慢速的第二個原因在於較弱的歸納偏置(inductive bias)。正如偏差-方差權衡概念中所形式化的,快速學習要求學習者使用一組合理大小的假設(hypotheses),且這些假設描述了學習者將要面臨的模式結構。假設配置地越狹隘,那麼學習的速度就越快。

然而,正如前面所預示的,問題是隻有在假設空間包含正確的假設情況下,收縮假設集才會加速學習過程。因此,現在出現了一個新的學習問題:學習者如何知道該採用什麼樣的歸納偏置?

該問題有一個非常自然的回答,即借鑑過去的經驗。當然,這種想法顯然在人類日常生活中也是非常自然的。例如我們想要學習使用新的智慧手機,那麼以前使用智慧機或相關裝置的經驗將幫助學習過程。

也就是說,以前的經驗會為「新手機如何工作」這個問題提供一個合理的假設集。這些初始的假設即對應於偏差-方差權衡中的「偏差」,它提供一種偏置資訊來幫我們快速學習新的知識。

對於標準的深度學習,學習者並沒有這些偏置資訊,也就是會有較高的方差,所以學習者會考慮很大範圍內的假設,從而希望找到那一個帶有偏置的最優假設。

利用過去經驗加速新學習過程,這在機器學習中被稱為元學習。毫不奇怪,這個概念源自心理學,它也被稱為「學習如何學習」。在第一篇使用元學習的論文中,Harlow [34] 通過一個實驗巧妙地捕捉了它的原理。

他們發現猴子總能弄清楚一些簡單規則,例如一個不熟悉的物體可能帶來食物,另一個並不會,且不管這兩個物體的左右順序是什麼樣的。所以弄清這樣簡單規則後,再換兩種不同的物體,它也只需一次學習就弄清到底哪個新物體能帶來食物,這就是學習如何學習。

DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習

原論文 BOX 3 圖 1 C:Harlow 的實驗,它展示了訓練中動物和智慧體的行為變化。

現在再回到機器學習,最近很多研究工作都表明學習如何學習能夠加速深度強化學習。這一通用觀點可以通過多種方式實現,然而,Wang [37] 和 Duan [38] 等研究者提出了一種與神經科學和心理學特別相關的一種方法。

在他們的方法中,迴圈神經網路可以在一系列相互關聯的強化學習任務中進行訓練。因為網路中的權重調整非常慢,所以它可以獲得不同任務中的通用知識,但不能快速調整以支援任意單個任務的解決方案。

在這種倩況下,迴圈神經網路的動態過程可以實現其獨立的強化學習演算法,因此能基於所有過去任務獲得的知識,快速解決新的任務(如下圖所示)。實際上,一個 RL 演算法產生另一種強化學習演算法,又可以稱之為「meta-RL」。

DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習

強化學習圖示。

與 Episodic 深度強化學習一樣,Meta-RL 再次涉及快速和慢速學習之間的密切聯絡。迴圈神經網路的連線在不同任務中慢慢學習與更新,因此跨任務的一般原則或模式能「內嵌」到 RNN 的動態過程中。因此網路的不同動態過程(或時間步)能實現新的學習演算法,也能快速解決某個新任務。

因為慢學習嵌入了足夠多的知識,也就是足夠有用的歸納偏置,所以快速學習就能建立在慢速學習的基礎上了。

Episodic Meta-RL

重要的是,episodic deep RL 和 Meta-RL 並不是互相排斥的。近期研究發現了一種方法可以將二者融合起來,實現互補。在 episodic meta-RL 中,元學習發生在迴圈神經網路中。但它上面疊加了一個 episodic memory 系統,該系統使該迴圈神經網路中的活動模式復原。

和 episodic deep RL 一樣,該 episodic memory 系統整理過去事件的集合,然後基於當前場景查詢。但是,episodic meta-RL 不是將語境和值估計連線起來,而是將語境與來自迴圈神經網路內部或隱藏單元的儲存活動模式連線起來。這些模式很重要,因為它們通過 meta-RL 總結出智慧體從單個任務中學得的東西。

在 episodic meta-RL 中,當智慧體遇到與過去事件類似的場景時,它首先復原之前事件的隱藏活動,允許之前學得的資訊直接作用於當前的策略。episodic memory 允許系統識別之前遇到的任務,然後檢索已經儲存的解決方案。

通過在 bandit 任務和導航任務中的模擬,Ritter 等人 [39] 展示了 episodic meta-RL 和原版 meta-RL 一樣學習強大的歸納偏置,使其能夠快速解決新任務。

更重要的是,當面臨之前見過的任務時,episodic meta-RL 直接檢索並復原之前發現的解決方案,避免重新探索。在遇到新任務時,系統受益於 meta-RL 的快速性;在第二次或之後再遇到時,系統受益於 episodic control 帶來的 one-shot 學習能力。

最後,文章一作 Matthew Botvinick 曾發表演講,詳細介紹了強化學習的快與慢。感興趣的讀者,請戳:

原文地址:https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

相關文章