谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

AIBigbull2050發表於2020-03-11
  2020-03-10 11:42:22

雅達利遊戲,又被推上了強化學習基礎問題研究的舞臺。


來自谷歌大腦的最新研究提出,強化學習雖好,效率卻很低下,這是為啥呢?

——因為AI遭遇了「災難性遺忘」!

所謂災難性遺忘,是機器學習中一種常見的現象。在深度神經網路學習不同任務的時候,相關權重的快速變化會損害先前任務的表現。

而現在,這項圖靈獎得主Bengio參與的研究證明,在街機學習環境(ALE)的單個任務中,AI也遇到了災難性遺忘的問題。

研究人員還發現,在他們提出的Memento observation中,在原始智慧體遭遇瓶頸的時候,換上一隻相同架構的智慧體接著訓練,就能取得新的突破。

單一遊戲中的「災難性干擾」

在街機學習環境(Arcade Learning Environment,ALE)中,多工研究通常基於一個假設:一項任務對應一個遊戲,多工學習對應多個遊戲或不同的遊戲模式。

研究人員對這一假設產生了質疑。

單一遊戲中,是否存在複合的學習目標?也就是說,是否存在這樣一種干擾,讓AI覺得它既要蹲著又要往前跑?

來自谷歌大腦的研究團隊挑選了「蒙特祖瑪的復仇」作為研究場景。

「蒙特祖瑪的復仇」被認為是雅達利遊戲中最難的遊戲之一,獎勵稀疏,目標結構複雜。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

研究人員觀察到,CTS模型計算的Rainbow智慧體,會在6600分的時候到達瓶頸。更長時間的訓練和更大的模型大小都不能有所突破。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

不過,只需從這個位置開始,換上一隻具有相同架構的新智慧體,就能突破到8000分的水平。

如此再重置一次,AI的最高分就來到了14500分。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

需要說明的是,在換上新智慧體的時候,其權重設定與初始的智慧體無關,學習進度和權重更新也不會影響到前一個智慧體。

研究人員給這種現象起了一個名字,叫Memento observation。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

Memento observation表明,探索策略不是限制AI在這個遊戲中得分的主要因素。

原因是,智慧體無法在不降低第一階段遊戲效能的情況下,整合新階段遊戲的資訊,和在新區域中學習值函式。

也就是說,在稀疏獎勵訊號環境中,透過新的獎勵整合的知識,可能會干擾到過去掌握的策略。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

上圖是整個訓練過程中,對遊戲的前五個環境進行取樣的頻率。

在訓練早期(左列),因為尚未發現之後的環節,智慧體總是在第一階段進行獨立訓練。到了訓練中期,智慧體的訓練開始結合上下文,這就可能會導致干擾。而到了後期,就只會在最後一個階段對智慧體進行訓練,這就會導致災難性遺忘。

並且,這種現象廣泛適用。

谷歌大腦:單一任務的強化學習遇瓶頸?是「災難性遺忘」的鍋

上面這張圖中,每柱對應一個不同的遊戲,其高度代表Rainbow Memento智慧體相對於Rainbow基線增長的百分比。

在整個ALE中,Rainbow Memento智慧體在75%的遊戲中表現有所提升,其中效能提升的中位數是25%。

這項研究證明,在深度強化學習中,單個遊戲中的AI無法持續學習,是因為存在「災難性干擾」。

並且,這一發現還表明,先前對於「任務」構成的理解可能是存在誤導的。研究人員認為,理清這些問題,將對強化學習的許多基礎問題產生深遠影響。



傳送門

論文地址:

GitHub:

— 完 —




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2679547/,如需轉載,請註明出處,否則將追究法律責任。

相關文章