雅達利遊戲,又被推上了強化學習基礎問題研究的舞臺。
來自谷歌大腦的最新研究提出,強化學習雖好,效率卻很低下,這是為啥呢?
——因為AI遭遇了「災難性遺忘」!
所謂災難性遺忘,是機器學習中一種常見的現象。在深度神經網路學習不同任務的時候,相關權重的快速變化會損害先前任務的表現。
而現在,這項圖靈獎得主Bengio參與的研究證明,在街機學習環境(ALE)的單個任務中,AI也遇到了災難性遺忘的問題。
研究人員還發現,在他們提出的Memento observation中,在原始智慧體遭遇瓶頸的時候,換上一隻相同架構的智慧體接著訓練,就能取得新的突破。
單一遊戲中的「災難性干擾」
在街機學習環境(Arcade Learning Environment,ALE)中,多工研究通常基於一個假設:一項任務對應一個遊戲,多工學習對應多個遊戲或不同的遊戲模式。
研究人員對這一假設產生了質疑。
單一遊戲中,是否存在複合的學習目標?也就是說,是否存在這樣一種干擾,讓AI覺得它既要蹲著又要往前跑?
來自谷歌大腦的研究團隊挑選了「蒙特祖瑪的復仇」作為研究場景。
「蒙特祖瑪的復仇」被認為是雅達利遊戲中最難的遊戲之一,獎勵稀疏,目標結構複雜。
研究人員觀察到,CTS模型計算的Rainbow智慧體,會在6600分的時候到達瓶頸。更長時間的訓練和更大的模型大小都不能有所突破。
不過,只需從這個位置開始,換上一隻具有相同架構的新智慧體,就能突破到8000分的水平。
如此再重置一次,AI的最高分就來到了14500分。
需要說明的是,在換上新智慧體的時候,其權重設定與初始的智慧體無關,學習進度和權重更新也不會影響到前一個智慧體。
研究人員給這種現象起了一個名字,叫Memento observation。
Memento observation表明,探索策略不是限制AI在這個遊戲中得分的主要因素。
原因是,智慧體無法在不降低第一階段遊戲效能的情況下,整合新階段遊戲的資訊,和在新區域中學習值函式。
也就是說,在稀疏獎勵訊號環境中,通過新的獎勵整合的知識,可能會干擾到過去掌握的策略。
上圖是整個訓練過程中,對遊戲的前五個環境進行取樣的頻率。
在訓練早期(左列),因為尚未發現之後的環節,智慧體總是在第一階段進行獨立訓練。到了訓練中期,智慧體的訓練開始結合上下文,這就可能會導致干擾。而到了後期,就只會在最後一個階段對智慧體進行訓練,這就會導致災難性遺忘。
並且,這種現象廣泛適用。
上面這張圖中,每柱對應一個不同的遊戲,其高度代表Rainbow Memento智慧體相對於Rainbow基線增長的百分比。
在整個ALE中,Rainbow Memento智慧體在75%的遊戲中表現有所提升,其中效能提升的中位數是25%。
這項研究證明,在深度強化學習中,單個遊戲中的AI無法持續學習,是因為存在「災難性干擾」。
並且,這一發現還表明,先前對於「任務」構成的理解可能是存在誤導的。研究人員認為,理清這些問題,將對強化學習的許多基礎問題產生深遠影響。
傳送門
論文地址:https://arxiv.org/abs/2002.12499
GitHub:https://github.com/google-research/google-research/tree/master/memento
— 完 —