深度強化學習探索演算法最新綜述,近200篇文獻揭示挑戰和未來方向

機器之心發表於2021-11-10

當前,強化學習(包括深度強化學習DRL和多智慧體強化學習MARL)在遊戲、機器⼈等領域有⾮常出⾊的表現,但儘管如此,在達到相同⽔平的情況下,強化學習所需的樣本量(互動次數)還是遠遠超過⼈類的。這種對⼤量互動樣本的需求,嚴重阻礙了強化學習在現實場景下的應⽤。為了提升對樣本的利⽤效率,智慧體需要⾼效率地探索未知的環境,然後收集⼀些有利於智慧體達到最優策略的互動資料,以便促進智慧體的學習。近年來,研究⼈員從不同的⻆度研究RL中的探索策略,取得了許多進展,但尚⽆⼀個全⾯的,對RL中的探索策略進⾏深度分析的綜述。


深度強化學習探索演算法最新綜述,近200篇文獻揭示挑戰和未來方向


論文地址:https://arxiv.org/pdf/2109.06668.pdf

本⽂介紹深度強化學習領域第⼀篇系統性的綜述⽂章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述⼀共調研了將近200篇⽂獻,涵蓋了深度強化學習和多智慧體深度強化學習兩⼤領域近100種探索演算法。總的來說,該綜述的貢獻主要可以總結為以下四⽅⾯:

  • 三類探索演算法。該綜述⾸次提出基於⽅法性質的分類⽅法,根據⽅法性質把探索演算法主要分為基於不確定性的探索、基於內在激勵的探索和其他三⼤類,並從單智慧體深度強化學習和多智慧體深度強化學習兩⽅⾯系統性地梳理了探索策略。

  • 四⼤挑戰。除了對探索演算法的總結,綜述的另⼀⼤特點是對探索挑戰的分析。綜述中⾸先分析了探索過程中主要的挑戰,同時,針對各類⽅法,綜述中也詳細分析了其解決各類挑戰的能⼒。

  • 三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索⽅法的全⾯統⼀的效能⽐較。

  • 五點開放問題。該綜述分析了現在尚存的亟需解決和進⼀步提升的挑戰,揭⽰了強化學習探索領域的未來研究⽅向。



接下來,本⽂從綜述的四⼤貢獻⽅⾯展開介紹。

三類探索演算法

深度強化學習探索演算法最新綜述,近200篇文獻揭示挑戰和未來方向


上圖展⽰了綜述所遵循的分類⽅法。綜述從單智慧體深度強化學習演算法中的探索策略、多智慧體深度強化學習演算法中的探索策略兩⼤⽅向系統性地梳理了相關⼯作,並分別分成三個⼦類:⾯向不確定性的(Uncertainty-oriented)探索策略、⾯向內在激勵的(Intrinsic motivation oriented)探索策略、以及其他策略。

1、⾯向不確定性的探索策略

通常遵循“樂觀對待不確定性”的指導原則(OFU Principle)「1」。這類做法認為智慧體對某區域更⾼的不確定性(Uncertainty)往往是因為對該區域不充分的探索導致的,因此樂觀地對待不確定性,也即引導智慧體去探索不確定性⾼的地⽅,可以實現⾼效探索的⽬的。

強化學習中⼀般考慮兩類不確定性,其中引導往認知不確定性⾼的區域探索可以促進智慧體的學習,但訪問環境不確定性⾼的區域不但不會促進智慧體學習過程,反⽽由於環境不確定性的⼲擾會影響到正常學習過程。因此,更合理的做法是在樂觀對待認知不確定性引導探索的同時,儘可能地避免訪問環境不確定性更⾼的區域。基於此,根據是否在探索中考慮了環境不確定性,綜述中將這類基於不確定性的探索策略分為兩個⼩類。

第⼀類只考慮在認知不確定性的引導下樂觀探索,典型⼯作有RLSVI「2」、Bootstrapped DQN「3」、OAC「4」、OB2I「5」等;第⼆類在樂觀探索的同時考慮避免環境不確定性的影響,典型⼯作有IDS「6」、DLTV「7」等。

2、⾯向內在激勵訊號的探索策略

⼈類通常會透過不同⽅式的⾃我激勵,積極主動地與世界互動並獲得成就感。受此啟發,內在激勵訊號導向的探索⽅法通常透過設計內在獎勵來創造智慧體的成就感。從設計內在激勵訊號所使⽤的技術,單智慧體⽅法中⾯向內在激勵訊號的探索策略可分為三類,也即估計環境動⼒學預測誤差的⽅法、狀態新穎性估計⽅法和基於資訊增益的⽅法。⽽在多智慧體問題中,⽬前的探索策略主要透過狀態新穎性和社會影響兩個⻆度考慮設計內在激勵訊號。

估計環境動⼒學預測誤差的⽅法主要是基於預測誤差,⿎勵智慧體探索具有更⾼預測誤差的狀態,典型⼯作有ICM「8」、EMI「9」等。

狀態新穎性⽅法不侷限於預測誤差,⽽是直接透過衡量狀態的新穎性(Novelty),將其作為內在激勵訊號引導智慧體探索更新穎的狀態,典型⼯作有RND「10」、Novelty Search「11」、LIIR「12」等。

基於資訊增益的⽅法則將資訊獲取作為內在獎勵,旨在引導智慧體探索未知領域,同時防⽌智慧體過於關注隨機領域,典型⼯作有VIME「13」等。

⽽在多智慧體強化學習中,有⼀類特別的探索策略透過衡量“社會影響”,也即衡量智慧體對其他智慧體的影響作⽤,指導作為內在激勵訊號,典型⼯作有EITI和 EDTI「14」等。

3、其他

除了上述兩⼤類主流的探索演算法,綜述⾥還調研了其他⼀些分⽀的⽅法,從其他⻆度進⾏有效的探索。這些⽅法為如何在DRL中實現通⽤和有效的探索提供了不同的見解。

這主要包括以下三類,⼀是基於分散式的探索演算法,也即使⽤具有不同探索行為的異構actor,以不同的⽅式探索環境,典型⼯作包括Ape-x「15」、R2D2「16」等。⼆是基於引數空間噪聲的探索,不同於對策略輸出增加噪聲,採⽤噪聲對策略引數進⾏擾動,可以使得探索更加多樣化,同時保持⼀致性,典型⼯作包括NoisyNet「17」等。除了以上兩類,綜述還介紹了其他⼏種不同思路的探索⽅法,包括Go-Explore「18」,MAVEN「19」等。

四大挑戰

綜述重點總結了⾼效的探索策略主要⾯臨的四⼤挑戰。

  • ⼤規模狀態動作空間。狀態動作空間的增加意味著智慧體需要探索的空間變⼤,就⽆疑導致了探索難度的增加。

  • 稀疏、延遲獎勵訊號。稀疏、延遲的獎勵訊號會使得智慧體的學習⾮常困難,⽽探索機制合理與否直接影響了學習效率。

  • 觀測中的⽩噪聲。現實世界的環境通常具有很⾼的隨機性,即狀態或動作空間中通常會出現不可預測的內容,在探索過程中避免⽩噪聲的影響也是提升效率的重要因素。

  • 多智慧體探索挑戰。多智慧體任務下,除了上述挑戰,指數級增長的狀態動作空間、智慧體間協同探索、區域性探索和全域性探索的權衡都是影響多智慧體探索效率的重要因素。


綜述中總結了這些挑戰產⽣的原因,及可能的解決⽅法,同時在詳細介紹⽅法的部分,針對現有⽅法對這些挑戰的應對能⼒進⾏了詳細的分析。如下圖就分析了單智慧體強化學習中基於不確定性的探索⽅法解決這些挑戰的能⼒。

深度強化學習探索演算法最新綜述,近200篇文獻揭示挑戰和未來方向


三個經典的benchmark

為了對不同的探索⽅法進⾏統⼀的實驗評價,綜述總結了上述⼏種有代表性的⽅法在三個代表性 benchmark上的實驗結果: 《蒙特祖瑪的復仇》,雅達利和Vizdoom。

蒙特祖瑪的復仇由於其稀疏、延遲的獎勵成為⼀個較難解決的任務,需要RL智慧體具有較強的探索能⼒才能獲得正反饋;⽽穿越多個房間並獲得⾼分則進⼀步需要⼈類⽔平的記憶和對環境中事件的控制。

整個雅達利系列側重於對提⾼RL 智慧體學習效能的探索⽅法進⾏更全⾯的評估。

Vizdoom是另⼀個具有多種獎勵配置(從密集到⾮常稀疏)的代表性任務。與前兩個任務不同的是,Vizdoom是⼀款帶有第⼀⼈稱視⻆的導航(和射擊)遊戲。這模擬了⼀個具有嚴重的區域性可觀測性和潛在空間結構的學習環境,更類似於⼈類⾯對的現實世界的學習環境。

深度強化學習探索演算法最新綜述,近200篇文獻揭示挑戰和未來方向


基於上表所⽰的統⼀的實驗結果,結合所提出的探索中的主要挑戰,綜述中詳細分析了各類探索策略在這些任務上的優劣。

關於探索策略的開放問題和未來方向

儘管探索策略的研究取得了⾮常前沿的進展,但是仍然存在⼀些問題沒有被完全解決。綜述主要從以下五個⻆度討論了尚未解決的問題。

  • 在⼤規模動作空間的探索。在⼤規模動作空間上,融合表徵學習、動作語義等⽅法,降低探索演算法的計算複雜度仍然是⼀個急需解決的問題。

  • 在複雜任務(時間步較長、極度稀疏、延遲的獎勵設定)上的探索,雖然取得了一定的進展,⽐如蒙特祖瑪的復仇,但這些解決辦法代價通常較⼤,甚⾄要藉助⼤量⼈類先驗知識。這其中還存在較多普遍性的問題值得探索。

  • ⽩噪聲問題。現有的⼀些解決⽅案都需要額外估計動態模型或狀態表徵,這⽆疑增加了計算消耗。除此之外,針對⽩噪聲問題,利⽤對抗訓練等⽅式增加探索的魯棒性也是值得研究的問題。

  • 收斂性。在⾯向不確定性的探索中,線性MDP下認知不確定性是可以收斂到0的,但在深度神經⽹絡下維度爆炸使得收斂困難。對於⾯向內在激勵的探索,內在激勵往往是啟發式設計的,缺乏理論上合理性論證。

  • 多智慧體探索。多智慧體探索的研究還處於起步階段,尚未很好地解決上述問題,如區域性觀測、不穩定、協同探索等。


主要作者介紹

楊天培博⼠,現任University of Alberta博⼠後研究員。楊博⼠在2021年從天津⼤學取得博⼠學位,她的研究興趣主要包括遷移強化學習和多智慧體強化學習。楊博⼠致⼒於利⽤遷移學習、層次強化學習、對⼿建模等技術提升強化學習和多智慧體強化學習的學習效率和效能。⽬前已在IJCAI、AAAI、ICLR、NeurIPS等頂級會議發表論⽂⼗餘篇,擔任多個會議期刊的審稿⼈。

湯宏垚博⼠,天津⼤學博⼠在讀。湯博⼠的研究興趣主要包括強化學習表徵學習,其學術成果發表在AAAI、IJCAI、NeurIPS、ICML等頂級會議期刊上。

⽩⾠甲博⼠,哈爾濱⼯業⼤學博⼠在讀,研究興趣包括探索與利⽤、離線強化學習,學術成果發表在ICML、NeurIPS等。

劉⾦毅,天津⼤學智慧與計算學部碩⼠在讀,研究興趣主要包括強化學習、離線強化學習等。

郝建業博⼠,天津⼤學智慧與計算學部副教授。主要研究⽅向為深度強化學習多智慧體系統。發表⼈⼯智慧領域國際會議和期刊論⽂100餘篇,專著2部。主持參與國家基⾦委、科技部、天津市⼈⼯智慧重⼤等科研項⽬10餘項,研究成果榮獲ASE2019、DAI2019、CoRL2020最佳論⽂獎等,同時在遊戲AI、⼴告及推薦、⾃動駕駛、⽹絡最佳化等領域落地應⽤。

Reference
[1]P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Machinelearning, vol. 47, no. 2-3, pp. 235–256, 2002.
[2]I. Osband, B. V. Roy, and Z. Wen, “Generalization and exploration via randomized value functions,” inInternational Conference on Machine Learning, 2016, pp. 2377–2386.
[3]I. Osband, C. Blundell, A. Pritzel, and B. V. Roy, “Deep exploration via bootstrapped DQN,” in Advances inNeural Information Processing Systems 29, 2016, pp. 4026–4034.
[4]K. Ciosek, Q. Vuong, R. Loftin, and K. Hofmann, “Better exploration with optimistic actor critic,” inAdvances in Neural Information Processing Systems, 2019, pp. 1785–1796.
[5]C. Bai, L. Wang, L. Han, J. Hao, A. Garg, P. Liu, and Z. Wang, “Principled exploration via optimisticbootstrapping and backward induction,” in International Conference on Machine Learning, 2021.
[6]J. Kirschner and A. Krause, “Information directed sampling and bandits with heteroscedastic noise,” inConference On Learning Theory, 2018, pp. 358–384.
[7]B. Mavrin, H. Yao, L. Kong, K. Wu, and Y. Yu, “Distributional reinforcement learning for efficientexploration,” in International Conference on Machine Learning, 2019, pp. 4424–4434.
[8]D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-driven exploration by self-supervisedprediction,” in International Conference on Machine Learning, 2017, pp. 2778–2787.
[9]H. Kim, J. Kim, Y. Jeong, S. Levine, and H. O. Song, “EMI: exploration with mutual information,” inInternational Conference on Machine Learning, 2019, pp. 3360–3369.
[10]Y. Burda, H. Edwards, A. J. Storkey, and O. Klimov, “Exploration by random network distillation,” inInternational Conference on Learning Representations, 2019.
[11]R. Y. Tao, V. François-Lavet, and J. Pineau, “Novelty search in representational space for sample efficientexploration,” in Advances in Neural Information Processing Systems, 2020.
[12]Y. Du, L. Han, M. Fang, J. Liu, T. Dai, and D. Tao, “LIIR: learning individual intrinsic reward in multi-agentreinforcement learning,” in Advances in Neural Information Processing Systems, 2019, pp. 4405– 4416 
[13]R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. D. Turck, and P. Abbeel, “VIME: variational information maximizing exploration,” in Advances in Neural Information Processing Systems, 2016, pp. 1109–1117. 
[14]T. Wang, J. Wang, Y. Wu, and C. Zhang, “Influence-based multi-agent exploration,” in International Conference on Learning Representations, 2020
[15]D. Horgan, J. Quan, D. Budden, G. Barth-Maron, M. Hessel, H. van Hasselt, and D. Silver, “Distributed prioritized experience replay,” in International Conference on Learning Representations, 2018. 
[16]S. Kapturowski, G. Ostrovski, J. Quan, R. Munos, and W. Dabney, “Recurrent experience replay in distributed reinforcement learning,” in International Conference on Learning Representations, 2019. 
[17]M. Fortunato, M. G. Azar, B. Piot, J. Menick, M. Hessel, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg, “Noisy networks for exploration,” in International Conference on Learning Representations, 2018.
[18]E. Adrien, H. Joost, L. Joel, S. K. O, and C. Jeff, “First return, then explore,” Nature, vol. 590, no. 7847, pp.580–586, 2021.
[19]A. Mahajan, T. Rashid, M. Samvelyan, and S. Whiteson, “MAVEN: multi-agent variational exploration,” inAdvances in Neural Information Processing Systems, 2019, pp. 7611–7622. 

相關文章