當前,強化學習(包括深度強化學習DRL和多智慧體強化學習MARL)在遊戲、機器⼈等領域有⾮常出⾊的表現,但儘管如此,在達到相同⽔平的情況下,強化學習所需的樣本量(互動次數)還是遠遠超過⼈類的。這種對⼤量互動樣本的需求,嚴重阻礙了強化學習在現實場景下的應⽤。為了提升對樣本的利⽤效率,智慧體需要⾼效率地探索未知的環境,然後收集⼀些有利於智慧體達到最優策略的互動資料,以便促進智慧體的學習。近年來,研究⼈員從不同的⻆度研究RL中的探索策略,取得了許多進展,但尚⽆⼀個全⾯的,對RL中的探索策略進⾏深度分析的綜述。
三類探索演算法。該綜述⾸次提出基於⽅法性質的分類⽅法,根據⽅法性質把探索演算法主要分為基於不確定性的探索、基於內在激勵的探索和其他三⼤類,並從單智慧體深度強化學習和多智慧體深度強化學習兩⽅⾯系統性地梳理了探索策略。
四⼤挑戰。除了對探索演算法的總結,綜述的另⼀⼤特點是對探索挑戰的分析。綜述中⾸先分析了探索過程中主要的挑戰,同時,針對各類⽅法,綜述中也詳細分析了其解決各類挑戰的能⼒。
三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索⽅法的全⾯統⼀的效能⽐較。
五點開放問題。該綜述分析了現在尚存的亟需解決和進⼀步提升的挑戰,揭⽰了強化學習探索領域的未來研究⽅向。
⼤規模狀態動作空間。狀態動作空間的增加意味著智慧體需要探索的空間變⼤,就⽆疑導致了探索難度的增加。
稀疏、延遲獎勵訊號。稀疏、延遲的獎勵訊號會使得智慧體的學習⾮常困難,⽽探索機制合理與否直接影響了學習效率。
觀測中的⽩噪聲。現實世界的環境通常具有很⾼的隨機性,即狀態或動作空間中通常會出現不可預測的內容,在探索過程中避免⽩噪聲的影響也是提升效率的重要因素。
多智慧體探索挑戰。多智慧體任務下,除了上述挑戰,指數級增長的狀態動作空間、智慧體間協同探索、區域性探索和全域性探索的權衡都是影響多智慧體探索效率的重要因素。
在⼤規模動作空間的探索。在⼤規模動作空間上,融合表徵學習、動作語義等⽅法,降低探索演算法的計算複雜度仍然是⼀個急需解決的問題。
在複雜任務(時間步較長、極度稀疏、延遲的獎勵設定)上的探索,雖然取得了一定的進展,⽐如蒙特祖瑪的復仇,但這些解決辦法代價通常較⼤,甚⾄要藉助⼤量⼈類先驗知識。這其中還存在較多普遍性的問題值得探索。
⽩噪聲問題。現有的⼀些解決⽅案都需要額外估計動態模型或狀態表徵,這⽆疑增加了計算消耗。除此之外,針對⽩噪聲問題,利⽤對抗訓練等⽅式增加探索的魯棒性也是值得研究的問題。
收斂性。在⾯向不確定性的探索中,線性MDP下認知不確定性是可以收斂到0的,但在深度神經⽹絡下維度爆炸使得收斂困難。對於⾯向內在激勵的探索,內在激勵往往是啟發式設計的,缺乏理論上合理性論證。
多智慧體探索。多智慧體探索的研究還處於起步階段,尚未很好地解決上述問題,如區域性觀測、不穩定、協同探索等。