伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

機器之心發表於2017-10-14
強化學習可以幫助智慧體自動找到任務的解決策略,但常規的強化學習方法可能對環境變化不夠穩健。近日,伯克利人工智慧研究所(BAIR)發表了一篇部落格,解讀了他們與 OpenAI 和國際電腦科學研究所(ICSI)在這方面的一項共同研究進展《Reinforcement Learning with Deep Energy-Based Policies》。該論文也是 ICML 2017 所接收的論文之一。另外,該研究相關的程式碼和演示視訊也已公開。

 

  • 論文:https://arxiv.org/abs/1702.08165
  • 程式碼:https://github.com/haarnoja/softqlearning
  • 視訊:https://sites.google.com/view/softqlearning/home

深度強化學習(deep RL)已經在很多工上取得了成功,比如基於原始畫素玩視訊遊戲(Mnih et al., 2015)、下圍棋(Silver et al., 2016)和模擬機器人運動(比如 Schulman et al., 2015)。標準深度強化學習的目標是掌握給定任務的一種解決方法,通常會選擇第一種看起來有效的方法。因此,訓練會受到環境中的隨機性、策略的初始化和演算法實現的很大影響。這個現象如圖 1 所示,其中展示了兩個訓練策略,其目標是優化一個鼓勵前進運動的獎勵函式:儘管這兩個策略都收斂到了一個高效能的步態,但這兩個步態具有顯著的差異。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 1:訓練得到的模擬步行機器人,來自 John Schulman and Patrick Coady(OpenAI Gym),參閱:https://gym.openai.com/envs/Walker2d-v1/

 

為什麼我們可能並不想只找到一個解決方案?只知道一種行動方案會讓智慧體難以應對環境的變化,而真實世界的環境常有改變。舉個例子,如圖 2 所示,假設一個機器人需要在一個簡單迷宮中到達它的目標(藍色十字區域)。在訓練階段(圖 2a),有兩條路徑通向目標。因為上面那條通道的長度稍短一些,所以該智慧體很可能會確定選擇上面的通道。但是,如果我們對該環境進行一點修改,在上面那條通道上增加一道牆(圖 2b),那麼該智慧體已經找到的解決方案將會變得不可用。因為該智慧體在訓練階段完全關注的是上面的通道,所以它幾乎沒有關於下面的通道的任何知識。因此,採用圖 2b 中的新解決方案還需要該智慧體再次從頭開始學習整個任務。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 2:走迷宮的機器人

 

最大熵策略及其能量形式

 

讓我們首先了解一下強化學習(RL),即智慧體通過迭代式地觀察當前狀態(s)、採取動作(a)並接收獎勵(r)來與環境進行互動。它會採用一種(隨機)策略(π)來選擇動作,並找到其中的最佳策略,從而使得在長度 T 的 episode 過程中累積的獎勵最大化。

 伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

最大熵策略及其能量形式

 

讓我們首先了解一下強化學習(RL),即智慧體通過迭代式地觀察當前狀態(s)、採取動作(a)並接收獎勵(r)來與環境進行互動。它會採用一種(隨機)策略(π)來選擇動作,並找到其中的最佳策略,從而使得在長度 T 的 episode 過程中累積的獎勵最大化。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 3:多模態 Q 函式

 

從高層面來看,顯然應該讓智慧體探索所有有希望的狀態,同時按照有希望的程度做優先順序排序。為了用數學形式化這一思想,一種方式是直接以指數 Q 值的形式定義策略(圖 3b,綠色分佈):

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

其密度具有玻爾茲曼分佈的形式,其中 Q 函式用作負能量(negative energy),其會為所有動作分配一個非零似然。因此,該智慧體就能知曉所有可以解決該任務的行為,這能有助於該智慧體適應條件變化,使得該智慧體在某些解決方案不可行時也能夠解決該任務。事實上,我們可以表明:通過能量形式定義的策略是最大熵強化學習目標函式

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

的一個最優解;這個函式只是將傳統的強化學習目標與策略的熵加到了一起(Ziebart 2010)。

學習這種最大熵模型的思想源自統計建模,其目標是在滿足觀察到的統計結果的同時找到具有最高熵的概率分佈。比如說,如果該分佈在歐幾里德空間上且觀察的統計結果是均值和協方差,那麼其最大熵分佈就是一個帶有對應均值和協方差的高斯分佈。在實踐中,我們更喜歡最大熵模型,因為它們對未知的假設最少,同時也能匹配觀察到的資訊。

 

之前一些研究工作已經在強化學習和最優控制方面使用了最大熵原理。Ziebart (2008) 使用了最大熵原理來解決逆向強化學習(inverse reinforcement learning)的模糊性問題,即多個獎勵函式都能解釋所觀察到的表現。還有一些成果(Todorov 2008; Toussaint, 2009)通過最大熵方法研究了推理和控制之間的聯絡。Todorov (2007, 2009) 還表明最大熵原理可用於使馬爾可夫決策過程(MDP)線性可解。Fox et al. (2016) 則利用該原理將先驗知識整合進了強化學習策略中。

軟貝爾曼方程和軟 Q 學習

 

我們可以通過使用軟貝爾曼方程(soft Bellman equation)獲得最大熵目標函式的最優解。軟貝爾曼方程如下所示:

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

其中

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

軟貝爾曼方程可以用於得到增加了熵的獎勵函式的最優 Q 函式(比如 Ziebart 2010)。注意其與傳統貝爾曼方程的相似性——傳統貝爾曼方程是取動作上 Q 函式的真正最大值(原文為 hard max),而不是求 softmax。和求真正最大值的版本一樣,軟貝爾曼方程也是一種收縮,這使得我們可以在平面的狀態和動作空間中使用動態規劃或無模型 TD(時間差分)學習來求解其 Q 函式(比如 Ziebart, 2008; Rawlik, 2012; Fox, 2016)。

 

但是,在連續域中還有兩大主要挑戰。第一,無法做到準確的動態規劃,因為軟貝爾曼方程需要在每個狀態和動作上都有效,所以其 softmax 涉及到在整個動作空間上的整合。第二,其最優策略是由一個難得實現的基於能量的分佈定義的,該分佈難以被取樣。為了解決第一個挑戰,我們可以使用表達神經網路函式近似器(expressive neural network function approximator),這可以在取樣的狀態和動作上使用隨機梯度下降訓練得到,然後就可以有效地泛化到新的狀態-動作元組上。為了解決第二個挑戰,我們可以使用馬爾可夫鏈蒙特卡羅(MCMC)等近似推理(approximate inference)技術,之前已有研究為基於能量的策略探索過這種方法(Heess, 2012)。為了加速推理,我們使用 amortized Stein 變分梯度下降(Wang and Liu, 2016)訓練了一個推理網路來生成近似樣本。所得到的演算法稱為軟 Q 學習(soft Q-learning),這是深度 Q 學習和 amortized Stein 變分梯度下降的結合。

應用於強化學習

 

現在我們可以通過軟 Q 學習來學習最大熵策略了,我們可能會想:這種方法有什麼實際用途嗎?在下面的章節中,我們會用實驗說明軟 Q 學習能夠實現更好的探索、能實現相似任務之間的策略遷移、能根據已有策略輕鬆組合出新策略以及還能通過訓練階段廣泛的探索提升穩健性。

 

更好的探索

 

軟 Q 學習(SQL)為我們提供了一種隱含的探索策略,其方法是為每一個動作分配一個非零概率,該概率會受到對其值的當前信心的影響,從而自然地將探索和開發(exploitation)結合到了一起。為了說明,讓我們假設有一個類似於前面所討論的那種雙通道迷宮(圖 4)。該任務的目標是尋找一種到達目標狀態(用藍色方框表示)的方法。假設其獎勵反比於其與目標的距離。因為該迷宮幾乎是對稱的,所以這樣的獎勵會得到一個雙模態目標,但其中只有一個模態對應於該任務的真正解。因此,在訓練階段兩個通道都要探索,這是很關鍵的,從而才能發現這兩個通道哪個才真正最好。單模態策略只有足夠幸運時才能解決這個任務,即一開始就選擇了下面的通道。而多模態軟 Q 學習策略總是可以解決該任務,它會隨機地選擇這兩個通道,直到其智慧體到達目標(圖 4)。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 4:使用軟 Q 學習訓練的策略可以在訓練過程中探索兩個通道

微調最大熵策略

 

強化學習的標準做法是為每個新任務都從頭開始訓練一個智慧體。因為智慧體丟棄了從之前任務學習到的知識,所以這個過程可能會很慢。而我們的智慧體可以遷移之前在相似任務上學習到的技能,讓其可以更快地學習新任務。遷移技能的方法之一是為通用任務預訓練一些策略,然後使用這些策略作為模板或初始配置來訓練更加具體的任務。比如,行走的技能包含在迷宮中導航的技能,因此可以將行走技能用作學習導航技能的有效初始化。為了闡述這一思想,我們通過獎勵高速行走的智慧體(不管行走方向)而訓練了一個最大熵策略。結果得到的策略學會了行走,但由於最大熵目標,它不會選擇任何一個特定方向(圖 5a)。接下來,我們使用一系列導航技能對該行走技能進行了特化,比如圖 5b。在新的任務中,智慧體只需要選擇哪種行為可以讓自己更接近目標即可,這可比從頭開始學習同樣的技能要容易多了。傳統的策略在為通用任務進行訓練時會收斂到一個特定的行為。比如,它可能只能學會向一個方向走,因此就無法將這種行走技能直接遷移到迷宮環境中,因為迷宮環境需要在多個方向上進行運動。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 5:最大熵預訓練允許智慧體在新環境中更快速地學習。為其它目標任務微調過的同一預訓練策略的視訊可訪問:https://www.youtube.com/watch?v=7Nm1N6sUoVs

 

組合性

 

類似於從通用到特定的遷移過程,我們也可以通過交叉不同的技能將已有策略的新技能組合到一起——甚至無需任何微調。這一思想很簡單:取兩個軟策略,其中每個策略都對應於一個不同的行為集合,然後通過將它們的 Q 函式相加而將它們組合起來。事實上,通過直接將組分任務的獎勵函式相加可以得到組合任務(應在誤差範圍內),而我們組合得到的策略對該組合任務而言可能就是近似最優的。比如有如下圖所示的平面操作器。左邊兩個智慧體的訓練目標是將圓柱體移動到紅色條帶所示的目標位置。注意這兩個任務的解空間的重疊方式:通過將圓柱體移動到兩個條帶的交匯處,可以同時解決這兩個任務。實際上,右邊的策略是直接將兩個 Q 函式相加所得到的,它成功將圓柱體移動到了交匯處,所以無需再為該組合任務明確訓練一個策略。傳統策略沒有這樣的組合性,因為它們只能表徵特定的非組合的解。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 6:將兩個技能組合成一個新技能

穩健性

 

因為最大熵方法會鼓勵智慧體嘗試所有可能的解決方案,所以智慧體會學習探索大部分狀態空間。因此它們可以學會如何在各種不同情況下采取行動,而且對環境中的擾動也更為穩健。為了說明這一點,我們訓練了一個 Sawyer 機器人來堆疊樂高積木——目標是讓該執行器做出一個特定的最終姿勢。圖 7 給出了訓練過程的一些快照。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 7:使用軟 Q 學習訓練堆疊樂高積木

 

該機器人在 30 分鐘後實現了第一次成功;一個小時後,它就總是可以堆疊好積木了;兩個小時後,策略完全收斂。收斂得到的策略對干擾也是穩健的,如下所示,其中該機器臂受到了很大的干擾,出現了非常不同於其正常執行過程中會遇到的情況,但它每次都能成功恢復。

伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案

圖 8:訓練後的策略對干擾是穩健的

 

相關研究

 

最近有一些論文在多步驟轉移學習方面研究了軟最優性(soft optimality)(Nachum et al., 2017)及其與策略梯度方法的聯絡(Schulman et al., 2017)。O'Donoghue et al. (2016) 談論了一個相關的概念,他們也對熵正則化(entropy regularization)和玻爾茲曼探索(Boltzmann exploration)進行了思考。熵正則化的這個版本僅考慮了當前狀態的熵,沒有考慮未來狀態的熵。

 

就我們所知,之前僅有少數幾個研究直接在真實世界機器人上演示了成功的無模型強化學習。Gu et al. (2016) 表明 NAF(normalized advantage function)可以學會開門任務,他們使用了 2.5 小時兩個機器人並行的經歷。Rusu et al. (2016) 使用強化學習訓練了一個機器臂來接觸一個紅色方塊,同時使用了模擬環境中的預訓練。Večerı́k et al. (2017) 表明,如果使用演示進行初始化,Sawyer 機器人僅需大約 30 分鐘經驗就能學會執行插入銷子這樣的任務。我們上面給出的軟 Q 學習結果也值得一提,其中僅使用了一個機器人進行訓練,而且沒有使用任何模擬或演示。 

參考文獻

同時研究的相關論文

  • Schulman, J., Abbeel, P. and Chen, X. Equivalence Between Policy Gradients and Soft Q-Learning. arXiv preprint arXiv:1704.06440, 2017.
  • Nachum, O., Norouzi, M., Xu, K. and Schuurmans, D. Bridging the Gap Between Value and Policy Based Reinforcement Learning. NIPS 2017.

利用了最大熵原理的論文

  • Kappen, H. J. Path integrals and symmetry breaking for optimal control theory. Journal of Statistical Mechanics: Theory And Experiment, 2005(11): P11011, 2005.
  • Todorov, E. Linearly-solvable Markov decision problems. In Advances in Neural Information Processing Systems, pp. 1369–1376. MIT Press, 2007.
  • Todorov, E. General duality between optimal control and estimation. In IEEE Conf. on Decision and Control, pp. 4286–4292. IEEE, 2008.
  • Todorov, E. (2009). Compositionality of optimal control laws. In Advances in Neural Information Processing Systems (pp. 1856-1864).
  • Ziebart, B. D., Maas, A. L., Bagnell, J. A., and Dey, A. K. Maximum entropy inverse reinforcement learning. In AAAI Conference on Artificial Intelligence, pp. 1433–1438, 2008.
  • Toussaint, M. Robot trajectory optimization using approximate inference. In Int. Conf. on Machine Learning, pp. 1049–1056. ACM, 2009.
  • Ziebart, B. D. Modeling purposeful adaptive behavior with the principle of maximum causal entropy. PhD thesis, 2010.
  • Rawlik, K., Toussaint, M., and Vijayakumar, S. On stochastic optimal control and reinforcement learning by approximate inference. Proceedings of Robotics: Science and Systems VIII, 2012.
  • Fox, R., Pakman, A., and Tishby, N. Taming the noise in reinforcement learning via soft updates. In Conf. on Uncertainty in Artificial Intelligence, 2016.

真實世界的無模型強化學習

  • Gu, S., Lillicrap, T., Sutskever, I., and Levine, S. Continuous deep Q-learning with model-based acceleration. In Int. Conf. on Machine Learning, pp. 2829–2838, 2016.
  • M. Večerı́k, T. Hester, J. Scholz, F. Wang, O. Pietquin, B. Piot, N. Heess, T. Rothörl, T. Lampe, and M. Riedmiller,「Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards,」arXiv preprint arXiv:1707.08817, 2017.

其它參考

  • Heess, N., Silver, D., and Teh, Y.W. Actor-critic reinforcement learning with energy-based policies. In Workshop on Reinforcement Learning, pp. 43. Citeseer, 2012.
  • Jaynes, E.T. Prior probabilities. IEEE Transactions on systems science and cybernetics, 4(3), pp.227-241, 1968.
  • Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., and Wierstra, D. Continuous control with deep reinforcement learning. ICLR 2016.
  • Liu, Q. and Wang, D. Stein variational gradient descent: A general purpose bayesian inference algorithm. In Advances In Neural Information Processing Systems, pp. 2370–2378, 2016.
  • Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A, Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. Human-level control through deep reinforcement learning. Nature, 518 (7540):529–533, 2015.
  • Mnih, V., Badia, A.P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., Silver, D. and Kavukcuoglu, K. Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning (pp. 1928-1937), 2016.
  • O’Donoghue, B., Munos, R., Kavukcuoglu, K., and Mnih, V. PGQ: Combining policy gradient and Q-learning. *arXiv preprint arXiv:1611.01626*, 2016.
  • Rusu, A. A., Vecerik, M., Rothörl, T., Heess, N., Pascanu, R. and Hadsell, R., Sim-to-real robot learning from pixels with progressive nets. arXiv preprint arXiv:1610.04286, 2016.
  • Schulman, J., Levine, S., Abbeel, P., Jordan, M., & Moritz, P. Trust region policy optimization. Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015.
  • Silver, D., Huang, A., Maddison, C.J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M. and Dieleman, S. Mastering the game of Go with deep neural networks and tree search. *Nature*, 529(7587), 484-489, 2016.
  • Sutton, R. S. and Barto, A. G. *Reinforcement learning: An introduction*, volume 1. MIT press Cambridge, 1998.
  • Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W. and Abbeel, P. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv preprint arXiv:1703.06907, 2017.
  • Wang, D., and Liu, Q. Learning to draw samples: With application to amortized MLE for generative adversarial learning. arXiv preprint arXiv:1611.01722, 2016.

相關文章