The option-critic architecture

米麼褲發表於2020-07-24

Abstract

時間抽象是強化學習中擴大學習和規劃的關鍵。雖然計劃與時間擴充套件的行動是眾所周知的,但從資料中自主地建立這樣的抽象仍然具有挑戰性。我們在option框架內解決這個問題[Sutton,Precup&Singh,1999;Precup,2000]。我們推導了option的策略梯度定理,並提出了一種新的 \(opiton\text{-}critic\) 體系結構,它能夠同時學習 option 的內部策略和終止條件,並且不需要提供任何額外的獎勵或子目標。在離散和連續環境下的實驗結果表明了該框架的靈活性和高效性。

Temporal abstraction:

Introduction

時間抽象允許表示發生在不同時間尺度上的行為過程的知識。

How to understand? Option?

在強化學習中,option(Sutton、Precup和Singh 1999;Precup 2000)為定義此類行動方案以及與之無縫地學習和規劃提供了框架。在過去的15年裡,自主地發現時間抽象一直是廣泛研究的主題(McGovern和Barto 2001;Stolle和Precup 2002;Menache、Mannor和Shimkin 2002;S¸ims¸ek和Barto 2009;Silver和Ciosek 2012),但是可以自然地與連續狀態和/或動作空間一起使用的方法直到最近才開始變得可行(Konidaris等人。2011年;Niekum 2013年;Mann、Mannor和Precup 2015年;Mankowitz、Mann和Mannor 2016年;Kulkarni等人。2016年;V ezhnevets等人。2016年;Daniel等人。2016年)。

現有的大部分工作都集中在尋找子目標(代理應該達到的有用狀態)以及隨後學習實現這些目標的策略。這一想法導致了有趣的方法,但因為他們的 "combinatorial" flavor 也很難擴大規模,。此外,與子目標相關的策略學習在資料和計算時間方面可能代價很大;在最壞的情況下,它可能與解決整個任務一樣昂貴。

我們提出了另一種觀點,它模糊了發現option問題和學習option問題之間的界限。基於policy gradient 定理(Sutton等人。2000年),我們得到了一些新的結果,這些結果使得 \(intra-option\) 政策和終止函式的逐步學習過程能夠與對它們的策略同時進行。在離散或連續的狀態空間和動作空間下,這種方法可以自然地處理線性和非線性函式逼近器。當從單個任務中學習時,現有的學習option方法要慢得多:在類似的任務中重複使用已學習的選項,這是很大的好處。相比之下,我們證明了我們的方法能夠在單個任務中成功地學習選項,而不會導致任何減速,同時仍然為轉移學習提供好處。

  1. 我們首先回顧與我們工作的兩個主要組成部分相關的背景:policy gradient method 和 option。
  2. 然後我們描述了我們方法的核心思想:the intra-option policy 和 termination gradient theorems。附加技術細節見附錄。
  3. 實驗結果表明,我們的方法能夠有效地學習有意義的時間擴充套件行為。與其他方法不同,我們只需要指定所需選項的數量;不需要有子目標、額外獎勵、描述demonstrations、多重問題或任何其他特殊調整(但是,如果需要,該方法可以利用偽獎勵函式)。據我們所知,這是第一個端到端的學習方法,可以以相當的效率擴充套件到非常大的領域。

Preliminaries and Notation

一個馬爾可夫決策過程包括:

\[狀態空間:\mathcal{S} \\ 動作空間:\mathcal{A} \\ 轉移函式P:\mathcal{S}\times\mathcal{A}\to \mathbb{R} \]

為了方便起見,我們發展了假設離散狀態和作用集的思想。然而,我們的結果擴充套件到連續空間使用通常的測量理論假設(我們的一些經驗結果是在連續任務)。A (Markov Stationary) \(policy\) 是以狀態為條件在動作上的概率分佈:$$\pi:\mathcal{S}\times\mathcal{A}\to[0,1]$$。

在discount probelem中,策略\(\pi\)的值函式定義為期望:

\[V_\pi(s)=\mathbb{E}_\pi[\sum_{t=0}^\infty \gamma^tr_{t+1}|s_0=s] \]

其動作值函式為:

\[Q_\pi(s,a)=\mathbb{E}_\pi[\sum_{t=0}^\infty \gamma^tr_{t+1}|s_0=s, a_0=a] \]

其中\(\gamma\in[0,1)\),為折扣因子。

一個策略 \(\pi\) 對給定的動作值函式 \(Q\) 是貪婪的,如果\(\pi(s,a)>0\)當且僅當\(a=\mathop{\arg\min}_{a'}Q(s,a')\)

在離散MDP中,至少有一個最優策略對其自身的作用值函式是貪婪的。

Policy gradient methods

policy gradient 方法(Sutton等人。2000;Konda和Tsitsiklis 2000)通過執行隨機梯度下降來優化給定引數化隨機策略族 \(\pi_\theta\) 的效能目標,來解決尋找一個好策略的問題。policy gradient 定理(Sutton等人。2000)提供了平均獎勵和折扣獎勵目標相對於θ的梯度的表示式。

在discounted 的設定下,目標是根據指定的開始狀態(或分佈)來定義的:

\[s_0:\rho(\theta,s_0)=\mathbb{E}_{\pi\theta}[\sum_{t=0}^{\infty}\gamma^tr_{t+1}|s_0]\tag{a-1} \]

Policy gradient 定理表明:

\[\frac{\partial\rho(\theta,s_0)}{\partial\theta}=\sum_s\mu_{\pi\theta}(s|s_0)\sum_a\frac{\partial\pi_{\theta}(a|s)}{\partial\theta}Q_{\pi\theta}(s,a) \]

\[\mu_{\pi\theta}(s|s_0)=\sum_{t=0}^{\infty}\gamma^tP(s_t=s|s_0) \]

\(\mu_{\pi\theta}(s|s_0)\) 是從 \(s_0\) 開始沿軌道的狀態的折扣權重。

在實際應用中,政策梯度是沿著 on-policy 上的平穩分佈從樣本中估計出來的。(Thomas 2014)表明,忽略此平穩分佈中的折扣因子會使通常的政策梯度估計有偏差。然而,糾正這種差異也會降低資料效率。為了簡單起見,我們建立在(Sutton et al並根據(Thomas 2014)討論如何擴充套件我們的結果。

The options framework

The options framework(Sutton、Precup和Singh 1999;Precup 2000)將時間擴充套件行動的概念正式化。

\[\text{Markov option }\omega\in\Omega \ is\ (\mathcal{I}_\omega,\pi_\omega,\beta_\omega)= \begin{cases} \mathcal{I}_\omega \subseteq\mathcal{S}\\ \pi_\omega:intra\text{-}option \text{ policy}\\ \beta_\omega \end{cases} \]

我們同時假設所有的options在任何地方都可以使用,即 \(\forall s\in\mathcal{S},\forall \omega\in\Omega:s\in\mathcal{I}_\omega\)這是大多數option發現演算法中的一種假設。我們將在最後一節討論如何消除這種假設。(Sutton,Precup,and Singh 1999;Precup 2000)表明,賦予一組option的MDP成為一個半馬爾可夫決策過程(Puterman 1994,第11章),它在 \(V_\Omega(s)\) 和 option-value function \(Q_\Omega(s,\omega)\) 上具有對應的最優值函式。mdp的學習和規劃演算法在這種情況下有對應的演算法。然而,底層MDP的存在提供了並行學習許多不同選項的可能性:這就是 \(intra\text{-}option\ learning\) 的思想,我們在工作中利用了這種思想。

Learning Options

我們對學習選擇問題採取了持續的觀點。在任何時候,我們都希望將所有可用的經驗提煉到我們系統的每個組成部分:value function, policy over options, intra-option policies and termination functions 價值函式和期權政策、期權內政策和終止函式。為了實現這一目標,我們重點學習期權策略和終止函式,假設它們是用可微引數化函式逼近器表示的。

differentiable parameterized function approximators 可微引數化函式逼近器:

有很多 differentiable function approximators,如:

  • 線性模型(Linear combinations of features)
  • 神經網路(Neural network)
  • 決策樹(Decision tree)
  • 最近鄰(Nearest neighbour)
  • ...

我們考慮了 \(call-and-return\) 執行模型,在該模型中,agent根據其在 \(\pi_\Omega\) 的策略選擇option \(\omega\) ,然後遵循其 \(intra-option\) policy \(\pi_\omega\)直到終止(由 \(\beta_\omega\) 決定),此時該過程重複進行。

\(\pi_{\omega,\theta}\) 表示由θ引數化的option ω的intra-option policy,\(\beta_{\omega,\vartheta}\) 是由ϑ引數化的ω的終止函式。我們提出了兩個新的學習option的結果,得到了作為藍圖的政策梯度定理(薩頓等人。2000年)。這兩個結果都是在假設目標是學習使當前任務的預期收益最大化的option的前提下得出的。然而,如果要在目標函式中新增額外的資訊,只要它以加性可微函式的形式出現,就可以很容易地做到這一點功能。

additive differentiable function:

假設我們的目標是優化在所有從指定狀態 \(s_0\) 和option \(\omega_0\) 的軌跡上期望的discounted return,然後

\[\rho(\Omega,\theta,\vartheta,s_0,\omega_0)=\mathbb{E}_{\Omega,\theta,\omega}[\sum_{t=0}^{\infty}\gamma^tr_{t+1}|s_0,\omega_0] \]

7.24:此公式相對於式(a-1)同為 \(\rho()\) ,應該同樣理解為\(s_0\) 的分佈

請注意,此return取決於policy over options,以及option policies和termination函式的引數。我們將取這個目標相對於θ和ϑ的梯度。為了做到這一點,我們將使用類似於 \(intra-option\) 學習中使用的方程(Sutton,Precup,and Singh 1999,第8節)。具體來說,option-value 函式的定義可以寫成:

\[Q_\Omega(s,\omega)=\sum_a\pi_{\omega,\theta}(a|s)Q_U(s,\omega,a)\tag{1} \]

首先可以很直觀地看出此方法不是將option視為不可觀察的黑盒,而是可以觀察其內部更基礎的action。基於此上式便可以理解為,option-value function就是基於狀態s,option內策略得到值的期望,所以 \(Q_U()\) 從這個表示式推斷,就可以推測是用來描述option內的state-action值函式,相當於是option的qlearning過程的值函式

\(Q_U:\mathcal{S}\times\Omega\times\mathcal{A}\to\mathbb{R}\) 在state-option對的環境中執行action的值:

\[Q_U(s,\omega,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)U(\omega,s')\tag{2} \]

通過文章內的描述可以得知之前的推斷是正確的,但是完全理解為option內的q-learning還是不妥

注意,\((s,ω)\)對導致了一個擴大的狀態空間,參見(Levy和Shimkin 2011)。但是,我們不會顯式地處理這個空間;它只用於簡化推導。函式\(U:\Omega\times\mathcal{S}\to\mathbb{R}\)稱為到達時的option-value函式(Sutton、Precup和Singh 1999,方程20)。

進入狀態 \(s'\) 時執行 \(ω\) 的值由下式給出:

\[U(\omega,s')=(1-\beta_{\omega,\vartheta}(s'))Q_\Omega(s',\omega)+\beta_{\omega,\vartheta}(s')V_\Omega(s')\tag{3} \]

Between MDPs and semi-MDP中的表示式為:\(U(s,o)=(1-\beta(s))Q(s,o)+\beta(s)\mathop{\max}_{o'\in\mathcal{O'}}Q(s,o')\)

\(U(\omega,s')\) 的含義也即高亮——進入狀態 \(s'\) 時執行 \(\omega\) 的值

\(P(s'|s,a)\) 指(s,a)時s'的概率,所以\(\sum_{s'}P(s'|s,a)U(\omega,s')\)\(\mathbb{E}[\omega|s,a]\)

請注意, \(Q_U\) and \(U\) 都依賴於θ和ϑ,但為了清楚起見,我們不在符號中包含它們。匯出策略梯度所需的最後一個要素是Markov鏈,沿著該鏈可以估計效能度量。自然的方法是考慮在增廣狀態空間中定義的鏈,因為state-option對現在在通常的Markov鏈中扮演regular state的角色。如果option \(\omega_t\) 已經啟動或在狀態st的時間t執行,則一步中轉換到 \((s_{t+1},ω_{t+1})\) 的概率為:

\[P(s_{t+1},\omega_{t+1}|s_t,\omega_t)=\sum_a\pi_{\omega_t,\theta}(a|s_t)P(s_{t+1}|s_t,a)[(1-\beta_{\omega,\vartheta}(s_{t+1}))\mathbb{1}_{\omega_t=\omega_{t+1}}+\beta_{\omega,\vartheta}(s_{t+1})\pi_\Omega(w_{t+1}|s_{t+1})]\tag{4} \]

顯然,(4)給出的過程是均勻的。在溫和的條件下,且期權無處不在,它實際上是遍歷的,並且在state-option對上存在唯一的穩態分佈(stationary distribution)。

\(\mathbb{1}_{\omega_t=\omega_{t+1}}\) 的含義:簡單理解應為 \(\omega_t=\omega_{t+1}\) 為1,不等則為0

所以對(4)的理解應為:*我將原文中的一處()改為了[]更有助於觀察

整個的one-step概率公式為: intra-option策略在\(s_t\)時選擇\(a\)的概率 乘以 \((s_t,a)\to s_{t+1}\)的轉移概率 乘以 option變化的概率 之和

其中option變化的概率包括兩部分:當 \(\omega_t\neq\omega_{t+1}\) 時,,即**option在\(s_{t+1}\) 時終止 並由上層策略 \(\pi_\Omega\) 選擇了 \(\omega_{t+1}\) **;當 \(\omega_t=\omega_{t+1}\) 時,即 \(s_{t+1}\) 不終止仍為 \(\omega_t\) 的概率

穩態分佈:

假設intra-option policies的引數 \(\theta\) 是隨機可微的,我們現在將計算expected discounted return的梯度。從式(1,2)可以得到:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\theta}\tag{6} \]

這一步的推導非常簡單,就是直接展開

\[\because Q_\Omega(s,\omega)=\sum_a\pi_{\omega,\theta}(a|s)Q_U(s,\omega,a)\\ \therefore \frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\sum_a\left(\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a)+\pi_{\omega,\theta}(a|s)\frac{\partial Q_U(s,\omega,a)}{\partial\theta}\right)\\ \because Q_U(s,\omega,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)U(\omega,s')\\ \therefore \frac{\partial Q_U(s,\omega,a)}{\partial \theta}=\gamma\sum_{s'}P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\theta} \]

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\theta}\tag{6} \]

我們可以用(3)和(4)進一步展開右手邊,得到以下定理:

Intra-Option Policy Gradient Theorem

**Theorem 1 (Intra-Option Policy Gradient Theorem). **

給定一組引數 \(\theta\) 可微的隨機intra-option的Markov期權,其gradient of the expected discounted return相對於 \(\theta\) 和初始條件 \((s_0,\omega_0)\) 的梯度為:

\[\sum_{s,\omega}\mu_\Omega(s,\omega|s_0,\omega_0)\sum_a\frac{\partial \pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) \]

其中\(\mu_\Omega(s,\omega|s_0,\omega_0)\) 是state-option對沿著從 \((s_0,\omega_0)\) 開始的軌跡的discounted weighting

\[\mu_\Omega(s,\omega|s_0,\omega_0)=\sum_{t=0}^{\infty}\gamma^tP(s_t=s,\omega_t=\omega|s_0,\omega_0) \]

證明在附錄中。

為了閱讀的連貫性將推導過程放在這裡

在上述過程推導得到:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a)+ \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\theta}\tag{6} \]

\[\because U(\omega,s')=(1-\beta_{\omega,\vartheta}(s'))Q_\Omega(s',\omega)+\beta_{\omega,\vartheta}(s')V_\Omega(s')\tag{3} \]

需要注意 \(\beta_{\omega,\vartheta}\) 定義即由 \(\vartheta\) 引數化的 \(\omega\) 的的終止函式,所以其中不含 \(\theta\)

\[\begin {aligned} \therefore \frac{\partial U(\omega,s')}{\partial \theta} &= (1-\beta_{\omega,\vartheta}(s'))\frac{\partial Q_\Omega(s',\omega)}{\partial \theta}+\beta_{\omega,\vartheta}(s')\frac{\partial V_\Omega(s')}{\partial \theta}\\ &=(1-\beta_{\omega,\vartheta}(s'))\frac{\partial Q_\Omega(s',\omega)}{\partial \theta}+\beta_{\omega,\vartheta}(s')\sum_{\omega'}\pi_\Omega(\omega'|s')\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\\ &=\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\sum_{\omega'}(\beta_{\omega,\vartheta}(s')\pi_\Omega(\omega'|s')+(1-\beta_{\omega,\vartheta}(s'))\mathbb{1}_{\omega=\omega'}) \end {aligned}\tag{7} \]

將(7)帶入(6)得:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\theta}=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\sum_{\omega'}(\beta_{\omega,\vartheta}(s')\pi_\Omega(\omega'|s')+(1-\beta_{\omega,\vartheta}(s'))\mathbb{1}_{\omega'=\omega})\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\tag{8} \]

同時再引入上文已經提到得式(4),對其引入discount可得:

\[P^{(1)}_\gamma(s_{t+1},\omega_{t+1}|s_t,\omega_t)=\sum_a\pi_{\omega_t}(a|s_t)\gamma P(s_{t+1}|s_t,a)[(1-\beta_{\omega_t}(s_{t+1}))\mathbb{1}_{\omega_t=\omega_{t+1}}+\beta_{\omega_t}(s_{t+1})\pi_\Omega(w_{t+1}|s_{t+1})] \]

同理可以得到同樣的one-step轉移概率:

\[P^{(1)}_\gamma(s_{t+1},\omega_{t}|s_t,\omega_{t-1})=\sum_a\pi_{\omega_t}(a|s_t)\gamma P(s_{t+1}|s_t,a)[(1-\beta_{\omega_{t-1}}(s_{t}))\mathbb{1}_{\omega_t=\omega_{t-1}}+\beta_{\omega_{t-1}}(s_{t})\pi_\Omega(w_{t}|s_{t})] \]

進而可以得到k-steps的遞迴表示式:

\[P^{(k)}_\gamma(s_{t+k},\omega_{t+k}|s_t,\omega_t)=\sum_{s_{t+1}}\sum_{\omega_{t+1}}(P^{(1)}_\gamma(s_{t+1},\omega_{t+1}|s_t,\omega_t)P^{(k-1)}_\gamma(s_{t+k},\omega_{t+k}|s_{t+1},\omega_{t+1})) \]

\[P^{(k)}_\gamma(s_{t+k},\omega_{t+k-1}|s_t,\omega_{t-1})=\sum_{s_{t+1}}\sum_{\omega_{t}}(P^{(1)}_\gamma(s_{t+1},\omega_{t}|s_t,\omega_{t-1})P^{(k-1)}_\gamma(s_{t+k},\omega_{t+k-1}|s_{t+1},\omega_{t})) \]

所以針對式(8)論文給出化簡:

\[\begin {aligned} \frac{\partial Q_\Omega(s,\omega)}{\partial\theta}&=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\sum_{\omega'}(\beta_{\omega,\vartheta}(s')\pi_\Omega(\omega'|s')+(1-\beta_{\omega,\vartheta}(s'))\mathbb{1}_{\omega'=\omega})\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\\ &=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_{s'}\sum_{\omega'}P^{(1)}_\gamma(s',\omega'|s,\omega)\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\\ &=\sum_{k=0}^\infty\sum_{s',\omega'}P^{(k)}_\gamma(s',\omega'|s,\omega)\sum_a\frac{\partial\pi_{\omega',\theta}(a|s')}{\partial\theta}Q_U(s',\omega',a)\\ \end{aligned}\tag{9} \]

疑問:(9)中第二步是如何到第三步的

問題關鍵:要注意表示式中字母角標的變化,遞迴得到的該表示式

\[\frac{\partial Q_\Omega(s',\omega')}{\partial\theta}=\sum_a\frac{\partial\pi_{\omega',\theta}(a|s')}{\partial\theta}Q_U(s',\omega',a) + \sum_{s''}\sum_{\omega''}P^{(1)}_\gamma(s'',\omega''|s',\omega')\frac{\partial Q_\Omega(s'',\omega'')}{\partial \theta}\\ \]

\[\begin {aligned} \frac{\partial Q_\Omega(s,\omega)}{\partial\theta} &=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_{s'}\sum_{\omega'}P^{(1)}_\gamma(s',\omega'|s,\omega)\frac{\partial Q_\Omega(s',\omega')}{\partial \theta}\\ &=\sum_a\frac{\partial\pi_{\omega,\theta}(a|s)}{\partial\theta}Q_U(s,\omega,a) + \sum_{s'}\sum_{\omega'}P^{(1)}_\gamma(s',\omega'|s,\omega)\left(\sum_a\frac{\partial\pi_{\omega',\theta}(a|s')}{\partial\theta}Q_U(s',\omega',a) + \sum_{s''}\sum_{\omega''}P^{(1)}_\gamma(s'',\omega''|s',\omega')\frac{\partial Q_\Omega(s'',\omega'')}{\partial \theta}\right)\\ &=\dots\\ &=\sum_{k=0}^\infty\sum_{s',\omega'}P^{(k)}_\gamma(s',\omega'|s,\omega)\sum_a\frac{\partial\pi_{\omega',\theta}(a|s')}{\partial\theta}Q_U(s',\omega',a)\\ \end{aligned} \]

這個梯度描述了原始水平上區域性變化對全域性期望折現收益的影響。相反,sub-goal或pseudo-reward方法假設option的目標僅僅是優化其自身的獎勵函式,而忽略了提議的變更如何在總目標中如何傳播。

Termination Gradient Theorem

現在我們將注意力轉向計算終止函式的梯度,這次假設是隨機的,並且在ϑ中是可微的。

從(1,2,3)可以得到:

\[\frac{\partial Q_\Omega(s,\omega)}{\partial\vartheta}=\sum_a\pi_{\omega,\theta}(a|s)\sum_{s'}\gamma P(s'|s,a)\frac{\partial U(\omega,s')}{\partial\vartheta} \]

直接展開,很容易得到

因此,關鍵量是 \(U\) 的梯度。這是call-and-return執行的自然結果,其中終止函式的“goodness”只能在進入下一個狀態時評估。相關梯度可進一步擴充套件為:

\[\frac{\partial U(\omega,s')}{\partial\vartheta}=-\frac{\partial\beta_{\omega,\vartheta}(s')}{\partial\vartheta}A_\Omega(s',\omega)+\gamma\sum_{\omega'}\sum_{s''}P(s'',\omega')\frac{\partial U(\omega',s'')}{\partial\vartheta}\tag{5} \]

其中 \(A_\Omega\) 是advantage function(Baird,1993),\(A_\Omega(s',\omega)=Q_\Omega(s',\omega)-V_\Omega(s')\)

遞迴地展開 \(\frac{\partial U(\omega',s'')}{\partial\vartheta}\) 得到了與定理(1)相似的形式,但其中狀態-選項對的權重現在是根據移動一個時間步的馬爾可夫鏈:\(\mu_\Omega(s_{t+1},\omega_t|s_t,\omega_{t+1})\)(詳見附錄)。

Theorem 2 (Termination Gradient Theorem).

給出一組隨機終止函式在其引數ϑ上可微的Markov期權,期望折現收益目標相對於ϑ和初始條件(s1,ω0)的梯度為:

\[-\sum_{s',\omega}\mu_\Omega(s',\omega|s_1,\omega_0)\frac{\partial \beta_{\omega,\vartheta}(s')}{\partial\vartheta}A_\Omega(s',\omega) \]

其中\(\mu_\omega(s',\omega|s_1,\omega_0)\) (s1,ω0)中狀態選項對的貼現權重:

\[\mu_\Omega(s,\omega|s_1,\omega_0)=\sum_{t=0}^\infty\gamma^tP(s_{t+1}=s,\omega+t=\omega|s_1,\omega_0) \]

優勢函式經常出現在政策梯度方法中(Sutton等人。2000年)在形成基線以減少梯度估計的方差時。它在這種情況下的出現主要與演算法設計有關。有趣的是,在我們的例子中,它是推導的直接結果,並且給了定理一個直觀的解釋:當期權選擇相對於所有期權的期望值是次優時,優勢函式是負的,它推動梯度修正上升,這增加了終止的機率。終止後,代理有機會使用πΩ選擇更好的選項。類似的想法也構成了期權的中斷執行模型(Sutton,Precup,and Singh 1999),在該模型中,只要QΩ(s?,ω)對於電流選項ω小於VΩ(s?)。(Mann、Mankowitz和Mannor 2014)最近在數值迭代設定下,通過打斷Bellman運算元的鏡頭研究了中斷選項。終止梯度定理可以解釋為提供了一個基於梯度的中斷Bellman運算元。

Algorithms and Architecture

基於定理1和定理2,我們現在可以設計一個學習option的隨機梯度下降演算法利用雙時間尺度框架(Konda和Tsitsiklis 2000),我們建議在快速的時間尺度上學習value,同時以較慢的速度更新內部期權策略和終止函式。

two-timescale framework:

我們將產生的系統稱為一個 \(option\text{-}critic\ architecture\) ,參考actor-critic架構(Sutton 1984)。option內策略、終止函式和option上的策略屬於系統的actor部分,而critic則由 \(Q_U\)\(A_\Omega\) 組成。option-critic體系結構沒有規定如何獲得 \(\pi_\Omega\) ,因為現有的各種方法都可以應用:在SMDP級別使用策略梯度方法,在option模型上使用規劃器,或者使用時間差分更新。如果 \(\pi_\Omega\) 是option上的貪婪策略,則由(2)得到相應的一步策略更新目標 \(g_t^{(1)}\)

\[g_t^{(1)}=r_{t+1}+\gamma\left( (1-\beta_{\omega_t,\vartheta}(s_{t+1}))\sum_a\pi_{\omega_t,\theta}(a|s_{t+1})Q_U(s_{t+1},\omega_t,a)\\ +\beta_{\omega_t,\vartheta}(s_{t+1})\mathop{\max}_\omega\sum_a\pi_{\omega_t,\theta}(a|s_{t+1})Q_U(s_{t+1},\omega,a)\right) \]

這也是Sutton,Precup和Singh 1999的intra-option Q-learning演算法的更新目標。演算法1給出了一個使用option內Q學習的option critic的原型實現。假設的表格設定只是為了表達的清晰。我們分別給出了critic、intra-option策略和終止函式的學習率的 \(\alpha,\alpha_\theta,\alpha_\vartheta\)

\(Q_U:(2)\)

\(Q_\Omega\) 學習 \(Q_U\) 在計算上浪費了大量的引數和樣本。一個實際的解決方案是隻學習 \(Q_\Omega\) 並從中得到 \(Q_U\) 的估計值。因為 \(Q_U\) 是對下一個state的期望, \(Q_U(s,\omega,a)=\mathbb{E}_{s'\sim P}[r(s,a)+\gamma U(\omega,s')|s,\omega,a]\) ,結果表明 \(g_t^{(1)}\) 是一個合適的估計量。我們選擇這種方法作為我們在Arcade Learning Environment中使用深度神經網路的實驗。

Experiments

我們首先考慮四個房間域中的導航任務(Sutton、Precup和Singh 1999)。我們的目標是評估一組完全自主學習的option從環境的突然變化中恢復過來的能力。(Sutton,Precup,and Singh 1999)對一組預先指定的選項提出了一個類似的實驗;我們的結果中的選項並不是事先指定的。

最初目標位於 east doorway (\(G1\)),初始狀態從所有其他單元統一繪製。 1000episode之後,目標移動到右下角房間的一個隨機位置。

原始移動可能以1/3的概率失敗,在這種情況下,代理會隨機過渡到一個空的相鄰單元。折扣係數為0.99,進球時獎勵為+1,否則獎勵為0。

與(Sutton,1999)設定相同,另\(\gamma=0.99\)

我們選擇用Boltzmann分佈引數化intra-option策略,用sigmoid函式引數化終止策略。

使用intra-optionQ學習方法學習了options上的策略(high level)。

我們還使用Boltzmann策略實現了原始的actor-critic(表示為AC-PG)。

我們還比較了option-critic和使用Boltzmann exploration和沒有eligibility trace的原始的SARSA agent。對於所有的Boltzmann策略,我們將溫度引數設定為0.001。所有的權重都被初始化為零。

Boltzmann分佈:

Boltzmann策略:

temperature parameter:

如圖2所示,當目標突然改變時,Option-Critic agent恢復得更快。此外,初始的選項集是從零開始學習的速度可與原始方法相媲美。儘管這個領域很簡單,但我們還沒有發現其他方法可以在不產生比單獨使用原始操作時更大的成本的情況下解決這個任務(McGovern和Barto 2001;S¸ims¸ek和Barto 2009)。

image-20200724150457309

在有4個option和8個option的兩個臨時擴充套件設定中,終止事件更可能發生在門口附近(圖3),這與直覺一致,即它們是好的子目標。與(Sutton,Precup,and Singh 1999)相反,我們自己並沒有對這些知識進行編碼,而是讓agent找到能夠最大化expected discounted return的option。

Pinball Domain

在彈球領域(Konidaris and Barto 2009),球必須通過一個任意形狀的多邊形迷宮引導到指定的目標位置。狀態空間在xy平面上球的位置和速度是連續的。在每一步,代理必須在五個離散的基本動作中進行選擇:更快或更慢地移動球,在垂直或水平方向上,或採取null action。與障礙物的碰撞是彈性的,可以利用agent的優勢。在這個環境中,當重複選擇不動作時,0.995的阻力系數有效地阻止了球在有限步數後的運動。每一個動作都會受到−5的懲罰,而不採取任何行動的代價是−1。當agent到達目標時,該事件將以+10000獎勵結束。我們中斷了超過10000episode的任何episode,並將折扣係數設定為0.99。

我們在critic中使用了intra-option的Q-學習,在 order 3 的 Fourier base上使用線性函式逼近(Konidaris et al.2011)。

我們嘗試了2,3或4個option。我們使用Boltzmann策略作為intra-option策略,線性sigmoid函式用於終止函式。critic的學習率設為0.01,內部和終止梯度的學習率設為0.001。我們在期權上使用了epsilon-greedy政策,\(\epsilon=0.01\)

在(Konidaris and Barto 2009)中,只有在gestation為10期後才可以使用和更新option。由於學習是完全整合在選項評論家,到40集,一個近乎最佳的option集合已經學習在所有的設定。從定性的角度來看,這些option表現出時間上的擴充套件和專門化(圖4)。我們還觀察到,在許多成功的軌跡中,紅色option將始終用於目標附近。

Arcade Learning Environment

我們在Arcade Learning Enviroment(ALE)(Bellemare等人。2013年)使用深度神經網路來近似臨界值(critic)並表示內部期權政策和終止函式。我們使用了與(Mnih等人。2013年)網路相同的前3個卷積層。我們在第一層使用32個8×8和4個步長的卷積濾波器,在第二層使用64個4×4的步長為2的濾波器,在第三層使用64個步長為1的3×3濾波器。然後,我們將第三層的輸出輸入到由512個神經元組成的dense shared layer中,如圖6所示。我們將期權內策略和終止梯度的學習率固定為0.00025,並使用RMSProp作為批評函式。

我們將期權內策略表示為第四層(稠密)的線性softmax,以輸出基於當前觀察的操作的概率分佈。終止函式的定義類似於使用sigmoid函式,每個終端有一個輸出神經元。

使用帶經驗回放的option內學習訓練critic網路。期權政策和終止被線上更新。我們用的是\(\epsilon\)-greedy的optiion政策 \(\epsilon\)=0.05試驗階段(Mnih等人。2013年)。

(未完)

Related Work

由於期權發現最近受到廣泛關注,我們現在更詳細地討論我們的方法相對於其他方法的地位。(Comanici和Precup 2010)使用基於梯度的方法,僅改進半馬爾可夫期權的終止函式;終止通過自啟動以來觀察到的特徵的累積測量值的邏輯分佈建模。(Levy和Shimkin 2011)也建立在政策梯度方法上,通過明確地構造增廣的狀態空間,並將停止事件視為額外的控制動作。相反,我們不需要直接構建這個(非常大)空間。(Silver and Ciosek 2012)通過依賴組合特性將期權動態連結到更長的時間序列中。早期關於線性期權的研究(Sorg和Singh,2010年)也使用組合性來規劃使用線性預期模型的期權。我們的方法也依賴於Bellman方程和組合性,但與策略梯度方法相結合。

最近幾篇論文還試圖將期權發現描述為一個優化問題,其解與函式逼近相容。(丹尼爾等人。2016)通過將終止函式作為隱變數來學習收益優化選項,並使用EM學習它們。(V ezhnevets等人。2016)考慮具有開環期權內策略的學習期權問題,也稱為巨集觀行動。與經典規劃一樣,快取更頻繁的動作序列。一個從狀態到動作序列的對映,以及一個承諾模組,在必要時觸發重新規劃。相反,我們始終使用閉環策略,這些策略對狀態資訊是反應性的,可以提供更好的解決方案。(Mankowitz,Mann,and Mannor 2016)提出了一種基於梯度的選項學習演算法,假設起始集和終止函式具有特定的結構。在這個框架下,在狀態空間的任何分割槽中只有一個選項是活動的。

(Kulkarni et al. 2016)利用DQN框架實現了一個基於梯度的期權學習器,它利用內在的獎勵來學習期權的內部政策,而外部的獎勵來學習期權的政策。與我們的框架不同,子目標的描述是作為選項學習者的輸入。期權批評家在概念上是一般的,不需要內在動機來學習期權。

Discussion

我們開發了一種通用的基於梯度的方法來同時學習期權內策略和終止函式,以及策略優先於期權,以優化當前任務的效能目標。我們的ALE實驗證明了在非線性函式逼近下,期權的端到端學習是成功的。如前所述,我們的方法只需要指定選項的數量。然而,如果想要使用額外的偽獎勵,option-critic框架將很容易地適應它。在這種情況下,內部策略和終止函式梯度只需考慮偽獎勵而不是任務獎勵。這個想法的一個簡單例子,我們在一些實驗中使用了,就是使用額外的獎勵來鼓勵那些確實在時間上被延長的選項,只要一個轉換事件發生就增加一個懲罰。我們的方法可以與任何其他啟發式方法無縫地合作,使選項集偏向於某些期望的屬性(例如,組合性或稀疏性),只要它可以表示為一個附加的獎勵結構。然而,從結果中可以看出,這樣的偏差並不是產生良好結果的必要條件。

期權批評家體系結構依賴於策略梯度定理,正如(Thomas 2014)中所討論的,梯度估計在折扣情況下可能是有偏的。通過引入γt?t i=1(1−βi)在我們的更新(Thomas 2014,公式(3))中,可以獲得無偏估計值。然而,我們不推薦這種方法,因為無偏估計量的樣本複雜度通常過高,且有偏估計量在我們的實驗中表現良好。

也許我們工作的最大的侷限性是假設所有的選擇都適用於任何地方。在函式逼近的情況下,初始集的一個自然擴充套件是在特徵上使用分類器,或其他形式的函式逼近。因此,確定允許哪些選項可能與評估策略優於選項的成本類似(與表格設定不同,在表格設定中,具有稀疏初始集的選項會導致更快的決策)。這類似於合格跟蹤,後者比在表格情況下不使用跟蹤更昂貴,但與函式近似具有相同的複雜性。如果要學習初始集,則需要新增的主要約束條件是,在增廣狀態選項空間中,選項及其上的策略會導致遍歷鏈。這可以表示為連線起始集和終止集的流條件。這個條件的精確描述,以及初始集的稀疏正則化,留待以後的工作。

相關文章