強化學習(六)時序差分線上控制演算法SARSA

劉建平Pinard發表於2018-09-09

    在強化學習(五)用時序差分法(TD)求解中,我們討論了用時序差分來求解強化學習預測問題的方法,但是對控制演算法的求解過程沒有深入,本文我們就對時序差分的線上控制演算法SARSA做詳細的討論。

    SARSA這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。

1. SARSA演算法的引入

    SARSA演算法是一種使用時序差分求解強化學習控制問題的方法,回顧下此時我們的控制問題可以表示為:給定強化學習的5個要素:狀態集$S$, 動作集$A$, 即時獎勵$R$,衰減因子$\gamma$, 探索率$\epsilon$, 求解最優的動作價值函式$q_{*}$和最優策略$\pi_{*}$。

    這一類強化學習的問題求解不需要環境的狀態轉化模型,是不基於模型的強化學習問題求解方法。對於它的控制問題求解,和蒙特卡羅法類似,都是價值迭代,即通過價值函式的更新,來更新當前的策略,再通過新的策略,來產生新的狀態和即時獎勵,進而更新價值函式。一直進行下去,直到價值函式和策略都收斂。

    再回顧下時序差分法的控制問題,可以分為兩類,一類是線上控制,即一直使用一個策略來更新價值函式和選擇新的動作。而另一類是離線控制,會使用兩個控制策略,一個策略用於選擇新的動作,另一個策略用於更新價值函式。

    我們的SARSA演算法,屬於線上控制這一類,即一直使用一個策略來更新價值函式和選擇新的動作,而這個策略是$\epsilon-$貪婪法,在強化學習(四)用蒙特卡羅法(MC)求解中,我們對於$\epsilon-$貪婪法有詳細講解,即通過設定一個較小的$\epsilon$值,使用$1−\epsilon$的概率貪婪地選擇目前認為是最大行為價值的行為,而用$\epsilon$的概率隨機的從所有m個可選行為中選擇行為。用公式可以表示為:$$\pi(a|s)= \begin{cases} \epsilon/m + 1- \epsilon & {if\; a^{*} = \arg\max_{a \in A}Q(s,a)}\\ \epsilon/m & {else} \end{cases}$$

2. SARSA演算法概述

    作為SARSA演算法的名字本身來說,它實際上是由S,A,R,S,A幾個字母組成的。而S,A,R分別代表狀態(State),動作(Action),獎勵(Reward),這也是我們前面一直在使用的符號。這個流程體現在下圖:

    在迭代的時候,我們首先基於$\epsilon-$貪婪法在當前狀態$S$選擇一個動作$A$,這樣系統會轉到一個新的狀態$S'$, 同時給我們一個即時獎勵$R$, 在新的狀態$S'$,我們會基於$\epsilon-$貪婪法在狀態$S‘’$選擇一個動作$A'$,但是注意這時候我們並不執行這個動作$A'$,只是用來更新的我們的價值函式,價值函式的更新公式是:$$Q(S,A) = Q(S,A) + \alpha(R+\gamma Q(S',A') - Q(S,A))$$

    其中,$\gamma$是衰減因子,$\alpha$是迭代步長。這裡和蒙特卡羅法求解線上控制問題的迭代公式的區別主要是,收穫$G_t$的表示式不同,對於時序差分,收穫$G_t$的表示式是$R+\gamma Q(S',A')$。這個價值函式更新的貝爾曼公式我們在強化學習(五)用時序差分法(TD)求解第2節有詳細講到。

    除了收穫$G_t$的表示式不同,SARSA演算法和蒙特卡羅線上控制演算法基本類似。

3. SARSA演算法流程

    下面我們總結下SARSA演算法的流程。

    演算法輸入:迭代輪數$T$,狀態集$S$, 動作集$A$, 步長$\alpha$,衰減因子$\gamma$, 探索率$\epsilon$,

    輸出:所有的狀態和動作對應的價值$Q$

    1. 隨機初始化所有的狀態和動作對應的價值$Q$. 對於終止狀態其$Q$值初始化為0.

    2. for i from 1 to T,進行迭代。

      a) 初始化S為當前狀態序列的第一個狀態。設定$A$為$\epsilon-$貪婪法在當前狀態$S$選擇的動作。

      b) 在狀態$S$執行當前動作$A$,得到新狀態$S'$和獎勵$R$

      c) 用$\epsilon-$貪婪法在狀態$S'$選擇新的動作$A'$

      d) 更新價值函式$Q(S,A)$:$$Q(S,A) = Q(S,A) + \alpha(R+\gamma Q(S',A') - Q(S,A))$$

      e) $S=S', A=A'$

      f) 如果$S'$是終止狀態,當前輪迭代完畢,否則轉到步驟b)

    這裡有一個要注意的是,步長$\alpha$一般需要隨著迭代的進行逐漸變小,這樣才能保證動作價值函式$Q$可以收斂。當$Q$收斂時,我們的策略$\epsilon-$貪婪法也就收斂了。

4. SARSA演算法例項:Windy GridWorld

    下面我們用一個著名的例項Windy GridWorld來研究SARSA演算法。

    如下圖一個10×7的長方形格子世界,標記有一個起始位置 S 和一個終止目標位置 G,格子下方的數字表示對應的列中一定強度的風。當個體進入該列的某個格子時,會按圖中箭頭所示的方向自動移動數字表示的格數,藉此來模擬世界中風的作用。同樣格子世界是有邊界的,個體任意時刻只能處在世界內部的一個格子中。個體並不清楚這個世界的構造以及有風,也就是說它不知道格子是長方形的,也不知道邊界在哪裡,也不知道自己在裡面移動移步後下一個格子與之前格子的相對位置關係,當然它也不清楚起始位置、終止目標的具體位置。但是個體會記住曾經經過的格子,下次在進入這個格子時,它能準確的辨認出這個格子曾經什麼時候來過。格子可以執行的行為是朝上、下、左、右移動一步,每移動一步只要不是進入目標位置都給予一個 -1 的懲罰,直至進入目標位置後獲得獎勵 0 同時永久停留在該位置。現在要求解的問題是個體應該遵循怎樣的策略才能儘快的從起始位置到達目標位置。

    邏輯並不複雜,完整的程式碼在我的github。這裡我主要看一下關鍵部分的程式碼。

    演算法中第2步步驟a,初始化$S$,使用$\epsilon-$貪婪法在當前狀態$S$選擇的動作的過程:

    # initialize state
    state = START

    # choose an action based on epsilon-greedy algorithm
    if np.random.binomial(1, EPSILON) == 1:
        action = np.random.choice(ACTIONS)
    else:
        values_ = q_value[state[0], state[1], :]
        action = np.random.choice([action_ for action_, value_ in enumerate(values_) if value_ == np.max(values_)])

    演算法中第2步步驟b,在狀態$S$執行當前動作$A$,得到新狀態$S'$的過程,由於獎勵不是終止就是-1,不需要單獨計算:

def step(state, action):
    i, j = state
    if action == ACTION_UP:
        return [max(i - 1 - WIND[j], 0), j]
    elif action == ACTION_DOWN:
        return [max(min(i + 1 - WIND[j], WORLD_HEIGHT - 1), 0), j]
    elif action == ACTION_LEFT:
        return [max(i - WIND[j], 0), max(j - 1, 0)]
    elif action == ACTION_RIGHT:
        return [max(i - WIND[j], 0), min(j + 1, WORLD_WIDTH - 1)]
    else:
        assert False

    演算法中第2步步驟c,用$\epsilon-$貪婪法在狀態$S‘$選擇新的動作$A'$的過程:

        next_state = step(state, action)
        if np.random.binomial(1, EPSILON) == 1:
            next_action = np.random.choice(ACTIONS)
        else:
            values_ = q_value[next_state[0], next_state[1], :]
            next_action = np.random.choice([action_ for action_, value_ in enumerate(values_) if value_ == np.max(values_)])

    演算法中第2步步驟d,e, 更新價值函式$Q(S,A)$以及更新當前狀態動作的過程:

        # Sarsa update
        q_value[state[0], state[1], action] += \
            ALPHA * (REWARD + q_value[next_state[0], next_state[1], next_action] -
                     q_value[state[0], state[1], action])
        state = next_state
        action = next_action

    程式碼很簡單,相信大家對照演算法,跑跑程式碼,可以很容易得到這個問題的最優解,進而搞清楚SARSA演算法的整個流程。

5. SARSA($\lambda$)

    在強化學習(五)用時序差分法(TD)求解中我們講到了多步時序差分$TD(\lambda)$的價值函式迭代方法,那麼同樣的,對應的多步時序差分線上控制演算法,就是我們的$SARSA(\lambda)$。

    $TD(\lambda)$有前向和後向兩種價值函式迭代方式,當然它們是等價的。在控制問題的求解時,基於反向認識的 $SARSA(\lambda)$演算法將可以有效地線上學習,資料學習完即可丟棄。因此 $SARSA(\lambda)$演算法預設都是基於反向來進行價值函式迭代。

    在上一篇我們講到了$TD(\lambda)$狀態價值函式的反向迭代,即:$$\delta_t = R_{t+1} + \gamma V(S_{t+1}) -V(S_t)$$$$V(S_t) = V(S_t)  + \alpha\delta_tE_t(S)$$

    對應的動作價值函式的迭代公式可以找樣寫出,即:$$\delta_t = R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) -Q(S_t, A_t)$$$$Q(S_t, A_t) = Q(S_t, A_t)  + \alpha\delta_tE_t(S,A)$$

    除了狀態價值函式$ Q(S,A) $的更新方式,多步引數$\lambda$以及反向認識引入的效用跡$E(S,A)$,其餘演算法思想和SARSA類似。這裡我們總結下$SARSA(\lambda)$的演算法流程。   

    演算法輸入:迭代輪數$T$,狀態集$S$, 動作集$A$, 步長$\alpha$,衰減因子$\gamma$, 探索率$\epsilon$, 多步引數$\lambda$

    輸出:所有的狀態和動作對應的價值$Q$

    1. 隨機初始化所有的狀態和動作對應的價值$Q$. 對於終止狀態其$Q$值初始化為0.

    2. for i from 1 to T,進行迭代。

      a) 初始化所有狀態動作的效用跡$E$為0,初始化S為當前狀態序列的第一個狀態。設定$A$為$\epsilon-$貪婪法在當前狀態$S$選擇的動作。

      b) 在狀態$S$執行當前動作$A$,得到新狀態$S'$和獎勵$R$

      c) 用$\epsilon-$貪婪法在狀態$S'$選擇新的動作$A'$

      d) 更新效用跡函式$E(S,A) $和TD誤差$\delta$: $$E(S,A) = E(S,A)+1$$$$\delta= R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) -Q(S_t, A_t)$$

      e) 對當前序列所有出現的狀態s和對應動作a, 更新價值函式$Q(s,a)$和效用跡函式$E(s,a) $:$$Q(s,a) = Q(s,a) + \alpha\delta E(s,a)$$$$E(s,a) = \gamma\lambda E(s,a)$$

      f) $S=S', A=A'$

      g) 如果$S'$是終止狀態,當前輪迭代完畢,否則轉到步驟b)

      對於步長$\alpha$,和SARSA一樣,一般也需要隨著迭代的進行逐漸變小才能保證動作價值函式$Q$收斂。

6. SARSA小結

    SARSA演算法和動態規劃法比起來,不需要環境的狀態轉換模型,和蒙特卡羅法比起來,不需要完整的狀態序列,因此比較靈活。在傳統的強化學習方法中使用比較廣泛。

    但是SARSA演算法也有一個傳統強化學習方法共有的問題,就是無法求解太複雜的問題。在 SARSA 演算法中,$Q(S,A)$ 的值使用一張大表來儲存的,如果我們的狀態和動作都達到百萬乃至千萬級,需要在記憶體裡儲存的這張大表會超級大,甚至溢位,因此不是很適合解決規模很大的問題。當然,對於不是特別複雜的問題,使用SARSA還是很不錯的一種強化學習問題求解方法。

    下一篇我們討論SARSA的姊妹演算法,時序差分離線控制演算法Q-Learning。

(歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com) 

相關文章