強化學習之CartPole

Dark1nt發表於2021-06-14

原文網址 : https://www.cnblogs.com/Dark1nt/p/14882774.html

強化學習

0x00 任務

通過強化學習演算法完成倒立擺任務，控制倒立擺在一定範圍內擺動。

0x01 設定jupyter登入密碼

jupyter notebook --generate-config

jupyter notebook password （會輸入兩次密碼，用來驗證）

jupyter notebook 登入

0x02 建立python note

0x03 程式碼

# 宣告包
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

# 宣告繪圖功能
from JSAnimation.IPython_display import display_animation
from matplotlib import animation
from IPython.display import display
def display_frames_as_gif(frames):
    plt.figure(figsize=(frames[0].shape[1]/72.0,frames[0].shape[0]/72.0),dpi=72)
    patch=plt.imshow(frames[0])
    plt.axis("off")
    
    def animate(i):
        patch.set_data(frames[i])
    anim=animation.FuncAnimation(plt.gcf(),animate,frames=len(frames),interval=50)
    anim.save('move_carpole.mp4') # 儲存動畫
    display(display_animation(anim,default_mode='loop'))

# 隨機移動CartPole
frames=[]
env=gym.make('CartPole-v0')
observation=env.reset() # 重置環境
for step in range(0,200):
    frames.append(env.render(mode='rgb_array')) # 載入各個時刻影像到幀
    action=np.random.choice(2) # 隨機返回： 0 小車向左，1 小車向右
    gym.logger.set_level(40)
    observation,reward,done,info=env.step(action) # 執行動作

執行後

移動 Caprpole的程式碼並不重要，重要的是最後一行observation,reward,done,info=env.step(action)
reward 是即時獎勵，若執行了action後，小車位置在+-2.4範圍之內而且杆的傾斜成都沒有超過20.9°，則設定獎勵為1.相反，若小車移出+-2.4範圍或者杆傾斜超過了20.9°的話，則獎勵為0。退出時 done是一個變數。若為結束狀態則為true
這裡程式碼忽略了done, info變數儲存除錯資訊。

最後使用display_frames_as_gif(frames) 函式去儲存我們的gif

# 儲存並繪製視訊
display_frames_as_gif(frames)

可正常儲存視訊

CartPole的狀態

之前討論的迷宮問題中，狀態指的是每個格子的編號，由單個變數表示，0~8，然而倒立擺具有更復雜的狀態定義。

CartPole的狀態儲存在observation中,變數observarion是4個變數組成的列表，每個變數的內容如
小車位置 -2.4~2.4
小車速度 -∞~+∞
杆的角度 -41.8°~+41.8°
杆的角速度 -∞~+∞

因為變數是連續值，如果想要通過表格的形式來表達Q函式，就需要將他們進行離散化
比如使用0~5來標記變數的連續值
-2.4~-1.6=0
-1.6~-0.8=1
依次類推
則總共有6的4次方總組合 1296種型別數字表示 CartPole的狀態
而這個時候小車的方向只有向左和向右
所以，可以用1296行x2列的表格來表示Q函式

演算法實現

變數設定

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym
# 變數設定
ENV='CartPole-v0' # 設定任務名
NUM_DIZITIZED=6 # 設定離散值個數
# 嘗試執行 CartPole
env=gym.make(ENV) # 設定要執行的任務
observarion=env.reset() # 環境初始化

求取用於離散化的闕值

# 求取用於離散化的闕值
def bins(clip_min,clip_max,num):
    return np.linespace(clip_min,clip_max,num+1)[1:-1] # 返回[-1.6,-0.8,0,0,0.8,1.6]

-∞~-1.6=0 -1.6~0.8=1
依次類推

建立函式根據獲得的闕值對連續變數進行離散化

def digitize_state(observation):
    cart_pos,cart_v,pole_angle,pole_v=observation
    digitized=[
        np.digitize(cart_pos,bins=bins(-2.4,2.4,NUM_DIZITIZED)),
        np.digitize(cart_v,bins=bins(-3.0,3.0,NUM_DIZITIZED)),
        np.digitize(pole_angle,bins=bins(-0.5,0.5,NUM_DIZITIZED)),
        np.digitize(pole_v,bins=bins(-2.0,2.0,NUM_DIZITIZED))
    ]
    return sum([x*(NUM_DIZITIZED)**i) for i,x in enumerate(digitized)])

以6進位制進行計算如果存在一個離散值(1,2,3,4) 則求得當前狀態值為 16^0+2*61+36^2+4*63=985

Q學習實現

這裡需要定義實現類，主要有三個類 Agent Brain 和 Environmet

Agent類表示小推車物件，主要有2個函式，更新Q函式，和確定下一步動作函式
Agent中有一個Brain類的物件作為成員變數。

Brain類可認為是Agent的大腦，通過Q表來實現Q學習，主要有4個函式 bin digitize_state 用來離散化Agent觀察到的observation
函式update_Q_table來更新Q表
函式decision_action 來確定來自Q表的動作。
為什麼需要將Agent和Brain類分開》？因為如果使用深度強化學習，將表格型Q改成深度強化學習時只需要改變Brain類就行了。

Environment類是OpenAI Gym的執行環境，執行CartPole環境的是run函式

start

首先我們需要決定要執行的值動作，所以 Agent將當前狀態 observation_t傳給Brain ，Brain 離散化狀態再根據Q表來確定動作，並將確定的動作返回給Agent，
之後是動作的實際執行環境步驟，Agent將動作action_t傳遞給Environment，Environment執行動作action_t並將執行後的狀態observation_t+1和即時獎勵 reward+1 返回給Agent
再更新Q 表， Agent將當前狀態observation_t 執行動作 action_t 和執行動作後的observation_t+1 即時獎勵reward_t+1傳回給Brain，Brain更新Q表，這4個變數綜合起來被稱為transition
之後重複該過程就行了，因為獲得最大價值的方式只有一種，所以通過Q學習不斷擬合，最後會形成唯一解。

0x04 強化學習之Q學習的原理(重點！）-》瞬間開悟

觀察程式碼 self.q_table[state,action]=self.q_table[state,action]+ETA(reward+GAMMAMax_Q_next-self.q_table[state,action]) ，剛開始看時，一臉懵逼，直到想通了某個點。
首先我們需要清楚在大量的資料面前，能夠滿足我們想要的最好的策略只有一條，有些時候我們可以自己求得該策略，比如迷宮問題，我們可以輕鬆做到，這裡的倒立擺問題我們也能輕鬆做到，但是小球消方塊呢？我們人類幾乎不能在很短時間做出判斷，然後消除掉所有的方塊，但是機器能。為什麼？

滿足最優策略只有一條，大資料訓練只是為了讓我們的策略最終擬合成為最優策略

還是拿這段程式碼來說 self.q_table[state,action]=self.q_table[state,action]+ETA(reward+GAMMAMax_Q_next-self.q_table[state,action]) Q表的更新是當前Q表+變化值。
所以Q表的更新量其實就是 ETA*(reward+GAMMA*Max_Q_next-self.q_table[state,action])
ETA是學習率。 reward是獎勵，這裡可以認為是0， GAMMA是時間折扣率為0.99 接近為1 self.q_table[state,action] 為當前Q表，記錄了當前狀態和當前的方向。
當我們設定變化值為很小時，最終實現Q表幾乎不變，此時Q表代表了我們的最優策略。但是為什麼，為什麼它就能擬合到最優，而不是別的？每次擬合的過程是什麼？

抽象概念
我們可以假設有1000多個大的游泳池，我們設定的闕值範圍用游泳圈來表示，水的體積來表示資料範圍，策略可用來表示水體積的變化。第一個游泳池我們隨機生成，游泳池裡灌滿了水，游泳圈的數量固定，當我們的智慧體根據當前策略進行了運動，而我們定義的策略是如果到達我們的目標則獲得獎勵，抽象到游泳池可以認為是，我們從第一個游泳池跳到第二個游泳池的游泳圈範圍裡。當我們這樣做後會得到獎勵，因為獎勵的存在，使得我們不斷往游泳圈跳來獲得最大價值，在一,二,三的泳池中，

策略梯度玩 cartpole 遊戲，強化學習代替PID演算法控制平衡杆
2024-05-12
梯度遊戲強化學習演算法
強化學習之原理與應用
2019-02-20
強化學習
強化學習
2020-12-05
強化學習
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
強化學習筆記之【SAC演算法】
2024-10-11
強化學習筆記演算法
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習-簡介
2021-01-20
強化學習
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
百度NLP：強化學習之原理與應用
2019-02-22
強化學習
強化學習之蒙特卡洛學習,時序差分學習理論與實戰
2020-12-10
強化學習
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
強化學習-task01
2020-10-20
強化學習
強化學習入門 -KDnuggets
2021-04-28
強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
強化學習（九）Deep Q-Learning進階之Nature DQN
2018-10-08
強化學習
強化學習演算法筆記之【DDPG演算法】
2024-10-19
強化學習演算法筆記
強化學習實戰 | 自定義Gym環境之掃雷
2022-01-26
強化學習
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記
強化學習-學習筆記8 | Q-learning
2022-07-07
強化學習筆記
強化學習-學習筆記10 | 經驗回放
2022-07-08
強化學習筆記
強化學習-學習筆記1 | 基礎概念
2022-07-04
強化學習筆記
強化學習-學習筆記4 | Actor-Critic
2022-07-05
強化學習筆記
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習