策略梯度玩 cartpole 遊戲，強化學習代替PID演算法控制平衡杆

高颜值的殺生丸發表於2024-05-12

原文網址 : https://www.cnblogs.com/LiuXinyu12378/p/18187947

cartpole遊戲，車上頂著一個自由擺動的杆子，實現杆子的平衡，杆子每次倒向一端車就開始移動讓杆子保持動態直立的狀態，策略函式使用一個兩層的簡單神經網路，輸入狀態有4個，車位置，車速度，杆角度，杆速度，輸出action為左移動或右移動，輸入狀態發現至少要給3個才能穩定一會兒，給2個完全學不明白，給4個能學到很穩定的policy

策略梯度實現程式碼，使用torch實現一個簡單的神經網路

import gym
import torch
import torch.nn as nn
import torch.optim as optim
import pygame
import sys
from collections import deque
import numpy as np

# 策略網路定義
class PolicyNetwork(nn.Module):
    def __init__(self):
        super(PolicyNetwork, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(4, 10),  # 4個狀態輸入，128個隱藏單元
            nn.Tanh(),
            nn.Linear(10, 2),  # 輸出2個動作的機率
            nn.Softmax(dim=-1)
        )

    def forward(self, x):
        # print(x)  車位置 車速度 杆角度 杆速度
        selected_values = x[:, [0,1,2,3]]  #只使用車位置和杆角度
        return self.fc(selected_values)

# 訓練函式
def train(policy_net, optimizer, trajectories):
    policy_net.zero_grad()
    loss = 0
    print(trajectories[0])
    for trajectory in trajectories:
        
        # if trajectory["returns"] > 90:
        # returns = torch.tensor(trajectory["returns"]).float()
        # else:
        returns = torch.tensor(trajectory["returns"]).float() - torch.tensor(trajectory["step_mean_reward"]).float()
        # print(f"獲得獎勵{returns}")
        log_probs = trajectory["log_prob"]
        loss += -(log_probs * returns).sum()  # 計算策略梯度損失
    loss.backward()
    optimizer.step()
    return loss.item()

# 主函式
def main():
    env = gym.make('CartPole-v1')
    policy_net = PolicyNetwork()
    optimizer = optim.Adam(policy_net.parameters(), lr=0.01)

    print(env.action_space)
    print(env.observation_space)
    pygame.init()
    screen = pygame.display.set_mode((600, 400))
    clock = pygame.time.Clock()

    rewards_one_episode= []
    for episode in range(10000):
        
        state = env.reset()
        done = False
        trajectories = []
        state = state[0]
        step = 0
        torch.save(policy_net, 'policy_net_full.pth')
        while not done:
            state_tensor = torch.tensor(state).float().unsqueeze(0)
            probs = policy_net(state_tensor)
            action = torch.distributions.Categorical(probs).sample().item()
            log_prob = torch.log(probs.squeeze(0)[action])
            next_state, reward, done, _,_ = env.step(action)

            # print(episode)
            trajectories.append({"state": state, "action": action, "reward": reward, "log_prob": log_prob})
            state = next_state

            for event in pygame.event.get():
                if event.type == pygame.QUIT:
                    pygame.quit()
                    sys.exit()
            step +=1
            
            # 繪製環境狀態
            if rewards_one_episode and rewards_one_episode[-1] >99:
                screen.fill((255, 255, 255))
                cart_x = int(state[0] * 100 + 300)
                pygame.draw.rect(screen, (0, 0, 255), (cart_x, 300, 50, 30))
                # print(state)
                pygame.draw.line(screen, (255, 0, 0), (cart_x + 25, 300), (cart_x + 25 - int(50 * torch.sin(torch.tensor(state[2]))), 300 - int(50 * torch.cos(torch.tensor(state[2])))), 2)
                pygame.display.flip()
                clock.tick(200)
                

        print(f"第{episode}回合",f"執行{step}步後掛了")
        # 為策略梯度計算累積回報
        returns = 0
        
        
        for traj in reversed(trajectories):
            returns = traj["reward"] + 0.99 * returns
            traj["returns"] = returns
            if rewards_one_episode:
                # print(rewards_one_episode[:10])
                traj["step_mean_reward"] = np.mean(rewards_one_episode[-10:])
            else:
                traj["step_mean_reward"] = 0
        rewards_one_episode.append(returns)
        # print(rewards_one_episode[:10])
        train(policy_net, optimizer, trajectories)

def play():

    env = gym.make('CartPole-v1')
    policy_net = PolicyNetwork()
    pygame.init()
    screen = pygame.display.set_mode((600, 400))
    clock = pygame.time.Clock()

    state = env.reset()
    done = False
    trajectories = deque()
    state = state[0]
    step = 0
    policy_net = torch.load('policy_net_full.pth')
    while not done:
        state_tensor = torch.tensor(state).float().unsqueeze(0)
        probs = policy_net(state_tensor)
        action = torch.distributions.Categorical(probs).sample().item()
        log_prob = torch.log(probs.squeeze(0)[action])
        next_state, reward, done, _,_ = env.step(action)

        # print(episode)
        trajectories.append({"state": state, "action": action, "reward": reward, "log_prob": log_prob})
        state = next_state

        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                pygame.quit()
                sys.exit()

        
        # 繪製環境狀態
        screen.fill((255, 255, 255))
        cart_x = int(state[0] * 100 + 300)
        pygame.draw.rect(screen, (0, 0, 255), (cart_x, 300, 50, 30))
        # print(state)
        pygame.draw.line(screen, (255, 0, 0), (cart_x + 25, 300), (cart_x + 25 - int(50 * torch.sin(torch.tensor(state[2]))), 300 - int(50 * torch.cos(torch.tensor(state[2])))), 2)
        pygame.display.flip()
        clock.tick(60)
        step +=1

    print(f"執行{step}步後掛了")



if __name__ == '__main__':
    main() #訓練
    # play() #推理

　　執行效果，訓練過程不是很穩定，有時候學很多輪次也學不明白，有時侯只需要幾十次就可以學明白了

強化學習之CartPole
2021-06-14
強化學習
強化學習(十三) 策略梯度(Policy Gradient)
2018-12-18
強化學習梯度
PPO-KL散度近端策略最佳化玩cartpole遊戲
2024-05-15
遊戲
強化學習(十六) 深度確定性策略梯度(DDPG)
2019-02-01
強化學習梯度
強化學習-學習筆記14 | 策略梯度中的 Baseline
2022-07-12
強化學習筆記梯度
pid 控制演算法
2018-03-16
演算法
遊戲的強化學習簡史
2020-06-12
遊戲強化學習
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
利用魯棒控制實現深度強化學習駕駛策略的遷移
2018-12-19
強化學習
廣告成本控制-PID演算法
2021-04-21
演算法
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記
強化學習實戰 | 表格型Q-Learning玩井字棋（四）遊戲時間
2021-12-12
強化學習遊戲
機器學習——梯度下降演算法
2019-07-24
機器學習梯度演算法
強化學習入門之智慧走迷宮-策略迭代演算法
2021-06-07
強化學習演算法
強化學習（六）時序差分線上控制演算法SARSA
2018-09-09
強化學習演算法
PID控制
2020-11-21
AI+遊戲：高效利用樣本的強化學習
2018-04-23
AI遊戲強化學習
基於策略搜尋的強化學習方法
2020-10-02
強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
強化學習之路一 QLearning 演算法
2023-03-15
強化學習演算法
強化學習（七）時序差分離線控制演算法Q-Learning
2018-09-19
強化學習演算法
【演算法】遊戲中的學習，使用c#物件導向特性控制遊戲角色移動
2023-10-12
演算法遊戲C#物件
如何保持運動小車上的旗杆屹立不倒？TensorFlow利用A3C演算法訓練智慧體玩CartPole遊戲
2018-08-21
演算法智慧體遊戲
DeepMind開源強化學習遊戲框架，25款線上遊戲等你來挑戰
2019-08-28
強化學習遊戲框架
強化學習筆記之【SAC演算法】
2024-10-11
強化學習筆記演算法
強化學習演算法筆記之【DDPG演算法】
2024-10-19
強化學習演算法筆記
機器學習筆記(1): 梯度下降演算法
2024-06-02
機器學習筆記梯度演算法
PID 控制詳解
2024-05-07
nvidia控制皮膚怎麼設定玩遊戲最好 nvida控制皮膚怎麼調玩遊戲效能最佳
2022-05-07
遊戲
強化學習
2020-12-05
強化學習
使用Actor-Critic的DDPG強化學習演算法控制雙關節機械臂
2023-05-10
強化學習演算法機械臂
Git學習-圖文並茂還有遊戲玩！
2021-12-02
Git遊戲
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
什麼是深度強化學習？又是如何應用在遊戲中的？
2019-10-18
強化學習遊戲
學習阿里雲的訪問控制策略
2018-05-20
阿里
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習

策略梯度玩 cartpole 遊戲，強化學習代替PID演算法控制平衡杆

相關文章