MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

华为云开发者联盟發表於2024-04-29

原文網址 : https://www.cnblogs.com/huaweiyun/p/18164996

本文分享自華為雲社群《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。

半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński在“A Cat-Like Robot Real-Time Learning to Run”中提出。這個環境中的半獵豹是一個由9個連結和8個關節組成的2D機器人（包括兩個爪子）。在這個環境中，目標是透過施加扭矩在關節上使獵豹儘可能快地向前（向右）奔跑，正向獎勵基於前進的距離，而向後移動則會得到負向獎勵。獵豹的軀幹和頭部是固定的，扭矩只能施加在前後大腿、小腿和腳上。

動作空間是一個Box(-1, 1, (6,), float32)，其中每個動作代表連結之間的扭矩。觀察空間包含獵豹不同身體部位的位置值和速度值，其中所有位置值在前，所有速度值在後。預設情況下，觀察不包括獵豹質心x座標，可以透過在構建時傳遞exclude_current_positions_from_observation=False來包括它。如果包括，觀察空間將有18個維度，其中第一個維度代表獵豹質心的x座標。

獎勵分為兩部分：向前獎勵和控制成本。向前獎勵是根據動作前後x座標的變化計算的，控制成本是為了懲罰獵豹採取過大動作的成本。總獎勵是向前獎勵減去控制成本。

每個狀態的開始是在狀態(0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,)上新增噪聲以增加隨機性。前8個值是位置值，最後9個值是速度值。位置值新增均勻噪聲，而初始速度值（全為零）新增標準正態噪聲。

當一個劇集的長度超過1000時，該劇集將被截斷。

該環境的詳細資訊可以參考：https://www.gymlibrary.dev/environments/mujoco/half_cheetah/

這個比很多環境都要複雜。

不過沒關係，我們有ppo演算法，這個演算法可以跑強化學習，甚至大語言模型。

PPO（Proximal Policy Optimization）演算法是一種用於強化學習的策略最佳化方法，它旨在解決傳統策略梯度方法（如TRPO，Trust Region Policy Optimization）中的信任區域問題

PPO演算法透過引入clipping技巧和重要性取樣技巧來減少計算梯度時的方差，從而提高演算法的收斂速度和穩定性。

在PPO演算法中，有兩個關鍵概念：

策略（Policy）：策略是一個函式，它定義了在給定狀態s時採取動作a的機率分佈。
價值函式（Value Function）：價值函式估計了在給定策略下，從狀態s出發，到達某個特定狀態或終端時所能獲得的期望回報。

PPO演算法的主要步驟包括：

取樣（Sampling）：從當前策略中取樣資料，包括狀態、動作、獎勵和下一個狀態。
計算目標（Calculating Targets）：使用目標策略計算目標價值函式，並計算目標策略的KL散度。
更新策略（Updating Policy）：使用重要性取樣技巧和clipping技巧更新策略。
更新價值函式（Updating Value Function）：使用策略梯度方法更新價值函式。

PPO演算法的核心思想是交替更新策略和價值函式，以實現策略和價值的共同最佳化。這種方法可以有效減少計算梯度時的方差，提高演算法的收斂速度和穩定性。

以下是PPO演算法的一個簡化的Markdown公式：

# Proximal Policy Optimization (PPO) Algorithm
## 1. Sampling
取樣當前策略的資料，包括狀態 $ s $、動作 $ a $、獎勵 $ r $ 和下一個狀態 $ s' $。
## 2. Calculating Targets
使用目標策略計算目標價值函式，並計算目標策略的KL散度。
## 3. Updating Policy
使用重要性取樣技巧和clipping技巧更新策略。
## 4. Updating Value Function
使用策略梯度方法更新價值函式。
## 重複步驟1-4，實現策略和價值的共同最佳化。

這個公式是一個簡化的版本，實際上PPO演算法還包括了許多其他細節和技巧，如經驗回放、動態調整學習率等。

import argparse
import os

from mindspore import context
from mindspore import dtype as mstype
from mindspore.communication import get_rank, init

import mindspore_rl.distribution.distribution_policies as DP
from mindspore_rl.algorithm.ppo import config
from mindspore_rl.algorithm.ppo.ppo_session import PPOSession
from mindspore_rl.algorithm.ppo.ppo_trainer import PPOTrainer

parser = argparse.ArgumentParser(description="MindSpore Reinforcement PPO")
parser.add_argument("--episode", type=int, default=650, help="total episode numbers.")
parser.add_argument(
    "--device_target",
    type=str,
    default="Auto",
    choices=["Ascend", "CPU", "GPU", "Auto"],
    help="Choose a device to run the ppo example(Default: Auto).",
)
parser.add_argument(
    "--precision_mode",
    type=str,
    default="fp32",
    choices=["fp32", "fp16"],
    help="Precision mode",
)
parser.add_argument(
    "--env_yaml",
    type=str,
    default="../env_yaml/HalfCheetah-v2.yaml",
    help="Choose an environment yaml to update the ppo example(Default: HalfCheetah-v2.yaml).",
)
parser.add_argument(
    "--algo_yaml",
    type=str,
    default=None,
    help="Choose an algo yaml to update the ppo example(Default: None).",
)
parser.add_argument(
    "--enable_distribute",
    type=bool,
    default=False,
    help="Train in distribute mode (Default: False).",
)
parser.add_argument(
    "--worker_num", type=int, default=2, help="Worker num (Default: 2)."
)
parser.add_argument(
    "--graph_op_run", type=int, default=1, help="Run kernel by kernel (Default: 1)."
)
options, _ = parser.parse_known_args()`

wget https://www.roboti.us/download/mujoco200_linux.zip
mv mujoco200_linux ~/.mujoco/mujoco200
wget https://www.roboti.us/file/mjkey.txt
cp mjkey.txt /home/kewei/.mujoco/mjkey.txt
wget https://download-ib01.fedoraproject.org/pub/epel/7/x86_64/Packages/p/patchelf-0.12-1.el7.x86_64.rpm
yum localinstall patchelf-0.12-1.el7.x86_64.rpm
pip install 'mujoco_py==2.0.2.13'

第一次編譯mujoco會有一點久

在bashrc加入如下內容：

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:~/.mujoco/mujoco200/bin
export MUJOCO_KEY_PATH=~/.mujoco${MUJOCO_KEY_PATH}
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/kewei/.mujoco/mujoco210/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/nvidia

然後就可以開啟訓練了。使用上一節的with保留輸入。

# dqn_session.run(class_type=DQNTrainer, episode=episode)
with RealTimeCaptureAndDisplayOutput() as captured_new:
    ppo_session.run(class_type=PPOTrainer, episode=episode, duration=duration)

點選關注，第一時間瞭解華為雲新鮮技術~

「AutoML」如何使用強化學習進行模型剪枝？
2019-11-15
TOML強化學習模型
強化學習實戰 | 自定義Gym環境
2021-12-05
強化學習
強化學習五大方面-環境
2021-01-21
強化學習
出人意料！DeepSeek-R1用的GRPO其實沒必要？規模化強化學習訓練用PPO就夠了
2025-02-21
強化學習
【記錄】強化學習環境legged_gym配置
2024-07-14
強化學習
基於Theano的深度學習框架keras及配合SVM訓練模型
2020-04-06
深度學習框架Keras模型
Docker環境搭建CUDA12.2 + Yolov5 7.0 GPU訓練環境（單卡訓練）
2024-11-15
DockerYOLOGPU
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
強化學習實戰 | 自定義Gym環境之掃雷
2022-01-26
強化學習
Tesseract-OCR-04-使用 jTessBoxEditor 進行訓練
2018-09-07
使用AutoDL伺服器進行模型訓練
2024-05-06
伺服器模型
[翻譯] 使用 TensorFlow 進行分散式訓練
2022-04-10
分散式
使用Tensorflow Object Detection進行訓練和推理
2021-04-26
Object
強化學習訓練Chrome小恐龍Dino：最高超過4000分
2019-02-19
強化學習Chrome
HarmonyOS：使用 MindSpore Lite 引擎進行模型推理
2023-12-14
模型
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
強化學習實戰 | 自定義Gym環境之井字棋
2021-12-06
強化學習
強化學習實戰 | 自定義gym環境之顯示字串
2022-01-08
強化學習字串
強化學習訓練Chrome小恐龍Dino Run：最高超過4000分
2018-06-02
強化學習Chrome
試用阿里雲GPU伺服器進行深度學習模型訓練
2024-04-17
阿里GPU伺服器深度學習模型
如何對SAP Leonardo上的機器學習模型進行重新訓練
2019-07-24
機器學習模型
windows下yolov8訓練環境配置
2024-08-15
WindowsYOLO
學習使用azureCLI建立linux環境
2018-03-14
Linux
極客大學java進階訓練營學習分享
2020-12-22
Java
使用Conda Pack進行環境打包遷移
2024-11-28
pytorch使用交叉熵訓練模型學習筆記
2024-06-17
PyTorch熵模型筆記
pytorch訓練簡單的CNN(visdom進行視覺化)
2020-11-02
PyTorchCNN視覺化
Spark學習進度-Spark環境搭建&Spark shell
2021-01-04
Spark
LLM並行訓練4-megascale論文學習
2024-06-29
並行
使用 Webpack 進行生產環境配置（附 Demo）
2019-02-01
Web
win 環境使用easyswoole利用docker進行開發
2021-08-26
Docker
準備Python環境學習OpenCV的使用
2024-03-29
PythonOpenCV
DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境
2019-02-22
AI
使用import配合React-Router進行code split
2018-03-19
ImportReact
TorchVision 預訓練模型進行推斷
2021-02-26
模型
C#中的深度學習（五）：在ML.NET中使用預訓練模型進行硬幣識別
2020-12-25
C#深度學習模型
windows下使用pytorch進行單機多卡分散式訓練
2023-04-02
WindowsPyTorch分散式
linux環境下使用jmeter進行分散式測試
2021-02-08
LinuxJMeter分散式

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

相關文章