gym建立環境、自定義gym環境

Wei_Xiong發表於2024-08-15

原文網址 : https://www.cnblogs.com/Twobox/p/18361816

環境：half_cheetah.py

from os import path

import numpy as np

from gymnasium import utils
from gymnasium.envs.mujoco import MujocoEnv
from gymnasium.spaces import Box

DEFAULT_CAMERA_CONFIG = {
    "distance": 4.0,
}


class MOHalfCheetahEnv(MujocoEnv, utils.EzPickle):
    metadata = {
        "render_modes": [
            "human",
            "rgb_array",
            "depth_array",
        ],
        "render_fps": 20,
    }

    def __init__(
            self,
            **kwargs,
    ):
        utils.EzPickle.__init__(
            self,
            **kwargs,
        )

        # 計算 observation_space
        observation_space = Box(
            low=-np.inf, high=np.inf, shape=(17,), dtype=np.float64
        )

        # init
        MujocoEnv.__init__(
            self,
            "half_cheetah.xml", # 直接使用庫裡面的
            5,
            observation_space=observation_space,
            default_camera_config=DEFAULT_CAMERA_CONFIG,
            **kwargs,
        )

        # mo相關屬性
        self.reward_space = Box(low=-np.inf, high=np.inf, shape=(2,))
        self.reward_dim = 2

    def step(self, action):
        # pgmorl pdmorl 直接在這裡對action進行裁剪動作
        action = np.clip(action, -1.0, 1.0)

        # 計算速度
        x_position_before = self.data.qpos[0]
        self.do_simulation(action, self.frame_skip)
        x_position_after = self.data.qpos[0]
        x_velocity = (x_position_after - x_position_before) / self.dt

        # observation
        observation = self._get_obs()

        # reward
        alive_bonus = 1
        reward_run = min(4.0, x_velocity) + alive_bonus
        reward_energy = 4.0 - 1.0 * np.square(action).sum() + alive_bonus
        vec_reward = np.array([reward_run, reward_energy], dtype=np.float32)

        # terminated truncated
        ang = self.data.qpos[2]
        # terminated = not (abs(ang) < np.deg2rad(50))  # 終止 pgmorl pdmorl有終止
        terminated = False  # 終止 pgmorl pdmorl有終止
        truncated = False  # 截斷

        # info
        info = {}

        # render
        if self.render_mode == "human":
            self.render()

        return observation, vec_reward, terminated, truncated, info

    def _get_obs(self):
        position = self.data.qpos.flat.copy()
        velocity = self.data.qvel.flat.copy()

        position = position[1:]  # obs 維度17

        observation = np.concatenate((position, velocity)).ravel()
        return observation

    def reset_model(self):
        qpos = self.init_qpos + self.np_random.uniform(
            low=-0.1, high=0.1, size=self.model.nq
        )
        qvel = self.init_qvel + self.np_random.standard_normal(self.model.nv) * 0.1
        self.set_state(qpos, qvel)
        return self._get_obs()

註冊、不檢查環境

from gymnasium.envs.registration import register
import mo_gymnasium as mo_gym
from half_cheetah import MOHalfCheetahEnv

register(
    id="wx-half-v1",
    entry_point=MOHalfCheetahEnv,
    max_episode_steps=500,
)

if __name__ == '__main__':
    import gymnasium as gym

    # env = MOHalfCheetahEnv(render_mode="human")
    # env = MOHalfCheetahEnv()
    # env = mo_gym.make('mo-halfcheetah-v4')  # 無done 1000次
    # env = gym.make("HalfCheetah-v4") # 無done 1000次
    env = gym.make("wx-half-v1", disable_env_checker=True)

    done = False
    obv, info = env.reset(seed=5)
    env.action_space.seed(5)
    env.observation_space.seed(5)

    print(type(env))

    steps = 0
    while not done:
        action = env.action_space.sample()
        obv, r, d1, d2, _ = env.step(action)
        # print(r)
        done = d1 or d2
        steps += 1
        print(steps)

    print(steps)

搭建gym環境
2019-03-30
強化學習實戰 | 自定義Gym環境
2021-12-05
強化學習
強化學習實戰 | 自定義Gym環境之掃雷
2022-01-26
強化學習
強化學習實戰 | 自定義Gym環境之井字棋
2021-12-06
強化學習
強化學習實戰 | 自定義gym環境之顯示字串
2022-01-08
強化學習字串
RL 基礎 | 如何使用 OpenAI Gym 介面，搭建自定義 RL 環境（詳細版）
2024-11-11
OpenAI
【記錄】強化學習環境legged_gym配置
2024-07-14
強化學習
建立環境
2020-11-05
(3) 更為標準的建立Gym環境的方式(一個PIP包的形式)——學習筆記
2020-10-23
筆記
Anaconda建立環境、刪除環境、環境重新命名、檢視環境名
2020-11-10
docker-compose 部署 Apollo 自定義環境
2021-06-24
Docker
python pipenv建立環境
2021-09-11
Python
Mac 上的 Tomcat 配置及自定義 JRE 環境
2020-12-14
MacTomcat
建立 Python 虛擬環境
2018-12-05
Python
anaconda建立虛擬環境
2024-03-10
建立python虛擬環境
2020-08-07
Python
pycharm+anaconda環境建立
2020-12-28
PyCharm
配置開發環境、生成環境、測試環境
2024-06-01
開發環境
建立Python虛擬環境——下
2019-02-16
Python
window 建立py虛擬環境
2024-08-27
配置conda建立環境存放位置
2024-06-29
app自動化測試環境配置：adb環境配置、monkey環境配置、appium環境配置大全
2020-06-28
APP
學習使用azureCLI建立linux環境
2018-03-14
Linux
建立python3.9的新環境
2020-11-05
Python
如何使用anaconda建立一個環境
2020-11-05
RAC環境下建立物理DATAGUARD(1)
2019-05-19
RAC環境下建立物理DATAGUARD(2)
2019-05-01
使用Conda建立NodeJS虛擬環境
2021-03-16
NodeJS
使用 setenv 配置檔案管理 Tomcat 的自定義環境變數
2024-08-30
Tomcat變數
Windows環境下的Nginx環境搭建
2018-04-20
WindowsNginx
Windows 環境下 Python 環境安裝
2022-11-05
WindowsPython
window環境下testlink環境搭建（xammp）
2022-05-07
用 Spring 區分開發環境、測試環境、生產環境
2019-03-23
Spring開發環境
以太坊-Win環境下remix環境搭建
2021-07-27
REM
nuxt3專案自定義環境變數，typescript全域性提示
2024-08-27
UX變數TypeScript
使用pythonz建立新的Python環境（3.6）
2019-02-16
Python
非域環境下SQL Server mirror建立
2019-02-22
SQLServer
anaconda建立虛擬環境指定python版本
2024-05-19
Python

gym建立環境、自定義gym環境

相關文章