前言
接下來會對環境進行闡述,該文章內容和較少,但為保證系列文章完整性因此考慮獨立寫出來。
環境的概述
在前面的文章中提到,環境是代理玩耍的場所,代理做出動作作用於環境,環境會像一個老師對代理所做的動作打分(獎勵Reward),同時代理可以觀察環境得到狀態,也叫觀察。
環境分類
環境主要有兩大類,物理環境和模擬環境
物理環境
物理環境即為真實環境,我們實際生活的環境,例如要訓練一個機器人自主行走,我們可以將機器人仍在地面,在真實環境中訓練機器人。這樣的好處很明顯,因為沒有什麼比真實還要真實,這樣子訓練的機器人更加適應真實環境,但缺點也很明顯,首先會損壞硬體裝置,最初的機器人就是白痴,任何動作均會讓機器人摔倒,所以會使得機器人損壞,第二是訓練時間很長且不便於訓練,機器人在前期的訓練會不斷摔倒,因此需要認為將其扶正,極度不變與浪費時間。因此便有了模擬環境。
模擬環境
模擬環境便是根據現實環境進行抽象建模,仿照一個虛擬環境。好處是避免了物理硬體的損壞,同時也使得訓練速度加快,是最常用的方法。
導航
強化學習-概述: https://blog.csdn.net/weixin_54445841/article/details/112909771.
入門資料: https://download.csdn.net/download/weixin_54445841/14910862.
Python工程:
https://download.csdn.net/download/weixin_54445841/14910913.