強化深度學習task06連續動作空間和DDPG

lukem44發表於2020-11-08

一、連續動作和離散動作
連續動作:動作是連續的浮點數比如速度、推力、角度、電壓等
離散動作:動作是離散值,比如上下左右等。
求解方法:
在這裡插入圖片描述
離散動作:softmax對映
連續動作:tanh連續對映
二、DDPG
在這裡插入圖片描述
是DQN的擴充套件版,可擴充套件至連續空間
在這裡插入圖片描述
actor-critic結構
在這裡插入圖片描述
演員輸出動作,並根據評論家的評判修改動作策略,評論家根據分數(觀眾反應)得出動作評判標準
在這裡插入圖片描述

相關文章