PPO演算法動作機率出現[0,0,0,0,0,1]的問題

Wonx3發表於2024-08-08

在PPO演算法中,使用softmax函式使actor網路生成離散動作與其對應的機率分佈時,碰到了出現[1,0,0]這種情況。
經過查驗,是因為狀態空間s的輸入數值太大,經驗證,超過500即會產生這種情況,具體什麼原因不得而知。(待查證)
解決方案就是將狀態空間歸一化,縮小之後就好了。

相關文章