RILIR 復現 & 一些 idea

SkyRainWind發表於2024-04-19

原文網址 : https://www.cnblogs.com/SkyRainWind/p/18146795

虛擬碼：

在 if done 的時候，在環境中已經跑了一個 trajectory 了，利用當前的 trajectory 和專家的 demo 求一下 reward（文章中用的是 optimal transport 的幾種方法）
否則，就繼續在 observation 的基礎上利用 actor 學到的策略 sample 出 action，並用 list 記錄下當前的 \((o_t, a_t, r_t)\) 作為 trajectory 的一部分。

整體來看：
首先整體的強化學習框架是 actor-critic，其中 actor 輸出 action（的分佈），更新使用 critic，而 critic 作為 actor 的評估函式，更新使用時序殘差的 MSE，即
這一項。actor 如何更新的（待填）。

IL 中的重要問題，如何根據專家資料和 actor 生成之間的差距來獲取 reward？在 RILIR 中，採用的是 trajectory 級別的模仿學習，即將當前的 trajectory 和 expert demo trajectory 拿出來做一個 OT（理解成相似程度），得到 reward

[IDE][IDEA]教你一些IDEA比較騷的操作
2019-03-28
Idea
RL 基礎 | 如何復現 PPO，以及一些踩坑經歷
2024-11-21
IDEA_Shelve程式碼擱置與恢復
2020-08-21
Idea
cgibin中與upnp協議有關的一些漏洞分析與復現
2022-05-07
協議
idea中實現熱部署
2020-10-09
Idea熱部署
Java中的Unsafe在安全領域的一些應用總結和復現
2022-03-02
Java
win10安裝更新失敗出現一些問題如何解決 win10安裝更新時出現一些問題修復方法
2020-08-21
Win10
IntelliJ IDEA啟用Eslint儲存自動程式碼修復
2019-02-15
IntelliJIdeaEsLint
NSBM模型復現
2024-05-22
模型
Apache漏洞復現
2024-04-06
Apache
BaseCTF復現-Crypto
2024-10-09
weblogic 漏洞復現
2024-06-27
Web
cdh版spark on yarn與idea直連操作sql遇到的一些問題
2018-12-21
SparkYarnIdeaSQL
weblogic ssrf漏洞復現
2020-11-06
Web
笑臉漏洞復現
2024-10-29
Vulhub WebLogic漏洞復現
2024-06-13
Web
Tomcat系列漏洞復現
2024-07-22
Tomcat
Github復現之TransUNet
2022-03-01
Github
使用IDEA+Maven實現MapReduce的WordCount功能
2020-10-21
IdeaMaven
【阿菜漏洞復現】DeFi 平臺 MonoX Finance 漏洞分析及復現
2021-12-10
MonoNaN
Idea外掛-arthas idea
2024-10-17
Idea
Windows11 一些典型系統錯誤的修復
2024-11-20
Windows
關於IDEA執行ssm專案的一些坑以及ssm的基本的配置
2020-10-09
IdeaSSM
phpStudy poc漏洞復現以及漏洞修復辦法
2019-09-27
PHP
IDEA 隱藏 .idea 目錄
2020-12-27
Idea
graspnet復現保姆級教程
2024-04-10
Split to Be Slim: 論文復現
2023-04-24
Weblogic-SSRF漏洞復現
2019-05-23
Web
護網漏洞復現（三）
2024-09-04
CVE-2022-4230 復現
2024-08-03
CVE-2023-23752 復現
2024-08-04
CVE-2023-1313 復現
2024-08-04
nctf復現 re1
2020-11-28
SpringBoot專案在IntelliJ IDEA中實現熱部署
2019-02-15
Spring BootIntelliJIdea熱部署
maven+jetty+idea+jrebel 實現專案熱部署
2019-03-02
MavenJettyIdea熱部署
Idea
2024-03-16
Idea
idea中deployment點選加號沒有出現artifact
2018-11-21
Idea
IDEA出現Cannot resolve symbol “xxx”(無法解析符號)
2018-12-07
IdeaSymbol符號

RILIR 復現 & 一些 idea

相關文章