offline RL | D4RL:最常用的 offline 資料集之一
MoonOut發表於2024-03-09
- pdf:https://arxiv.org/pdf/2004.07219.pdf
- html:https://ar5iv.labs.arxiv.org/html/2004.07219
- GitHub:https://github.com/Farama-Foundation/D4RL
- 專案網站:https://sites.google.com/view/d4rl-anonymous/
- open review:https://openreview.net/forum?id=px0-N3_KjA (被 strong reject 了,感覺神秘)
- 相關部落格:
- 知乎 | D4RL: DATASETS FOR DEEP DATA-DRIVEN REINFORCEMENT LEARNING
- 知乎 | 離線強化學習 (Offline RL) 系列 2:(環境篇) D4RL 資料集簡介、安裝及錯誤解決
資料集簡介
- Gym-MoJoCo(感覺是最常用的):
- medium:使用 online SAC 訓練到一半,然後使用該策略收集 1M 的樣本;
- random:利用隨機初始化的策略,收集 1M 的樣本;
- medium-replay:訓練到中等質量水平,整個 replay buffer 收集的資料;
- medium-expert:等量混合專家資料集和次優資料集,次優資料透過次優策略或隨機策略獲得。
- Maze 系列:
- umaze / medium / large 是迷宮佈局(迷宮形狀與大小)。
- diverse 從隨機起點到隨機目標,play 起點和終點在一組固定點中隨機選擇。
- Adroit:
- 24 Dof 的靈巧手,非常困難。
- human:來自人類的少量 demo 資料(每個任務 25 個軌跡)。
- expert:使用訓練良好的 RL 策略,生成大量資料。
- clone:透過在人類 demo 上訓練模仿策略,執行策略,並以 1-1 的比例與人類 demo 資料混合。
- Franka Kitchen:
- 在包含幾種常見家居用品(微波爐、水壺、頂燈、櫥櫃、烤箱)的廚房環境中,控制 9-DoF Franka 機器人。環境中具有多個任務,需要與不同的物品進行互動,以達成不同的任務目標。
- 難點(?):需要對 unseen state 泛化,而非完全依賴於 seen trajectory。貌似需要把 從先前任務中學到的 小段軌跡 拼接起來。
- complete:agent 按順序執行所有所需任務,適用於 imitation learning。
- partial:agent 在做有意義的動作,但並不一定完成任務。partial 資料集的一個子集可以保證解決任務,這意味著,模仿學習 agent 可以透過有選擇地選擇正確的資料子集,來達成任務的學習。
- mixed:agent 在做有意義的動作,但並不一定完成任務。mixed 資料集不包含完全解決任務的軌跡,agent 必須學會組裝相關的子軌跡。mixed 資料集需要最高程度的泛化才能成功。
- Flow 和 Carla,暫時不關注。