offline RL | D4RL:最常用的 offline 資料集之一

MoonOut發表於2024-03-09

  • pdf:https://arxiv.org/pdf/2004.07219.pdf
  • html:https://ar5iv.labs.arxiv.org/html/2004.07219
  • GitHub:https://github.com/Farama-Foundation/D4RL
  • 專案網站:https://sites.google.com/view/d4rl-anonymous/
  • open review:https://openreview.net/forum?id=px0-N3_KjA (被 strong reject 了,感覺神秘)
  • 相關部落格:
    • 知乎 | D4RL: DATASETS FOR DEEP DATA-DRIVEN REINFORCEMENT LEARNING
    • 知乎 | 離線強化學習 (Offline RL) 系列 2:(環境篇) D4RL 資料集簡介、安裝及錯誤解決

資料集簡介

  • Gym-MoJoCo(感覺是最常用的):
    • medium:使用 online SAC 訓練到一半,然後使用該策略收集 1M 的樣本;
    • random:利用隨機初始化的策略,收集 1M 的樣本;
    • medium-replay:訓練到中等質量水平,整個 replay buffer 收集的資料;
    • medium-expert:等量混合專家資料集和次優資料集,次優資料透過次優策略或隨機策略獲得。
  • Maze 系列:
    • umaze / medium / large 是迷宮佈局(迷宮形狀與大小)。
    • diverse 從隨機起點到隨機目標,play 起點和終點在一組固定點中隨機選擇。
  • Adroit:
    • 24 Dof 的靈巧手,非常困難。
    • human:來自人類的少量 demo 資料(每個任務 25 個軌跡)。
    • expert:使用訓練良好的 RL 策略,生成大量資料。
    • clone:透過在人類 demo 上訓練模仿策略,執行策略,並以 1-1 的比例與人類 demo 資料混合。
  • Franka Kitchen:
    • 在包含幾種常見家居用品(微波爐、水壺、頂燈、櫥櫃、烤箱)的廚房環境中,控制 9-DoF Franka 機器人。環境中具有多個任務,需要與不同的物品進行互動,以達成不同的任務目標。
    • 難點(?):需要對 unseen state 泛化,而非完全依賴於 seen trajectory。貌似需要把 從先前任務中學到的 小段軌跡 拼接起來。
    • complete:agent 按順序執行所有所需任務,適用於 imitation learning。
    • partial:agent 在做有意義的動作,但並不一定完成任務。partial 資料集的一個子集可以保證解決任務,這意味著,模仿學習 agent 可以透過有選擇地選擇正確的資料子集,來達成任務的學習。
    • mixed:agent 在做有意義的動作,但並不一定完成任務。mixed 資料集不包含完全解決任務的軌跡,agent 必須學會組裝相關的子軌跡。mixed 資料集需要最高程度的泛化才能成功。
  • Flow 和 Carla,暫時不關注。
img

相關文章