offline RL · PbRL | LiRE:構造 A>B>C 的 RLT 列表,得到更多 preference 資料

MoonOut發表於2024-11-30

  • 論文標題:Listwise Reward Estimation for Offline Preference-based Reinforcement Learning,ICML 2024。
  • arxiv:https://arxiv.org/abs/2408.04190
  • pdf:https://arxiv.org/pdf/2408.04190
  • html:https://ar5iv.org/html/2408.04190
  • GitHub:https://github.com/chwoong/LiRE
  • (感覺關於 構造 A>B>C 的 RLT 列表,得到更多 preference 資料,SeqRank 也是這個 idea。)

0 abstract

In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. However, existing PbRL methods have limitations as they often overlook the second-order preference that indicates the relative strength of preference. In this paper, we propose Listwise Reward Estimation (LiRE), a novel approach for offline PbRL that leverages secondorder preference information by constructing a Ranked List of Trajectories (RLT), which can be efficiently built by using the same ternary feedback type as traditional methods. To validate the effectiveness of LiRE, we propose a new offline PbRL dataset that objectively reflects the effect of the estimated rewards. Our extensive experiments on the dataset demonstrate the superiority of LiRE, i.e., outperforming state-of-the-art baselines even with modest feedback budgets and enjoying robustness with respect to the number of feedbacks and feedback noise. Our code is available at https://github.com/chwoong/LiRE

  • background & gap:
    • 在強化學習 (RL) 中,設計精確的、與人類意圖保持一致的獎勵函式,具有挑戰性。Preference-based RL(PbRL)從人類反饋中學習獎勵模型,可以解決這個問題。
    • 然而,現有的 PbRL 方法存在侷限性:它們只能應對“A 比 B 好”“B 比 A 好”這種 0 1 的情況,而忽略了表示偏好相對強度的二階(second-order)偏好。
  • method:
    • 在本文中,我們提出了 Listwise Reward Estimation (LiRE),一種新穎的 offline PbRL 方法,它透過構建軌跡排名列表(Ranked List of Trajectories,RLT)來利用二階偏好資訊。
    • 構建 RLT:使用與傳統 PbRL 相同的三元組 feedback \((\sigma_0,\sigma_1,p)\) 。對於新給出的 segment,用插入排序的方式將其放到目前的 RLT 裡。
  • experiment:
    • 這篇文章提出了一個新的 offline PbRL dataset,用於評價 reward model 的學習效果。因為 d4rl 環境太簡單,還會有 survival instinct(生存本能)現象,不適用於 reward 學習
    • 實驗證明,LiRE 在反饋預算適中的情況下 outperform baselines,並且在 feedback 數量和 noisy feedback 方面更加穩健。
  • offline PbRL:
    • Reward Learning from Human Preferences and Demonstrations in Atari. arxiv 這篇是 2018 年的文章,先對 expert demo 做模仿學習,然後 rollout 得到一些 segment,拿這些 segment 去打 preference,最後 PbRL 微調。
    • Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback. open review 這篇是 SeqRank,是 2023 neurips 的文章。SeqRank 把新得到的 segment 和先前收集的 segment(最近收集的 / 先前所有 segment 裡最好的)拿去比較。如果能比出 \(σ(t_0)<σ(t_1)<σ(t_2)<σ(t_3)\) 的結果,就能得到 3×2×1 = 6 = (n-1)! 個 preference,但是我們其實只比了三次;SeqRank 就透過這種思想來對 preference 做資料增強。
    • lire 講 offline PbRL 的思路是,最近的工作專注於直接最佳化策略、省掉 reward model(比如 DPO),但是選擇 informative query 也很重要。OPRL 是一種 active query selection 方法,選擇 disagreement 最大的 query,但它沒有使用二階偏好。
  • Second-order Preference Feedback:
    • 有些方法直接獲得一個相對 preference 數值(明顯更好 / 略好),或每個軌跡的絕對 rating(非常好 好 一般 中 差),但它們獲取 feedback 的成本較高。
      • Llama 2: Open Foundation and Fine-Tuned Chat Models.
      • Weak Human Preference Supervision For Deep Reinforcement Learning. TNNLS(Transactions on Neural Networks and Learning Systems)2021 年的文章。arxiv 首先讓 p 從 {0, 1} 變成 [0, 1],直接最佳化交叉熵損失,做了一些神秘歸一化,然後搞了一個 preference predictor 做資料增強;沒有仔細看。
      • Rating-based Reinforcement Learning. AAAI 2024,arxiv。這篇文章的名字是 RbRL;人類直接給一個 segment 一個 {0, ..., n-2, n-1} 的 rating,然後我們學一個 rating model,試圖判斷一個 segment 被分到了哪個 rating。這個 rating model 透過判斷 Σr hat(σ) 和定義的 n 個 rating 類別的獎勵值邊界的大小關係,來判斷 segment 被分到了哪個 rating。rating 類別的獎勵值邊界會動態更新。
    • 有很多 Learning-to-Rank 的工作,它們已經拿到了二階偏好,試圖去學一個 ranking 的評分。
    • 還有一些工作,它們可以從多個軌跡的全序列表(比如 A<B<C<D)得到二階偏好,但是真去構建一個大列表太慢了,應該更高效地構建(?)
    • 然後又提了提 SeqRank。

4 method

  • 首先對 preference 做了一些假設:
    • 完備性:假設拿到 \(\sigma_0 ~ \sigma_1\),要不是 \(\sigma_0 \succ \sigma_1,~ \sigma_0 \prec\sigma_1\),要不就認為一樣好 \(\sigma_0 = \sigma_1\),認為沒有比不出來的情況。
    • 傳遞性:假設如果有 \(\sigma_0 \succ \sigma_1,~\sigma_1 \succ \sigma_2\),那麼有 \(\sigma_0 \succ \sigma_2\)

4.1 構建 RLT(Ranked List of Trajectories)

  • 我們的目標是得到形式為 \(L=[g_1\prec g_2\prec ⋯\prec g_s]\) 的 RLT,其中 \(g_i=\{σ_{i_{1}},\cdots,σ_{i_{k}}\}\) 是一組具有相同優先順序的 segment。(有點像 帕累託前沿 分層 之類)
  • 具體構建方法:我們每拿到一個新 segment,就把它拿去跟目前的 RLT 插入排序比較,找到一個放新 segment 的位置。直到 feedback 預算用完。
  • 表 1 計算了 LiRE 的 feedback efficiency 和 sample diversity,並且與 vanilla 方法、SeqRank 進行了比較。feedback efficiency 定義為 [我們獲得的 feedback 數量] / [我們進行比較的數量] 。sample diversity 定義為 [我們獲得的 feedback 數量] / [所用到的 segment 數量] 。
  • 我們並沒有構建一個很長的 RLT,而是去構建多個相對短的 RLT,為每個 RLT 都設定 feedback 預算。

4.2 從 RLT 裡學 reward model

從 RLT 裡推匯出 \((\sigma_0, \sigma_1, p)\) 的 preference 資料,其中 \(p\in\{0,0.5,1\}\)

然後最佳化 PbRL 的 cross-entropy loss:(我也不知道包含 p = 0.5 的 cross-entropy loss 是不是這麼寫)

\[\begin{aligned} L= & -E_{(σ_0,σ_1,p)\sim D}\bigg[ p(0)\log P_\psi[σ_0\succ σ_1] + p(1)\log P_\psi[σ_0\prec σ_1] \\ & \quad\quad\quad\quad\quad\quad\quad +~p(0.5) \log P_\psi[σ_0= σ_1] \bigg ] \\ P_\psi&[σ_0\succ σ_1] = \frac{\exp\sum_t \hat r_{\psi}(s_t^0,a_t^0)}{\sum_{i\in\{0,1\}}\exp\sum_t \hat r_{\psi}(s_t^i,a_t^i)} \end{aligned} \tag 1 \]

不知道為什麼,LiRE 把 reward model 建模成了線性形式(而非指數形式):

\[P_\psi[σ_0\succ σ_1] = \frac{\sum_t \hat r_{\psi}(s_t^0,a_t^0)}{\sum_{i\in\{0,1\}}\sum_t \hat r_{\psi}(s_t^i,a_t^i)} \tag 2 \]

LiRE 聲稱這樣可以放大 learned reward model 的獎勵值的差異,拉高比較好的 (s,a) 的獎勵。這個線性 reward model 的最後一層 activator 也是 tanh,為確保機率(公式 2)是正的,reward model 的輸出是 1 + tanh() 。

也可以使用 listwise loss,在 Appendix A.3,有點複雜 先不看了()

5 experiment

5.1 settings

  • LiRE 的自定義 dataset:

    • d4rl 存在問題,即使使用錯誤的 reward,訓練出來結果也很好,因此 不適用於 reward 學習
    • 因此,LiRE 對 metaworld 和 dmcontrol 收集了新的 medium-replay 資料集,並使用了 IPL 的一部分 medium-expert 資料集,細節見 Appendix C.2。
      • medium-replay:用三個 seed 訓 ground truth reward 下的 SAC,當 success rate 達到大概 50% 的時候,就停止訓練,把 replay buffer 作為 offline dataset。
      • 然後,對每個資料集,他們驗證了使用 0 reward、負 reward 訓出來策略的效能不佳,因此適合評測 reward learning。
    • 先前工作也有一些自定義資料集,但它們在這個資料集上的實驗只使用了 100 個或更少的 feedback,而 LiRE 要使用 500 1000 這個數量級的 feedback。
  • baselines:

    • 馬爾可夫獎勵(MR)、Preference Transformer(PT),OPRL,Inverse Preference Learning(IPL)、Direct Preference-based Policy Optimization(DPPO)、SeqRank。
    • MR 是 PT 的 baseline 之一。PT 的主要貢獻是把 reward model 換成 transformer,但是故事很合理。OPRL 的主要貢獻是用類似 pebble 的方法選 disagreement 最大的 query。IPL 和 DPPO 沒有 reward model,直接最佳化 policy。
  • LiRE 的實現細節:

    • 對於 LiRE,我們使用線性 reward model,並設定為每個 RLT 的 feedback 預算 Q 為 100:如果反饋的總數為 500,則將構造 5 個 RLT。所有的 offline RL 部分都使用 IQL。Appendix C.4 有超引數之類的具體細節(表 18)。
    • preference 的 segment length = 25。因為 metaworld 的 ground truth reward 在 [0, 10] 之間,因此,LiRE 標記 segment reward 之和差異小於 12.5 的 query 為 p=0.5。

5.2 實驗結果

  • 實驗主要在 LiRE 自己收集的 MetaWorld medium-replay 上做。Meta-World medium-expert 在 Appendix A。
  • LiRE 聲稱 PT 跟 MR 差不多;OPRL 因為最小化了(?)reward model 之間的 disagreement,所以效能會有提升;IPL 和 DPPO 基本比不上 MR;但 LiRE 結果很好。

5.3 & 5.4 ablation

  • LiRE 聲稱自己的效能提升主要因為 1. 線性 reward model,2. RLT。
    • 表 3 顯示,線性 reward model 可以有效提高效能(到底是為什麼呢……)RLT 也能提高效能。
    • 圖 2 視覺化了 reward model 預測的獎勵和 ground truth 獎勵的關係,發現無論是 MR 還是 LiRE,線性 reward model 都能得到更與 ground truth reward 線性相關的 reward 預測值,因此認為是更好的(怎麼會有這麼神奇的事情呢)。
    • LiRE 推測,使用線性 reward model 和 RLT 可以更清楚地區分估計獎勵的最佳和次優部分,還是在講二階偏好的故事。
    • Appendix A.5 有線性 reward model 的更多實驗。表 12 顯示,MR 和 OPRL 換上線性 reward model 後效能都有提升,PT DPPO 效能則有所下降。圖 7 聲稱 online PbRL 中線性 reward model 也可以表現更好。
  • 圖 3 做了不同 feedback 數量的 ablation。表 4 做了不同 Q(單個 RTL feedback 預算數量)的 ablation。
  • 圖 4 做了 noisy feedback,隨機 filp preference 結果。表 5 6 比了 SeqRank。
  • 圖 5 改了給 p=0.5 的 reward 閾值。
  • 圖 6 把 LiRE 跟 OPRL 和 PT 相結合,發現效能有升有降。
    • OPRL 效能下降是因為,基於 disagreement 的 query selection 可能會對相似的 segment pair 過度取樣,這些片段可能很難區分。
    • PT 的 motivation 是捕獲獎勵建模中的時間依賴關係,因此它似乎難以從 RLT 中準確捕獲二階偏好資訊,可能因為對過去 segment 的過擬合。

5.5 human 實驗

  • 表 7 在 button-press-topdown 用了作者打的 200 個 feedback,發現 LiRE 比 MR 和 SeqRank 好。

6 & 7 conclusion

  • LiRE 的 limitations:
    • 一個 RLT 可能無法並行化地構建。
    • LiRE 的 RLT 依賴於對 preference 的完備性 + 傳遞性假設。


相關文章