RLHF · PBRL | RUNE:鼓勵 agent 探索 reward model 更不確定的 (s,a)

MoonOut發表於2023-11-10

  • 論文題目: Reward uncertainty for exploration in preference-based reinforcement learning,是 ICLR 2022 的文章,分數 5 6 6 6,邊緣接收。
  • 本部落格為很草率的論文閱讀筆記,【大概不能代替】閱讀原文的工作量(不過原文也很 naive 就是了)。
  • method 速覽:
    • 首先搞一個 reward model 的 ensemble,對這些 reward models 進行不同的初始化。收集 preference 資料時,拿不同的 batch data 來訓不同的 reward models。
    • 認為,如果對於某個 (s,a) ,reward model 們的結果存在較大方差,則證明我們對該 state-action pair 的瞭解仍然較少。因此,為了生成資訊量更大的 query,提高對學習獎勵函式的信心,我們鼓勵 agent 去訪問 ensemble reward models 方差更大的 state-action pair。
    • 這種對 agent exploration 的鼓勵,體現在 intrinsic reward 的形式。具體的, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_t\hat r_\mathrm{std}(s_t,a_t)\) ,其中 r_mean 是外在獎勵,是 ensemble reward models 輸出 reward 的平均值,而 βt · \(\hat r_\mathrm{std}(s_t,a_t)\) 則是 intrinsic reward。
  • 論文材料:
  • (跟 pebble 一樣,都是 Pieter Abbeel 組的工作)(pebble 的 本站部落格


Open Review

  • 工作內容總結:
    • main contribution:
      • 一種針對 PBRL 問題的探索策略(RUNE),其中人類反饋被納入訓練制度。作者使用了一個 learned reward models 的 ensemble,並新增了基於分歧 disagreement(或不確定性 uncertainty)的 intrinsic reward。
      • 一種貝葉斯主動學習方法,以解決 PBRL 問題。為此,他們對 reward uncertainty 的認識不確定性(epistemic uncertainty)進行了建模,以從本質上激勵 RL agent 進行探索。
      • an ensemble-based intrinsic reward,以改善 PBRL 的 exploration。main idea 是將 teacher preferences 中的不確定性納入 intrinsic reward。An ensemble of reward functions 用來 capture 這種 uncertainty。
    • 實驗:
      • benchmark:作者在 meta-world 的 robotic manipulation 任務上開展實驗,agent 僅根據 preference 形式的 teacher feedback 進行學習,學習的任務是“關門”、“開門”、“開啟抽屜”。
      • baselines:作者將他們的探索策略(RUNE)與基於偏好的學習方法 PEBBLE 相結合,並基於 PEBBLE 將 RUNE 與其他 exploration strategies 進行比較。
      • results:所提方法比其他方法有所改進。作者還使用 700 個而非 1000 個 feedback 與 PEBBLE 進行了比較,結果顯示略有改善。
  • 審稿人評價 - 優點:
    • 簡單、可擴充套件且易於實現。
  • 審稿人評價 - 缺點:
    • 效能不好:high-level 上有道理,但從實驗結果來看,演演算法效果不大;在許多圖中,難以看出不同方法之間的大差異。
    • 實驗太少:
      • 僅使用一個問題(meta-world manipulation)和該問題中的 3 個任務。(後面又補實驗了)
      • 實驗是否證明瞭 claim 的 contribution。效能提升,是因為所提出的 RUNE exploration strategy,還是僅因為使用了更好的 reward estimator,即 ensemble?回答:是 RUNE,因為大家的 reward function 都 ensemble 了。
    • novelty:
      • incremental,but partially novel,low hanging fruit。
      • 認為這篇論文是 RL 中 epistemic uncertainty driven exploration 的直接應用,雖然方法簡單,但沒什麼新穎性。
      • 既然沒有 novelty,就應該多做一些實驗(?)
    • 缺乏理論:在 reward prediction level 捕捉認識不確定性(epistemic uncertainty),比在 dynamics level 捕捉它更好。可以從理論上證明這一點,因為獎勵不確定性也包含了狀態轉換的不確定性。(但是,這種理論要怎麼處理啊……)
    • 解釋的不太清楚:
      • ensemble 中的每個模型,都使用同一組 queries + feedback 進行訓練嘛,還是在各自給定的資料下獨立訓練?回答:它們使用不同的隨機初始化、相同的訓練資料集(同一組反饋查詢)、不同的 random batch 來訓練;每個模型的引數都獨立最佳化,以最小化各自 batch training data 的交叉熵損失。
      • 在 ensemble 中,可能有多個 reward function 產生相同的 preference,它們都是“正確的”,但彼此不同。此時,state rewards 的標準差是否為零?這仍然是一個有意義的不確定性估計嗎?回答:我們將所有 predicted reward 透過 tanh 歸一化到 (-1,1) ,相信這可以讓 ensemble 中的 reward function 更 consistent,並使 uncertainty estimation(即標準差)有意義(?)
    • 缺假設(?):preference feedback 假設是穩定的 stationary、無環的 acyclic(偏序關係)。這兩個假設經常被現實世界的人類偏好反饋所違反。

0 abstract

Conveying complex objectives to reinforcement learning (RL) agents often requires meticulous reward engineering. Preference-based RL methods are able to learn a more flexible reward model based on human preferences by actively incorporating human feedback, i.e. teacher’s preferences between two clips of behaviors. However, poor feedback-efficiency still remains a problem in current preference-based RL algorithms, as tailored human feedback is very expensive. To handle this issue, previous methods have mainly focused on improving query selection and policy initialization. At the same time, recent exploration methods have proven to be a recipe for improving sample-efficiency in RL. We present an exploration method specifically for preference-based RL algorithms. Our main idea is to design an intrinsic reward by measuring the novelty based on learned reward. Specifically, we utilize disagreement across ensemble of learned reward models. Our intuition is that disagreement in learned reward model reflects uncertainty in tailored human feedback and could be useful for exploration. Our experiments show that exploration bonus from uncertainty in learned reward improves both feedback- and sample-efficiency of preference-based RL algorithms on complex robot manipulation tasks from MetaWorld benchmarks, compared with other existing exploration methods that measure the novelty of state visitation.

摘要:

  • background:將複雜的目標傳達給 RL 智慧體,往往需要細緻的 reward engineering。PBRL 能夠透過主動結合human feedback(preference 形式)來學習更靈活的獎勵模型,然而,當前的 PBRL 演演算法面臨反饋效率(feedback-efficiency)的問題,因為定製的人類反饋非常昂貴。
  • literature:先前方法主要集中在 ① 改進 query selection 和 ② 策略初始化上(大概在說 pebble),同時在最近,exploration 方法已被證明是提高 RL sample efficiency 的有效手段。
  • method:提出了一種針對 PBRL 的探索方法,主要思想是設計一個 intrinsic reward,透過基於 learned reward 來衡量新穎性(novelty)。具體的,利用了 learned reward models 的 ensemble 中的分歧(disagreement)。直覺是,learned reward models 中的分歧(disagreement)反映了人類反饋的不確定性,可能對探索有用。
  • 實驗表明,與其他現有的 measure the novelty of state visit 的探索方法相比,基於 learned reward 的 uncertainty 的exploration bonus,提高了 PBRL 在 MetaWorld benchmark 中,robot manipulation 任務上的 feedback efficiency 和 sample efficiency。

1 intro 速覽

  • intro 的第三段,出現了 PBRL 關於 sampling strategy 的 literature。“這些方法旨在選擇資訊量更大的查詢,以提高學習獎勵函式的質量。”
  • 第三段還有關於策略初始化(policy initialization)的兩個工作。(怎麼感覺就是在說 pebble 呢)
  • intro 第四段是關於 exploration 的 literature。
  • Human-in-the-loop RL(HiL RL):除了狂引 pebble,感覺沒什麼資訊量。
  • Exploration in RL: intrinsic reward - ① count-based methods、② curiosity、③ state entropy。
  • Trajectory generation in PBRL:(沒有很看懂)

3 preliminaries 速覽

PBRL 基礎,如果想看的話,可參見 pebble 的部落格

4 method: RUNE

RUNE: Reward UNcertainty for Exploration。

4.1 Reward uncertainty for exploration - 在 exploration 中使用 reward uncertainty

  • 使用基於 ensemble of reward functions 的 intrinsic reward, \(r^\mathrm{int}(s_t,a_t):=\hat r_\mathrm{std}(s_t,a_t)\) ,其中 \(\hat r_{std}\) 是所有 reward function 的經驗標準差。
  • 直覺是,reward function 的高方差,表明人類偏好的高度不確定性。這意味著,對與這些 states 和 actions,我們收集的偏好仍然較少。因此,為了生成資訊量更大的 query、並提高對學習獎勵函式的信心,鼓勵智慧體訪問獎勵函式更不確定的 state-action pair。

4.2 Training objective based on intrinsic rewards - 基於 intrinsic rewards 的訓練目標

  • 將外在獎勵(根據 preference 學到的 reward model)與內在獎勵(方差)加權求和, \(r^\mathrm{total}_t:=\hat r_\mathrm{mean}(s,a)+\beta_tr^\mathrm{int}(s,a)\)
  • 其中,βt>0 是一個超引數,負責 timestep = t 時的 exploration - exploitation 權衡。
  • 隨著訓練,intrinsic reward(ensemble reward models 的方差)會趨於 0。
  • RUNE 演演算法見 Alg 1,在 Appendix A 裡面。

5 experiments 速覽

  • We designed our experiments to answer the following questions:
    我們設計了實驗來回答以下問題:
    • Can exploration methods improve the sample- and feedback-efficiency of preference-based RL algorithms?
      探索方法能否提高 PBRL 的取樣和反饋效率?
    • How does RUNE compare to other exploration schemes in preference-based RL setting?
      在 PRBL 設定中,RUNE 與其他探索方案相比如何?
    • How does RUNE influence reward learning in preference-based RL?
      RUNE 如何影響 PBRL 中的獎勵學習?

(發現這篇文章跟 pebble 好像… 都是在第二頁頂部放一個 method 框圖,並且在 experiments 前放這種問題)

(是因為都出自 Pieter Abbeel 組嘛…)

在 5.4 ablation study 中,有一個以前沒太見過的評價指標:Quality of learned reward functions。使用 Gleave 等人 (2020) 在 learned reward function 和 ground truth reward function 之間的等效策略不變比較 (Equivalent-Policy Invariant Comparison,EPIC) 距離作為評估指標。Gleave 等人(2020)認為,EPIC 距離是量化相同 transition dynamics 下不同 reward function 之間距離的可靠指標。見 Fig 4(c)。

6 discussion 懶得寫了。



相關文章