RLHF · PBRL | SURF:使用半監督學習,對 labeled segment pair 進行資料增強

MoonOut發表於2023-11-11



Open Review

  • 貢獻:
    • semi-supervised learning + PBRL。
    • 兩部分:① 利用 pseudo-label 和 reference predictor 來整一些 artificial labels,② 裁剪(crop)連續的(consecutive)子序列(sub-sequences)來做 data augmentation。(感覺這兩部分貌似是相互獨立的)
    • 實驗:
      • 實驗環境是 Meta-world 和 DMControl suite,結果表明效能顯著提升。
      • SURF 僅 access 了少量 expert queries,效能可與 dense-reward SAC 相媲美。
    • 關於 temporal cropping method:
      • 首先,抽取一對長為 50 的 segment,把它們作為 query 給 teacher 送去 label。
      • 然後,我們儲存這些 segment,在左右兩側都有 5 的額外邊距,即我們儲存了長度 = 60 的 segment。
      • 在 reward learning 時,我們在 [Hmin, Hmax] = [45,55] 中,隨機選擇每個 segment k0,k1 的裁剪長度 H' 和起始位置,然後裁剪連續的 sub-sequences。
      • 詳見 Algorithm 1。temporal cropping 的超引數詳見 Appendix B。
  • 優點:
    • 實驗量充足。formulation 清晰。效能很好。
  • 缺點:
    • reward function 是怎麼學的,在第 3 和 4.1 節,reviewer 沒太看懂。
    • 如圖 6(b) 所示,pseudo-labeling 技術要求超引數 τ 非常大,reviewer 在疑惑,為什麼需要非常高的 confidence。這些 high-confidence samples 的 loss 應該非常小,為什麼會讓最終效能顯著提升。(沒太聽懂)回答:這種高閾值的 pseudo-labeling 在半監督學習領域中,有充分的證明和廣泛的應用。
    • 有一個假設太強了:“augmentation 背後的直覺是,對於一對給定的 behavior clips,將它們 slightly shifted 或 resize,human teacher 可能仍然持有相同的 preference。” 反駁:CV 上相似 idea(影像裁剪)的效果很好。
    • 技術上的 novelty 有限。
    • (有兩個 reviewer 說)ablation 可以多在幾個 task 上做,不然對 TDA(好像是某個 task)的 support 是不夠的。(然後就真的補 ablation 了)

0 abstract

Preference-based reinforcement learning (RL) has shown potential for teaching agents to perform the target tasks without a costly, pre-defined reward function by learning the reward with a supervisor’s preference between the two agent behaviors. However, preference-based learning often requires a large amount of human feedback, making it difficult to apply this approach to various applications. This data-efficiency problem, on the other hand, has been typically addressed by using unlabeled samples or data augmentation techniques in the context of supervised learning. Motivated by the recent success of these approaches, we present SURF, a semi-supervised reward learning framework that utilizes a large amount of unlabeled samples with data augmentation. In order to leverage unlabeled samples for reward learning, we infer pseudo-labels of the unlabeled samples based on the confidence of the preference predictor. To further improve the label-efficiency of reward learning, we introduce a new data augmentation that temporally crops consecutive sub-sequences from the original behaviors. Our experiments demonstrate that our approach significantly improves the feedback-efficiency of the state-of-the-art preference-based method on a variety of locomotion and robotic manipulation tasks.

  • 背景:
    • 在沒有昂貴的預定義 reward function 情況下,PBRL 已顯示出教授 agent 執行目標任務的潛力。具體的,透過 human supervisor 在兩種 agent behaviors 之間的 preference,來學習一個 reward model。
    • 然而,PBRL 通常需要大量的人類反饋,因此很難廣泛應用。
    • 這種資料效率的問題,通常會在監督學習的背景下,使用未標記的樣本(unlabeled samples)或資料增強(data augmentation)技術來解決。
  • method:
    • 受這些方法啟發,我們提出了 SURF,一種 semi-supervised reward learning framework,利用大量未標記的樣本,進行 data augmentation。
    • 具體的,為了利用 unlabeled samples 進行 reward learning,我們根據 preference predictor 的置信度(confidence),推斷未標記樣本的偽標籤(pseudo-labels)。
    • 為了進一步提高 reward learning 的 label-efficiency,我們引入了一種新的 data augmentation 技術,在時間上從 original behaviors 中 temporally crops consecutive sub-sequences。
  • 實驗:SURF 顯著提高了最先進的 PBRL 演演算法在各種 locomotion 和 robot manipulation 任務上的 feedback-efficiency。
  • PBRL。
  • Data augmentation for RL(有趣的,以前沒注意過的角度)
  • Semi-supervised learning 半監督學習:還是有很多 literature 的,不太瞭解這個領域…

4 method: SURF

SURF: a Semi-sUpervised Reward learning with data augmentation for Feedback-efficient preference-based RL.

感覺看一下 Algorithm 就可以了。

4.1 Semi-supervised reward learning - 半監督的 reward learning

  • pseudo-labeling:y hat(σ0, σ1) = 0 if P_ψ[σ0>σ1] > 0.5 else 1 。
  • 為了過濾掉不準確的偽標籤,只在 predictor 的 confidence 高於一個 pre-defined threshold 時,才使用 unlabeled samples 進行訓練。(confidence 大概指的是,P_ψ[σ0>σ1] > τ,τ 是 confidence 的閾值 )
  • (Algorithm 1,裡面出現的 TDA temporal data augmentation 在 Algorithm 2 裡)

4.2 Temporal data augmentation for reward learning - reward learning 中的時序資料增強

  • (Algorithm 2)
  • 利用增強樣本 \((\hat σ^0,\hat σ^1)\) 來最佳化公式 (5) 中的交叉熵損失。

5 experiments

Pieter Abbeel 組的 experiments section 經典問題:(如果你不知道經典問題指什麼,可以看 PEBBLE RUNE 的本站部落格;這三篇文章都是他們組的,寫作非常相似)

  • How does SURF improve the existing preference-based RL method in terms of feedback efficiency?
    SURF 如何在反饋效率方面,改進現有的 PBRL 方法?
  • What is the contribution of each of the proposed components in SURF?
    SURF 中每個 proposed components 的貢獻是什麼?
  • How does the number of queries affect the performance of SURF?
    queries 的數量如何影響 SURF 的效能?
  • Is temporal cropping better than existing state-based data augmentation methods in terms of feedback efficiency?
    在 feedback efficiency 方面,temporal cropping 是否比現有的 state-based data augmentation 方法更好?
  • Can SURF improve the performance of preference-based RL methods when we operate on high-dimensional and partially observable inputs?
    應對高維和 partially observable 的輸入時,SURF 能否提高基於 PBRL 方法的效能?

implementation details:

  • 對於 query selection 策略,我們選擇 queries with high uncertainty,使用 disagreement-based sampling 方案,即 ensemble disagreement(Appendix B)。
  • 更多細節見 Appendix B。

results:

  • 相比 PEBBLE,surf 需要更少的 queries 數量。
  • 在相同 queries 預算下,surf 可以顯著提高 PEBBLE 的效能。
  • ablation 就是將兩種技術分別使用,比較它們的訓練 curve。
  • ablation 還比較了不同的 query size(是 feedback 數量,好像不是 segment 長度)、不同的 data augmentation 方法、不同的 surf 超引數。
  • 在問題中畫餅的“高維 partially observed input”,指的是 section 5.4 的 visual control tasks 嘛?(但是又在 6 discussion 中說是 future direction)


相關文章