ICLR 2024 | RLHF有了通用平臺和基準,天大開源,專攻現實決策場景

机器之心發表於2024-03-27

RLHF 透過學習人類偏好,能夠在難以手工設計獎勵函式的複雜決策任務中學習到正確的獎勵引導,得到了很高的關注,在不同環境中選擇合適的人類反饋型別和不同的學習方法至關重要。

然而,當前研究社群缺乏能夠支援這一需求的標準化標註平臺和統一基準量化和比較 RLHF 的最新進展是有挑戰性的。

本文中,天津大學深度強化學習實驗室的研究團隊推出了面向現實決策場景的 Uni-RLHF 平臺,這是一個專為 RLHF 量身定製的綜合系統實施方案。它旨在根據真實的人類反饋提供完整的工作流程,一站式解決實際問題。

圖片

  • 論文題目:Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback

  • 專案主頁:https://uni-rlhf.github.io/

  • 平臺連結:https://github.com/pickxiguapi/Uni-RLHF-Platform

  • 演算法程式碼庫:https://github.com/pickxiguapi/Clean-Offline-RLHF

  • 論文連結:https://arxiv.org/abs/2402.02423

  • 作者主頁:http://yifu-yuan.github.io/

Uni-RLHF 包含三個部分:1)通用多反饋標註平臺,2)大規模眾包反饋資料集,3)模組化離線 RLHF 基線程式碼庫

具體流程來看,Uni-RLHF 首先針對各種反饋型別開發了使用者友好的標註介面,與各種主流 RL 環境相容。然後建立了一個系統的眾包標註流水線,產生了包含 32 個任務、超過 1500 萬個時間步的大規模標註資料集。最後,基於大規模反饋資料集,實現了最先進的 RLHF 演算法的基線結果和模組化元件以供其他研究者使用。

Uni-RLHF 希望透過評估各種設計選擇,深入瞭解它們的優勢和潛在的改進領域,構建有價值的開源平臺、資料集和基線,以促進基於真實人類反饋開發更強大、更可靠的 RLHF 解決方案。目前平臺、資料集和基線程式碼庫均已開源。

多反饋型別通用標註平臺

Uni-RLHF 標註平臺提供了眾包標準標註工作流程:

  • 介面支援多種線上環境 (Online Mode) 和離線資料集 (Offline Mode),並且可以透過簡單的介面擴充套件方式接入定製化的環境;

  • 查詢取樣器 (Query Sampler) 可決定哪些資料需要被標註,支援多種型別的取樣策略;

  • 互動式使用者介面 (User Interface) 可讓眾包檢視可用軌跡片段並提供反饋響應,提供包含選擇、拖動、框選和關鍵幀捕捉等一系列影片片段和影像標註方式;

  • 反饋翻譯器 (Feedback Translator) 可將不同的反饋標籤轉換為標準化格式。

圖片

Uni-RLHF 包括平臺、資料集和離線 RLHF 基線程式碼庫三個部分

圖片

Uni-RLHF 能夠支援大量主流的強化學習環境

適用於強化學習的標準反饋編碼格式

為了更好地捕捉和利用來自標註者的各種不同型別的反饋標籤,Uni-RLHF 對一系列相關研究進行了總結,提出一種標準化的反饋編碼格式和對應的訓練方法。使用者可以根據任務和標註成本需求,選擇不同型別的標註方法。一般來說,資訊密度越高,標註成本相應也會更大,但是反饋效率也會隨之提升。

Uni-RLHF 支援以下五種反饋型別:

  • 比較反饋 (Comparative Feedback):對兩段軌跡給出相對性的二元反饋比較

  • 屬性反饋 (Attribute Feedback):對兩段軌跡給出基於多屬性的相對反饋比較

  • 評估反饋 (Evaluative Feedback):對一段軌跡給出多個級別的評估選項

  • 視覺反饋 (Visual Feedback):對一段軌跡中的視覺重點進行選擇和標記

  • 關鍵幀反饋 (Keypoint Feedback):對一段軌跡中的關鍵幀進行捕捉和標記

大規模眾包標註流水線

在 RLHF 訓練過程中,資料標註是一項複雜的工程問題。研究人員圍繞 Uni-RLHF 構建眾包資料註釋流水線,透過並行的眾包資料註釋和過濾,促進大規模註釋資料集的建立。

為了驗證 Uni-RLHF 平臺各方面的易用性和對 RLHF 前沿演算法效能進行驗證,研究人員使用廣受認可的離線 RL 資料集實現了大規模眾包標註任務,以收集反饋標籤。

在完成資料收集後,研究人員進行了兩輪資料過濾,以儘量減少有噪聲的眾包資料量,最終建立了一個系統化的眾包註釋流水線,形成了大規模標註資料集,包括 32 個主流任務中的 1,500 多萬個時間步。

圖片

標註流水線中每個元件的驗證

為了證明資料過濾的有效性。研究人員首先在 SMARTS 中抽取了 300 個軌跡片段進行專家註釋,稱為「Oracle」。接下來,研究人員請了五位眾包在三種不同的設定下分別標註 100 條軌跡。「Naive」意味著只能看到任務描述,「Example」允許檢視專家提供的五個註釋樣本和詳細分析,而「Filter」則新增了過濾器。

以上實驗結果表明,每個元件都顯著提高了標註的可靠性,最終實現了與專家註釋 98% 的一致率。

離線 RLHF 基準實驗

研究人員利用收集到的眾包反饋資料集對下游決策任務進行了大量實驗,以評估各種不同的設計選擇及其對應的優勢。

首先,Uni-RLHF 使用了三種不同的獎勵模型設計結構,分別是 MLP、TFM (Transformer) 和 CNN,其中 MLP 結構便於處理向量輸入,而 CNN 結構便於處理影像輸入。TFM 獎勵結構則能夠更好地擬合 non-Markovian 獎勵。同時Uni-RLHF 使用了三種廣泛使用的離線強化學習演算法作為底座,包括 IQL、CQL 和 TD3BC。

Oracle 代表使用手工設計的任務獎勵訓練的模型;CS (CrowdSource) 代表一種是透過 Uni-RLHF 系統眾包獲得的眾包標籤;而 ST (Script Teacher) 代表根據實際任務獎勵生成的合成標籤,可視為專家標籤供比較。

圖片

實驗結論表明:

  • 基於 IQL 基線效果最穩定,並且比較 IQL-CS 能夠表現出和 IQL-Oracle 相當的優異效能,而 CQL 基線偶爾會出現策略崩潰的結果;

  • 總體看來,TFM 結構在穩定性和效能兩方面均領先於 MLP 結構,尤其是在稀疏獎勵設定的環境中;

  • 和合成標籤 (ST) 相比,眾包標籤 (CS) 在大多數環境中能夠達到相當甚至超越的效果,這也證明了 Uni-RLHF 具有高質量的資料標註。

在影像輸入的環境中,眾包標籤 (CS) 則全面領先於合成標籤 (ST),研究人員認為這種優異表現來源於人類能夠更敏感的捕捉到遊戲過程中的細節過程,這些細節則很難用簡單的積分獎勵來概括。

圖片

RLHF 方法是否能在真實的複雜任務上成功替代手工設計的獎勵函式?研究人員使用了 NeurIPS 2022 中 SMARTS 自動駕駛競賽的環境,該環境提供了相對真實和多樣化的自動駕駛場景,並使用成功率,速度和舒適度等多個指標評估模型的效能。其中,冠軍方案針對該任務設計獎勵函式會經過多次試錯,並在多次訓練過程中不斷調整完善各項獎勵時間及係數,最終形成了以下極為複雜的獎勵函式構成,設計成本極高:

圖片

自動駕駛場景獎勵函式設計

而透過眾包標註的簡單反饋標籤進行獎勵函式訓練,Uni-RLHF 就能夠達到超越專家獎勵的任務成功率,並且在舒適度指標上也有所領先。

圖片

針對 SMARTS 自動駕駛場景的多指標評測

圖片

Uni-RLHF 方法和 Oracle 獎勵函式對比。(左:Oracle,右:Uni-RLHF)

Uni-RLHF 還針對其他多種型別的反饋形式進行了更多驗證,這裡以多屬性反饋 (Attribute Feedback) 舉一個簡單的例子:使用者希望訓練一個 Walker 機器人,使其速度和軀幹高度在運動的過程中進行自由的變化,而不是簡單的最大化速度。此時簡單的比較反饋就很難準確的表述使用者的偏好,Uni-RLHF 則提供了針對多屬性反饋的標註模式。在本實驗中,Walker 會執行 1000 步,並每 200 步調整姿態,速度的屬性值設定為 [慢,快,中,慢,快],高度的屬性值設定為 [高,中,高,低,高]。從曲線和相應的影片中可以清楚地觀察到經過 Uni-RLHF 標註後訓練的模型能夠靈活的進行姿態轉換。

圖片

Walker 遵循使用者偏好進行靈活姿態轉換

總結和未來展望

Uni-RLHF 展示了在決策任務中基於 RLHF 方法取代手工設計獎勵函式的重要前景,研究人員希望透過建設平臺、大規模資料集和程式碼庫以促進更加可靠,基於真實人類反饋標註的 RLHF 解決方案。該領域仍存在一些挑戰和可能的未來方向:

  • 評估人類的非理性和偏向性:眾包提供反饋標籤勢必會帶來反饋標籤的噪音,即對任務認知不統一、標註錯誤、有偏向性等問題,如何在嘈雜的標籤資料中進行學習是值得研究的方向。

  • 不完美獎勵函式修正:反饋標籤的噪音和資料分佈狹窄等問題會導致學習到次優的獎勵函式、如何基於獎勵塑形、先驗知識等進一步的基於該獎勵函式進行修正也是重要的研究問題。

  • 多反饋型別的組合作用:儘管目前的研究已經證實,使用更細粒度的反饋方式會給學習效率帶來巨大提升,但在同一個任務中聚合影像、評估、關鍵幀等各型別反饋方式依然值得進一步研究。

相關文章