論文閱讀翻譯之Deep reinforcement learning from human preferences

關於

首次發表日期：2024-09-11
論文原文連結：https://arxiv.org/abs/1706.03741
論文arxiv首次提交日期：12 Jun 2017
使用KIMI，豆包和ChatGPT等機翻，然後人工潤色
如有錯誤，請不吝指出

Deep reinforcement learning from human preferences（基於人類偏好的深度強化學習）

Abstract （摘要）

對於複雜的強化學習（RL）系統來說，要與現實世界環境有效互動，我們需要向這些系統傳達複雜目標。在這項工作中，我們探索了以（非專家）人類對軌跡段對的偏好來定義目標。我們展示了這種方法可以在沒有獎勵函式的情況下有效解決複雜的RL任務，包括Atari遊戲和模擬機器人運動，同時僅需對不到1%的代理與環境互動提供反饋。這大大降低了人類監督的成本，使其能夠實際應用於最先進的強化學習系統。為了展示我們方法的靈活性，我們表明可以在大約一小時的人類參與時間內成功訓練出複雜的新行為。這些行為和環境比以往任何從人類反饋中學到的都要複雜得多。

1 Introduction （引言）

最近在將強化學習 (RL) 擴充套件到大規模問題上取得的成功，主要得益於那些具有明確獎勵函式的領域（Mnih等, 2015, 2016; Silver等, 2016）。不幸的是，許多工的目標是複雜的、定義不清的或難以明確說明的。克服這一限制將大大擴充套件深度強化學習的潛在影響，並可能進一步擴大機器學習的應用範圍。

例如，假設我們想使用強化學習訓練一個機器人來清潔桌子或炒雞蛋。如何構建一個合適的獎勵函式並不明確，而這個獎勵函式需要依賴機器人的感測器資料。我們可以嘗試設計一個簡單的獎勵函式，大致捕捉預期的行為（intended behavior），但這通常會導致機器人行為最佳化我們的獎勵函式，但機器人行為並實際上卻不符合我們的偏好。這種困難是構成近期關於我們價值觀（values）與強化學習系統目標不一致的基礎（Bostrom, 2014; Russell, 2016; Amodei等, 2016）。如果我們能夠成功地向智慧體（agent）傳達我們的實際目標，將是解決這些問題的關鍵一步。

如果我們擁有所需任務的示範，就可以透過逆向強化學習 (Ng 和 Russell, 2000) 提取一個獎勵函式，然後使用該獎勵函式來訓練透過強化學習訓練一個智慧體。更直接的方式是使用模仿學習（imitation learning）來複制示範的行為。然而，這些方法並不適用於人類難以演示的行為（例如控制一個具有多自由度且形態與人類差異很大的機器人）。

另一種方法是允許人類對系統當前的行為提供反饋，並利用這些反饋來定義任務。原則上，這符合強化學習的正規化，但直接將人類反饋作為獎勵函式對於需要數百或數千小時經驗的強化學習系統來說成本過高。為了能夠在實際上基於人類反饋訓練深度強化學習系統，我們需要將所需反饋的量減少幾個數量級。

我們的方法是從人類反饋中學習獎勵函式，然後最佳化這個獎勵函式。這種基本方法之前已經被考慮過，但我們面對的是如何將其擴充套件到現代深度強化學習中的挑戰，並展示了迄今為止從人類反饋中學到的最複雜的行為。

總之，我們希望找到一個解決方案來處理沒有明確指定獎勵函式的順序決策問題，這個解決方案應該滿足以下條件：

能夠解決我們只能識別期望行為但不一定能夠示範的任務，
允許非專家使用者教導智慧體，
能夠擴充套件到大型問題，且
在使用者反饋方面經濟高效。

我們的演算法在訓練策略最佳化當前預測的獎勵函式的同時，根據人類的偏好擬合一個獎勵函式（見圖1）。我們要求人類比較智慧體行為的短影片片段，而不是提供絕對的數值評分。我們發現，在某些領域，進行比較對人類來說更容易，同時在學習人類偏好時同樣有效。比較短影片片段的速度幾乎與比較單個狀態一樣快，但我們證明，這種比較方式顯著更有幫助。此外，我們還表明，線上收集反饋能夠提高系統效能，並防止它利用所學獎勵函式的漏洞。

我們的實驗在兩個領域進行：Arcade Learning Environment（Bellemare等, 2013）中的Atari遊戲，以及物理模擬器MuJoCo（Todorov等, 2012）中的機器人任務。我們展示了即使是非專家人類提供的少量反饋，從十五分鐘到五小時不等，也足以學習大多數原始的強化學習任務，即使獎勵函式不可觀察。隨後我們在每個領域中考慮了一些新行為，例如完成後空翻或按照交通流向駕駛。我們證明了我們的演算法能夠透過大約一小時的反饋學習這些行為——即使很難透過手工設計獎勵函式來激勵這些行為。

大量研究探索了基於人類評分或排序的強化學習，包括 Akrour 等 (2011)、Pilarski 等 (2011)、Akrour 等 (2012)、Wilson 等 (2012)、Sugiyama 等 (2012)、Wirth 和 Fürnkranz (2013)、Daniel 等 (2015)、El Asri 等 (2016)、Wang 等 (2016) 和 Wirth 等 (2016)。另一些研究則關注從偏好而非絕對獎勵值出發的強化學習問題 (Fürnkranz 等, 2012; Akrour 等, 2014)，以及在非強化學習環境中透過人類偏好進行最佳化的研究 (Machwe 和 Parmee, 2006; Secretan 等, 2008; Brochu 等, 2010; Sørensen 等, 2016)。

我們的演算法遵循與Akrour等人(2012)和Akrour等人(2014)相同的基本方法。他們研究了四個自由度的連續域和小的離散域，在這些域中，他們可以假設獎勵在手編碼特徵的期望中是線性的。我們則研究具有幾十個自由度的物理任務和沒有手工設計特徵的 Atari 任務；我們環境的複雜性迫使我們使用不同的強化學習演算法和獎勵模型，並應對不同的演算法權衡。一個顯著的區別在於，Akrour等人(2012)和Akrour等人(2014)是從整個軌跡中獲取偏好，而不是短片段。因此，雖然我們收集了多兩個數量級的比較，但我們的實驗所需的人類時間少於一個數量級。其他區別主要在於調整我們的訓練程式，以應對非線性獎勵模型和現代深度強化學習，例如使用非同步訓練和整合方法。

我們對反饋引導的方法與 Wilson 等人 (2012) 的研究非常接近。然而，Wilson 等人 (2012) 假設獎勵函式是到某個未知“目標”策略的距離（該策略本身是手工編碼特徵的線性函式）。他們透過貝葉斯推理擬合這個獎勵函式，而不是執行強化學習，他們根據目標策略的最大後驗估計 (MAP) 生成軌跡。他們的實驗涉及的是從其貝葉斯模型中抽取的“合成”人類反饋，而我們進行了從非專家使用者收集反饋的實驗。目前尚不清楚 Wilson 等人 (2012) 的方法是否可以擴充套件到複雜任務，或是否能夠處理真實的人類反饋。

MacGlashan 等 (2017)、Pilarski 等 (2011)、Knox 和 Stone (2009)、以及 Knox (2012) 進行了一些涉及基於真實人類反饋的強化學習實驗，儘管他們的演算法方法並不十分相似。在 MacGlashan 等 (2017) 和 Pilarski 等 (2011) 的研究中，學習僅在人工訓練者提供反饋的回合（episodes）中進行。這在像 Atari 遊戲這樣的領域似乎是不可行的，因為學習高質量策略需要數千小時的經驗，即使對於我們考慮的最簡單任務，這種方法的成本也過於昂貴。TAMER（Knox, 2012; Knox 和 Stone, 2013）也學習獎勵函式，但他們考慮的是更簡單的設定（settings），在這些設定中，期望的策略可以相對快速地學習。

我們的工作也可以看作是合作逆向強化學習框架（ cooperative inverse reinforcement learning framework）（Hadfield-Menell 等, 2016）的一個特定例項。這個框架考慮了一個人類和機器人在環境中互動的兩人遊戲，目的是最大化人類的獎勵函式。在我們的設定中，人類只能透過表達他們的偏好來與這個遊戲進行互動。

與之前的所有工作相比，我們的關鍵貢獻是將人類反饋擴充套件到深度強化學習，並學習更復雜的行為。這符合將獎勵學習方法擴充套件到大型深度學習系統的最新趨勢，例如逆強化學習（Finn等人，2016年）、模仿學習（Ho和Ermon，2016年；Stadie等人，2017年）、半監督技能泛化（Finn等人，2017年）以及從示範中引導強化學習（Silver等人，2016年；Hester等人，2017年）。

2 Preliminaries and Method（預備知識與方法）

2.1 Setting and Goal（配置與目標）

我們考慮一個智慧體在一系列步驟中與環境進行互動；在每個時刻 \(t\)，智慧體從環境中接收觀察 \(o_t \in \mathcal{O}\)，然後向環境傳送動作 \(a_t \in \mathcal{A}\)。

在傳統的強化學習中，環境還會提供獎勵 \(r_t \in \mathbb{R}\)，智慧體的目標是最大化獎勵的折扣和（discounted sum of rewards）。與假設環境生成獎勵訊號不同，我們假設有一位人類監督者可以在軌跡片段（trajectory segments）之間表達偏好。軌跡片段是觀察和動作的序列，\(\sigma=\left(\left(o_0, a_0\right),\left(o_1, a_1\right), \ldots,\left(o_{k-1}, a_{k-1}\right)\right) \in(\mathcal{O} \times \mathcal{A})^k\)。我們用 \(\sigma^1 \succ \sigma^2\) 表示人類更偏好軌跡片段 \(\sigma^1\) 而非軌跡片段 \(\sigma^2\)。非正式地說，智慧體的目標是生成人類偏好的軌跡，同時儘量減少向人類詢問的次數。

更確切地說，我們將透過兩種方式評估我們演算法的行為：

定量： 我們說偏好 \(\succ\) 是由一個獎勵函式^[1] \(r: \mathcal{O} \times \mathcal{A} \rightarrow \mathbb{R}\) 生成的，如果

\[\left(\left(o_0^1, a_0^1\right), \ldots,\left(o_{k-1}^1, a_{k-1}^1\right)\right) \succ\left(\left(o_0^2, a_0^2\right), \ldots,\left(o_{k-1}^2, a_{k-1}^2\right)\right) \]

每當

\[r\left(o_0^1, a_0^1\right)+\cdots+r\left(o_{k-1}^1, a_{k-1}^1\right)>r\left(o_0^2, a_0^2\right)+\cdots+r\left(o_{k-1}^2, a_{k-1}^2\right) \]

如果人類的偏好是由獎勵函式 \(r\) 生成的，那麼我們的智慧體應當根據 \(r\) 獲得高的總獎勵。因此，如果我們知道獎勵函式 \(r\)，我們就能對代理進行量化評估。理想情況下，代理應達到的獎勵幾乎與其使用強化學習來最佳化 \(r\) 時一樣高。

定性：有時我們沒有獎勵函式來對行為進行定量評估（這正是我們的方法在實際中有用的情況）。在這些情況下，我們只能定性地評估智慧體滿足人類偏好的程度。在本文中，我們將從一個用自然語言表達的目標開始，要求人類根據智慧體實現該目標的情況來評估智慧體的行為，然後展示智慧體嘗試實現該目標的影片。

我們的基於軌跡片段比較的模型與 Wilson 等人 (2012) 中使用的軌跡偏好查詢非常相似，不同之處在於我們不假設可以將系統重置為任意狀態^[2]，並且我們的片段通常從不同的狀態開始。這使得人類比較的解釋（interpretation of human comparisons）變得更加複雜，但我們展示了即使人類評分者對我們的演算法不瞭解，我們的演算法也能夠克服這一難題。

2.2 Our Method（我們的方法）

在每個時刻，我們的方法維持一個策略 \(\pi: \mathcal{O} \rightarrow \mathcal{A}\) 和一個獎勵函式估計 \(\hat{r}: \mathcal{O} \times \mathcal{A} \rightarrow \mathbb{R}\)，它們均由深度神經網路引數化。

這些網路透過三個過程進行更新：

策略 \(\pi\) 與環境互動，生成一組軌跡 \(\left\{\tau^1, \ldots, \tau^i\right\}\)。使用傳統的強化學習演算法更新 \(\pi\) 的引數，以最大化預測獎勵的總和 \(r_t=\hat{r}\left(o_t, a_t\right)\)。
從步驟1生成的軌跡 \(\left\{\tau^1, \ldots, \tau^i\right\}\) 中選擇片段對 \(\left(\sigma^1, \sigma^2\right)\)，並將它們傳送給人類進行比較。
透過監督學習最佳化對映 \(\hat{r}\) 的引數，以擬合迄今為止從人類收集的比較結果。

2.2.1 Optimizing the Policy （對策略進行最佳化）

在使用 \(\hat{r}\) 計算獎勵後，我們面臨的是一個傳統的強化學習問題。我們可以使用任何適合該領域的強化學習演算法來解決這個問題。一個細微之處在於，獎勵函式 \(\hat{r}\) 可能是非平穩的（non-stationary），這使我們傾向於選擇對獎勵函式變化具有魯棒性的演算法。這導致我們專注於策略梯度方法（policy gradient methods），這些方法已經成功應用於這類問題（Ho 和 Ermon, 2016）。

在本文中，我們使用優勢演員-評論員（advantage actor-critic）（A2C；Mnih 等, 2016）來玩 Atari 遊戲，並使用信賴域策略最佳化（trust region policy optimization）（TRPO；Schulman 等, 2015）來執行模擬機器人任務。在每種情況下，我們都使用了被發現對傳統強化學習任務有效的引數設定。我們唯一調整的超引數是 TRPO 的熵獎勵（entropy bonus），因為 TRPO 依賴信賴域來確保足夠的探索，如果獎勵函式不斷變化，這可能導致探索不足。

我們將 \(\hat{r}\) 生成的獎勵歸一化（normalized）為均值為零、標準差恆定。這是一個典型的預處理步驟，尤其適合於我們的學習問題，因為獎勵的位置（position of the rewards）在我們的學習過程中是未定的。

2.2.2 Preference Elicitation（偏好獲取）

人類監督者會看到兩個視覺化的軌跡片段，以短影片片段的形式呈現。在我們所有的實驗中，這些影片片段的時長在 1 到 2 秒之間。

然後，人類指示他們更喜歡哪個片段，或者表示兩個片段同樣優秀，或者表示他們無法比較這兩個片段。

人類的判斷記錄在資料庫 \(\mathcal{D}\) 中，形式為三元組 \(\left(\sigma^1, \sigma^2, \mu\right)\)，其中 \(\sigma^1\) 和 \(\sigma^2\) 是兩個片段，\(\mu\) 是一個在 \(\{1,2\}\) 上的分佈，表示使用者更喜歡哪個片段。如果人類選擇一個片段為更優，則 \(\mu\) 將所有權重放在該選擇上。如果人類標記這兩個片段為同樣可取，則 \(\mu\) 是均勻分佈。最後，如果人類標記這兩個片段不可比較，則該比較將不包含在資料庫中。

2.2.3 Fitting the Reward Function （擬合獎勵函式）

我們可以將獎勵函式估計 \(\hat{r}\) 視為一個偏好預測器，如果我們將 \(\hat{r}\) 看作解釋人類判斷的潛在因素，並假設人類選擇偏好片段 \(\sigma^i\) 的機率呈指數地取決於在片段長度上潛在獎勵的合計值：^[3]

\[\hat{P}\left[\sigma^1 \succ \sigma^2\right]=\frac{\exp \sum \hat{r}\left(o_t^1, a_t^1\right)}{\exp \sum \hat{r}\left(o_t^1, a_t^1\right)+\exp \sum \hat{r}\left(o_t^2, a_t^2\right)} \tag{1} \]

我們選擇 \(\hat{r}\) 以最小化這些預測與實際人類標籤之間的交叉熵損失：

\[\operatorname{loss}(\hat{r})=-\sum_{\left(\sigma^1, \sigma^2, \mu\right) \in \mathcal{D}} \mu(1) \log \hat{P}\left[\sigma^1 \succ \sigma^2\right]+\mu(2) \log \hat{P}\left[\sigma^2 \succ \sigma^1\right] \]

這遵循了從成對偏好估計評分函式Bradley-Terry模型（Bradley和Terry，1952），並且是Luce-Shephard選擇規則（Luce，2005；Shepard，1957）在軌跡片段上的偏好的特化。它可以理解為將獎勵等同於一個偏好排序尺度（preference ranking scale），類似於為國際象棋開發的著名的 Elo 排名系統（Elo，1978）。就像兩個國際象棋棋手的 Elo 分數之差估計了一個棋手在一盤國際象棋比賽中擊敗另一個棋手的機率一樣，兩個軌跡片段的預測獎勵之差估計了人類選擇一個而不是另一個的機率。

我們實際的演算法對這個基本方法進行了一些修改，早期實驗發現這些修改很有幫助，並在第3.3節中進行了分析：

我們擬合一個預測器的集合（ensemble），每個預測器都是在從 \(\mathcal{D}\) 中抽樣的 \(|\mathcal{D}|\) 個三元組上訓練的（允許重複抽樣）。估計值 \(\hat{r}\) 透過獨立地對每個預測器進行歸一化，然後對結果取平均來定義。
資料中有 \(1/e\) 的部分被保留，作為每個預測器的驗證集。我們使用 \(\ell_2\) 正則化，並調整正則化係數，以保持驗證損失在訓練損失的1.1到1.5倍之間。在某些領域，我們還應用 dropout 進行正則化。
我們不是像公式 1 中描述的那樣直接應用 softmax，而是假設人類有 10%的機率隨機均勻地（uniformly）做出響應。概念上，這種調整是必要的，因為人類評估者有一個固定的犯錯誤機率，這個機率不會隨著獎勵差異變得極端而衰減至0。

2.2.4 Selecting Queries （選擇查詢）

我們根據獎勵函式估計器的不確定性近似來決定如何查詢偏好，這類似於Daniel等人(2014)的方法：我們取樣大量的長度為\(k\)的軌跡片段對，使用我們集合中的每個獎勵預測器來預測每一對中哪個片段會被偏好，然後選擇那些在集合成員之間預測方差最高的軌跡。這是一種粗糙的近似，第三節中的消融實驗表明，在某些任務中它實際上損害了效能。理想情況下，我們希望基於查詢的資訊價值來查詢(Akrour等人, 2012; Krueger等人, 2016)，但我們留待未來的工作進一步探索這一方向。

在這裡，我們假設獎勵是觀察和動作的函式。而在我們的 Atari 環境實驗中，我們假設獎勵是前四次觀察的函式。在一般的部分可觀測環境中，我們可以考慮依賴於整個觀察序列的獎勵函式，並使用遞迴神經網路來建模此獎勵函式。 ↩︎
Wilson 等人 (2012) 還假設可以取樣合理的初始狀態。然而，我們處理的是高維狀態空間，在這種情況下隨機狀態可能無法達到，而預期的策略（intended policy）位於一個低維流形上。 ↩︎
公式1沒有使用折扣因（discounting），這可以被解釋為建模人類對於軌跡片段中事件發生的時間是無所謂的。使用顯式的折扣因子或推斷人類的折扣函式也是合理的選擇。 ↩︎

論文閱讀翻譯之Deep reinforcement learning from human preferences

論文閱讀翻譯之Deep reinforcement learning from human preferences

關於

Deep reinforcement learning from human preferences（基於人類偏好的深度強化學習）

Abstract （摘要）

1 Introduction （引言）

1.1 Related Work（相關研究）

2 Preliminaries and Method（預備知識與方法）

2.1 Setting and Goal（配置與目標）

2.2 Our Method（我們的方法）

2.2.1 Optimizing the Policy （對策略進行最佳化）

2.2.2 Preference Elicitation（偏好獲取）

2.2.3 Fitting the Reward Function （擬合獎勵函式）

2.2.4 Selecting Queries （選擇查詢）

相關文章