offline RL | CQL:魔改 Bellman error 更新,得到 Q 函式 lower-bound

MoonOut發表於2023-11-07



review 總結

open review: https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Review.html

  • contribution:用於 offline RL 的保守 Q 學習(Conservative Q-Learning,CQL)。

    • 一種新的 Q function 更新規則,對 Q 分佈進行額外的正則化:透過在適當選擇的 state-action pair 上的輔助分佈下,在通常的 Bellman update 中新增正則項,用來最小化 OOD action 的 Q value,從而減少對 OOD action 的 Q value 高估。
    • 作者表明,這個更新規則能夠漸進得到,從精確 policy evaluation 中獲得的 policy value 的下限。
    • 在學習演演算法中使用這種保守的 Q function,從而得到 Conservative Q-Learning 演演算法(CQL)。作者表明,以這種方式得出的策略更新是保守的,因為在每次迭代中,策略都會針對 value 的 lower-bound 進行最佳化。
    • CQL 演演算法有幾個不同的變體,它們在 offline control 的 benchmark 中效能很好,並且,對於 offline RL 中 behavior policy 與實際 policy 的 action distribution 不一致,所導致的 Q 分佈的誤差更穩健。
    • 公式 1:在估計特定策略的 Q function 時,新增一個 penalty,會產生對 policy value 的低估,但這種低估過於保守。
    • 公式 2:在估計 Q function 時,在 penalty 中減去基準策略(行為策略 behavior policy)的 value。這也被證明會低估 policy value。作者從理論與實驗上驗證了這個 idea。
  • strength:

    • 簡單而新穎的方法,概念上聰明的想法。透過直接最小化 off-policy Q value,而不是估計 Q function 中的行為密度或不確定性,來對抗 offline Q learning 中的高估。很聰明,因為與大多數現有方法相反,它不需要任何形式的狀態訪問密度。
    • 具體的,該方法將 value 取多少 lower-bound,取決於經驗行為分佈 \(\pi_\beta\),其中很少被評估的 actions 會導致更大的 lower-bound。(?)
    • 之前沒有針對 offline RL 的這種研究,因為將 Q function 正則化,對 OOD action 表現不好。(?)
  • weaknesses:

    • 雖然本文的理論動機集中在構建下界,但沒有討論下界是多少 以及這是否合理(?奇怪的英文句子)。主要弱點在於 alpha,它以 Q 值的平方損失相對於 Q 值的線性差進行互動(?)。
    • 在實證(實驗)中比較平均值,而非提供適當統計資料(比如方差這種統計量),是有缺陷的。
    • 公式 1 和 2 必然會收斂到一個 fixed point(忽略不屬於 D 的動作)是顯而易見的嗎?能否解釋一下,針對 BC (behavior cloning 行為克隆 模仿學習)策略進行正則化的方法,為何會比 BC 策略表現更差?在我看來,總是可以選擇足夠強大的正則化,至少讓它跟 BC 策略一樣好,為什麼表 1 和 2 中的情況不是這樣呢?

0 abstract

Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.

摘要:

  • 在強化學習(RL),有效利用事先收集的大型資料集,是大規模實際應用面臨的一個關鍵挑戰。離線強化學習(offline RL)演演算法,有望從以前收集的靜態資料集中學習有效的策略,而無需進一步的互動。
  • 然而,在實踐中, offline RL 是一項重大挑戰。因為資料集與所學策略之間的 state-action 聯合分佈的偏移,會導致對 value 的高估,因此,標準的 off-policy RL 魔改成的 offline RL 可能會失敗,尤其是在複雜和多模式資料分佈上。
  • 在本文中,我們提出了保守 Q-learning (CQL),旨在透過學習一個保守的 Q 函式來解決這些侷限性,即,在該 Q 函式下,policy value 的期望值低於其真實值。
  • 我們從理論上證明,CQL 能生成當前 policy value 的下限,並基於該下限學習新策略,從而保證理論上的改進。
  • 在實踐中,CQL 透過一個簡單的 Q 值正則化器(regularizer),增強了標準的 Bellman error 最佳化目標,該正則化器可以在現有的 Deep Q Learning 和 Actor-Critic 的基礎上直接實現。
  • 在離散和連續控制域上,我們的研究表明,CQL 的效能大大優於現有的 offline RL 方法,其學習策略的最終收益往往能提高 2-5 倍,尤其對於複雜和多模態的資料分佈。

1 intro

  • Offline RL / batch RL:[11, 15, 30, 3, 27, 54, 34]
  • 在 offline 環境中,直接使用現有的 value-based 的 off-policy RL 演演算法,通常效能不佳,這是由於從 OOD action 中 bootstrap 的問題 [30, 15] 和過擬合 [13, 30, 3],通常表現為 value function 的錯誤的樂觀估計。
  • 如果我們能學習一個保守的 value function 估計值,為真實值提供一個下限,那麼就能解決高估問題。
    • 事實上,由於 policy evaluation 和 policy improvement 通常只使用 value function,我們可以學習一個不那麼保守的下限 Q 函式,這樣,策略下的 Q 函式期望值是下限,而非使用點式下限。(見後文,從公式 1 到公式 2)
  • main idea:在適當選擇的 (state,action) 分佈下,最小化 Q 值(公式 1),然後透過在資料分佈上加入最大化項,進一步收緊這一約束(公式 2)。
  • 演演算法框架 CQL:透過在訓練過程中對 Q 值進行正則化,學習保守的 value function 下限估計值。
    • 理論分析:只有在策略下的 Q 函式期望值,才會是真實策略值的下限,從而避免了逐點的 Q 函式下限可能產生的額外低估,這在探索文獻 [46, 26] 中,通常是在相反的背景下進行探討的。
    • 透過實驗,證明瞭我們的方法對 Q 函式估計誤差的穩健性。
  • 如何實現 CQL:將這些保守估計,用於策略評估和離線 RL。
    • 簡單修改:只需在 Q 函式更新中新增 CQL 正則化項,就能在許多標準 online RL 演演算法 [19, 8] 的基礎上,用不到 20 行程式碼實現 CQL。
  • 實驗:適用於具有複雜資料集組合的領域(已知先前的方法通常在這些領域表現不佳)[12](可能是 D4RL 的 random medium expert 之類)和具有高維視覺輸入的領域 [5, 3](其實應該就是 Atari 的 state - 遊戲螢幕截圖吧)。
    • 在許多 benchmark 上,CQL 的表現比之前的方法高出 2-5 倍之多,而且還是在從人機互動中收集的大量現實資料集上,唯一的表現優於簡單 behavior cloning 的方法。

2 preliminaries

  • 符號定義:
    • \(\pi_{\beta}(a|s)\) 代表 behavior policy。\(d^{\pi_\beta}(s)\)\(\pi_{\beta}(a|s)\) 的 discounted marginal state-distribution。離線資料集 D,相當於在 \(d^{\pi_\beta}(s)\pi_\beta(a|s)\) (state-action 聯合分佈)裡取樣得到。
    • \(\hat \pi_\beta(a|s)\) 代表 empirical behavior policy,\(\hat \pi_\beta(a|s)={\sum_{(s,a)}1[s=s,a=a]}/{\sum_s1[s=s]}\) ,就是在歷史資料的 state s 下有多少次選擇了 action a。
    • 假設 reward 有 bound: |r(s, a)| ≤ R_max。
  • 回顧:
    • 回顧 Q-learning method:迭代計算 Q function,\(B^*Q(s,a)=r(s,a)+\gamma E[\max Q(s',a')]\)
    • 回顧 actor-critic:要訓一個 actor policy,用來做 \(\pi(a|s)=\arg\max_aE[Q(s,a)]\)
    • 由於 dataset D 不會包含所有的 transition tuple (s,a,s'),所以 policy evaluation 步驟事實上用的是 empirical Bellman operator,稱為 \(\hat B^\pi\),它只備份(backs up)單個樣本。
    • (沒有聽懂,應該是隻對單個 (s,a,s') 做 Bellman 迭代吧)
  • offline RL:給定資料集 \(D=\{(s,a,r,s')\}\),是用 behavior policy \(\pi_{\beta}(a|s)\) 收集的。然後在這個資料集上做 policy evaluation + policy improvement。(evaluation 是在更新 Q function,新 Q 接近 r + γ × 老 Q,用 min 最小化平方誤差來寫)
  • 問題:這樣直接做 offline RL,會出現 action distribution shift(動作分佈偏移)的現象。
    • 大概就是,最後訓出來的 policy 的 action distribution 跟取樣策略 \(\pi_\beta(a|s)\) 不太一樣(?)
    • 由於 policy 的訓練目標是最大化 Q 值,因此,可能會傾向於 Q 值被高估的 out-of-distribution 行為。
    • 經典 offline RL 方法 [30, 27, 59, 54],透過限制所學策略 [34] 遠離 OOD action,來緩解這一問題。
    • 需要注意的是,在訓練 offline RL 的 Q function 時,不會受到 state distribution shift(狀態分佈偏移)的影響,因為 Bellman backup 不會在 OOD 的狀態上更新 Q 函式,但是在測試時,可能會遇到新 state,受影響。

3 CQL framework

3.1 Conservative Off-Policy Evaluation

CQL 最初的 idea:

  • 我們只有行為策略 \(π_β(a|s)\) 生成的資料集 D,但是要估算目標策略 π 的 value function \(V^π(s)\)
  • 因為希望防止 policy value 的高估,因此在學習標準 Bellman error 目標的同時,還透過最小化 Q 值,來學習一個保守的 Q 函式 lower-bound。
  • 使用一種懲罰方式:最小化【特定的】state-action pair distribution µ(s,a) 下的 Q 函式期望值。
    • 標準 Q 函式訓練並不去管 unobserved state 下的 Q 函式值,卻去更新 unobserved action 下的 Q 函式值,因此,我們限制 µ 與資料集中的狀態邊際(state-marginal)相匹配,\(\mu(s,a) = d^{π^β}(s)\mu(a|s)\)。【沒有聽懂】
  • 這樣,就得到了訓練 Q 函式的迭代更新,它是權衡因子(tradeoff factor)α ≥ 0 的函式:

【3.1 節的公式 1:加了一個懲罰項,最小化 α · E_{μ 分佈} Q(s,a) 】

定理 3.1 的解釋:

  • 證明:這樣得到的 Q function,是所有 s-a dataset 分佈的下界。
  • 這個下界可以更緊一些。如果只要求 \(π(a|s)\) 下, \(\hat Q^π\) 的期望值低於 \(V_π\),我們可以透過在資料分佈 \(π_β(a|s)\)下,引入一個額外的 Q 值最大化項來改進約束,從而實現迭代更新(等式 1 中紅色部分的變化):

【3.1 節的公式 2:拉低了 μ 分佈的 s-a,但拉高了 \(s\sim D,a\sim\hat\pi_\beta(a|s)\) 的 Q value,pi hat 是 empirical behavior policy】

定理 3.2 的解釋:

  • 雖然得到的 \(\hat Q_π\) 可能不是對每個點都能有下限,但當 \(\mu(a|s)=π(a|s)\) 時,有數學期望 \(E_{π(a|s)} [\hat Q^π(s,a)]≤V^π (s)\)
  • 因為公式 2 最大化了行為策略(behavior policy)\(\hat\pi_\beta(a|s)\) 的 Q 值,因此可能會高估 \(\hat\pi_\beta(a|s)\) 下的 action,所以說 Q hat 不是 point-wise lower-bound。
  • 在 Appendix D.2 中證明,只有最大化 \(\hat\pi_\beta(a|s)\) 時,才能取得數學期望的 lower bound(?)

理論分析:(有點複雜,沒看懂…)

  • 公式 1 2 使用的經驗貝爾曼運算元 \(\hat B^π\) ,而非實際的貝爾曼運算元 \(B^π\)
  • CQL 是 lower-bound 的證明,在 Appendix C。

定理 3.1:

  • point-wise lower bound。
  • 對於公式 1 中希望最小化的分佈 μ(a|s),只要滿足 \(\mathrm{supp}~\mu\subset\mathrm{supp}~\hatπ\) (不知道什麼意思…),就有≥ 1-δ 的機率滿足,求得的 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\) - 一個含 α 的東西 + 一串東西。
  • 只要 α 足夠大,就有 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),對任意 s ∈ D、任意 a。
  • \(\hat B^π=B^π\) 時,任何 α>0 都能保證, \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),對任意 s ∈ D、任意 a。

定理 3.2:

  • 數學期望 lower bound 。
  • \(\mu=\pi\) 時(\(\pi\) 是當前訓出來的策略(?)),透過策略 \(\pi\) 下 的 Q function 得到的 value function \(\hat V^\pi(s)=E_{\pi(a|s)}[\hat Q^\pi(s,a)]\),是真實 value function \(V^π (s)=E_{π(a|s)}[Q^π(s,a)]\) 的 lower bound。
  • 因為(一大串公式),對任意 s ∈ D,有 V hat ≤ V - 一個含 α 的東西 + 一串東西。
  • 因此,若 α > 一串東西,對任意 s ∈ D,都有 V hat ≤ V 的機率 ≥ 1-δ。若 \(\hat B^π=B^π\) ,任何 α>0 都能保證 V hat ≤ V 。

討論:

  • 在定理 3.1 3.2 的證明中,假設 Q function 是精確計算的,沒有使用 function approximation(如 NN)。
    • 不過,定理 3.2 可以 generalize 到 linear function approximator 和基於 neural tangent kernel (NTK) 的 NN 擬合器,見 Appendix D.1 的定理 D.1 D.2。
  • 總之,證明瞭 Q ← min α E_μ Q(s,a) + 1/2 [Q(s,a) - BQ(s,a)]² 是 Q function 的下界,Q ← min α[E_μ Q(s,a) - E_\(\hatπ_β\) Q(s,a)] + 1/2 [Q(s,a)-BQ(s,a)]² 是更緊的下界。
    • 隨著可用資料變多,|D(s,a)| 增加,保證下界所需的 α 值變小;在無限資料中,只需極小的 α 便可維持下界。

3.2 Conservative Q-Learning for Offline RL

背景:

  • 在 3.1 節的公式 2 中令 μ = π,做 policy evaluation - policy improvement 迴圈,可以得到 Q function 下限,但這樣計算成本太高(?)
  • 由於 policy iteration 得到的 \(\hat\pi_k\) 通常來自於 Q function,因此可以改進 μ 的選擇,進行一些近似,得到一個線上(online)演演算法(?)

定義了 CQL(R) ,是一類最佳化問題,R(μ) 是正則化項。

【3.2 節的公式 3: \(\min_Q\max_\mu \alpha(E_\mu Q-E_{\hat\pi_\beta} Q)+1/2[Q-BQ]^2+R(\mu)\),變成了 min max 形式,還加了一個 μ 的正則化項】

CQL 的變體:

  • 如果令 R(μ) = -DKL(µ, ρ),即策略的 action 分佈與一個先驗 action 分佈的 KL 散度。
  • 1 - 若 ρ = Uniform(a),那麼將會變成公式 4 的形式,稱為 CQL(H)。H 是資訊熵的意思。
  • 2 - 若 ρ = \(\hat\pi_{k-1}\) 即上次得到的策略,那麼,等式 4 的第一項會變成 \(\hat\pi_{k-1}(a|s)\) 的 actions 的 Q values 的指數加權平均值。
    • 根據經驗,這種變體在高維行動空間(如表 2)中更穩定,因為在高維行動空間中,由於方差較大,透過抽樣估計 \(\log\sum_a\exp\) 具有挑戰性。(沒有聽懂)
  • 3 - 在附錄 A 中,討論 CQL 的另一個變體,並將其與分佈穩健最佳化(distributionally robust optimization)[43] 聯絡起來。

CQL 的理論分析:

  • 去證明 CQL 確實是保守的(conservative),每個 policy iterate 都根據 value 的 lower bound 來最佳化得到。
    • 有 sampling error 樣本誤差的情況見 Appendix C,這裡我們就不考慮了。

定理 3.3:

  • 證明:前面提到的 CQL(H),學習了實際 Q function 的 lower bound。
  • \(π_{\hat Q^k}(a|s)∝\exp \hat Q^k(s,a)\) (這是得到 policy 的方式),假設 \(D_{TV}(\hat π^{k+1}, π_{\hat Q^k})\le\epsilon\) (大概就是策略變化緩慢的意思),則有 \(\hat Q^k\) 下的 policy value 是真實 value 的 lower bound,\(\hat V^{k+1}(s) ≤ V^{k+1}(s)\)
  • —— 只要滿足,LHS ≥ RHS。
  • LHS:是在 CQL 更新的迭代 k+1 中, Vˆk+1 值的保守程度,如果學習到的策略正好等於 \(\hat Q^k\) 的 softmax 策略(正比於 exp)(按理來說是這樣的),即 \(\hat π_{k+1}=π_{\hat Q^k}\) 時。
  • RHS:然而,實際策略 \(\hat π_{k+1}\) 可能不同,RHS 是由於這種差異而可能高估的最大值。
  • 為了得到下限,我們要求低估 value function 的量更大,可以透過較小的 ε(即策略變化緩慢)得到。
  • (基本沒看懂…)

CQL 的 Q function update 是 gap-expanding 的:

  • 是說,1. ID(分佈內)的 Q value、2. 錯誤樂觀估計的 OOD Q value,它們之間的 difference,比真實 Q function 的 difference 更高。
  • 這意味著,策略 \(π_k(a|s)∝\exp\hat Q^k(s,a)\) 被約束的更接近資料集 D 的經驗策略分佈 \(\hat π_β(a|s)\),隱式地防止了 OOD 的 distribution shift。

定理 3.4:(CQL is gap-expanding)

  • 在任何步迭代 k 中,CQL 都能擴大行為策略 \(π_β(a|s)\)\(\mu_k\) 下預期 Q 值的差距。
  • 因此,對於足夠大的 \(α_k\),對於任意 s ∈ D,我們有 \(E_{π_β(a|s)}[\hat Q^k(s,a)]−E_{\mu_k(a|s)}[\hat Q^k(s,a)]> E_{π_β(a|s)}[Q^k(s,a)]−E_{\mu_k(a|s)}[Q^k(s,a)]\)

(Appendix B 透過實驗證明,先前的 offline RL 方法,如果沒有明確限制或正則化 Q 函式,可能不具備對於 OOD Q 值高估的魯棒性)

總結:

  • 證明瞭 CQL RL 演演算法可以學習到下限 Q 值,在足夠大的 α 下。這意味著,最終策略的 value function 至少能有我們計算的 Q hat 那麼大,我們計算的 Q hat 是一個下限。
  • 證明瞭 Q function 是 gap-expanding 的,這意味著它只能高估 ID action 和 OOD action 之間的 gap,從而防止 OOD 行動。(所謂的拉高 ID action,拉低 OOD action)

3.3 Safe Policy Improvement Guarantees

本 subsection 總結:

  • CQL 最佳化的是一個定義明確的、包含懲罰項的(penalized)經驗 RL 目標函式(empirical RL objective),並針對 behavior policy(行為策略),進行了高置信度(機率 ≥ 1-γ)的安全策略改進。
  • 改進的程度會受到較高 sampling error(取樣誤差)的負面影響,而 sampling error 會隨著觀察樣本的增多(|D| 變大)而減小。

定理 3.5:

  • 定義:任意策略的 empirical return(經驗收益)\(J(π, \hat M)\),為 empirical MDP(經驗 MDP) \(\hat M\) 的 discounted return(應該是 discounted reward 求和吧)。其中,empirical MDP 由資料集 D 得出,\(\hat M=\{(s, a, r, s')∈D\}\)
  • \(\hat Q^\pi\) 是公式 2 的不動點(fixed point)(即已經求到了策略 π 的 value function),則 \(π^*(a|s):=\arg\max_π E_{s\simρ(s)} [\hat V^π(s)]\) (該 value function 匯出的 policy)可以等價表示為,\(π^*(a|s)←\arg\max_πJ(π,\hat M)−α\frac{1}{1−γ} E_{s∼d^π_{\hat M}(s)}[D_{CQL}(π,\hat π_β)(s)]\) ,其中 D_CQL 是一個 penalty, \(D_{CQL}(π, π_β)(s):=\sum_a π(a|s)\cdot (\frac{π(a|s)}{π_β(a|s)}−1)\)
  • 證明見 Appendix D.4。
  • 直觀地說,定理 3.5 表明,CQL 最佳化了經驗 MDP \(\hat M\) 中的策略收益,同時還透過 D_CQL 懲罰項,確保學習到的策略 π 與行為策略 \(\hat π_β\) 不會相差太大。
    • 這種懲罰是透過 CQL 的 gap-expanding(定理 3.4)特性,來隱式引入的。

定理 3.6:

  • 在定理 3.5 和 CPO [1] 分析的基礎上,證明 CQL 提供了行為策略 \(\hat π_β\) 上的 ζ-safe policy improvement。
  • \(π^*(a|s)\) 是定理 3.5 得到的策略。那麼,在實際 MDP M 中,策略 \(π^*(a|s)\) 是行為策略 \(\hat π_β\) 上的 ζ-safe policy improvement,即,滿足 \(J(π^*,M)\ge J(\hat π_β, M)-\zeta\) 的機率為 1 - δ, ζ 由下式給出:
  • 【沒編號的公式,一大串,很嚇人】
  • ζ 的表示式由兩項組成:
    • 第一項表示,由於 M hat 和 M 之間的不匹配(也稱為抽樣誤差 sampling error),而導致的 M 中策略效能的下降。第二項表示,由於經驗 MDP M hat 中的 CQL,而導致的策略效能的提高。
    • 針對 CQL Q 函式最佳化 π 後,得到的策略 π* 比行為策略 \(\hat π_β\) 好,如果我們適當選擇 α 值;當取樣誤差較小,也就是 |D(s)| 較大時,較小的 α 值就足以保證策略效能的改進。

4 如何實現 CQL

演演算法虛擬碼:

  • 看看如何在 actor-critic 和 Q-learning 上使用 CQL。
  • 虛擬碼見 Algorithm 1 ,與傳統 actor-critic 和 Q-learning 的區別,用紅色標出了。
  • (第 3 步)使用 CQL 框架中的 CQL(H) 或一般的 CQL(R),替代希望最小化的 Bellman error,作為訓練 Q 函式 \(Q_θ\) 的梯度下降目標(θ 是神經網路引數)。
    • 不像之前的 offline RL 方法 [30, 59, 54, 34] ,CQL 不需要策略約束(policy constraint),因此不需要擬合一個額外的 behavior policy estimator(行為策略估計器)。
  • (第 4 步)對於 actor-critic 框架,還需訓練一個策略 πφ。

Implementation details:

  • 聲稱,對於連續控制,只需在 SAC(soft actor-critic)[19] 上增加 20 行程式碼;對離散控制,則是 QR-DQN [8] 的 20 行程式碼。
  • 對 gym 和離散控制,tradeoff factor α 固定為附錄 F 中所述的恆定值;對於其他領域,α 透過拉格朗日雙梯度下降法(Lagrangian dual gradient descent)自動調整。
  • 我們使用 SAC 的預設超引數,但策略的學習率是從 {3e-5、1e-4、3e-4} 中選擇的,並且小於或等於 Q 函式(?),這是由定理 3.3 決定的。
  • 詳細內容見 Appendix F。

本章 review 了 offline RL 和 off-policy evaluation 的工作,更多內容詳見 Appendix E。

Off-policy evaluation (OPE):

  • 早期工作 [51, 49, 52] 先收集 Monte-Carlo returns,再在 Monte-Carlo returns 中使用 per-action importance sampling,來獲得 OPE return 的估計。
  • 近期工作 [36, 17, 40, 60] 透過某種動態規劃(dynamic programming)[34],直接估計狀態分佈的 importance ratios(重要性比率),使用 marginalized importance sampling(邊際重要性取樣)。這通常比 per-action importance sampling 方差更小,但期望值會有 bias。
    • 由於使用 DP,因此它們可能會受到 OOD 動作的影響 [34, 17, 20, 40]。
    • 相比之下,CQL 中的 regularizer 因其 gap-expanding 行為,而明確解決了 OOD 行為的影響,並獲得了保守的 value 估計。

Offline RL:

  • 先前研究試圖解決 learned policy 的 action distribution 與 behavior policy 偏離的問題,去限制 learned policy 與 behavior policy 接近,例如透過 KL-divergence [27, 59, 48, 54]、Wasserstein 距離 [59] 或 MMD [30] 來衡量。然後,在貝爾曼策略更新(Bellman backup)中,只使用從該被限制的策略中取樣的行動,或使用值懲罰(value penalty)。
    • 對 unobserved actions,SPIBB [33, 41] 使用 Q-learning 演演算法中的 behavior policy 進行 bootstrap。
  • 大多數這種方法,都需要單獨估計一個 behavior policy 模型 πβ(a|s) [15, 30, 59, 27, 54, 55],因此,受限於準確估計未知 behavior policy 的能力 [42];如果從多個來源收集資料 [34],去估計 behavior policy 可能尤為複雜。
    • 相比之下,CQL 無需估計 behavior policy。
  • 先前研究已經探索了某些形式的 Q-function penalties [23, 58],但僅限於 standard online RL setting with demonstrations。
    • Luo 等人 [38] 透過在 state-space 上強制執行一個 linear extrapolation property,學習了一個 conservatively-extrapolated value function,然後,學習動力學模型(dynamics model),從而獲得 goal-reaching tasks 的策略。
    • Kakade 和 Langford [28] 提出了 CPI 演演算法,在 online RL 中保守地改進策略。
  • 其他先前的研究,會估計某種不確定性(uncertainty),以確定 Q 值預測的可信度 [30, 3, 34],通常使用 online RL exploration 中的不確定性估計技術 [47, 26, 46, 7]。
    • 由於 offline RL [34] 對不確定性估計的保真度(fidelity)要求很高,因此,這些方法在 offline RL [15, 30, 34] 中一般表現不佳。
  • Robust MDP [24, 50, 56, 44] 一直是 offline RL 中流行的 theoretical abstraction,但在 policy improvement 上往往非常保守。
    • 由於 CQL 不會低估所有 state-action tuple 的 Q value,因此 CQL 不會那麼保守。
  • 關於 high confidence policy improvement 的研究 [57],為策略改進提供了安全保證,但往往也比較保守。
    • 定理 3.4 所示的 CQL backup 的 gap-expanding 特性,與 gap-increasing Bellman backup operators [6, 37] 如何在 online RL 中對 estimation error 更 robust 有關。

理論結果:

  • 我們的理論結果(定理 3.5、3.6)與之前 safe policy improvement 的工作有關 [33, 50]。
  • 與 Laroche 等人的定理 1 和 2 [33] 比較,發現相似的 quadratic dependence on the horizon,和一個 inverse square-root dependence on the counts。
  • 我們的 bound 比 Petrik 等人[50]的 ∞-norm(無窮範數)bound 有所改進。

6 experiment

baselines:

  • 使用 policy constraint(限制與 behavior policy 離得不太遠)的先前 offline RL 方法:BEAR [30] 和 BRAC [59]。
  • SAC [19],一個 off-policy actor-critic method 的 offline RL 版本。
  • behavioral cloning (BC)。

實驗環境與結果:

  • Gym domains:
    • offline datasets 分為 “-random” “-expert” “-medium”。當只使用單一種類的 dataset 時,CQL 只比其他方法厲害一點點(baselines 使用了 [12] 的 performance 報告);但當多個 datasets 一起使用時,甚至能 outperform 一到兩倍。
  • Adroit tasks:
    • Adroit [53] 是 D4RL [12] 中最複雜的任務,使用有限的 human demonstrations,控制一個 24-DoF 的機器手。
    • 任務過於複雜,先前的 offline RL 方法都會掛掉,behavior cloning(BC)表現最好。
    • CQL outperform 了 BC,是其他 offline RL 方法的 2-9 倍。
  • CQL(ρ) 其中 \(\rho=\hat\pi^{k-1}\) 在一部分任務上 outperform 了 CQL(H),兩個 CQL 方法的方差都比 baselines 更好。
  • AntMaze:
    • MuJoco Ant robot,D4RL 中只提供 suboptimal 資料。
    • 先前方法只能應對最簡單的 U-maze,但 CQL 可以走一些更復雜的。
  • Kitchen tasks:
    • Franka kitchen domain [18] from D4RL [14],控制一個 9-DoF robot,按順序操作各種物體(microwave, kettle, ...),達到指定的終態;對於每個終態要求的物體,只有一個 episode 結束時的 spare 0 1 reward,代表該物體是否達到終態(?)
    • 包含 1. 從 dataset 裡組合 trajectory 片段,2. 精確的 long-horizon 控制,3. 處理人類的遠端指令。
    • CQL outperforms 所有 baseline,成功率高達 40+%。
  • Offline RL on Atari games:
    • offline, image-based Atari games [5]。
    • 與 REM [3] 和 QRDQN [8] 在五個 Atari tasks (Pong, Breakout, Qbert, Seaquest and Asterix) 上比較,(因為這些實驗已經被 [3] 做過了)
    • 使用了 Agarwal et al. [3] 的 evaluation protocol,包含兩種資料:(1) online DQN agent 觀察到的前 20% 樣本組成(大概是訓練過程的前 20%?);(2) 僅有 online DQN agent 觀察到的所有樣本的 1% 和 10%(大概是整個訓練過程隨機取 1 ~ 10%)。
    • 對 (1),與 QR-DQN 和 REM 持平;對 (2),顯著 outperform,尤其是在只有 1% 資料的條件下。
  • 對 CQL 的分析:
    • 透過計算 CQL 得到的 value function V hat,與真實 discounted return 進行比較,證明我們的 value function 是下限。
      • 計算了 baseline(offline RL)的一些 value function,包括 ① Q-function ensemble(防止 over-estimate 的常用方法) ② BEAR [30] 一種 policy constraint 方法,發現它們 over-estimate 了。
      • 還對公式 1 中的 CQL variant 進行評估,發現公式 2 確實獲得了比公式 1 更緊的下限。
    • Appendix B:跑實驗證明定理 3.4(CQL 的 gap-expanding)。
    • Appendix G: CQL 的 ablation study。

7 discussion

  • 提出了 offline RL 的 CQL 框架:可以學習 Q function 的 lower-bound。
    • CQL 可直接應用於大規模資料集豐富的實際問題:自動駕駛、機器人和軟體系統(如推薦系統)。
  • limitations & future works:
    • 雖然已經證明瞭 CQL 可以在 tabular、線性函式近似、某些非線性函式近似 Q function 的情況下,學習 Q function 的下限,但對 CQL + Deep NN 的嚴格理論分析,仍有待於未來的工作。
    • 此外,offline RL 與標準監督學習方法一樣,容易出現過擬合問題,因此未來工作的另一個重要挑戰是,設計簡單有效的早期停止方法,類似於監督學習中的驗證誤差。

Appendix

https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Supplemental.pdf

  • A. Discussion of CQL Variants - 討論 CQL 的變體:CQL(H) CQL(ρ) CQL(var)。
  • B. Discussion of Gap-Expanding Behavior of CQL Backups - 好像是關於 CQL gap-expanding 的實驗。
  • C. Theorem Proofs - 出現在正文中的定理 3.1 - 3.4 的證明。
  • D. Additional Theoretical Analysis - 進一步的理論分析。
    • D.1 使用 Q function approximation 的 lower-bound 證明。
    • D.2 公式 2 中 arg min α [E_μ Q - E_\(\pi_\beta\) Q] ,如果把 \(\pi_\beta\) 位置選擇別的分佈會怎樣。
    • D.3 公式 2 的 sample-based version(?)
    • D.4 Safe Policy Improvement Guarantee for CQL。
  • E. related work 擴充套件。
  • F. setup 與實驗細節等。
  • G. Ablation Studies。


相關文章