- 論文題目: Conservative Q-Learning for Offline Reinforcement Learning
- CQL 是師兄盛讚的一篇論文:“是 offline RL 最精彩的工作之一,扭曲了 Q function,認為沒看過的 Q 很有風險,把 OOD(out of distribution)的 Q 函式值拉低(因為 Q learning 的 argmax 一向是 over-estimated),ID(in distribution)的 Q 函式值拉高,因此傾向於選擇原來資料集裡有的 ID 的 action。”
- 本部落格為非常詳細的 CQL 論文閱讀筆記,但【不能代替】閱讀原文的工作量。原文寫的也很好,是 AI 頂會的風格,相對容易讀懂。
- pdf 版本:https://proceedings.neurips.cc/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Paper.pdf
- Appendix:https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Supplemental.pdf
review 總結
open review: https://proceedings.neurips.cc/paper_files/paper/2020/file/0d2b2061826a5df3221116a5085a6052-Review.html
-
contribution:用於 offline RL 的保守 Q 學習(Conservative Q-Learning,CQL)。
- 一種新的 Q function 更新規則,對 Q 分佈進行額外的正則化:透過在適當選擇的 state-action pair 上的輔助分佈下,在通常的 Bellman update 中新增正則項,用來最小化 OOD action 的 Q value,從而減少對 OOD action 的 Q value 高估。
- 作者表明,這個更新規則能夠漸進得到,從精確 policy evaluation 中獲得的 policy value 的下限。
- 在學習演算法中使用這種保守的 Q function,從而得到 Conservative Q-Learning 演算法(CQL)。作者表明,以這種方式得出的策略更新是保守的,因為在每次迭代中,策略都會針對 value 的 lower-bound 進行最佳化。
- CQL 演算法有幾個不同的變體,它們在 offline control 的 benchmark 中效能很好,並且,對於 offline RL 中 behavior policy 與實際 policy 的 action distribution 不一致,所導致的 Q 分佈的誤差更穩健。
- 公式 1:在估計特定策略的 Q function 時,新增一個 penalty,會產生對 policy value 的低估,但這種低估過於保守。
- 公式 2:在估計 Q function 時,在 penalty 中減去基準策略(行為策略 behavior policy)的 value。這也被證明會低估 policy value。作者從理論與實驗上驗證了這個 idea。
-
strength:
- 簡單而新穎的方法,概念上聰明的想法。透過直接最小化 off-policy Q value,而不是估計 Q function 中的行為密度或不確定性,來對抗 offline Q learning 中的高估。很聰明,因為與大多數現有方法相反,它不需要任何形式的狀態訪問密度。
- 具體的,該方法將 value 取多少 lower-bound,取決於經驗行為分佈 \(\pi_\beta\),其中很少被評估的 actions 會導致更大的 lower-bound。(?)
- 之前沒有針對 offline RL 的這種研究,因為將 Q function 正則化,對 OOD action 表現不好。(?)
-
weaknesses:
- 雖然本文的理論動機集中在構建下界,但沒有討論下界是多少 以及這是否合理(?奇怪的英文句子)。主要弱點在於 alpha,它以 Q 值的平方損失相對於 Q 值的線性差進行互動(?)。
- 在實證(實驗)中比較平均值,而非提供適當統計資料(比如方差這種統計量),是有缺陷的。
- 公式 1 和 2 必然會收斂到一個 fixed point(忽略不屬於 D 的動作)是顯而易見的嗎?能否解釋一下,針對 BC (behavior cloning 行為克隆 模仿學習)策略進行正則化的方法,為何會比 BC 策略表現更差?在我看來,總是可以選擇足夠強大的正則化,至少讓它跟 BC 策略一樣好,為什麼表 1 和 2 中的情況不是這樣呢?
0 abstract
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.
摘要:
- 在強化學習(RL),有效利用事先收集的大型資料集,是大規模實際應用面臨的一個關鍵挑戰。離線強化學習(offline RL)演算法,有望從以前收集的靜態資料集中學習有效的策略,而無需進一步的互動。
- 然而,在實踐中, offline RL 是一項重大挑戰。因為資料集與所學策略之間的 state-action 聯合分佈的偏移,會導致對 value 的高估,因此,標準的 off-policy RL 魔改成的 offline RL 可能會失敗,尤其是在複雜和多模式資料分佈上。
- 在本文中,我們提出了保守 Q-learning (CQL),旨在透過學習一個保守的 Q 函式來解決這些侷限性,即,在該 Q 函式下,policy value 的期望值低於其真實值。
- 我們從理論上證明,CQL 能生成當前 policy value 的下限,並基於該下限學習新策略,從而保證理論上的改進。
- 在實踐中,CQL 透過一個簡單的 Q 值正則化器(regularizer),增強了標準的 Bellman error 最佳化目標,該正則化器可以在現有的 Deep Q Learning 和 Actor-Critic 的基礎上直接實現。
- 在離散和連續控制域上,我們的研究表明,CQL 的效能大大優於現有的 offline RL 方法,其學習策略的最終收益往往能提高 2-5 倍,尤其對於複雜和多模態的資料分佈。
1 intro
- Offline RL / batch RL:[11, 15, 30, 3, 27, 54, 34]
- 在 offline 環境中,直接使用現有的 value-based 的 off-policy RL 演算法,通常效能不佳,這是由於從 OOD action 中 bootstrap 的問題 [30, 15] 和過擬合 [13, 30, 3],通常表現為 value function 的錯誤的樂觀估計。
- 如果我們能學習一個保守的 value function 估計值,為真實值提供一個下限,那麼就能解決高估問題。
- 事實上,由於 policy evaluation 和 policy improvement 通常只使用 value function,我們可以學習一個不那麼保守的下限 Q 函式,這樣,策略下的 Q 函式期望值是下限,而非使用點式下限。(見後文,從公式 1 到公式 2)
- main idea:在適當選擇的 (state,action) 分佈下,最小化 Q 值(公式 1),然後透過在資料分佈上加入最大化項,進一步收緊這一約束(公式 2)。
- 演算法框架 CQL:透過在訓練過程中對 Q 值進行正則化,學習保守的 value function 下限估計值。
- 理論分析:只有在策略下的 Q 函式期望值,才會是真實策略值的下限,從而避免了逐點的 Q 函式下限可能產生的額外低估,這在探索文獻 [46, 26] 中,通常是在相反的背景下進行探討的。
- 透過實驗,證明了我們的方法對 Q 函式估計誤差的穩健性。
- 如何實現 CQL:將這些保守估計,用於策略評估和離線 RL。
- 簡單修改:只需在 Q 函式更新中新增 CQL 正則化項,就能在許多標準 online RL 演算法 [19, 8] 的基礎上,用不到 20 行程式碼實現 CQL。
- 實驗:適用於具有複雜資料集組合的領域(已知先前的方法通常在這些領域表現不佳)[12](可能是 D4RL 的 random medium expert 之類)和具有高維視覺輸入的領域 [5, 3](其實應該就是 Atari 的 state - 遊戲螢幕截圖吧)。
- 在許多 benchmark 上,CQL 的表現比之前的方法高出 2-5 倍之多,而且還是在從人機互動中收集的大量現實資料集上,唯一的表現優於簡單 behavior cloning 的方法。
2 preliminaries
- 符號定義:
- \(\pi_{\beta}(a|s)\) 代表 behavior policy。\(d^{\pi_\beta}(s)\) :\(\pi_{\beta}(a|s)\) 的 discounted marginal state-distribution。離線資料集 D,相當於在 \(d^{\pi_\beta}(s)\pi_\beta(a|s)\) (state-action 聯合分佈)裡取樣得到。
- \(\hat \pi_\beta(a|s)\) 代表 empirical behavior policy,\(\hat \pi_\beta(a|s)={\sum_{(s,a)}1[s=s,a=a]}/{\sum_s1[s=s]}\) ,就是在歷史資料的 state s 下有多少次選擇了 action a。
- 假設 reward 有 bound: |r(s, a)| ≤ R_max。
- 回顧:
- 回顧 Q-learning method:迭代計算 Q function,\(B^*Q(s,a)=r(s,a)+\gamma E[\max Q(s',a')]\)。
- 回顧 actor-critic:要訓一個 actor policy,用來做 \(\pi(a|s)=\arg\max_aE[Q(s,a)]\)。
- 由於 dataset D 不會包含所有的 transition tuple (s,a,s'),所以 policy evaluation 步驟事實上用的是 empirical Bellman operator,稱為 \(\hat B^\pi\),它只備份(backs up)單個樣本。
- (沒有聽懂,應該是隻對單個 (s,a,s') 做 Bellman 迭代吧)
- offline RL:給定資料集 \(D=\{(s,a,r,s')\}\),是用 behavior policy \(\pi_{\beta}(a|s)\) 收集的。然後在這個資料集上做 policy evaluation + policy improvement。(evaluation 是在更新 Q function,新 Q 接近 r + γ × 老 Q,用 min 最小化平方誤差來寫)
- 問題:這樣直接做 offline RL,會出現 action distribution shift(動作分佈偏移)的現象。
- 大概就是,最後訓出來的 policy 的 action distribution 跟取樣策略 \(\pi_\beta(a|s)\) 不太一樣(?)
- 由於 policy 的訓練目標是最大化 Q 值,因此,可能會傾向於 Q 值被高估的 out-of-distribution 行為。
- 經典 offline RL 方法 [30, 27, 59, 54],透過限制所學策略 [34] 遠離 OOD action,來緩解這一問題。
- 需要注意的是,在訓練 offline RL 的 Q function 時,不會受到 state distribution shift(狀態分佈偏移)的影響,因為 Bellman backup 不會在 OOD 的狀態上更新 Q 函式,但是在測試時,可能會遇到新 state,受影響。
3 CQL framework
3.1 Conservative Off-Policy Evaluation
CQL 最初的 idea:
- 我們只有行為策略 \(π_β(a|s)\) 生成的資料集 D,但是要估算目標策略 π 的 value function \(V^π(s)\)。
- 因為希望防止 policy value 的高估,因此在學習標準 Bellman error 目標的同時,還透過最小化 Q 值,來學習一個保守的 Q 函式 lower-bound。
- 使用一種懲罰方式:最小化【特定的】state-action pair distribution µ(s,a) 下的 Q 函式期望值。
- 標準 Q 函式訓練並不去管 unobserved state 下的 Q 函式值,卻去更新 unobserved action 下的 Q 函式值,因此,我們限制 µ 與資料集中的狀態邊際(state-marginal)相匹配,\(\mu(s,a) = d^{π^β}(s)\mu(a|s)\)。【沒有聽懂】
- 這樣,就得到了訓練 Q 函式的迭代更新,它是權衡因子(tradeoff factor)α ≥ 0 的函式:
【3.1 節的公式 1:加了一個懲罰項,最小化 α · E_{μ 分佈} Q(s,a) 】
定理 3.1 的解釋:
- 證明:這樣得到的 Q function,是所有 s-a dataset 分佈的下界。
- 這個下界可以更緊一些。如果只要求 \(π(a|s)\) 下, \(\hat Q^π\) 的期望值低於 \(V_π\),我們可以透過在資料分佈 \(π_β(a|s)\)下,引入一個額外的 Q 值最大化項來改進約束,從而實現迭代更新(等式 1 中紅色部分的變化):
【3.1 節的公式 2:拉低了 μ 分佈的 s-a,但拉高了 \(s\sim D,a\sim\hat\pi_\beta(a|s)\) 的 Q value,pi hat 是 empirical behavior policy】
定理 3.2 的解釋:
- 雖然得到的 \(\hat Q_π\) 可能不是對每個點都能有下限,但當 \(\mu(a|s)=π(a|s)\) 時,有數學期望 \(E_{π(a|s)} [\hat Q^π(s,a)]≤V^π (s)\)。
- 因為公式 2 最大化了行為策略(behavior policy)\(\hat\pi_\beta(a|s)\) 的 Q 值,因此可能會高估 \(\hat\pi_\beta(a|s)\) 下的 action,所以說 Q hat 不是 point-wise lower-bound。
- 在 Appendix D.2 中證明,只有最大化 \(\hat\pi_\beta(a|s)\) 時,才能取得數學期望的 lower bound(?)
理論分析:(有點複雜,沒看懂…)
- 公式 1 2 使用的經驗貝爾曼運算元 \(\hat B^π\) ,而非實際的貝爾曼運算元 \(B^π\)。
- CQL 是 lower-bound 的證明,在 Appendix C。
定理 3.1:
- point-wise lower bound。
- 對於公式 1 中希望最小化的分佈 μ(a|s),只要滿足 \(\mathrm{supp}~\mu\subset\mathrm{supp}~\hatπ\) (不知道什麼意思…),就有≥ 1-δ 的機率滿足,求得的 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\) - 一個含 α 的東西 + 一串東西。
- 只要 α 足夠大,就有 \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),對任意 s ∈ D、任意 a。
- 當 \(\hat B^π=B^π\) 時,任何 α>0 都能保證, \(\hat Q^\pi(s,a)\le Q^\pi(s,a)\),對任意 s ∈ D、任意 a。
定理 3.2:
- 數學期望 lower bound 。
- 當 \(\mu=\pi\) 時(\(\pi\) 是當前訓出來的策略(?)),透過策略 \(\pi\) 下 的 Q function 得到的 value function \(\hat V^\pi(s)=E_{\pi(a|s)}[\hat Q^\pi(s,a)]\),是真實 value function \(V^π (s)=E_{π(a|s)}[Q^π(s,a)]\) 的 lower bound。
- 因為(一大串公式),對任意 s ∈ D,有 V hat ≤ V - 一個含 α 的東西 + 一串東西。
- 因此,若 α > 一串東西,對任意 s ∈ D,都有 V hat ≤ V 的機率 ≥ 1-δ。若 \(\hat B^π=B^π\) ,任何 α>0 都能保證 V hat ≤ V 。
討論:
- 在定理 3.1 3.2 的證明中,假設 Q function 是精確計算的,沒有使用 function approximation(如 NN)。
- 不過,定理 3.2 可以 generalize 到 linear function approximator 和基於 neural tangent kernel (NTK) 的 NN 擬合器,見 Appendix D.1 的定理 D.1 D.2。
- 總之,證明了 Q ← min α E_μ Q(s,a) + 1/2 [Q(s,a) - BQ(s,a)]² 是 Q function 的下界,Q ← min α[E_μ Q(s,a) - E_\(\hatπ_β\) Q(s,a)] + 1/2 [Q(s,a)-BQ(s,a)]² 是更緊的下界。
- 隨著可用資料變多,|D(s,a)| 增加,保證下界所需的 α 值變小;在無限資料中,只需極小的 α 便可維持下界。
3.2 Conservative Q-Learning for Offline RL
背景:
- 在 3.1 節的公式 2 中令 μ = π,做 policy evaluation - policy improvement 迴圈,可以得到 Q function 下限,但這樣計算成本太高(?)
- 由於 policy iteration 得到的 \(\hat\pi_k\) 通常來自於 Q function,因此可以改進 μ 的選擇,進行一些近似,得到一個線上(online)演算法(?)
定義了 CQL(R) ,是一類最佳化問題,R(μ) 是正則化項。
【3.2 節的公式 3: \(\min_Q\max_\mu \alpha(E_\mu Q-E_{\hat\pi_\beta} Q)+1/2[Q-BQ]^2+R(\mu)\),變成了 min max 形式,還加了一個 μ 的正則化項】
CQL 的變體:
- 如果令 R(μ) = -DKL(µ, ρ),即策略的 action 分佈與一個先驗 action 分佈的 KL 散度。
- 1 - 若 ρ = Uniform(a),那麼將會變成公式 4 的形式,稱為 CQL(H)。H 是資訊熵的意思。
- 2 - 若 ρ = \(\hat\pi_{k-1}\) 即上次得到的策略,那麼,等式 4 的第一項會變成 \(\hat\pi_{k-1}(a|s)\) 的 actions 的 Q values 的指數加權平均值。
- 根據經驗,這種變體在高維行動空間(如表 2)中更穩定,因為在高維行動空間中,由於方差較大,透過抽樣估計 \(\log\sum_a\exp\) 具有挑戰性。(沒有聽懂)
- 3 - 在附錄 A 中,討論 CQL 的另一個變體,並將其與分佈穩健最佳化(distributionally robust optimization)[43] 聯絡起來。
CQL 的理論分析:
- 去證明 CQL 確實是保守的(conservative),每個 policy iterate 都根據 value 的 lower bound 來最佳化得到。
- 有 sampling error 樣本誤差的情況見 Appendix C,這裡我們就不考慮了。
定理 3.3:
- 證明:前面提到的 CQL(H),學習了實際 Q function 的 lower bound。
- 令 \(π_{\hat Q^k}(a|s)∝\exp \hat Q^k(s,a)\) (這是得到 policy 的方式),假設 \(D_{TV}(\hat π^{k+1}, π_{\hat Q^k})\le\epsilon\) (大概就是策略變化緩慢的意思),則有 \(\hat Q^k\) 下的 policy value 是真實 value 的 lower bound,\(\hat V^{k+1}(s) ≤ V^{k+1}(s)\) 。
- —— 只要滿足,LHS ≥ RHS。
- LHS:是在 CQL 更新的迭代 k+1 中, Vˆk+1 值的保守程度,如果學習到的策略正好等於 \(\hat Q^k\) 的 softmax 策略(正比於 exp)(按理來說是這樣的),即 \(\hat π_{k+1}=π_{\hat Q^k}\) 時。
- RHS:然而,實際策略 \(\hat π_{k+1}\) 可能不同,RHS 是由於這種差異而可能高估的最大值。
- 為了得到下限,我們要求低估 value function 的量更大,可以透過較小的 ε(即策略變化緩慢)得到。
- (基本沒看懂…)
CQL 的 Q function update 是 gap-expanding 的:
- 是說,1. ID(分佈內)的 Q value、2. 錯誤樂觀估計的 OOD Q value,它們之間的 difference,比真實 Q function 的 difference 更高。
- 這意味著,策略 \(π_k(a|s)∝\exp\hat Q^k(s,a)\) 被約束的更接近資料集 D 的經驗策略分佈 \(\hat π_β(a|s)\),隱式地防止了 OOD 的 distribution shift。
定理 3.4:(CQL is gap-expanding)
- 在任何步迭代 k 中,CQL 都能擴大行為策略 \(π_β(a|s)\) 和 \(\mu_k\) 下預期 Q 值的差距。
- 因此,對於足夠大的 \(α_k\),對於任意 s ∈ D,我們有 \(E_{π_β(a|s)}[\hat Q^k(s,a)]−E_{\mu_k(a|s)}[\hat Q^k(s,a)]> E_{π_β(a|s)}[Q^k(s,a)]−E_{\mu_k(a|s)}[Q^k(s,a)]\) 。
(Appendix B 透過實驗證明,先前的 offline RL 方法,如果沒有明確限制或正則化 Q 函式,可能不具備對於 OOD Q 值高估的魯棒性)
總結:
- 證明了 CQL RL 演算法可以學習到下限 Q 值,在足夠大的 α 下。這意味著,最終策略的 value function 至少能有我們計算的 Q hat 那麼大,我們計算的 Q hat 是一個下限。
- 證明了 Q function 是 gap-expanding 的,這意味著它只能高估 ID action 和 OOD action 之間的 gap,從而防止 OOD 行動。(所謂的拉高 ID action,拉低 OOD action)
3.3 Safe Policy Improvement Guarantees
本 subsection 總結:
- CQL 最佳化的是一個定義明確的、包含懲罰項的(penalized)經驗 RL 目標函式(empirical RL objective),並針對 behavior policy(行為策略),進行了高置信度(機率 ≥ 1-γ)的安全策略改進。
- 改進的程度會受到較高 sampling error(取樣誤差)的負面影響,而 sampling error 會隨著觀察樣本的增多(|D| 變大)而減小。
定理 3.5:
- 定義:任意策略的 empirical return(經驗收益)\(J(π, \hat M)\),為 empirical MDP(經驗 MDP) \(\hat M\) 的 discounted return(應該是 discounted reward 求和吧)。其中,empirical MDP 由資料集 D 得出,\(\hat M=\{(s, a, r, s')∈D\}\) 。
- 設 \(\hat Q^\pi\) 是公式 2 的不動點(fixed point)(即已經求到了策略 π 的 value function),則 \(π^*(a|s):=\arg\max_π E_{s\simρ(s)} [\hat V^π(s)]\) (該 value function 匯出的 policy)可以等價表示為,\(π^*(a|s)←\arg\max_πJ(π,\hat M)−α\frac{1}{1−γ} E_{s∼d^π_{\hat M}(s)}[D_{CQL}(π,\hat π_β)(s)]\) ,其中 D_CQL 是一個 penalty, \(D_{CQL}(π, π_β)(s):=\sum_a π(a|s)\cdot (\frac{π(a|s)}{π_β(a|s)}−1)\) 。
- 證明見 Appendix D.4。
- 直觀地說,定理 3.5 表明,CQL 最佳化了經驗 MDP \(\hat M\) 中的策略收益,同時還透過 D_CQL 懲罰項,確保學習到的策略 π 與行為策略 \(\hat π_β\) 不會相差太大。
- 這種懲罰是透過 CQL 的 gap-expanding(定理 3.4)特性,來隱式引入的。
定理 3.6:
- 在定理 3.5 和 CPO [1] 分析的基礎上,證明 CQL 提供了行為策略 \(\hat π_β\) 上的 ζ-safe policy improvement。
- 設 \(π^*(a|s)\) 是定理 3.5 得到的策略。那麼,在實際 MDP M 中,策略 \(π^*(a|s)\) 是行為策略 \(\hat π_β\) 上的 ζ-safe policy improvement,即,滿足 \(J(π^*,M)\ge J(\hat π_β, M)-\zeta\) 的機率為 1 - δ, ζ 由下式給出:
- 【沒編號的公式,一大串,很嚇人】
- ζ 的表示式由兩項組成:
- 第一項表示,由於 M hat 和 M 之間的不匹配(也稱為抽樣誤差 sampling error),而導致的 M 中策略效能的下降。第二項表示,由於經驗 MDP M hat 中的 CQL,而導致的策略效能的提高。
- 針對 CQL Q 函式最佳化 π 後,得到的策略 π* 比行為策略 \(\hat π_β\) 好,如果我們適當選擇 α 值;當取樣誤差較小,也就是 |D(s)| 較大時,較小的 α 值就足以保證策略效能的改進。
4 如何實現 CQL
演算法虛擬碼:
- 看看如何在 actor-critic 和 Q-learning 上使用 CQL。
- 虛擬碼見 Algorithm 1 ,與傳統 actor-critic 和 Q-learning 的區別,用紅色標出了。
- (第 3 步)使用 CQL 框架中的 CQL(H) 或一般的 CQL(R),替代希望最小化的 Bellman error,作為訓練 Q 函式 \(Q_θ\) 的梯度下降目標(θ 是神經網路引數)。
- 不像之前的 offline RL 方法 [30, 59, 54, 34] ,CQL 不需要策略約束(policy constraint),因此不需要擬合一個額外的 behavior policy estimator(行為策略估計器)。
- (第 4 步)對於 actor-critic 框架,還需訓練一個策略 πφ。
Implementation details:
- 聲稱,對於連續控制,只需在 SAC(soft actor-critic)[19] 上增加 20 行程式碼;對離散控制,則是 QR-DQN [8] 的 20 行程式碼。
- 對 gym 和離散控制,tradeoff factor α 固定為附錄 F 中所述的恆定值;對於其他領域,α 透過拉格朗日雙梯度下降法(Lagrangian dual gradient descent)自動調整。
- 我們使用 SAC 的預設超引數,但策略的學習率是從 {3e-5、1e-4、3e-4} 中選擇的,並且小於或等於 Q 函式(?),這是由定理 3.3 決定的。
- 詳細內容見 Appendix F。
5 related work
本章 review 了 offline RL 和 off-policy evaluation 的工作,更多內容詳見 Appendix E。
Off-policy evaluation (OPE):
- 早期工作 [51, 49, 52] 先收集 Monte-Carlo returns,再在 Monte-Carlo returns 中使用 per-action importance sampling,來獲得 OPE return 的估計。
- 近期工作 [36, 17, 40, 60] 透過某種動態規劃(dynamic programming)[34],直接估計狀態分佈的 importance ratios(重要性比率),使用 marginalized importance sampling(邊際重要性取樣)。這通常比 per-action importance sampling 方差更小,但期望值會有 bias。
- 由於使用 DP,因此它們可能會受到 OOD 動作的影響 [34, 17, 20, 40]。
- 相比之下,CQL 中的 regularizer 因其 gap-expanding 行為,而明確解決了 OOD 行為的影響,並獲得了保守的 value 估計。
Offline RL:
- 先前研究試圖解決 learned policy 的 action distribution 與 behavior policy 偏離的問題,去限制 learned policy 與 behavior policy 接近,例如透過 KL-divergence [27, 59, 48, 54]、Wasserstein 距離 [59] 或 MMD [30] 來衡量。然後,在貝爾曼策略更新(Bellman backup)中,只使用從該被限制的策略中取樣的行動,或使用值懲罰(value penalty)。
- 對 unobserved actions,SPIBB [33, 41] 使用 Q-learning 演算法中的 behavior policy 進行 bootstrap。
- 大多數這種方法,都需要單獨估計一個 behavior policy 模型 πβ(a|s) [15, 30, 59, 27, 54, 55],因此,受限於準確估計未知 behavior policy 的能力 [42];如果從多個來源收集資料 [34],去估計 behavior policy 可能尤為複雜。
- 相比之下,CQL 無需估計 behavior policy。
- 先前研究已經探索了某些形式的 Q-function penalties [23, 58],但僅限於 standard online RL setting with demonstrations。
- Luo 等人 [38] 透過在 state-space 上強制執行一個 linear extrapolation property,學習了一個 conservatively-extrapolated value function,然後,學習動力學模型(dynamics model),從而獲得 goal-reaching tasks 的策略。
- Kakade 和 Langford [28] 提出了 CPI 演算法,在 online RL 中保守地改進策略。
- 其他先前的研究,會估計某種不確定性(uncertainty),以確定 Q 值預測的可信度 [30, 3, 34],通常使用 online RL exploration 中的不確定性估計技術 [47, 26, 46, 7]。
- 由於 offline RL [34] 對不確定性估計的保真度(fidelity)要求很高,因此,這些方法在 offline RL [15, 30, 34] 中一般表現不佳。
- Robust MDP [24, 50, 56, 44] 一直是 offline RL 中流行的 theoretical abstraction,但在 policy improvement 上往往非常保守。
- 由於 CQL 不會低估所有 state-action tuple 的 Q value,因此 CQL 不會那麼保守。
- 關於 high confidence policy improvement 的研究 [57],為策略改進提供了安全保證,但往往也比較保守。
- 定理 3.4 所示的 CQL backup 的 gap-expanding 特性,與 gap-increasing Bellman backup operators [6, 37] 如何在 online RL 中對 estimation error 更 robust 有關。
理論結果:
- 我們的理論結果(定理 3.5、3.6)與之前 safe policy improvement 的工作有關 [33, 50]。
- 與 Laroche 等人的定理 1 和 2 [33] 比較,發現相似的 quadratic dependence on the horizon,和一個 inverse square-root dependence on the counts。
- 我們的 bound 比 Petrik 等人[50]的 ∞-norm(無窮範數)bound 有所改進。
6 experiment
baselines:
- 使用 policy constraint(限制與 behavior policy 離得不太遠)的先前 offline RL 方法:BEAR [30] 和 BRAC [59]。
- SAC [19],一個 off-policy actor-critic method 的 offline RL 版本。
- behavioral cloning (BC)。
實驗環境與結果:
- Gym domains:
- offline datasets 分為 “-random” “-expert” “-medium”。當只使用單一種類的 dataset 時,CQL 只比其他方法厲害一點點(baselines 使用了 [12] 的 performance 報告);但當多個 datasets 一起使用時,甚至能 outperform 一到兩倍。
- Adroit tasks:
- Adroit [53] 是 D4RL [12] 中最複雜的任務,使用有限的 human demonstrations,控制一個 24-DoF 的機器手。
- 任務過於複雜,先前的 offline RL 方法都會掛掉,behavior cloning(BC)表現最好。
- CQL outperform 了 BC,是其他 offline RL 方法的 2-9 倍。
- CQL(ρ) 其中 \(\rho=\hat\pi^{k-1}\) 在一部分任務上 outperform 了 CQL(H),兩個 CQL 方法的方差都比 baselines 更好。
- AntMaze:
- MuJoco Ant robot,D4RL 中只提供 suboptimal 資料。
- 先前方法只能應對最簡單的 U-maze,但 CQL 可以走一些更復雜的。
- Kitchen tasks:
- Franka kitchen domain [18] from D4RL [14],控制一個 9-DoF robot,按順序操作各種物體(microwave, kettle, ...),達到指定的終態;對於每個終態要求的物體,只有一個 episode 結束時的 spare 0 1 reward,代表該物體是否達到終態(?)
- 包含 1. 從 dataset 裡組合 trajectory 片段,2. 精確的 long-horizon 控制,3. 處理人類的遠端指令。
- CQL outperforms 所有 baseline,成功率高達 40+%。
- Offline RL on Atari games:
- offline, image-based Atari games [5]。
- 與 REM [3] 和 QRDQN [8] 在五個 Atari tasks (Pong, Breakout, Qbert, Seaquest and Asterix) 上比較,(因為這些實驗已經被 [3] 做過了)
- 使用了 Agarwal et al. [3] 的 evaluation protocol,包含兩種資料:(1) online DQN agent 觀察到的前 20% 樣本組成(大概是訓練過程的前 20%?);(2) 僅有 online DQN agent 觀察到的所有樣本的 1% 和 10%(大概是整個訓練過程隨機取 1 ~ 10%)。
- 對 (1),與 QR-DQN 和 REM 持平;對 (2),顯著 outperform,尤其是在只有 1% 資料的條件下。
- 對 CQL 的分析:
- 透過計算 CQL 得到的 value function V hat,與真實 discounted return 進行比較,證明我們的 value function 是下限。
- 計算了 baseline(offline RL)的一些 value function,包括 ① Q-function ensemble(防止 over-estimate 的常用方法) ② BEAR [30] 一種 policy constraint 方法,發現它們 over-estimate 了。
- 還對公式 1 中的 CQL variant 進行評估,發現公式 2 確實獲得了比公式 1 更緊的下限。
- Appendix B:跑實驗證明定理 3.4(CQL 的 gap-expanding)。
- Appendix G: CQL 的 ablation study。
- 透過計算 CQL 得到的 value function V hat,與真實 discounted return 進行比較,證明我們的 value function 是下限。
7 discussion
- 提出了 offline RL 的 CQL 框架:可以學習 Q function 的 lower-bound。
- CQL 可直接應用於大規模資料集豐富的實際問題:自動駕駛、機器人和軟體系統(如推薦系統)。
- limitations & future works:
- 雖然已經證明了 CQL 可以在 tabular、線性函式近似、某些非線性函式近似 Q function 的情況下,學習 Q function 的下限,但對 CQL + Deep NN 的嚴格理論分析,仍有待於未來的工作。
- 此外,offline RL 與標準監督學習方法一樣,容易出現過擬合問題,因此未來工作的另一個重要挑戰是,設計簡單有效的早期停止方法,類似於監督學習中的驗證誤差。
Appendix
- A. Discussion of CQL Variants - 討論 CQL 的變體:CQL(H) CQL(ρ) CQL(var)。
- B. Discussion of Gap-Expanding Behavior of CQL Backups - 好像是關於 CQL gap-expanding 的實驗。
- C. Theorem Proofs - 出現在正文中的定理 3.1 - 3.4 的證明。
- D. Additional Theoretical Analysis - 進一步的理論分析。
- D.1 使用 Q function approximation 的 lower-bound 證明。
- D.2 公式 2 中 arg min α [E_μ Q - E_\(\pi_\beta\) Q] ,如果把 \(\pi_\beta\) 位置選擇別的分佈會怎樣。
- D.3 公式 2 的 sample-based version(?)
- D.4 Safe Policy Improvement Guarantee for CQL。
- E. related work 擴充套件。
- F. setup 與實驗細節等。
- G. Ablation Studies。