多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早論文

MoonOut發表於2023-04-03

原文網址 : https://www.cnblogs.com/moonout/p/17283734.html

全文快讀

論文題目：Reinforcement learning with multi-fidelity simulators，是 14 年的 ICRA 會議的論文。師兄說是 robotics 頂會，但中稿率蠻高的。
連結：https://ieeexplore.ieee.org/document/6907423
main contribution：把 multi-fidelity optimization 擴充到 sequential decision 場景。
主要內容：
- 目標：real-world sample 數量最少。
- 定義 optimistic multi-fidelity simulator chain：一大串 multi-fidelity 的 simulator。
- KWIK 技術：很 naive 的技術，就是，如果我們看到過足夠多這種情況，就根據經驗給出 reward / transition 估計，否則，給出最大 reward 作為估計（鼓勵 exploration）。
- MF-bandit 演演算法：
  - 假設 state 不變，我們要找到最優 action；
  - 目前在嘗試 a* = argmax Reward（最大化 reward 估計值）這個動作，在 level d 的 fidelity 嘗試了這個動作，得到其 reward，用這個 reward 更新 reward 估計值。
    - reward 估計值的更新：如果在最 low-fidelity 的 simulator，估計值 = R_max；否則，用 fidelity 低一層的 reward 估計值，作為當前 fidelity reward 估計的 heuristic，估計 = R_{d-1} + β。
  - 然後，我們繼續做 a* = argmax R，因為 reward 估計值變了嘛，所以這個 a* 很可能跟上一輪的 a* 不是同一個。
    - 如果是同一個，那我們就認為 policy 在 level d 的 fidelity 收斂了，去 level d+1 繼續做 MF-bandit。
    - 如果不是同一個：如果這個 a* 在 level d-1 上並沒有估計值，即，我們沒法拿 d-1 的 reward 估計做 d 層 reward 估計的 heuristic 了，那麼回退到 d-1 層，先把 d-1 層 reward 估計算出來。
- MFRL 演演算法：跟 MF-bandit 基本一樣。
  - 我們需要估計的有：1. reward，2. env transition。
  - 要透過 argmax Q function 取 action。
  - 每次 1. reward，2. env transition 有所更新（根據 KWIK，即出現 (s,a,r,s') 次數足夠多），就重新計算 Q function。並且，如果 1 2 有所更新，把資料同步到所有更 low-fidelity 的 KWIK learner。
侷限性：我還沒太想好，如果用 DRL 來做，具體該怎麼做。

0 abstract

提出一個 RL 框架：在有多個保真度（fidelity）不斷降低的 simulator 的情況下。
我們的框架允許 agent 選擇仍能提供資訊的最 low-fidelity 的 simulator，來限制 high-fidelity simulator 的樣本數量。
該方法基於 know-what-it-knows 技術，將 low-fidelity 的 Q function 作為 high-fidelity RL 的 heuristic。與遷移學習（transfer learning）或無模擬器學習相比，real-world sample 數量更少。
給出了關於 sample conplexity 的理論證明，並在一輛有 multi-fidelity simulator 的遙控汽車上做實驗。

1 intro

遷移學習：將策略從 simulator 轉移到 real-world。
多保真 RL（MFRL）：
- 結合多保真最佳化 [6] 和 model-based RL，"面對不確定性的樂觀主義 "啟發式方法，RL [7] 的 "知道它知道什麼"（know what it knows，KWIK）model-learning framework。
- 1 在 coarse model 裡探索，2 用 fine model 更新 coarse model。
與只向現實世界的 agent 傳遞一次 heuristics 的單向方法不同[5]，MFRL 框架還規定了 agent 何時應該向上移動到高保真模擬器，以及在更昂貴的模擬中進行過度探索之前，向下移動保真度的規則。有理論上的收斂、取樣效率的保證。
具體來說，該框架
- （1）不會在高水平上執行已被證明為次優的行動，
- （2）（在一定條件下）將最高 fidelity 的樣本數量降到最低，
- （3）限制 sample 總數。
- 此外，可以證明 MFRL without resets 在最高 fidelity 的 simulator 上的樣本數（最壞情況）不比“單向傳輸”方法多。
main contributions：
- （1）介紹 MFRL framework；
- （2）對該框架的 sample complexity 進行了理論分析；
- （3）實驗。

RL：1 在 simulator 裡學，然後直接在 real-world 跑，2 一直在 real-world 裡跑，但用 low-fidelty simulator 算 policy gradient。
已經有監督學習的 multi-fidelty 工作了。
使用 low-fidelty model 生成的東西，作為指導 exploration 的 heuristic。
- 不是用上一個環境訓出來的 policy 指導當前環境學習的遷移學習（transfer learning，TL）。
- 不是在 action space 不同的環境間的 TL [10]，因為 env 的 dynamics 和 rewards 也不一樣。
類似的方法是 transferred delayed Q-learning（TDQL）[5]。可以證明我們的方法在 highest-fidelity env 上的 sample 數量 ≤ TDQL。
我們的工作將多保真最佳化（MFO）[6] 擴充套件到順序決策（sequential decision-making）問題，借鑑 MFO 的經驗，用 high-fidelity 資料更新模型，並根據 low-fidelity 結果作為 RL exploration 的 constraint。

3 背景 & 假設

3.1 RL & KWIK（know what it knows）的背景

KWIK：是一種 standardize RL sample complexity 的 framework。sample complexity 就是次優步驟的數量。
如果 agent 對 (s,a) 的預測 (s', r) 有把握，即 || prediction - ground truth || ≤ ε，則使用預測值 (s', r)，否則 agent 給出⊥，表示它不知道 (s,a) 會發生什麼。
KWIK-Rmax RL：於是，使用預測的 s' 和 real env 的 reward 建立近似 MDP。如果 agent 給出了⊥，則樂觀的將 reward 設成 (1-γ)R_max。
它保證了多項式的 sample complexity。
（並沒有聽懂）

3.2 問題定義

用 Σ 表示 MDP simulator。
貌似，假設 low-fidelity 是 high-fidelity 的一種狀態集結，用 |Q(s, a) - Q(ρ[s], a)| 來定義 fidelity f(Σi, Σj, β)，其中 ρ 是 Si → Sj 的 state mapping，Σi 的 fidelity＜Σj。（見公式）
- 所以，Σi 對 Σj 的 fidelity 與它們最優 Q function 的誤差成（負的）正比，前提是 low-fidelity Σi 對 Q function 的低估（還是高估）不超過 β，否則就是負無窮。
- 合理性解釋：在汽車模擬器中，low-fidelity Σi 假設行動會有完美的結果，然而在 higher-fidelity 中，這些樂觀的 Q function 被更現實的 value function 所取代。
Definition 1: optimistic multi-fidelity simulator chain：一系列 Σ1 .. ΣD，其中 ΣD 是 real world，並且對於一個特定的 ρi 和 βi，有 fidelity(Σi, Σ_{i+1}, βi) 不是負無窮。
Assumption 1: 假設對於 low-fidelity Σi 和 high-fidelity Σ_{i+1}，在後者上模擬一步的 cost 是在前者上模擬多項式步（polynomial）的 cost。
Assumption 2: 只能透過連續 trajectory 的方式使用模擬器，不能隨機訪問 (s,a) 或直接讀引數。
objectives：
- 儘量減少 ΣD（real-world）的 sample 數量。
- sample 數量是多項式的約束？
- switch simulator 次數是多項式的約束。

4 Multi-Fidelity Bandit Optimization

考慮最簡單的 setting：一個帶有隨機性的、只包含一個 state、k 個 action（稱為 arm）的 MDP，使用 MF 最佳化尋找最優 arm。

4.1 MF 尋找最優 arm 的演演算法（MF-bandit）

變數與初始化：

首先維護一個 reward 集合 R_d(a)，用於儲存嘗試各種 action（arm）的經驗。
- 如果 reward 經驗集合 R_d(a) 裡關於某 action a 的經驗超過 m 條，則取這些經驗 reward 的平均值為 reward 估計值 U^_{d,a}；
- 否則給出⊥即“我不知道”，並將 R_max 作為估計值（樂觀估計）。
維護 bool 變數 closed_d，表示 Σ_d 的 action 是否收斂。
維護採取某 action 後的 reward 的 upper bound，U_{d,a}。
維護 bool 變數 con_{d,a}，表示 d 層的 action a 我是否瞭解透了。
維護 bool 變數 change_d，表示 d 層的 a* = argmax R_d(a) 是不是要變了。

演演算法：

首先取 a* = argmax U_{d,a}，即 reward 上界最大的 action。
更新 closed_d = con_{d,a*} 或者 a* 肯定是 near optimal，表示 Σ_d 的 action 收斂了。
如果 closed_d == false，即 Σ_d 中 action 的 reward 還沒收斂，則執行 a*，得到 reward r，更新 reward 經驗集合 R_d(a)。
- 然後，更新 reward upper bound U_{d,a*} = min(U_{d,a*}}, U^_{d,a*})。
  - 最初的 U_{d,a} = U_{d-1,a} + β_{d-1} 是來自 low-fidelity 的 heuristic，是 low-fidelity simulator 的 heuristic 加上高估的極限 β。
- 如果 R_d(a) 能夠給出對於 a 的 reward 估計（即經驗超過 m 條）了，則
  - con_{d,a*} = true，表示 a* 我瞭解透了；
  - change_d = true，表示既然我獲得了基於真實經驗的 reward 估計值，可能 d 層的 a* = argmax R_d(a) 要換一換了。
如果 closed_d == true，即 Σ_d 中 action 的 reward 收斂了，則 d += 1。
- 同時更新 heuristic U_{d+1,a} = U_{d,a} + β_d，changed_{d+1} = false。
如果 con_{d-1,a*} == false（目前給出的 a* 還沒瞭解透）&& change_d == true（上一輪得到了一個 action 的真實 reward 估計，所以這一輪換 argmax action 了），則代表 a* = argmax R 換了個 action，但這個 action 在 low-fidelity 中還沒理解透（也就是所謂的 low-fidelity 給出的最佳 action 在 high-fidelity 表現不好），要回溯到 low-fidelity simulator，d -= 1。
- 更新 changed_{d-1} = false。
- for 所有的 action a：如果 con_{d,a} == true（表示 action a 在 simulator d 研究透了），then
  - 把 high-fidelity 的經驗 R_{d} 複製到 low-fidelity 經驗集合 R_{d-1}，
  - 設定 con_{d-1,a} == true（既然上層研究透了，下層也不用做研究了），
  - change_{d-1} = true。

真抽象。?

4.2 一個例子 4.3 理論證明

不願多看。

5 Multi-Fidelity RL

5.1 MFRL algorithm

變數與初始化：

ρ 是 simulator 之間的 state mapping。
m_known 是去往更高 fidelity 的取樣次數。
Q function 初始化為 R_max / (1-γ)，樂觀的估計。
如果模型引數發生變化，change_d = true，重新計算 Q 值。
關鍵技術和前面的 MF-bandit 很像：如果在當前 fidelity 上，剛剛模型學到了更多 (s,a) 的值（change == true），導致 Q function 重新計算，a* = argmax Q 的 a* 變化了；然而，變化後的 a* 在上一 fidelity（d-1 層）仍然存在不確定性，那麼就回溯到 d-1 層。

演演算法：

首先取 a* = argmax Q_d(s,a)，即估計的 Q function 上界最大的 action。
如果 d＞1 && change_d == true && \(T_{d-1}[ρ_{d-1}^{-1}(s),a]\) == ⊥ 或者 \(R[ρ_{d-1}^{-1}(s),a]\) == ⊥，則回溯到 low-fidelity simulator，d -= 1。
- \(Q_{d-1}[s,a] = P(\hat\Sigma_{d-1}, Q_{d-2} + \beta_{d-2})\)。
- m_k = 0。
else，執行 action a*，觀測 r 和 s'。
- 如果 \(R_d[s,a^*]\) == ⊥ 或者 \(T_d[s,a^*]\) == ⊥，那麼 m_k = 0，更新 R_d 和 T_d。
  - else，m_k += 1。
- 如果 \(R_d[s,a^*]\) 和 \(T_d[s,a^*]\) 從 ⊥ 變成 known，那麼
  - \(Q_d[s,a^*] = P(\langle S_d,A,R_d,T_d,\gamma\rangle, Q_{d-1} + \beta_{d-1})\) 。
  - 對於所有 d' ≤ d，根據 \(R_d[s,a^*]\) 和 \(T_d[s,a^*]\) 的新值，來更新 \(\langle R,T\rangle_{d'}(ρ_{d-1}^{-1}(s),a^*)\)。
    - 把 high-fidelity 的資料傳遞給【所有】更低的 fidelity。
  - 並且 change_d' 都 = true。
如果 d＜D && m_k == m_{known}，那麼增加 fidelity，去 d+1 層，d += 1。
- \(Q_{d+1}(s,a) = P(\hat\Sigma_{d+1},Q_d+\beta_d)\) 。
- m_k = 0，change_d == false。

5.2 一個例子 5.3 理論證明

不願多看。

6 實驗：RC car results

自己開 Google 翻譯看就好啦。

看起來實驗 setting 蠻 naive 的。

7 extensions & conclusions

雖然這項工作是 tabular transition model & tabular reward，但 NN 近似當然可以。
生成一些樣本（？）第二段沒看懂。
MFRL：
- sequential decision 的 multi-fidelity optimization，用 low-fidelity 作為 heuristic 來指導 high-fidelity 探索。
- 與 transfer learning 不同，我們還可以從 high-fidelity transfer 到 low-fidelity。
- 有一堆理論證明。
- 在遙控汽車上做實驗。

14.AQS的前世，從1990年的論文說起
2023-03-14
AQS
如何寫一篇好的科研課題論文
2020-10-20
Python 中的這些坑，早看早避免
2018-11-30
Python
浙大畢業，李飛飛高徒朱玉可加盟UT Austin，曾獲ICRA 2019最佳論文
2019-09-04
用 Pandoc 生成一篇調研論文
2018-11-01
UML科普文，一篇文章掌握14種UML圖
2020-08-05
一篇AAAI論文，看菜鳥如何提升物流多智慧體系統產能？
2020-03-05
AI智慧體
使用python指令碼玩轉古早TCAD軟體（待更新）
2024-06-17
Python指令碼
JavaScript 中的表示任意精度的 BigInt
2019-03-13
JavaScript
50年間，中國各省論文數量是如何變化的？
2018-11-29
「每章都能當做一篇博士論文」：閆令琪獲SIGGRAPH 2019最佳博士論文獎
2019-05-25
Branch Predictor Simulator
2024-11-20
你的論文能否中頂會？這篇分析同行評審結果的論文可幫助你
2018-05-02
PTAV：實時高精度目標追蹤框架 | ICCV 2017論文解讀
2018-03-20
框架
[譯]BigInt：JavaScript 中的任意精度整型
2019-03-03
JavaScript
清華NLP實驗室劉知遠：如何寫一篇合格的NLP論文
2019-03-11
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
《三國志14》集大成者？言之過早
2020-02-14
我的第一篇博文
2021-05-16
【文獻閱讀】ES as a Scalable Alternative to RL（OpenAI 17）
2020-09-23
OpenAI
從Python到水一篇AI論文（核心 or Sci三區+）
2022-07-12
PythonAI
要嫁就嫁程式猿——錢多話少死的早
2018-10-13
中國論文數量在10年間大幅增加
2019-01-03
上交大本科畢業，獲ICRA最佳學生論文、機器人控制雙獎項，這個小哥的機械手玩球技術嫻熟
2020-06-08
機器人
[論文閱讀] RNN 在阿里DIEN中的應用
2020-11-07
RNN阿里
ICLR 2019論文主題 | RL最受歡迎，RNN下降幅度最大，GAN仍在繼續發展
2019-05-16
ICLRRNN
(14)mysql 中的事件
2019-02-27
MySql事件
深入理解JavaScript中的精度丟失
2018-06-13
JavaScript
盤點曠視14篇CVPR 2019論文，都有哪些亮點？
2019-03-11
首發 | 曠視14篇CVPR 2019論文，都有哪些亮點？
2019-03-05
論文閱讀—第一篇《ImageNet Classification with Deep Convolutional Neural Networks》
2023-03-15
offline RL | D4RL：最常用的 offline 資料集之一
2024-03-09
【論文】軍事理論課程論文
2018-07-16
近期有哪些值得讀的QA論文？| 專題論文解讀
2018-06-05
寫論文的那些神操作
2019-10-14
查論文作者的網站
2018-04-26
網站
探討系統中?錢的精度問題
2022-02-27
一文了解MySQL中的多版本併發控制
2023-04-11
MySql

多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早論文

全文快讀

0 abstract

1 intro

2 related work

3 背景 & 假設

3.1 RL & KWIK（know what it knows）的背景

3.2 問題定義

4 Multi-Fidelity Bandit Optimization

4.1 MF 尋找最優 arm 的演演算法（MF-bandit）

4.2 一個例子 4.3 理論證明

5 Multi-Fidelity RL

5.1 MFRL algorithm

5.2 一個例子 5.3 理論證明

6 實驗：RC car results

7 extensions & conclusions

相關文章