演講者簡介:
Joelle Pineau,圖源:https://research.fb.com/why-diversity-matters-in-ai-research/
加拿大麥吉爾大學副教授、William Dawson 學者,麥吉爾大學推理與學習實驗室聯合主任;
Facebook 蒙特利爾 FAIR 實驗室負責人;
在滑鐵盧大學獲得學士學位,在卡內基梅隆大學獲得機器人學碩士與博士學位;
致力於開發在複雜、區域性可觀察領域中規劃和學習的新模型和演算法,還將這些演算法應用於機器人學、醫療、遊戲及對話智慧體中的複雜問題;
Journal of Artificial Intelligence Research、Journal of Machine Learning Research 雜誌編委會成員,國際機器學習學會(International Machine Learning Society)主席;
加拿大自然科學與工程研究理事會(NSERC)的 E.W.R. Steacie Memorial Fellowship(2018)、AAAI Fellow 及 CIFAR 高階 Fellow,2016 年被加拿大皇家學會評選為「College of New Scholars, Artists and Scientists」成員。
可復現性、可重用性及穩健性
演講一開始,Joelle Pineau 引用 Bollen 等人 2015 年向國家科學基金會提交的《Social, Behavioral, and Economic Sciences Perspectives on Robust and Reliable Science》解釋了三個名詞——可復現性、可重用性及穩健性(Reproducibility,Reusability,Robustness):
「可復現性指研究者重複過去某個研究的能力……」
「可重用性:使用與原研究者相同的材料。」
「可復現性是一項研究可信、資訊充分的最低必要條件。」
實際上,Joelle 不是第一個提出可復現性問題的研究者。2016 年,《Nature》發起了一項名為《Is there a reproducibility crisis in science?》的調查。
調查結果顯示,52% 的科學家認為存在重大的可復現性危機。在化工領域,超過 85% 的科學家在復現他人的實驗時遭遇過失敗,甚至復現自己實驗的失敗率也超過 60%。
強化學習(RL)
之後,Jolle Pineau 簡短地介紹了強化學習的一些背景。在強化學習中,智慧體通過採取行動並獲取獎勵來學習策略。強化學習是用於序列決策的通用框架,智慧體可以通過試錯從稀疏反饋中學習。大量問題可以通過這一簡潔框架得到更好的解決。
強化學習演算法已經在圍棋和 LIBRTUS 等遊戲中取得了令人驚豔的結果。除了遊戲以外,強化學習技術還廣泛應用於機器人學、電子遊戲、對話系統、醫療干預、演算法改進、農作物管理、個性化輔導、能源交易、自動駕駛、假肢控制、森林火災管理、金融交易等諸多領域。
Joelle Pineau 教授還提到她在自適應神經刺激(Adaptive Neurostimulation)方面的研究。她的團隊利用 RL 框架,優化用於學習癲癇症的神經刺激裝置的超引數。他們遇到的挑戰是,這些在模擬環境中訓練的 RL 智慧體究竟有多可靠以及如何將訓練好的模型從模擬環境遷移到現實世界場景。這也是她如此關注可復現性及穩健性問題的主要原因。
策略梯度方法
從過去 25 年的強化學習論文直方圖可以看出,強化學習研究正處在一個快速增長的時期。2000 年大約有 2000 份論文發表,而到了 2018 年,這一數字超過了 20000。對於我們來說,想要追蹤這一領域所有的新技術、新演算法是非常困難的,此處我們重點討論策略梯度方法。策略梯度方法的基本思路是學習某個策略並將其表示為函式,該函式可以通過神經網路或其他迴歸函式來表示。其目標是最大化採取一系列動作後獲得的累積獎勵。
Joelle 還列出了 NeurIPS 2018、ICLR 2018、ICML 2018、AAAI 2018、EWRL 2018、CoRL 2018 中關於策略梯度的多數論文,發現大部分論文都使用這幾種策略梯度基線演算法,即 Trust Region Policy Optimization(TRPO)、Proximal Policy Optimization(PPO)、Deep Deterministic Policy Gradients(DDPG)和 Actor-Critic Kronecker-Factored Trust Region(ACKTR)。
為了評估這四種策略梯度演算法的穩健性,Joelle 的團隊在 Mujoco 模擬器中的三種不同遊戲環境中對其進行測試。他們發現,藍色曲線在 Swimmer 環境中變化很大。實現有問題?他們帶著疑問從線上原始碼中選取了 7 個 TRPO 實現,得到了非常令人驚訝的不同結果,DDPG 實驗中也是如此。
因此他們在不同的策略網路架構、單元啟用函式和獎勵縮放(reward scaling)、歸一化技術等情況下,評估了超引數配置的效果,並再次得到大量的不同結果。Joelle 質疑:可能人們沒有動力去尋找令基線模型得到最優效能的超引數配置,只是圖方便使用預設的超引數配置。
為了確保對不同方法進行公平合理的對比,Joelle 的團隊減少了一些歸一化技術,尤其是一些超引數預算。該團隊使用最優超引數配置重新執行同樣的 TRPO 程式碼,結果有顯著差異,而原因僅僅是 5 個不同的隨機種子。或許 5 仍然不夠?那麼應該試驗幾次呢?從對近年來其他強化學習論文的研究來看,似乎 5 已經是上限並足夠了。Joelle 用諷刺的口吻說道,一些人執行 n 次實驗來得到好的結果(n 不是指定的),然後選擇 top-5 結果。
這是否意味著強化學習並沒有什麼用,「深度」只有一點點效果?Jolle Pineau 強調,她並不是暗示人們應該放棄強化學習技術,而是有時候公平對比並不能反映全部情況。
a. 不同的方法有不同的超引數集合。
b. 不同的方法對超引數具備不同的敏感度。
c. 最優方法往往取決於資料/計算預算。
因此研究社群需要仔細思考自己的實驗,審慎地報告自己的實驗結果。Joelle 還研究了 2018 年的 50 篇強化學習論文(發表在 NeurIPS、ICML、ICLR 上),發現很少有論文進行了有意義的測試。
可復現性檢查清單
Joelle 教授提出可復現性檢查清單,並鼓勵研究社群將該檢查清單作為論文提交過程的一部分。
對於論文中的所有演算法,檢查是否包含:
1. 對演算法的清晰描述。
2. 對演算法複雜度(時間、空間、樣本大小)的分析。
3. 下載原始碼連結,包含所有依賴項。
對於論文中的所有理論論斷,檢查是否包含:
1. 結果陳述。
2. 對假設的清晰闡述。
3. 對理論論斷的完整證明。
對於論文中展示實驗結果的所有圖表,檢測是否包含:
1. 對資料收集過程的完整描述,包括樣本大小。
2. 資料集或模擬環境可下載版本的連結。
3. 解釋訓練/驗證/測試資料集中的樣本分配情況。
4. 解釋被排除在外的任何資料。
5. 考慮的超引數範圍、選擇最優超引數配置的方法,以及用於生成結果的超引數規格。
6. 評估執行次數的確切數字。
7. 對實驗執行的具體描述。
8. 對用於報告結果的特定度量或統計資料的清晰定義。
9. 清晰定義的誤差棒(error bar)。
10. 包括集中趨勢(如平均值)和變化(如標準差)的結果描述。
11. 所用的計算基礎設施。
Joelle 解釋了基礎設施在可復現性中的作用,稱即使像分散式計算系統和 CUDA 運算這樣的硬體仍然存在可變性空間,因此指明所用的計算基礎設施是有幫助的。
Joelle 教授認為可復現性檢查清單並不意味著安全保障,但可以作為對研究社群的提醒。例如,在 ICLR 2018 復現挑戰賽中,80% 的作者在收到反饋後修改了自己的論文。
強化學習是機器學習中唯一可以在訓練集上進行測試的案例嗎?
在經典強化學習中,智慧體是在同樣的任務上進行訓練和測試的。而對於通用人工智慧(AGI)來說,智慧體可在任意事物上進行測試,即整個世界都可以是測試集。
測試泛化效能的一個好方式是分割訓練任務和測試任務。有大量研究是基於此的,比如多工強化學習和元學習。Joelle 提出,我們不需要在那個方向上做進一步研究,但可以選擇分離隨機訓練和測試種子,以帶來可變性(variability)。
泛化誤差是為訓練 RL 智慧體而定義的:
我們評估訓練種子的實驗回報(empirical return),也要考慮測試種子的實驗回報。隨著訓練過程的進行,訓練和測試之間的效能差距會減小。模擬實驗證明,只要我們將種子提高到 5 或 10,泛化誤差將顯著下降。但是這存在一個問題:這麼少的種子就可以使我們本質上記住現實世界的某個領域嗎?畢竟自然世界非常複雜。
然而,很多強化學習基準非常簡單,比如 Mujoco 中的低維狀態空間、ALE 中的少量動作等。它們易於記憶,但也易受擾動的干擾。那麼如何解決這個問題呢?Joelle 教授提出我們可以尋找一種機制,既保持模擬器的便利性,又囊括一些現實世界的複雜度。
第一個策略是在強化學習模擬訓練過程中使用自然世界影像。因為這些影像來自自然世界,因此它們具備我們想要的自然噪聲,引入了大量可變性(從觀察的角度)。在 MNIST、CIFAR10、CIFAR100 資料集上的實驗展示了不錯的大型分割。
第二個策略是向強化學習模擬新增現實世界視訊。例如 Atari 遊戲,因為它的背景比較簡單,我們可以在背景中新增一些隨機的現實世界視訊,從而得到來自現實世界的不同訓練/測試視訊,用來進行清晰的訓練/測試分割。
按照這個方向,未來我們有很多事可以做。近期相關的一項研究是來自 Facebook 現實實驗室(Facebook Reality Lab)的逼真影像模擬器中的多工強化學習。
那麼回到這個問題:強化學習是機器學習中唯一可以在訓練集上進行測試的案例嗎?
答案是未必!因為我們可以分別使用隨機種子進行訓練和測試,可以在強化學習模擬中新增其他影像或視訊背景,還可以在逼真影像模擬器中訓練多工強化學習。
最後,Joelle 教授鼓勵我們研究現實世界!但是你必須有耐心,因為現實世界需要大量探索。Joelle 教授認為,將科學當成一項競技體育專案不適用於當下,科學是一項致力於理解和解釋的共同努力。