人,才是強化學習在真實世界中面臨的真正挑戰

dicksonjyl560101發表於2019-09-12

https://www.leiphone.com/news/201909/B1unQqqw0HOseTrC.html


導語:我們距離真實世界中的強化學習應用落地可能還有很長的一段路要走。

雷鋒網 AI 科技評論按:隨著 DeepMind、OpenAI 等一系列科技巨頭對強化學習技術的應用,越來越多的科研工作者投入到該領域的研發中。然而,目前大多數的研究工作還停留在通過遊戲進行模擬的階段。在我們對研究者們在 Atari、星際爭霸等遊戲中戰勝人類職業玩家而沾沾自喜的同時,我們更應該意識到,目前的強化學習技術還遠未達到滿足真實世界中通用任務需求的水準。其中,人類對強化學習的獎勵函式設計、訓練過程自我調節等機制的影響是目前研究者們急需突破的重要瓶頸。

如果想要激發強化學習的全部潛力,就需要將強化學習智慧體嵌入到真實世界的經驗流中,讓這些智慧體在我們的世界中,而不僅僅是在它們自己的世界中採取行動、探索和學習。——《強化學習簡介》第二版,Sutton&Barto,2018。

最近,一些被高度認可的研究表明,人工智慧體可以在玩 Atari 遊戲( https://www.nature.com/articles/nature14236 )或下圍棋( https://www.nature.com/articles/nature16961 )時,在沒有人類監督、而是使用強化學習技術進行多輪自我試錯的情況下( https://www.nature.com/articles/nature24270 ),取得與人類相當甚至超過人類的表現。這是人工智慧研究領域的一項巨大成果,它為那些使用監督學習成本太高的應用開啟了另一扇解決方案的大門,也對遊戲之外的許多應用領域產生了影響。那麼問題來了,如何將強化學習智慧體在像遊戲這種理想環境(其中獎勵訊號被明確定義,且十分豐富)中超越人類的效能表現遷移到具有一系列缺點的真實世界環境中。而在這些缺點中,首要的就是人類「教師」的缺點(如下面的漫畫所示,他們顯然無法通過圖靈測試)。

人,才是強化學習在真實世界中面臨的真正挑戰

在自然語言處理領域,真實世界強化學習中的人類因素

讓我們看看人類的學習場景,例如,對於自然語言翻譯來說:一個學習翻譯和口譯的人類學生必須學會:根據不同型別的反饋得出正確的翻譯結果。在某些情況下,人類教師會以翻譯的黃金標準形式提供監督訊號。然而,在大多數情況下,學生必須根據較弱的教師反饋進行學習,這些反饋會指出學生完成任務的效果如何,但並不知道如果學生翻譯的結果不同,將會導致發生什麼情況,也不知道正確的翻譯應該是什麼樣子。與此同時,最優秀的學生會變得像老師一樣,因為他們習得了一套自行控制學習過程的策略( https://journals.sagepub.com/doi/full/10.3102/003465430298487 )。

現在,如果我們的目的是構建一個像人類學生一樣學習翻譯的人工智慧體,在它與作為其老師的專業的人類翻譯者進行互動的過程中,我們會看到相同的對「成本-效益」進行權衡的模式:人類翻譯者不會希望提供一個以正確譯文的形式存在的監督訊號(即使這種訊號是最有用的),作為對智慧體生成的每一個翻譯結果的反饋。相反,在某些情況下,關於系統輸出(或部分輸出)的質量較弱的反饋訊號是一種更高效「學生-老師」互動方式。另一種情況是線上翻譯系統的使用者:他們將扮演「消費者」的角色——有時,他們可能會給出反饋訊號,但很少會給出完整的正確譯文。

在訓練人類和智慧體的時候,我們也看到了類似的教師反饋訊號的模式:人類翻譯學生的人類教師,以及作為人工智慧體的老師的專業翻譯者都是人類。他們給出的反饋訊號是模糊的、有誤導性的、稀疏的(可參考上面的漫畫)。這與強化學習(在遊戲環境下)大獲成功的情況截然不同。在理想的環境下,獎勵訊號是明確、準確且豐富的。有人可能會說,在遊戲中與人類對抗的強化學習智慧體具有不公平的優勢,因為它們所處的人造環境很適合它們發揮自己的能力。

然而,為了在根據人類的反饋進行學習的情況下,也同樣成功地進行強化學習,我們則不應該輕視這些成功的例子,而應該從中學習:目標應該是給根據人類反饋進行學習的強化學習智慧體任何可能的有利條件,從而在這種困難的學習場景下取得成功。為此,我們必須更好地理解根據人類反饋進行學習所面臨的真正挑戰有哪些。

免責宣告

與之前的根據人類強化訊號進行學習的工作(例如,Knox、Stone等人的論文「Interactively Shaping Agents via Human Reinforcement」, https://dl.acm.org/citation.cfm?id=1597738  ;Chiristiano 等人於 2017 年發表的論文「Deep reinforcement learning from human preferences」, https://arxiv.org/abs/1706.03741 ;以及 Leike 於 2018 年發表的論文「Scalable agent alignment via reward modeling: a research direction」, https://arxiv.org/abs/1811.07871 )不同,我們面臨的場景並不是使用人類知識來降低樣本複雜度,從而加速系統的學習過程,而是一種只存在人類反饋的互動式學習場景。該場景適用於許多個性化的情況,在這些場景下,以有監督的方式預訓練的系統會根據人類使用者的反饋在互動式學習過程中被調整和改進。例如,線上廣告、機器翻譯(我們接下來將集中討論)。

最近,Dulac-Arnold 等人在 2019 年發表的工作「Challenges of Real-World Reinforcement Learning」( https://arxiv.org/abs/1904.12901v1 )已經認識到,現實世界中的系統定義不清的現實情況正在阻礙現實世界強化學習的發展。他們解決了諸如離線學習、樣本有限情況下的探索、高維動作空間、或非確定性獎勵函式等問題。這些挑戰對於控制落地在物理世界中的系統或機器人的強化學習模型是非常重要的。然而,他們嚴重低估了互動式學習中的人類因素。我們將基於他們的論文,提出解決一些現實世界強化學習領域公認的挑戰的方案。

確定性日誌條件下的反事實學習

在「Challenges of Real-World Reinforcement Learning」一文中,Dulac-Arnold 等人需要處理的問題之一是:需要在系統無法線上更新的應用程式中用到離線或策略無關強化學習。在商業環境中,由於對低延遲的需求,以及希望在部署之前對系統更新進行離線測試,採用線上學習是不現實的。一個自然的解決方案就是利用反事實學習,複用日誌互動資料,其中預測結果是由一個與目標系統不同的歷史系統得出的。

人,才是強化學習在真實世界中面臨的真正挑戰

然而,線上學習和使用日誌資料進行的離線學習都會受到一個問題的困擾:在商業系統中,「探索」行為是不可行的,因為這意味著向使用者提供低質量的輸出。這會導致我們得到的是缺乏顯式探索的確定性日誌記錄策略,讓使用標準的策略無關方法的應用程式變得不可靠。例如,逆傾向評分、雙重魯棒估計或加權重要性取樣(詳見 Precup 等人於 2000 年發表的論文「Eligibility Traces for Off-Policy Policy Evaluation」, https://www.semanticscholar.org/paper/Eligibility-Traces-for-Off-Policy-Policy-Evaluation-Precup-Sutton/44fe9e7f22f8986d48e3753543792d28b0494db0 ;Jiang 和 Li 於 2016 年發表的論文「Doubly Robust Off-policy Value Evaluation for Reinforcement Learning」, https://arxiv.org/abs/1511.03722 ,以及 Thomas 和 Brunskill 於 2016 年發表的「Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning」, https://arxiv.org/abs/1604.00923 )等技術都依賴於日誌系統對輸出空間的充分探索,作為反事實學習的先決條件。

事實上,Langford 等人於 20008 年發表的「Exploration scavenging」( https://arxiv.org/abs/1604.00923 )以及 Strehl 等人於 2010 年發表的「Learning from Logged Implicit Exploration Data」( https://arxiv.org/abs/1003.0120 )甚至給出了「與探索無關的反事實學習是不可能實現的」這樣的結論。

顯然,當我們可以與商業系統安全地進行互動(即商業系統確定性地與人類使用者進行互動)時,標準的策略無關學習並不適用。

那麼,我們應該怎麼辦呢?研究者們提出的一種解決方案是:寄希望於通過輸入和上下文的變化,隱式地進行探索。Chapelle 和 Li 於 2012 年發表的關於線上廣告的論文「An Empirical Evaluation of Thompson Sampling」( https://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling )已經觀察到了這一點,Bastani 等人於 2017 年發表的論文「Mostly Exploration-Free Algorithms for Contextual Bandits」( https://arxiv.org/abs/1704.09011v5 )從理論上進行了研究。然而, 自然的探索是資料中固有的東西,而不是機器學習可以優化的。

另一種解決方案是,根據確定性的日誌資料,考慮估計時的退化行為的具體情況,並找到可以消除「不可能性定理」的解決方案。其中,一種退化行為是:通過將所有日誌資料的概率設定為 1,可以最大化資料日誌的經驗獎勵。然而,提高低獎勵示例的概率顯然是不可取的(詳見 Swaninathan 和 Joachims 於 2015 年發表的論文「The Self-Normalized Estimator for Counterfactual Learning」, https://papers.nips.cc/paper/5748-the-self-normalized-estimator-for-counterfactual-learning ;Lawrence 等人於 2017 年發表的「Counterfactual Learning for Machine Translation: Degeneracies and Solutions」, https://arxiv.org/abs/1711.08621 ;Lawrence 等人於 2017 年發表的「Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation」, https://arxiv.org/abs/1707.09118 )。

針對該問題,有一種叫做確定性傾向匹配的解決方案,它由 Lawrence 和 Riezler 於 2018 年在「Counterfactual Learning from Human Proofreading Feedback for Semantic Parsing」( https://arxiv.org/abs/1811.12239 )和「Improving a Neural Semantic Parser by Counterfactual Learning from Human Bandit Feedback」( https://arxiv.org/abs/1805.01252 )這兩篇論文中提出,並且在語義解析場景下用真實的人類反饋進行了測試。這種方法的核心思想如下: 給定日誌資料 人,才是強化學習在真實世界中面臨的真正挑戰 ,其中 人,才是強化學習在真實世界中面臨的真正挑戰 是從日誌系統 人,才是強化學習在真實世界中面臨的真正挑戰 中抽樣得來,同時獎勵 人,才是強化學習在真實世界中面臨的真正挑戰 是由人類使用者給出的。在確定性日誌場景下,離線學習的一種可能的目標函式是最大化日誌資料的期望獎勵:

人,才是強化學習在真實世界中面臨的真正挑戰

該函式使用了一個乘法控制變數進行重新加權,根據一些之前的迭代資料在 θ 處使用 OSL(one-step-ate)演算法進行估計(為了高效的梯度計算),其中

人,才是強化學習在真實世界中面臨的真正挑戰  

這種自歸一化操作的作用是,防止低獎勵資料的概率在學習中由於去掉了較高獎勵輸出的概率質量而得以提高。這種操作向估計器引入了一個偏置(隨著 B 的增大而減小),然而,這使得在確定性日誌系統中進行學習成為了可能,從而使強化學習智慧體具有了「在此前被認為,理論上不可能在環境中學習」的優勢。對於語義解析場景的分析可參閱 Carolin 的博文: https://www.cl.uni-heidelberg.de/statnlpgroup/blog/parsing_when_gold_answers_unattainable/

根據人類的「老 虎 機反饋」學習獎勵估計器

Dulac-Arnold 等人在 2019 年發表的「Challenges of Real-World Reinforcement Learning」重點解決的另一類問題是利用有限的樣本、在高維動作空間中、使用非確定性的獎勵函式進行學習。這篇論文簡要描述了互動式機器翻譯場景下的學習:首先,除了收到人類使用者使用一個商用機器翻譯系統的「老 虎 機反饋」(bandit feedback)之外,期望任何東西都是不現實的。也就是說,一個機器翻譯系統的使用者只會給一個確定產生的最佳系統輸出提供一個獎勵訊號,而不能期望他們對同一個輸入的多種翻譯結果打分。商用機器翻譯系統的提供者意識到了這一點,並且提供了非侵入式的使用者反饋介面,允許對翻譯結果進行後處理(負訊號),或者在不作任何更改的情況下複製或共享翻譯結果(正訊號)。

此外,人們對完整翻譯結果質量的判斷需要涉及到一個指數級的輸出空間,而翻譯質量的概念並不是一個定義明確的函式:一般來說,每個輸入的句子都有多種正確的譯文,而人類可能根據不同的上下文和個人因素對這些譯文做出不同的判斷。

令人驚訝的是,如何使強化學習智慧體能夠更好地根據現實世界的人類反饋進行學習,卻很少被人研究。Dulac-Arnold 等人於 2019 年發表的「Challenges of Real-World Reinforcement Learning」可能看起來很直截了當——他們使用了熱啟動智慧體來降低樣本複雜度,或者使用逆強化學習根據示範資料(demonstrations)恢復出獎勵函式,但是它們需要額外的獎勵訊號(這恰恰是強化學習應該緩解的問題)。此外,當涉及到哪種型別的人類反饋最有利於訓練強化學習智慧體時,人們發現很多籠統的描述都指出成對比較在生成量表方面是具有優勢的(相關論文: https://psycnet.apa.org/record/1928-00527-001 ),但是這些說法都缺乏實驗證據。

Kreutzer 等人於 2018 年發表的「Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning」( https://arxiv.org/abs/1805.10627 )是一個例外。他們首次研究了這種人類反饋(成對的判斷或 5 分制反饋)機制,可以讓人類「老師」給出最可靠的反饋結果。他們還研究了這種型別的反饋可以學習出最好地近似人類獎勵、能被最好地融入端到端的強化學習任務中的獎勵估計器。5 分制反饋和成對判斷的示例介面如下所示:

人,才是強化學習在真實世界中面臨的真正挑戰

不同於普遍接受的看法,在 Kreutzer 等人 2018 年的工作中,他們發現 5 分制評分的評分者信度(Krippendorff’s α=0.51)要高於成對判斷(α=0.39)。他們通過對每個評分者的基本判斷進行標準化,消除個人偏見的可能性,從而解釋這一點,並且過濾掉了評分者信度較低的評分者。成對判斷主要的問題是差不多好或者差不多差的翻譯結果之間的區別(較小),我們可以將這樣的翻譯結果過濾掉,從而提高評分者信度,最終得到上文所述的評分者信度。

此外,當我們使用從 800 份譯文中收集到的判斷訓練獎勵估計器時,他們通過估計出的獎勵和對翻譯結果的後處理(相較於人類參考譯文)率之間的相關性來衡量可學習性。他們發現,使用 5 分制反饋訓練的迴歸模型的可學習性要優於使用成對排序反饋訓練的「Bradley-Terry」模型(最近 Christiano 等人於 2017 年發表的「Deep Reinforcement Learning from Human Preferences」中使用了這種技術, https://arxiv.org/abs/1706.03741 )。

最後,最重要的一點是,當他們將獎勵估計器融合到一個端到端的強化學習任務中時,他們發現,我們可以通過使用 800 個主要使用者判斷訓練的獎勵估計器,將神經機器翻譯系統的效能提升 1 個 BLEU 點以上。

這不僅僅是一個讓人充滿希望的實驗結果,指明瞭未來的真實世界強化學習研究可能的發展方向 ,而且也在一種方法中同時解決了 Dulac-Arnold 等人於 2019 年提出的三個挑戰(有限的樣本,高維動作空間,非確定性獎勵函式):獎勵估計器可以在非常小的資料集上進行訓練,然後整合為高維動作空間上的獎勵函式。這個思路是為了解決一個簡單的問題:首先根據人類反饋學習到一個獎勵估計器,然後提供無限的反饋,從而泛化到策略無關強化學習中之前未見過的輸出上。

未來的研究方向:自我調節的互動式學習

如前文所述,人類學生必須能夠在資訊量最大的學習訊號最稀疏的情況下進行學習。這是因為教師的反饋是有成本的,因此必須「較為節約」地請求罕見的以黃金標準輸出的反饋。此外,學生必須學會如何自動調節他們的學習過程,學會在何時尋求幫助,以及尋求何種幫助。這雖然不同於經典的、反饋成本可以忽略不計的強化學習遊戲(我們可以永遠就模擬遊戲),但在現實世界中也是行不通的,特別是在探索行為成本非常高(非常危險)的情況下。

讓強化學習演算法學會自我調節是一個新的研究方向,它試圖賦予人工智慧體一種傳統上對於人類非常困難的決策能力——權衡使用不同型別的反饋進行學習的成本和效果。這些反饋包括教師演示或糾錯提供的全面監督、對學生預測的正面或負面獎勵形式的弱監督,或者學生產生的自監督訊號。

人,才是強化學習在真實世界中面臨的真正挑戰

Kreutzer 和 Riezler 等人於 2019 年發表的「Self-Regulated Interactive Sequence-to-Sequence Learning」( https://arxiv.org/abs/1907.05190 ),展示瞭如何將一個自我調節(self-regulation)的學習任務轉化為一個學著去學習的問題,他們通過使智慧體意識到「成本-獎勵」的權衡問題並對其進行管理,從而解決上述問題。

在互動式神經機器翻譯任務的模擬實驗中,他們發現自我調節演算法是基於不確定性的主動學習演算法的一個強大的替代方案(詳見 Settles 和 Crave 等人於 2008 年發表的「An Analysis of Active Learning Strategies for Sequence Labeling Tasks」, https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=2ahUKEwi3546ZrtDjAhWRr6QKHTJ7AgMQFjAAegQIBRAC&url=https%3A%2F%2Fwww.biostat.wisc.edu%2F~craven%2Fpapers%2Fsettles.emnlp08.pdf&usg=AOvVaw2hhRs69DCAsD2fv79JuL6b ),並且發現了一種用於通過混合不同型別的反饋(包括教師糾錯、錯誤標記和自監督)實現最優質效平衡的 ϵ-貪婪策略。當然,他們的模擬場景抽象出了在真實世界的互動式機器學習中所期望的某些混雜變數。然而,所有這些都是對帶有人類教師的真實世界強化學習進行研究的有趣的方向。

從人類反饋看強化學習的吸引力

我們試圖表明,在現實世界強化學習任務中存在的一些挑戰源於人類老師。在之前的工作中,人們往往只考慮將人類老師作為一種幫助:在只能使用人類使用者的反饋讓人工智慧體更加個性化、更加適應環境的情況下,標準的在監督學習中記住大量標籤的技巧,或者是在無限次迭代的過程中使用低成本的、準確的獎勵自動訓練強化學習系統,都不會起作用。

如果我們想要讓強化學習可以使用「具有成本意識」、深奧的人類教師來反饋訓練人工智慧體,我們需要確保智慧體不依賴大規模的探索,我們也必須學習那些優秀的人類反饋模型。看看人工智慧體在相同的資訊匱乏的情況下「如何學習、會學到什麼」是非常有趣的,而人類學生不得不面對這些狀況。希望這樣的工作能夠催生可以通過成果適應人類的需求,從而幫助人類的人工智慧體誕生!

 via  https://www.cl.uni-heidelberg.de/statnlpgroup/blog/hrl/   


https:/https://www.leiph、


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2656856/,如需轉載,請註明出處,否則將追究法律責任。

相關文章