機器之心原創
機器之心海外部
作者:Tony Peng、Alex Chen、Qintong Wu、之乎
美國時間週四,NIPS大會走完了日程的一半。工業界的眾多公司搬東西撤出了展覽會場,受邀演講也全部結束。之後亮點除了當地時間週五週六的Workshop以外,就是週四下午的四場重要的研討會——從元學習和深度強化學習,到DeepMind剛剛公佈的AlphaZero,以及Yann LeCun參加了NIPS史上第一次辯論,一天的精彩內容盡在此文中。
Kinds of Intelligence:Alpha Zero成全場焦點,認知科學大牛唱反調
Kinds of Intelligence主要討論了實現智慧的多種途徑,吸引了眾多參會者前來。不少生物界、心理學界和認知科學界的專家分享了人工智慧以外的研究。
DeepMind的CEO Demis Hassabis也是此次研討會的嘉賓。Hassabis上臺時,現場雷動。諾達的會議大廳坐無缺席,連走道上都是參會者,逼得保安不得不過來安排下秩序。學術圈的大會熱捧工業界的新星,也只有DeepMind能享受這番待遇。
週二,DeepMind公佈了其圍棋程式的最新迭代AlphaZero。和AlphaGo Zero一樣,AlphaZero不需要人類的知識,完全靠自我對弈的強化學習,從零開始。不同的是,AlphaZero擁有更強大的泛化能力,經過不到 24 小時的訓練後,Alpha Zero可以在國際象棋和日本將棋上擊敗目前業內頂尖的AI程式(這些程式早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。
Hassabis先介紹了DeepMind和AlphaGo的發展歷程,然後著重介紹了AlphaZero是怎麼從圍棋泛化到國象和日本將棋上。
目前最前沿的國象AI程式依然使用Alpha-Beta搜尋和啟發演算法。2016年TCEC世界冠軍Stockfish是這個領域最好的AI程式,但Stockfish依然需要大量手動調整,包括棋局表徵、搜尋、落子順序、評估以及殘局庫。AlphaZero呢?只需要基於自我對弈強化學習加自我對弈蒙特卡洛樹搜尋即可。同時,Alpha Zero可以完全在這三種不同的棋類遊戲中泛化,三種棋類背後的演算法和超引數完全相同。
AlphaZero的戰績是顯著的:對陣國象AI程式Stockfish是28勝72平0負;對陣將棋頂尖程式Elmo是90勝2平8負;對陣訓練三天的AlphaGo Zero是60勝40負。
Hassabis提到了有關AlphaZero的幾個有趣的事實:下棋的每個決定都需要一定的搜尋量。人類一般是10次,目前最先進的國象程式是1000萬次,AlphaZero則是10000次,介於兩者之間;AlphaZero下國象中,擯棄了許多人類的招數,比如Kings Indian Defence、French Defence和Queen Pawn Game,這三種都是很常見的國象開局方式;AlphaZero偏愛長期位置犧牲(long-term positional sacrifices),為了最後的贏面在前期犧牲掉部分棋子。
擁有更好泛化能力的AlphaZero讓很多人相信人類離通用人工智慧(AGI)又進了一步。然而,其他幾位受邀嘉賓並不買賬。東海岸的兩位認知科學大牛——紐約大學的Gary Marcus和來自麻省理工大學的Josh Tenenbaum都不認為AlphaZero代表了AGI的研究方向,
Tenenbaum認為智慧不僅僅是將一個公式計算的特別好,而是思考到底解決什麼樣的問題。他提出了一個非常有意思的想法:建造一個像小孩子一樣學習的機器。
Tenenbaum向觀眾展示了一個視訊:一個小孩看到大人雙手捧著書,在一個關著門的書櫥前踱步,小孩很自覺地走上前把門開啟。這樣的理解能力和操作能力,是機器做不到的。要建造這樣的機器,需要三個步驟:建立一個具備常識的核心;用這個核心學習語言;用語言學習任何東西。
之後登場的Marcus,更是圈內有名的“辯論手”(詳細參見他十月和Yann LeCun的爭論)。此次演講,他還專門為了AlphaZero做了篇PPT:AlphaZero只適用於完美資訊的遊戲博弈中,但並不適合通用人工智慧。
Marcus提出了一個有關“認知”的公式:Cognition=f(a, k ,e),其中a代表先天的演算法,k代表先天知識,e代表經驗。這個公式同樣可以適用於Alpha Zero。完美資訊棋盤博弈獲得成功的條件是棋盤規則+經過人類程式設計的棋局表徵,a則是強化學習+蒙特卡洛樹搜尋+基於經驗得到的超引數,即使沒有了先天知識k,AlphaZero同樣獲得了成功。
但無論是圍棋、將棋、國象,都和生活是不一樣的:棋局是完美資訊,但生活是不完美資訊;棋局可以被完美模擬,生活卻不可能;棋局裡可以有無限的資料,而生活裡的每個事物的資料量都不多;棋局裡唯一要緊的是盤面狀態,但生活裡,什麼都有要緊。
所以,在一個開放的世界裡,先天的演算法和先天的知識需求量都會增加,就不是Alph Zero可以應付的了。
另一個Marcus從DeepMind中得到的結果是,即使是在完美資訊的遊戲中,一些先天的結構依然不可缺少,比如蒙特卡洛演算法。所以,他強調AlphaGo Zero以及AlphaZero不是所謂的“零知識”。這裡的“零知識”只針對專有領域知識(domain knowledge),不包括像蒙特卡洛樹搜尋這樣經過人類多年研究的演算法。
最後,越說越激動的Marcus大聲疾呼:“生活不是一場Kaggle競賽!”
“在生活中,沒有東西是被整齊的預先包裝好的(像Kaggle裡的資料集那樣),沒有人能保證你昨天的挑戰和今天的挑戰一樣,你希望學習的是可以重新使用的技能和知識,並且可以用在未來的挑戰裡,而實現這種可重用性才應該是大家關注的重點。”
除了有關AlphaZero的爭論外,這場研討會也提供了其他研究人工智慧的思路。
來自加州伯克利大學心理學和哲學教授Alison Gopnik倡導將兒童的學習方法與人工智慧相結合。Gopnik是第一位將概率模型應用於兒童學習的認知科學家,特別是使用因果貝葉斯網路框架。 在過去的15年中,她將計算模型應用於早期認知發展的許多領域,包括物理和社會概念的學習。
阿蘭圖靈在1950年就說過,“與其嘗試模擬成人的大腦,為什麼不直接創造一個模擬小孩的大腦。” Gopnik在研究中發現,一個四歲的小孩可以理性地從條件概率推斷複雜的因果結構;在面對新證據後,會整合和推翻先前的知識;推斷出未觀察過的結構;推斷出抽象的分層超假設;在物理、生物和心理學領域推斷出理論知識。
近幾年,越來越多的研究人員發現年級小的孩子更具有探索性。Gopnik總結了小孩子的學習特點,比如具有很強的求知慾而不是獎勵機制,這些發現都對人工智慧研究帶來了一些新的方向和思考。
Interpretable Machine Learning :一場關於機器學習可解釋性的辯論
近年來,複雜的機器學習模型(如深度神經網路)在影象識別、語音感知、語言建模和資訊檢索等廣泛的應用方面取得了出色的效能。人們對解釋由這些模型習得的表徵及決策的興趣逐漸爆發出來,也催生了在可解釋機器學習,因果關係,安全AI,社會科學,自動科學發現,人機互動(HCI),眾包,機器教學和AI道德等方面的研究。這場可解釋機器學習的研討會的目的在於將這些密切相關但往往被孤立的主題聯絡在一起。
可解釋的機器學習,使我們可以參考模型的預測結果,還有可能通過理解模型的結構更好地理解命題本身,例如犯罪預測及公共政策制定等;同時,理解模型本身又可以讓我們可以建立更準確的預測模型;在自動駕駛等領域,我們需要超越現在的“黑箱模型”的可解釋模型來避免罕見但代價慘重的錯誤。
NIPS可解釋機器學習研討會包含6個演講,以及兩場討論,並公開宣佈了一場可“解釋挑戰賽”。(https://community.fico.com/community/xml)。
上半場的演講主要就如何進行可解釋機器學習研究的方法展開,兩位演講者介紹了因果概率關係,以及一種結合物品檢測和CNN影象特徵,生成可理解的物品影象內容。
在可解釋挑戰賽公佈之後進行的第一場小組討論以十分平和的方式展開,Hanna Wallach, Kiri Wagstaff, Suchi Saria, Bolei Zhou和Zack Lipton 探討了再進行可解釋研究中常見的問題,以及需要注意的事項,有趣的是在討論的最後,嘉賓們達成了一致,“明確需要進行解釋的物件是誰”非常重要。
在 NIPS 2017第四日下午的可解釋機器學習專題研討會的最後一個小時,一場辯論點爆了現場的氣氛,並吸引了大量的參會人員現場圍觀。毋庸置疑,這是第四天的Symposium中最火爆的一場。
這場NIPS 有史以來第一場辯論的主題為 “可解釋性在機器學習中是必要的”(Interpretable is necessary in machine learning)。
正方一辯:微軟研究院傑出工程師 Patrice Simard
正方二辯:微軟研究院高階研究員 Rich Caruana
反方一辯:Facebook 人工智慧研究部門(FAIR) 負責人 Yann LeCun
反方二辯:康奈爾大學副教授 Kilian Weinberger
本次辯論由正反方分別陳述各自觀點拉開序幕:
正方一辯 Rich Caruana:
Caruana舉了一個例子:醫院用深度神經網路來決定肺炎病人的住院順序,死亡率高的入院。但是,模型通過某項資料發現,患哮喘的人肺炎的死亡率比較低,因為他們經常會去醫院配藥、做診斷等等,所以很多病情發現的早。那麼按照這個模型的設定,同樣患肺炎的人,患哮喘的人是不是應該排在隊伍的後面。
Caruana想用這個例子說明,社會中很多基於資料的模型做決定,但往往沒有正確地評估這個模型是否預測出正確的結果。解決的方法有,就是可解釋模型。通過在可解釋機器學習上的研究,他們發現不只是哮喘,心臟病也會降低肺炎病人的死亡率,道理是一樣的。如果不解決可解釋性,根本無法預料這些問題的存在。
反方一辯 Yann LeCun:
LeCun的觀點非常直接:世界上有這麼多應用、網站,你每天用Facebook、Google的時候,你也沒有想著要尋求它們背後的可解釋性。人類的大腦有限,我們沒有那麼多腦容量去研究所有東西的可解釋性。有些東西是需要解釋的,比如法律,但大多數情況,它們沒有你想象中那麼重要。
LeCun也舉了個例子:他多年前和一群經濟學家做了一個模型預測房價。第一個用的簡單的線性預測模型,經濟學家也能解釋清楚其中的原理;第二個用的是複雜的神經網路,但是效果比第一個好上不少。結果,這群經濟學家想要開公司做了。你說他們會用哪一個?
LeCun表示,任何時候在這兩種裡做選擇,所有人都會選擇效果好的那一個。很多年裡,我們不知道藥物裡有什麼成分,我們一直在用。最後,LeCun認為,整個神經網路是黑箱的故事,它並不是黑箱,你可以看到所有的引數,你可以做靈敏度分析。我們常常被解釋性所催眠,因為它讓我們放心。
正方一辯 Patrice Simard:
Simard的主要意思是說到機器學習,就應該有一個準確的定義。機器學習的作用是從壞的函式中找到好的函式,我們可以把這個好函式的集合稱為假設空間(hypothesis space)。很多人覺得深度學習的假設空間是固定的,但假設空間可以變得非常非常大(因為我們可以定義無限多的問題)。在我們逐步學習了文字,學習語言,學習了各種各樣的東西的過程中,假設空間也在不斷增加,這種小的積累過程讓學習變的更容易,這可以被稱為結構可解釋性。
Simard的觀點是,不關心可解釋性的人應該停止來NIPS大會解釋最新的假設空間。 而關心解釋性的人可以記錄假設空間的進化,讓學習變得可以被解釋,變得更容易。
反方二辯 Kilian Weinberger:
在現實中,可解釋性並沒有那麼重要。人人都在用很複雜的東西,比如很少有人能夠完全理解英特爾的i7晶片的工作原理,但大家都很自然地用,而且很好用。機器學習也是這樣。 在一些情況下人們會需求可解釋性:一個是需要了解資料,神經科學家和生物學家需要進行研究,但他們其實需要的是敏感性分析 (sensitivity analysis)。他們只是需要知道什麼特徵會如何影響輸出結果。另一個是機器學習debugging,但這個並不會幫助人們理解機器學習是如何運作的。最後一個是可靠性(accountability)。不懂的人關心可解釋性是因為信任度(trust),正如80年代時人們發現乘坐的是女飛行員駕駛的飛機時會下飛機。30年之後,人們也會覺得害怕自動駕駛汽車的人是很奇怪的。
Kilian問現場聽眾一個問題 —— 假設你要做心臟病手術:醫生做手術有10%的死亡率;而手術機器人只有1%的死亡率。當醫生出錯時,醫生可以理解自己犯了什麼錯而機器不會。這種情況下,是選讓醫生動手術還是手術機器人? 不出所料,大部分現場聽眾都選擇了使用手術機器人。
在正反雙方進行完觀點陳述後,辯論進入第二個環節:正反雙方互相答辯。雙方就各自的觀點進行了充分且辯證的討論,雙方探討內容包括但不侷限於,因果關係概率的重要性,測試的可靠性問題,結果可複製性問題等。
在辯論的最後一個環節,每位選手要求對對方辯題陳述一個自己認為最好的觀點:
Yann LeCun:在機器擁有意識之前,機器會一直犯錯。在對部署系統進行測試的時候尤其需要注意,不能忽略常識相關的測試場景。
Patrice Simard:過去神經網路不好用是因為資料不夠多,但越來越多的資料會讓模型的各種效能,包括可解釋性也變得更好。
Kilian Weinberger:當人看到機器學習演算法進行決策的時候,我們會用人的思維去理解機器;可解釋性可以讓我們理解機器的運轉方式與人不一樣。
Rich Caruana :人們介意的是準確度,而並不是很介意是否可以解釋,可能只有科學家會為了完善理論而傾向可解釋的模型。
Meta Learning:四大門派的觀點衝突和Schmidhuber的驕傲:
Meta-learning 專題研討會開始於對當前深度學習模型複雜度的探討:超引數的除錯與網路結構直接決定了訓練的最終效果,但是這兩部分的選擇隨著深度學習的發展變得愈加繁重。想象一下從相對簡單的5層LeNet到異常複雜的GoogleNet,雖然模型的結果得到了令人驚訝的提升,但是其複雜的程度不再是幾個工程師或是學者可以輕易接受的。Meta-learning正是對這樣的關鍵問題進行的研究,儘管目前學界並未在Meata-learning的定義上達成一致,但是無論從何種角度出發最終的目標均是一致的:成熟的Meta-learning方法可以減輕工程師和學者在應用與研究過程中對模型除錯的壓力,從而將精力集中在解決主要問題上。本次研討會從以下4個角度出發,對未來Meta-learning的發展進行探討。
Evolving Optimization 主張學習演算法的結構是最為重要的研究方向,因此這一流派認為對於任意的學習問題,主要的學習框架應由人來構建,而其餘的任務則交給計算機來完成。事實上,當我們回顧所有成熟的工程問題時,我們會發現人們在解決這些問題時只需要將時間與精力投入在高層次的框架設計上,其中的細節均由計算機依照優化的目標迭代設計。為什麼在機器學習的問題上我們還不能達到這樣的程度呢?被廣泛接受的說法是通用的機器學習演算法的搜尋空間巨大,在有限的時間與資源下難以尋找到最優的方法。正是針對這一問題,Evolving 流派認為從遺傳的角度來尋找構建Meta-learning系統是合適的。
Bayesian Optimization 認為在學習過程中(Hyperparameters)對超引數的調整效率是極低的,且代價是極為昂貴的。考慮(Model Selection)模型選擇的問題,研究者根據有限的資料反覆嘗試不同的引數組合去選擇在當前資料集支撐下的最優模型,如果不考慮根據常識經驗得到的通用設定,得到最優解的時間顯然是隨著超引數數目指數級增加的。通過 Bayesian Optimization 的方法,同時進行 exploration 和 exploitation,尋找最優引數的過程將有可能得到加速。值得一提的是,使用 Bayesian Optimizaiton 理念的 AutoNet 工具包是第一個在深度學習競賽中獲勝的 AutoML 工具包。
Gradient Descent 方面認為 Meta-learning 可以有三種方法實現: 1> Model Based, 2> Metric based, 3> Optimization Based。在目前的研究中,這三種方法並沒有優劣之分,各有千秋。同時,優秀的學習被定義為成功地融合學習演算法結構、優化學習所需要的資料以及優化方法的細節,缺少任一項學習的效果均會大打折扣。Meta-learning 應當被定義為從通用的學習目標開始,收到特定的(設計好的)影響後逐漸變為專精的學習過程。而真正的端到端學習則是機器具有能力計算並學習任意的模型,從而有目的的解決不同問題。
Reinforcement Learning 認為在學習中要解決特定的問題,則必須在學習之前獲得足夠正確的先驗知識。這一點明顯的反映在獎勵函式(Reward Function)的設計上,一旦獎勵函式被正確的設計,整個學習過程並不需要過多的人為干預。於是,能否正確的建立關於學習的模型成為了Meta-learning的關鍵。設計獎勵函式的做法,往往也被稱為引入inductive bias,即將人為的經驗加入到機器的學習過程中從而加速學習正確目標的過程。然而,這種做法的正確性也得到了討論:往往人為設計的獎勵函式僅考慮到與目標的契合,而忽略了與agent行為的一致性。這種失配被稱為Preferences-Parameters Confound。
顯然,這四個角度對於Meta-learning的理解各有側重,甚至存在不少衝突的觀點。在 Juergen Schmidhuber 教授的演講中,他針對真正的端到端學習給出了自己的定義。而在接下來 Satinder Singh 教授的演講中,Singh教授直言不諱,劃掉了PPT中的Meta-learning字樣:看過剛剛Schmidhuber 教授的演講,我自覺不足以在這裡討論Meta-learning的話題,接下來只側重Reinforcement Learning。由此可見對於這樣仍然未被完全定義的領域中,不同的學者對於Meta-learning的看法有多麼大的分歧。當然,正是這樣的分歧與爭論不斷推動著 Meta-learning 向前發展。
Deep Reinforcement Learning - DRL的泛化之路
自從AlphaGo在2016年戰勝了諸如李世乭和柯潔後,深度強化學習受到了越來越多的關注。本次NIPS大會期間,DeepMind公佈的AlphaZero更是讓深度強化學習的分享備受期待。
第一位演講者是來自Google DeepMind的David Silver,演講題目“AlphaZero - 不用人類知識來駕馭棋類比賽”。David Silver是倫敦大學學院的電腦科學教授,目前在Google DeepMind任職,是Alpha系列程式的核心研究者。
在演講中,他首先介紹了圍棋的特點,強調圍棋比起其他棋類可以有更多的變化。然後話鋒一轉進入演講的主角Alpha系列的發展。作為第一個擊敗人類世界冠軍的程式,AlphaGo包含兩個不同的神經網路:策略網路和價值網路,再結合著名的蒙特卡洛樹搜尋來完成訓練。同AlphaGo相比,它的迭代版本AlphaGo Zero採用了第一法則學習原理。該方法相比之前主要有如下四個特點:1. 無人類資料;2. 無人工特徵; 3. 單獨的神經網路; 4.簡單搜尋。可以看出比起上一代AlphaGo Zero有了相當程度的簡化,此時演講者指出了他的重要觀點:越簡單,越廣泛(Less complexity → More generality)。接著Silver介紹了AlphaGo Zero的兩種新的神經網路,其中策略網路用來預測圍棋如何下子,而價值網路負責預測獲勝者,二者的合成被應用在ResNet上。至於新的搜尋方法,在AlphaGo中主要採用Search-based policy improvement和Search-based policy evaluation兩個角度來完成強化學中的Search-based policy迭代。
在對原理有了大概的介紹後,Silver對比了AlphaGo Zero與之前版本的效能對比。其中AlphaGo Zero三天可以超過AlphaGo Lee,21天可以超過AlphaGo Master,在40天的訓練後就可以擊敗世界冠軍。在訓練過程中研究者發現一個有趣的現象,AlphaGo好像逐漸學會了一些特定棋譜,並熱衷於把它們應用於比賽。
接下來,最新的版本AlphaZero讓棋類比賽更加簡單。AlphaZero通過200到400次不等的迭代就已經可以分別在國際象棋(Chess),將棋(Shogi),和圍棋(Go)中擊敗現有最強的棋類演算法。其中象棋需要4小時,將棋需要2小時,擊敗AlphaGo Lee僅僅需要8小時訓練。AlphaZero的具體資訊雖然這次並沒有透露,但其強大的能力讓我們對深度強化學習多了一份期待。最後演講者再次點題,堅持簡單的演算法可以應用與更多的場景。
之後的提問環節,有觀眾對完全沒有人類知識表示不解。這裡Silver給出解釋,在模型的輸入資訊中除了包含規則外還有一定很簡單的圍棋的輸入和輸出範例,但數量很少,而且非常初級。
第二個重要演講者Joelle Pineau,是來自麥吉爾大學電腦科學系的教授。她的主要研究方向集中在“Planning, learning and decision-making,mobile robotics, human-robot interaction” 和 “adaptive treatment design。”
這次她的研究是關於學術研究的心病 - 論文復現。由於研究者操作手段不同,資訊不對稱等,對結果復現造成了很大的難度。這個問題嚴重困擾科學研究,讓成果驗證更難。根據自然雜誌的調查結果,在1576名受試者中,有52%的人認為這是一個嚴重的危機,38%的人相信這有影響。在另一項調查中,大部分科研工作者都經歷過無法復現別人成果的痛苦。其中化學領域超過80%,生物領域達到77%,物理和工程相關領域則有近70%。在我們關注的機器學習領域,這種現象同樣達到了80%。所以演講者希望有一個統一的平臺來進行強化學習的研究。通過這個平臺,研究者可以在上面呼叫已有的標準的底層演算法,利用統一的硬體配置和算力支撐,來讓強化學習的研究更加可控,對模型引數的調整也會更容易。
雖然研究者的要求千差萬別,但最底層的需求實際上存在大量重複。如果統一該過程,並且對操作結果進行詳細描述,那會使人工智慧研究成果更容易驗證,大大降低了偶然性和噪音。這種平臺的推廣無疑可以加速人工智慧的發展,也是現在各個學科的一個發展方向。
接著作者介紹了兩個易混淆的概念:Reproducibiity和Replication。其中Replication只是簡單的重做實驗,在需要相同的資料,達到同樣結果時需要,這種情況只適合與模擬資料,在現實生活中往往很難達到。Reproducibillity就複雜的多,從精確的資料,引數的調整,清晰的文章和程式碼,計算資源,系統配置等都需要達到一定要求,才可能把原有文章的結果應用到新的地方。
最後,演講者呼籲我們都能投身於一個ICLR 2018 Reproducibility Challenge的活動,互相監督驗證,共同驗證已有的文章結果,來促進人工智慧技術的進一步發展。
接下來的亮點在於來自卡內基梅隆大學的教授Ruslan Salakhutdinov的精彩分享:神經地圖-深度強化學習的結構化記憶。
Ruslan Salakutdinov是最近在機器學習領域很活躍的年輕教授,主要研究方向包括Deep Learning, Probabilistic Graphical Models, 和Large-scale Optimization。這次他為我們帶來了如何給強化學習植入記憶,讓其在不同環境下都可以表現優異。
演講從監督學習開始,認為大部分深度學習都可以表示為監督學習:對映並輸出一個結果(Mapping and input to an output)。接著演講談到了環境對強化學習的影響,主要體現在三個方面:1. 環境是隨著時間動態變化的;2. 動作對環境的影響存在不確定的滯後性;3. 對環境的標註是成本高昂而且很難實現的。 為了解決這些潛在的問題,Ruslan根據前人的工作,引入了記憶的概念來調整agent,使得物體進入新環境時候有更好的表現。但外在記憶的引入又引起了新的問題,比如效率較低(因為要記錄所有的資訊)。作者的解決方案是利用位置感知記憶(Location Aware Memory),這種方法可以起到一種類似於“地圖”的效果,幫助agent進行探索。而且該方法在輸出結果時候是利用稀疏的結果作為輸出,可以防止agent過多的重寫記憶。之後演講者又詳細介紹了這種神經網路的具體細節,比如operations, global read, context read和write。並且舉了不同的迷宮例子,還可以應用與定位問題和自然語言理解問題。在演示的環境,可以清晰看出之前有過“記憶”的agent進入新模型時候往往會根據經驗有更好的表現。
這種方法的理想狀態,agent會擁有讀寫自己外在記憶的能力,而外在記憶會和知識庫互相轉化,並且agent也可以用不同的方法來和知識庫進行理性的交流(reason communication)。最後演講者還提出了一些展望,他表示希望進行不同agents共享記憶進行交流的嘗試。
之後的提問環節,有聽眾詢問是否可以構造更高階更抽象的模型?演講者給出了肯定的答案,但也承認在現階段距離該目標還很遠。在一個開放的環境(open domain)會遇到更多的困難。另一位聽眾問到是否可以嘗試不同的環境,比如新環境和舊環境有較大差別的情況?有過嘗試但目前環境的差別並不是全方位的,演講者希望有更多更好的模擬器出現。
這次的DRL分享反應出研究方向主要集中在深度強化學習的泛化和效能的提升。DeepMind採用了簡化演算法的方法,而Ruslan則選擇了引入記憶的途徑。殊途同歸,但該方向取得的進展無疑是激動人心的。