編譯 | Just
出品 | AI科技大本營
在 1990年代那個漫長而寒冷的AI寒冬期,大多數人認為神經網路是一條研究的死衚衕,Yoshua Bengio等研究者卻仍堅持不懈地進行著該領域的研究。
最終他們的努力開花結果。由於對深度學習做出的巨大貢獻,他與Yann Lecun和Geofrey Hinton等人在今年3月獲得了圖靈獎。
如今,AI界關於深度學習缺點的討論再度掀起浪潮。由於對深度學習發展有不同理解,紐約大學教授Gary Marcus質疑Bengio在深度學習上的立場,前一段時間和後者進行了一場隔空“互懟”。
Marcus稱他實際上贊成混合學習,但Bengio卻以為他(非常)反對深度學習,“深度學習是一種很好的工具,但只是眾多工具中的一種。”
而Bengio認為需要被進一步挖掘深度學習的潛力,他此前警示了可解釋因果關係對深度學習發展的重要性。在他看來,除非深度學習能夠超越模式識別並瞭解因果關係的更多資訊,否則它將無法實現其全部潛力,也不會帶來真正的AI革命。換句話說,深度學習需要開始知道事情發生的因果關係,這將使現有的AI系統更加智慧,更加高效。
今年年初,他與其他研究者合作發表了《透過元遷移目標來學習理解因果關係》一文,提出了一種基於學習器適應稀疏分佈變化速度的元學習因果結構,還生成了因果關係的綜合資料集。
近來德國學者Bernhard Schölkopf釋出的一篇關於因果關係的綜述文章也引發了學界 關注,作者闡述了一些將因果關係和機器學習 結合的想法,並勾勒出一個更大的研究藍圖。
總之,業內對深度學習百家爭鳴的討論,表明現在已到了開啟AI下一個研究程式的時候。
當地時間12月11日,Bengio在NeurIPS 2019大會上發表了類似話題的演講,題目是《從系統1深度學習到系統2深度學習》。
Bengio 介紹,深度學習過去的進展主要集中於從靜態資料集學習,主要用於感知任務和其他的系統1任務(人類直觀和無意識地完成的任務)。但是,近年來,研究方向的轉變以及諸如軟注意力和深度強化學習的進步等新工具為解決系統2任務(有意識地完成)的新型深度架構和訓練框架的開發開啟了大門。例如自然語言處理和其他應用中的推理、計劃、捕獲因果關係,並獲得系統性概括。
在他看來,深度學習從系統1任務到系統2任務的這種擴充套件對舊的深度學習目標實現發現高階抽象表示很重要,因為系統2的要求將對錶示學習造成壓力,以發現人類用語言操縱的高階別抽象概念。
為了達到這個目標,他們認為軟注意機制是一個關鍵因素,它將計算一次集中在幾個概念上(“意識思維”),因為先驗意識及其相關的假設是,許多 高層次的依賴關係可以被一個稀疏因子圖近似地捕捉到。
他們還討論了深度學習中的 agent 視角如何有助於對學習的表示形式施加更多約束,以捕獲環境中的可供性(affordances)、因果變數和模型轉換。
此外,他們 建議元學習、先驗意識的模組化方面以及表徵學習的主體視角應促進以新穎的方式重用所學元件(即使在統計上不太可能,如反事實),從而實現更強大的組合泛化形式。
最後,Bengio 的報告給出了五點結論和問題:認知神經科學之後,機器學習去探索意識的時機已經成熟;2、能否帶來新的先驗來幫助系統地進行良好的歸納?3、認知神經科學也會受益嗎?4、允許將深度學習從系統1擴充套件到系統2嗎?5、假設:需要良好的系統1功能來使系統2有效。
Bengio 在NeurIPS 2019的演講幻燈片: https://drive.google .com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view。
此外,IEEE Spectrum就類似的話題採訪了Bengio,他從深度學習的不足,腦啟發式計算,物理、語言和常識等方面做出了回應。
深度學習及其不足
IEEE Spectrum:您如何看待所有有關深度學習侷限性的討論?
Yoshua Bengio:太多面向公眾的場所不瞭解我們在AI和其他學科中研究的核心內容:我們試圖瞭解當前理論和方法的侷限性,以擴大智力工具的範圍。因此,深度學習研究人員希望找到不理想的地方,以便我們找出需要補充的內容和需要探索的地方。
Gary Marcus等人注意到了這一點,發出了這樣的資訊:“看起來,深度學習是行不通的。” 但實際上,像我這樣的研究人員正在做的事情是擴大其範圍。當我談論諸如需要AI系統理解因果關係之類的事情時,我並不是說這將取代深度學習。我正在嘗試向“工具箱”中新增新內容。
作為科學家,對我而言重要的是解決這些問題需要探索的東西,不是誰對誰錯了。
Spectrum:您如何評估深度學習的當前狀態?
Bengio:在過去的二十年中,我們在這項工作上取得了很多進展,但我認為AI今天還沒有擁有接近兩歲孩子的智力水平。但是也許我們有等同於低等動物的演算法來進行感知。而且,我們在允許實體探索其環境的工具方面正在逐步攀升。
當今最重要的辯論之一是:高階認知的要素是什麼?因果關係是其中的一個要素,此外還有推理和計劃、想象力和功勞分配。在經典AI中,他們試圖透過邏輯和符號來獲得這些東西。有人說我們可以透過經典AI來做到這一點,也許可以透過改進來實現。
還有像我這樣的人,認為我們應該採用過去幾年構建的工具來建立這些功能,其方式類似於人類進行推理的方式, 這實際上與基於 搜尋的純邏輯系統執行操作的方式完全不同。
腦啟發式計算的曙光
Spectrum:我們如何建立類似於人類推理的功能?
Bengio:注意力機制使我們能夠學習如何將計算重點放在幾個元素上。人類做到了這一點,這是有意識處理的一個特別重要的部分。當你意識到某件事時,您將注意力集中在一些元素上,也許是某個想法,然後繼續想到另一個想法,這與標準神經網路非常不同,後者是大規模並行處理。
由於這些注意力機制,我們在計算機視覺、翻譯和記憶方面取得了重大突破,但是我相信這只是另一種來自腦啟發式計算的開始。
這並不是說我們已經解決了問題,但我認為我們有很多入門工具。我並不是說這會很容易。我在2017年撰寫了一篇論文,題為《先驗意識》,闡述了這一問題。我有幾個學生正在從事此工作,我知道這是一項長期工作。
論文連結:
Spectrum:您想在AI中複製人類智慧的其他哪些方面?
Bengio:我們還討論了神經網路想象的能力:推理、記憶和想象力是同一件事在你腦海中發生的三個部分。你將自己投射到過去或將來,並且按照這些預測進行操作時,你正在進行推理。如果你預計將來會發生不好的事情,那麼會改變路線,這就是你進行計劃的方式。而且你也正在使用記憶,因為你會回到已知的事物上來進行判斷,可以從現在和過去中選擇相關的事物。
注意力(Attention)是這裡的關鍵組成部分。假設我正在將一本書翻譯成另一種語言,對於每個單詞,我都必須仔細閱讀本書的一小部分。注意力使你可以抽象出許多不相關的細節,並集中精力處理重要的內容。能挑選出相關要素,這就是注意力所做的。
Spectrum:這如何轉化到機器學習?
Bengio:你不必告訴神經網路要注意什麼,這就是它的美。它可以自學習。神經網路學習應該給予一組可能元素中的每個元素多少注意力或權重。
學會學習(learning to learn)
Spectrum:您最近的因果關係研究與這些想法有何關係?
Bengio:你用來推理的 高層次概念往往是因果關係的變數。你並不會基於畫素進行推理,而是根據門或旋鈕或開啟或關閉等概念進行推理。因果關係對於機器學習的下一步發展非常重要。
它與深度學習中人們經常想到的另一個主題有關。系統概括是人類必須概括我們所知道的概念的能力,因此它們可以透過新的方式進行組合,這與我們所見過的其他任何方式都不一樣。當今的機器學習不知道該怎麼做。因此,你經常會遇到與特定資料集訓練有關的問題。假設你在一個國家/地區訓練,然後在另一個國家/地區進行部署。你需要概括和遷移學習。你如何訓練神經網路以便將其遷移到新環境中時,它可以繼續正常工作或快速適應嗎?
Spectrum:這種適應性的關鍵是什麼?
Bengio:元學習是當今非常熱門的話題:學會學習。我在1991 年就此發表了一篇早期論文(連結 http://bengio.abracadoudou .com/publications/pdf/bengio_1991_ijcnn.pdf),但是直到最近我們才獲得實現這種事情的計算能力。它的計算量很大。這個想法是:為了泛化到新環境,你必須練習泛化到新環境。當你考慮它時,它是如此簡單。孩子們一直都這樣做。當他們從一個房間移動到另一個房間時,環境不是一成不變的,它一直在變化。孩子們訓練自己要善於適應。為了有效地做到這一點,他們必須利用過去獲得的知識。我們開始瞭解此能力,並構建能複製它的工具。
對深度學習的一種批評是,它需要大量的資料。如果你僅在一項任務上進行訓練,確實是這樣。但是孩子們有能力根據很少的資料學習,他們利用以前學到的東西。但更重要的是他們正在利用自己的適應能力和泛化能力。
“還沒準備要工業應用”
Spectrum:這些想法中的任何一個會很快在現實世界中應用嗎?
Bengio:不。這都是關於玩具問題(toy problems)的非常基礎的研究。那就是我們的狀況。我們可以除錯這些想法,繼續進行新的假設。這還沒有為工業應用做好準備。
但是行業關心兩個實際的侷限性,這項研究可能會有所幫助。一個是構建對環境變化更具健壯性的系統,另一個是我們如何構建自然語言處理系統,對話系統和虛擬助手?當前使用深度學習的最先進系統的問題在於,它們接受了大量資料的訓練,但是他們並不太瞭解他們在說什麼。像Gary Marcus這樣的人注意到了這一點會說,“這證明深度學習是行不通的。”像我這樣的人說,“那很有趣,讓我們應對挑戰。”
物理、語言和常識
Spectrum:聊天機器人如何做得更好?
Bengio:有一個叫做“基礎語言學習”的想法最近正在引起的 關注。這個想法是,人工智慧系統不應該僅從文字中學習。它應該同時學習世界如何運轉以及如何用語言描述世界。問問自己:如果孩子僅透過文字與世界互動,能否理解世界?我懷疑他們會很困難。
這與有意識或無意識知識有關,我們知道但無法具體命名。直觀的物理就是一個很好的例子。兩歲的孩子懂得直觀的物理,他們不知道牛頓方程,但是他們從具體的意義上理解重力等概念。現在,有些人正在嘗試構建與環境互動並發現物理基本定律的系統。
Spectrum:為什麼基本的物理知識會有助於對話?
Bengio:語言方面的問題是,系統通常並不真正理解單詞所指的複雜性。例如,在Winograd模式中使用的語句;為了理解它們,你必須掌握物理知識。像這樣的句子:“吉姆想把燈放到他的行李箱裡,但是它太大了。”你知道,如果這個物體太大而不能放進行李箱,那麼“它”一定是第二個短語的主語“它”。你可以用語言交流這種知識,但這不是我們四處說的那種話:“一件行李的典型大小是x乘x。”
我們需要能夠理解世界的語言理解系統。當前,人工智慧研究人員正在尋找捷徑。但是他們還不夠。人工智慧系統還需要獲取世界運作方式的模型。