深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

AIBigbull2050發表於2019-12-17
導語:確認挑戰以後,我們就來解決它吧

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

雷鋒網 AI 科技評論按:我們都知道,深度學習的三駕馬車獲得了 2018 年的圖靈獎,這是對深度學習的技術成功以及三人貢獻的最佳肯定。最近幾年裡,Geoffrey Hinton 帶來了知識蒸餾和膠囊網路,Yann LeCun 在繼續研究 CV+機器人的同時,也堅持和 Gary Marcus 打網路口水仗。

那麼 Yoshua Bengio 在做什麼呢?最近 IEEE Spectrum 電子雜誌找到 Bengio 對他進行了一次採訪(Yann LeCun 在推特上轉發了這篇演講,而且大段引述了採訪中的 Bengio 的原話,表達他對 Bengio 的贊同)。

Bengio 也隨後在 NeurIPS 2019 的全體演講中更深入、更細緻地介紹了他的想法和現階段的研究成果,演講主題為《From System 1 Deep Learning to System 2 Deep Learning》,內容簡介與 PPT 下載見文末。

雷鋒網 (公眾號:雷鋒網) AI 科技評論首先把 IEEE Spectrum 電子雜誌採訪編譯如下。 

深度學習和現狀和限制

記者:現在有很多人都在討論深度學習的限制,你有什麼看法?

Bengio:很多面向大眾的資訊渠道都不理解學術人員做科研的方式,不管是針對 AI 領域還是其他學科,其實,我們研究和理解當前的理論和方法的不足之處,是為了能探索我們的智力工具之外的更大的空間。深度學習的研究人員們想要找到深度學習的效果並不如我們預想的那麼好的場景,這樣我們就可以知道還缺了什麼、還要探索哪些新方向。

不幸的是這個過程被 Gary Marcus 這樣的人找茬了,然後從他的嘴裡說出來就變成了「你們看,我就說深度學習不行吧」。不管他怎麼說,像我這樣的研究人員們其實都在想方設法擴充深度學習的能力範圍。當我說到 AI 系統需要有能力理解因果關係的時候,我的意思也不是說要用因果關係把深度學習推翻,我想要做的是給我們當前的工具箱裡再添一些新東西。

作為一個科學家,對我來說真正重要的是還需要探索哪些新方向才能解決問題。誰對誰錯、誰站了誰的隊這種事情我並不關心。

(Gary Marcus 後來對此解釋道:「在 Yoshua 的話裡我好像是一個完全反對深度學習的人,實際上我是混合派,我還是看好深度學習的,但我認為它應該和其它的方法結合使用。深度學習是一個挺不錯的工具,但它肯定不是唯一的工具。」)

記者:你如何評價深度學習的當前狀態?

Bengio:過去二十多年裡我們對深度學習的研究進度可以這樣評價:直到今天,這些系統能達到的智慧程度都沒法和一個 2 歲的小孩相提並論。不過,我們的演算法在感知任務裡可能能達到一些更低階的動物的水平。我們現在也有越來越多的工具可以幫助一個系統探索它所在的環境,所以這些系統的智力水平也在慢慢地逐步提升。

如今有一個主要的爭論是,高層次的認知是由哪些基礎元件構成的?我們猜測因果關係是其中一個元件,另外還有推理、規劃、想象力、歸因。在傳統 AI 中,嘗試解決這些問題的方法是邏輯和符號。有人提出我們現在也可以用傳統 AI 的方式來做,不過可能要做一些改進。

也有一些人和我有一樣的想法,我們覺得應該在過去這些年設計的深度學習工具的基礎上實現這些功能,這和人類做推理的方式更相似;而人類做推理的方式是和純粹的邏輯系統、基於搜尋的執行方式完全不同的。

從人類大腦得到啟發的計算模式的破曉時分

記者:我們要如何創造和人類的推理方式類似的功能呢?

Bengio:注意力機制讓我們可以把計算能力集中在某幾個物體、某幾個計算上。人類的這種工作方式是「有意識的處理過程」中的尤其重要的一個部分。當人有意識地關注某件事時,你的注意力在很少的幾個元素上,可能就只是某個念頭,然後會轉向下一個念頭。這種過程和標準的神經網路完全不同,神經網路的處理方式是大規模的並行化處理。在深入學習引入注意力機制之後,我們在計算機視覺、翻譯、儲存方面都有很大的進步,而我覺得這只不過是仿大腦的這種新的計算形式的開始而已。

需要說明的是,我們距離解決這些問題還遠,但我們手裡已經有不少工具,已經可以動起來了。我也沒覺得這會很容易。2017 年的時候我寫過一篇論文《The Consciousness Prior》(意識先驗, https://arxiv.org/abs/1709.08568 ),裡面就提出了這個問題。我有好幾個學生就在研究這個問題,我也知道這需要付出長期的努力。

記者:人類智慧中還有哪些方面是你希望能在 AI 中重現的?

Bengio:我們對神經網路的能力有過一些想象,在其中,推理能力、記憶能力、想象力其實是人腦思考這同一件事的三個不同的部分。你假想自己在過去或者未來做什麼事、產生什麼後果,隨著你假想的時間倒流或者前進,你實際上在做推理。如果你預計到未來會發生什麼不好的事情,你會現在就採取一些措施改變事情發生的軌跡,這就是規劃了。記憶力也用到了,因為你需要回憶你知道的資訊來做出決策。你會選出當前的重要的事情,以及選出過去的相關的事情。

注意力是其中的一個關鍵的基礎功能。比方說我正在把一本書翻譯成另外一個語言。每翻譯一個詞,我需要仔細閱讀的是書裡的很小很小一部分內容。注意力就可以幫我們拋棄很多不相關的細節,關注真正重要的東西。能夠挑出相關的、重要的元素,這就是注意力的作用。

記者:這種想法很棒,但它要怎麼用在機器學習裡呢?

Bengio:我們不需要告訴神經網路要把注意力放在什麼東西上,這正是神經網路的魅力所在。它能夠學習,它能自己學會要給一組元素裡的每一個分配多少注意、多少權重。

學習如何學習

記者:最近你在因果關係方面的研究和這些之間有沒有什麼關係?

Bengio:人類在推理時用到的高層次概念,在我看來很可能是一些帶有因果關係的變數。人類做推理並不是基於畫素這種細枝末節的元素的,而是門、把手、門開著、門關了這樣的概念。因果關係在機器學習的下一步發展中非常重要。

而且因果關係也和做深度學習的人都關心的另一個話題有關。人類有一種系統性泛化的能力,可以把已經知道的概念推廣到更多的事情上,不同的概念用新的方式融合之後可以得到全新的東西。今天的機器學習還做不到這一點。當前的機器學習都是在某個特定的資料集上做訓練,在一種情境下訓練模型,然後在另一種情境(比如另一個國家裡)使用模型,這樣經常會帶來問題。我們需要泛化能力,需要遷移學習。我們面前的一個重大挑戰就是把模型遷移到一個新環境以後,如何保證它能繼續正常工作、或者能快速適應。

記者:這種適應能力的關鍵是什麼?

Bengio:元學習是近期的一個熱門話題,就是「學習如何學習」。我在 1991 年的時候也寫論文討論過這個概念,不過一直到最近幾年我們才終於有了足夠的計算能力可以實現這種東西;它們需要消耗很多的計算能力。

它的核心思想是,為了能夠泛化到一個新的環境,就需要練習如何泛化到新環境。這種思想很簡單,其實小孩就一直是這樣的,從家裡的一個房間走到另一個房間,環境不是固定的,一直在改變,小孩就逐漸學會了適應。為了能高效地適應,小孩還需要用到他們以前學到的知識。我們對這種能力的理解正在逐漸加深,也在嘗試構建工具來複制這種能力。

有一些聲音批評深度學習需要大量的資料,如果想要在一個任務上訓練深度學習模型的話確實是這樣的。而小孩只需要很少的資料就可以學習,他們能重複利用以前學習過的東西。但更重要的是,他們利用了適應、泛化的能力。

大規模工業應用還早

記者:我們能很快在真實世界看到這些想法嗎?

Bengio:還不行。我剛才談到的這些都是非常基礎的科學研究,都是在非常簡單的問題上做驗證。不用覺得遺憾,現在我們的進度就是隻到這裡。我們現在先檢驗這些想法,然後不斷提出新的假說。它們都沒辦法很快就用在工業界。

不過有兩個來自工業界的、對他們造成實際困擾的限制是這些研究可以起到作用的。第一個是,構建一些對環境中的變化更魯棒的系統;第二,如何構建自然語言處理系統、對話系統、虛擬助手?目前的這些基於深度學習技術、達成了非常高的表現的系統的問題在於,雖然它們都是用海量資料訓練出來的,但是它們並不完全理解它們說的話是什麼意思。Gary Marcus 這樣的人會跳出來說:「這不就說明了深度學習不行嗎」,而我這樣的人就會說:「這很有意思,我們來解決這個挑戰吧。」

物理、語言和常識

記者:有沒有辦法把聊天機器人做得更好?

Bengio:最近有個點子叫做「有依據的語言學習」(grounded language learning),吸引了很多研究人員的注意力。它的核心是提出 AI 系統不應該僅僅通過文字學習,它應該同時學習(認識)這個世界的執行方式以及學習如何用語言描述世界。我們可以問問自己,如果一個小孩只願意從書本上了解世界,我們會覺得他能對世界建立起完整的瞭解嗎?我覺得是很難的。

這和「有意識知識」和「無意識知識」之間也有一些關係,「無意識知識」就是那些我們知道但是講不出來的東西。一個典型的例子是物理直覺,一個兩歲的小孩就能建立起物理規律的直覺,不需要學習牛頓的萬有引力定律就有重力的概念。現在已經有一些研究人員在嘗試構建能和環境互動、探索基本物理規律的系統。

記者:基本物理規律為什麼能對對話系統起到幫助呢?

Bengio:對話系統的問題在於,它們通常都是不瞭解提到的那個詞的複雜性的。比如有這樣一句話,「Jim 想把檯燈裝進他的皮箱裡,但是它太大了。」我們人類有常識,明白「太大了會導致裝不進去」的只能是檯燈,就能確認「它」的指代,能正確理解這個句子。這些知識的確有辦法用語言描述,但對人類來說這些常識,比如一個箱子一般是什麼尺寸,是不會總掛在嘴邊的。

我們希望語言理解系統也能對這個世界有更多的瞭解。目前來說,AI 研究人員們都在抄近道,但抄近道是沒法真正解決問題的,AI 系統最終還是需要建立起一個世界執行的模型。

(採訪完)

Yoshua Bengio NeurIPS 2019 演講

加拿大當地時間 12 月 11 日下午,Yoshua Bengio 在 NeurIPS 2019 現場進行演講。清華大學唐傑老師對 Bengio 演講內容做了轉述總結,雷鋒網 AI 科技評論摘錄如下。

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

《From System 1 Deep Learning to System 2 Deep Learning》

Yoshua 認為,AI 作為本世紀的驚人進步,僅僅依靠增加資料集、模型大小、電腦速度是否就足夠了呢?實際上 AI 距真正的人工智慧還差的很遠!

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

Yoshua 的第一個觀點,是指人的認知系統包含兩個子系統(這是認知理論中大家共識的觀點):System1 直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;System2 是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要著重考慮的。當然 Yoshua 也提到計算機作為 Agent 實現 AI,需要從計算機角度考慮,比如更好的模型和知識搜尋等。

對於如何用深度學習來實現 System2?

Yoshua 認為,對於計算機來說,最關鍵的是處理資料分佈中的變化。對於 System 2 來說,基本的要素包括:注意力和意識。注意力(Attention)實際在目前的深度學習模型中已經有大量的實現和探討,比如 GAT(圖注意力機制)等;意識這部分則比較難,其實意識最關鍵的是定義到怎樣的邊界。Yoshua 提到意識先驗可以使用稀疏因子圖模型來實現,這是一個思路,實現了因果關係。從整體的理論框架方面可以考慮元學習(Meta-learning)、區域性修正假設(localized change hypothesis)、因果發現(causal discovery),最後架構方面可以考慮如何學習不同物件的操作。

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

對於處理資料分佈,傳統機器學習都是基於 IID(independent and identically distributed),也就是獨立同分布的假設,但實際現狀是很多真實場景下我們感興趣的資料往往是出現次數非常少的資料,也就是我們在處理時需要關注更多的是 OOD(out of distribution),也就是在資料中出現較少的分佈,當然這需要我們在機器學習演算法中有新的資料假設。尤其是從 Agent 的角度來考慮,需要考慮哪些是影響資料分佈變化的因素,以及不同分佈的可組合性等方法如何對現在的 IID 和 OOD 進行泛化。相對傳統的符號 AI 系統,當前的 AI 需要更多具有泛化能力的機器學習能力。

注意力機制是最近幾年深度學習發展的一個重要技術,最近幾年在很多系統中都有大量應用,注意力機制可以看做實現意識的第一步,在人類大腦中有自上而下的注意力和自下而上的注意力。

從認知角度來說,意識是一個很複雜的機制,Global Workspace Theory 是 1988 年 Baars 等人提出的一個認知神經理論,其核心思想就是意識內容在各種不同認知過程中全域性存在,包括 Attention、 Evaluation、 Memory and verbal report。這些概念聽起來有點抽象,後來 Dehaene、Changeux and colleagues 等人提出了一個 Global Workspace Architecture 的實現模型。Global workspace theory 和前面介紹的 System2 很相似,其他和意識相關的認知理論還包括 Multiple drafts theory,這是 Daniel Dennett 在 1991 年提出的一個理論。

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

機器學習和意識模型相結合的關鍵是如何在機器學習中實現意識,或者說意識相關的理論/模型如何幫助機器學習。比如可以基於意識理論構造一些假設,然後用機器學習的方法來驗證這些假設。當然從人的角度來看意識,高層次的表示可以說是語言,這需要把人的兩個認知系統 System1 和 System2 有機地結合起來,也就是說把低層次的表示和高層次的決策結合起來。

Yoshua 還提到了前意識/意識先驗。具體可以使用稀疏因子圖,稀疏因子圖不是一個新的事,基本思路是圖模型的統一模型,因子圖的好處是可以把有向圖和無向圖都統一起來。稀疏因子圖可以用來學習變數之間的因果關係,從而構造變數之間的因果關係(找到真正的因果關係,而不是給不同變數給一個權重,這是為什麼考慮稀疏的原因)。

深度學習瓶頸到來時,Yoshua Bengio有什麼新打算(附NeurIPS演講)

元學習(學習學習的模型)是可能實現機器學習到 OOD 和模型快速遷移的一個辦法。說到 OOD,究其原因是有行為的變化,或者是使用者行為對於資料的干預。元學習的知識表示可以有效幫助克服 OOD,比如通過元遷移學習到變數之間的因果關係,這裡的挑戰是如何學習到未知干預變數的因果特性。最後是如何學習樣本的可能操作,類似自動機器學習,但這裡是在物件的不同操作層面。

PPT 下載見  https://www.yanxishe.com/resourceDetail/1140



https://www.leiphone.com/news/201912/7QSDx4bNqg4Vf2KI.html





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668971/,如需轉載,請註明出處,否則將追究法律責任。

相關文章