深度學習已入末路,AI未來是圖網路

dicksonjyl560101發表於2019-01-28



深度學習已入末路,AI未來是圖網路

本文是PNAS的一篇特稿,描述了深度學習的多種侷限,包括易受對抗攻擊、應用不穩定、缺乏可解釋性等。最終結論是,深度學習不是實現類人智慧的途徑,但確實是實現這一目標的基礎或雛形,接下來的道路艱難,但一切皆有可能,這也是為何研究人員前仆後繼研究AI。

AI能將一根香蕉照片識別成一臺烤麵包機,儘管AI在訓練階段可能被展示了數千張香蕉、蛞蝓、蝸牛以及其他類似物體的照片,就像抽認卡一般,讓AI反覆練習,直到完全掌握分類為止。

但是,即便是成千上萬次訓練,這個先進的系統也很容易被搞糊塗——只需要將一張小小的貼紙放到影像的某個角落,就會改變識別結果。

上面這個被稱為“對抗攻擊”(adversarial attack)的例子是由Google Brain的深度學習研究人員發現的,這項研究突顯了人工智慧距離接近人類能力之前還有很長的路要走。

多倫多大學電腦科學家Geoffrey Hinton是深度學習的先驅之一,他說:“我最初認為對抗樣本只是一個讓人煩惱的問題,但我現在認為它們非常深奧。它們會告訴我們做錯了什麼。”

這也是AI從業者普遍的觀點,研究人員中的任何一個人都能輕鬆說出一長串深度學習的弊端,除了易受欺騙之外,還存在嚴重的低效率問題

比如說,讓一個孩子學習認識奶牛,並不需要他的母親說一萬遍“奶牛”,人類通常只需要一兩個例子就能學習新概念。但是10000遍是深度學習系統通常需要的數字。

然後是不透明問題。一旦深度學習系統被訓練完,它是如何做出決定的就不總是那麼清楚了。MIT- IBM 沃森人工智慧實驗室負責人、計算神經學家David Cox說:“在很多情況下,不透明問題是不可接受的,即使它得到了正確的答案。”

假設一家銀行使用AI來評估你的信用等級,然後拒絕給你貸款,並且說不清楚拒絕的原因,你會覺得合理嗎?

也許最重要的是,它們缺乏常識。深度學習系統可能是識別畫素級模式的高手,但它們無法理解模式的含義,更不用說對它們進行推理了。DeepMind的AI研究員Greg Wayne表示:“我不清楚,目前的AI系統是否能夠理解沙發和椅子是用來坐的。”

AI的這些弱點越來越多地引起人們的擔憂,尤其是自動駕駛方面。自動駕駛汽車使用類似的深度學習系統進行導航,已經出現了幾起廣為人知的死亡事故。

深度學習已入末路,AI未來是圖網路

深度學習方法中的明顯缺陷引起了研究人員和大眾的擔憂,因為自動駕駛等應用使用深度學習進行導航

“人們已經開始說,(深度學習)系統可能存在問題。”紐約大學認知科學家加里•馬庫斯(Gary Marcus)說,他是對深度學習最直言不諱的懷疑論者之一。他說:“在一年左右之前,一直存在一種感覺,即深度學習具有魔力。現在人們已經認識到深度學習不是魔法。”

不過,不可否認的是,深度學習是一種非常強大的工具——它使部署面部識別和語音識別等應用程式變得非常常見,而就在10年前,這些程式幾乎是不可能的。

所以現在的研究人員很難想象,在這個時候深度學習會消失。

在過去的2018年,深度學習的進展似乎沒有達到人們的預期,“深度學習至頂”、“深度學習已死”的論調頻現。雖然目前深度學習依舊生命力旺盛,但更有可能的是,人們會修改或增強它,並培養出它的下一代接班人。

起底深度學習:起源“大腦戰爭”

今天的深度學習革命起源於上世紀80年代的“大腦戰爭”(brain wars),當時兩種不同人工智慧方法的倡導者之間爭論甚大。

一種是現在被稱為“優秀的老式人工智慧”(good old-fashioned AI)方法,自20世紀50年代以來一直佔據這個領域的主導地位。

這種方法也被稱為符號AI,使用數學符號來表示物件和物件之間的關係。再加上人類建立的大型知識庫,這些系統被證明在醫學等領域的推理和決策方面非常出色。

但到了20世紀80年代,人們也越來越清楚地認識到,符號AI在處理現實生活中的符號、概念和推理方面表現非常糟糕。

為了應對這些缺陷,一些研究人員開始提倡人工神經網路,或稱聯結主義人工智慧(connectionist AI),即今天的深度學習系統的前身。

這類系統的想法是通過一個模擬節點的網路來處理訊號,這個網路類似於人類大腦中的神經元。訊號通過連線或鏈路從一個節點傳遞到另一個節點:類似於神經元之間的突觸連線。而學習,就像在真實的大腦中一樣,是一個調整“權重”問題,這個“權重”會放大或減弱每個連線所攜帶的訊號。

在實踐中,大多數網路將節點排列成一系列的層,大致類似於大腦皮層中的不同處理中心。因此,比如說,一個專門用於影像識別的網路會有一個輸入節點的層,它對單個畫素做出響應,就像桿狀細胞和錐體細胞對照進視網膜的光線做出響應一樣。一旦被啟用,這些節點通過加權連線將其啟用級別傳播到下一級別的其他節點,這些節點組合輸入訊號並依次啟用(或不啟用)。

深度學習已入末路,AI未來是圖網路

這個過程一直持續到訊號到達節點的輸出層,其中的啟用模式提供一個答案——一個斷言,例如輸入影像是數字“9”。如果答案錯誤了——假設輸入的影像是“0”——那麼“反向傳播”演算法就會沿著層反向執行,調整權重,以便下次得到更好的結果。

到20世紀80年代末,這類神經網路在處理噪聲或模糊輸入方面已經證明比符號AI好得多。

然而,這兩種方法之間的對峙仍未得到解決,主要是因為當時能夠裝入計算機的AI系統非常有限。人們仍無法確切地知道這些系統能做什麼。

一切光榮得益計算力的爆發

直到2000年,隨著計算能力以數量級增大的計算機的出現,以及社交媒體網站提供大量影像、聲音和其他訓練資料,這種理解才開始得到發展。

首先抓住這波機會的是Hinton,他是反向傳播演算法的提出者之一,也是20世紀80年代聯結主義的主導者。到2005年左右,他和他的學生們訓練的網路不僅比以前的要大得多,而且深得多,層數從一層或兩層增加到了大約六層。(如今的商業網路經常多達100層以上)

2009年,Hinton和他的兩名研究生證明這種“深度學習”比任何其他已知的方法都能更好地識別語音。

深度學習已入末路,AI未來是圖網路

Hinton和他的學生在2009年的論文

2012年,Hinton和另外兩名學生發表的實驗表明,深度神經網路在識別影像方面可能比標準視覺系統要好得多,“幾乎將錯誤率減半”。

在語音和影像識別的雙重突破下,深度學習應用的革命開始了 研究人員改進這項技術的努力也開始了。

早期的優先任務之一是擴充深度學習系統的訓練方式,DeepMind公司的Matthew Botvinick說,語音和影像識別系統都使用了所謂的監督學習,這意味著每幅影像都有一個正確的答案——比如“貓”——如果網路錯了,你就要告訴它正確的答案是什麼。然後,網路使用反向傳播演算法來改進下一個猜測。

實際上,對於大部分的現實世界任務,需要強化學習。例如,強化學習系統在玩電子遊戲時能學會尋求獎勵(找到寶藏)和避免懲罰(失去錢)。

強化學習深度神經網路的首次成功實現是在2015年,當時DeepMind的一個團隊訓練了一個網路玩經典雅達利2600街機遊戲。

深度學習已入末路,AI未來是圖網路

2015年DeepMind發表在Nature的論文

網路在遊戲過程中接收螢幕影像作為輸入,在輸出端是制定操作指令的層,比如如何移動操作杆。在這個遊戲中,神經網路的表現與人類玩家相當,或超過了人類玩家。

然後在2016年,DeepMind的研究人員在AlphaGo中應用了同樣方法的更精細版本,掌握了複雜的圍棋遊戲,並打敗了人類圍棋世界冠軍李世乭。

接下來的幾年,AI成為全民話題,此處不過多介紹。

深度學習窮途末路,誰能引領下一代AI?

不幸的是,這幾個里程碑都沒有解決深度學習的根本問題。例如,雅達利AI需要玩數千輪才能掌握一款大多數人類玩家可以在幾分鐘內學會的遊戲。即便如此,網路也無法理解或解釋螢幕上物體。

因此,Hinton提出的問題依然存在:深度學習到底缺少了什麼?

也許什麼都沒有缺少,也許所需要的只是更多的連線,更多的層,以及更復雜的訓練方法。畢竟,正如Botvinick指出的,神經網路在數學上等同於一臺通用計算機,這意味著它們沒有執行不了的計算——至少理論上是這樣,只要你能找到合適的連線權重。

但是在實踐中,這些可能是致命的——這也是為什麼這個領域越來越多的人認為,為了解決深度學習的缺陷,需要有一些根本性的全新想法。

一種解決方案是簡單地擴充套件訓練資料的規模。例如,在2018年5月發表的一篇論文中,Botvinick所在的DeepMind小組研究了當一個網路被訓練做不止一項任務時會發生什麼。

他們發現,只要網路有足夠的“迴圈”連線從後面的層向更早的層執行,它就能自動吸取它在前一個任務得到的教訓,更快的學習下一個新任務。

這至少是一種人類式的“元學習”(meta-learning)的雛形,或者稱為learning to learn,這是人類快速掌握事物能力的重要組成部分。

一種更為激進的方法是,放棄僅僅通過訓練一個大型網路來解決手頭的問題,而是讓多個網路協同工作。

2018年6月,DeepMind團隊釋出了一個他們稱為生成查詢網路(Generative Query Network )的架構,利用兩個不同的網路,在沒有人工輸入的複雜虛擬環境中學習。其中一個被稱為“表示網路”(representation network),它本質上是利用標準的影像識別學習來識別在任何給定時刻AI能看到的東西。

深度學習已入末路,AI未來是圖網路

DeepMind在2018年6月發表在Science上的GQN研究

與此同時,生成網路(generation network)學習獲取第一個網路的輸出,並生成一種整個環境的3D模型——實際上是對AI看不到的物件和特徵進行預測。例如,如果一張桌子只有三條可見的腿,那麼模型將預測具有相同大小、形狀和顏色的第四條腿。

Botvinick說,這些預測反過來又能讓系統比使用標準的深度學習方法更快地學習。一個試圖預測事物的agent會在每一個時間步上自動得到反饋,因為它可以看到自己的預測結果如何。因此,它可以不斷更新自己的模型,讓它們變得更好。

更讓人興奮的是,這種學習是自我監督的:研究人員不需要給環境中的任何東西貼上標籤,就能讓它起作用,甚至不需要提供獎勵和懲罰。

圖網路前途無量,是類人智慧的最佳選手嗎?

還有一種更為激進的方法是,不再要求網路對每一個問題都從頭開始學習。

嬰兒似乎生來就有許多固有的“歸納偏見”,這使他們能夠以驚人的速度學會某些核心概念。到兩個月大的時候,他們已經開始掌握直覺物理學的原理,包括物體存在的概念,物體傾向於沿著連續的路徑移動,當兩個物體接觸時它們的移動路徑會改變等等。

擁有這種內建的歸納偏見可能會有助於深度神經網路同樣快速地學習,這就是為什麼該領域的許多研究人員現在把這作為優先考慮的事情。

事實上,僅僅在過去的一兩年裡,這個領域就出現了一種被稱為“圖網路”(graph network)的強大潛在方法,引起了人們的極大興趣。Botvinick說:“這些是內在地傾向於把事物表示為物體和關係的深度學習系統。”

深度學習已入末路,AI未來是圖網路

例如,某些物件,如爪子、尾巴和鬍鬚,可能都屬於一個較大的物件(貓),並且它們之間的關係是“屬於…的一部分”(a-part-of)。同樣地,一個球A和一個方塊B可能具有“在…旁邊”(next-to)的相互關係,地球與太陽具有“圍繞軌道轉動”(in-orbit-around)的關係,以此類推,還有許許多多例子。這些關係都可以用一個抽象的圖(graph)來表示,其中節點對應於“物體”,線對應於“關係”。

因此,圖網路是一種神經網路,它將這樣的圖形作為輸入(而不是原始畫素或聲波),然後學習推理和預測物件及其關係如何隨時間演變。

圖網路方法已經證明了在一系列應用實現快速學習,以及人類水平的能力,包括複雜的視訊遊戲。如果它能像研究人員希望的那樣繼續發展,那麼它就可以通過提高訓練速度和效率來緩解深度學習的10000-cow 問題。

深度學習已入末路,AI未來是圖網路

Box-World和星際爭霸2的任務需要對實體及其關係進行推理

此外,圖網路可以使網路不那麼容易受到對抗性攻擊,原因很簡單,它是一個將事物表示為物件,而不是畫素模式的系統,不會輕易被一點噪音或無關的貼紙所干擾。

Botvinick 承認,在這些領域中,任何一個都不會輕易、快速地取得根本性的進展。但即便如此,他仍然相信,圖網路前途無量。“挑戰是真實存在的,但它們並非死路一條。”


原文連結:

https://www.pnas.org/content/116/4/1074




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2565051/,如需轉載,請註明出處,否則將追究法律責任。

相關文章