深度學習侷限何在?圖網路的出現並非偶然

機器之心發表於2019-01-25

選自pnas.org,作者:M. Mitchell Waldrop,機器之心編譯,參與:張倩、曉坤。

本文近日發表在 PNAS 上,討論了深度學習取得的成就、推動條件和廣泛存在的問題,並從「補充」而不是「推翻」的論點探討了如何改進人工智慧研究方法的方向。文中引用了大量的 DeepMind 發表過的論文,基本思想是提倡延續上世紀 80 年代的符號 AI 方法論,將深度學習結合圖網路等實現完整的類人智慧。

本文作者 M. Mitchell Waldrop 是威斯康星大學基本粒子物理學博士,曾擔任 Nature、Science 等頂級期刊撰稿人、編輯,出版過《複雜》等科學著作。

深度學習侷限何在?圖網路的出現並非偶然

上圖中是一根香蕉,然而人工智慧卻將其識別為烤麵包機,即使它使用了在自動駕駛、語音理解和多種 AI 應用中表現出色的強大深度學習技術。這意味著 AI 已經見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的物體,然後對新輸入的影像預測其中物體的類別。然而這種系統很容易被誤導,影像中只是多了一張貼紙,就讓系統的預測產生嚴重偏離。

深度學習侷限何在?圖網路的出現並非偶然

深度學習方法中的明顯缺點引起了研究員和大眾的關注,如無人駕駛汽車等技術,它們使用深度學習技術進行導航,帶來了廣為人知的災難事件。圖片來源:Shutterstock.com/MONOPOLY919。

上述這個被深度學習研究者稱之為「對抗攻擊」的案例是由谷歌大腦提出的,它暗示著 AI 在達到人類智慧上仍有很長的路要走。「我最初認為對抗樣本只是一個小煩惱,」多倫多大學的電腦科學家、深度學習先驅之一 Geoffrey Hinton 說:「但我現在認為這個問題可能非常重要,它告訴我們,我們到底做錯了什麼。」

這是很多人工智慧從業者的同感,任何人都可以輕易說出一長串深度學習的弊端。例如,除了易受欺騙之外,深度學習還存在嚴重的低效率問題。「讓一個孩子學會認識一頭母牛,」Hinton 說,「他們的母親不需要說'牛'一萬次」,但深度學習系統學習『牛』時需要這麼多次。人類通常僅從一兩個例子中就能學習新概念。

然後是不透明問題。深度學習系統訓練好之後,我們無法確定它是如何做出決定的。「在許多情況下,這是不可接受的,即使它得到了正確的答案,」計算神經科學家、負責劍橋 MIT-IBM Watson AI 實驗室的 David Cox 說。假設一家銀行使用人工智慧來評估你的信譽,然後拒絕給你一筆貸款,「美國多個州的法律都規定必須解釋其中的原因,」他說。

也許這裡面最重要的就是缺乏常識的問題了。深度學習系統可能在識別畫素分佈的模式上很擅長,但是它們無法理解模式的含義,更不用說理解模式背後的原因了。「在我看來,當前的系統還不知道沙發和椅子是用來坐的,」DeepMind 的 AI 研究員 Greg Wayne 說。

深度學習暴露的越來越多的弱點正在引起公眾對人工智慧的關注。特別是在無人駕駛汽車領域,它們使用類似的深度學習技術進行導航,曾經導致了廣為人知的災難和死亡事故。

儘管如此,無可否認,深度學習是一種非常強大的工具。深度學習使得部署應用程式(例如面部識別和語音識別)變得非常常見,這些應用程式在十年前幾乎不可能完成。「所以我很難想象深度學習會在這種時候被拋棄,」Cox 說。「更大的可能是對深度學習方法進行修改或增強。」

大腦戰爭

今天的深度學習革命的根源在於 20 世紀 80 年代的「大腦戰爭」,當時兩種不同的人工智慧流派相互爭執不休。

一種方法現在被稱為「老式的 AI」,自 20 世紀 50 年代以來一直佔據著該領域的主導地位,也被稱為符號 AI,它使用數學符號來表示物件和物件之間的關係。加上由人類建立的廣泛的知識庫,這些系統被證明在推理方面非常擅長。但是到了 20 世紀 80 年代,人們越來越清楚地認識到,符號 AI 在處理現實生活中的符號、概念和推理的動態時表現得非常糟糕。

為了應對這些缺點,另一派研究人員開始倡導人工神經網路或連線人工智慧,他們是當今深度學習系統的先驅。這種系統的基本思想是通過傳播模擬節點(人腦中神經元的類似物)網路中的訊號來對其進行處理。訊號沿著連線(突觸的類似物)從節點傳遞到節點。類似於真實的大腦,學習是調整可放大或抑制每個連線所攜帶訊號的「權重」的問題。

在實踐中,大多數網路將節點排列為一系列層,這些層大致類似於皮層中的不同處理中心。因此,專門用於影像的網路將具有一層輸入節點,這些節點對單個畫素做出響應,就像視杆細胞和視錐細胞對光線照射視網膜做出響應一樣。一旦被啟用,這些節點通過加權連線將其啟用級別傳播到下一級別的其它節點,這些節點組合輸入訊號並依次啟用(或不啟用)。這個過程一直持續到訊號到達節點的輸出層,其中啟用模式提供最終預測。例如,輸入影像是數字「9」。如果答案是錯誤的,例如說輸入影像是一個「0」。網路會執行反向傳播演算法在層中向下執行,調整權重以便下次獲得更好的結果。

到 20 世紀 80 年代末,在處理嘈雜或模糊的輸入時,神經網路已經被證明比符號 AI 好得多。然而,這兩種方法之間的對峙仍未得到解決,主要是因為當時計算機能擬合的人工智慧系統非常有限。無法確切知道這些系統能夠做什麼。

深度學習侷限何在?圖網路的出現並非偶然

AI 的「神經網路」模型通過類似於神經元的節點網路傳送訊號。訊號沿著連線傳遞到節點。「學習」會通過調整放大或抑制每個連線所承載訊號的權重來改善結果。節點通常以一系列層排列,這些層大致類似於皮質中的不同處理中心。今天的計算機可以處理數十層的「深度學習」網路。圖片來源:Lucy Reading-Ikkanda。

算力革命

這種理解在 21 世紀得到變革,隨著數量級計算機的出現,功能更加強大的社交媒體網站提供源源不斷的影像、聲音和其它訓練資料。

Hinton 是反向傳播演算法的聯合提出者,也是 20 世紀 80 年代連線主義運動的領導者。他和他的學生們不斷嘗試訓練比以前更大的網路,層數從一個或兩個增加到大約六個(今天的商業網路通常使用超過 100 層的網路)。

2009 年,Hinton 和他的兩名研究生表示,這種「深度學習」在語音識別上能夠超越任何其它已知的方法。2012 年,Hinton 和另外兩名學生發表了論文,表明深度神經網路在影像識別上可能比標準視覺系統好得多。「我們幾乎將誤差率減半,」他說。在這之後,深度學習應用的革命開始了。

研究人員早期更加關注擴充套件深度學習系統的訓練方式,Matthew Botvinick 說。他在 2015 年從普林斯頓的神經科學小組離開,學術休假一年,進入 DeepMind,從那時起一直沒有離開。語音和影像識別系統都使用了監督學習,他說:「這意味著每張圖片都有一個正確的答案,比如貓的影像的類別必須是'貓'。如果網路預測錯誤,你就告訴它什麼是正確的答案。」然後網路使用反向傳播演算法來改進其下一個猜測。

Botvinick 說,如果有精心標記的訓練樣例,監督學習的效果會很好。但一般而言,情況並非如此。它根本不適用於諸如玩視訊遊戲等沒有正確或錯誤答案的任務,其中僅有成功或失敗的策略。

Botvinick 解釋說,對於那些情況(事實上,在現實世界的生活中),你需要強化學習。例如,玩視訊遊戲的強化學習系統學會尋求獎勵,並避免懲罰。

2015 年,當 DeepMind 的一個小組訓練網路玩經典的 Atari 2600 街機遊戲時,首次成功實現了深度強化學習。「網路將在遊戲中接收螢幕影像作為輸入,」隨後加入該公司的 Botvinick 說,「在輸出端有指定動作的圖層,比如如何移動操縱桿。」該網路的表現達到甚至超過了人類 Atari 玩家。2016 年,DeepMind 研究人員使用掌握了相同網路的更精細版本的 AlphaGo 在圍棋上擊敗了人類世界冠軍。

深度學習之外

不幸的是,這些里程碑式的成就都沒有解決深度學習的根本問題。以 Atari 系統為例,智慧體必須玩上千輪才能掌握多數人類幾分鐘之內就能學會的遊戲。即便如此,網路也無法理解或解釋螢幕上的拍子等物體。因此 Hinton 的問題也可以用在這裡:到底哪裡還沒做好?

也許沒有哪裡沒做好。也許我們需要的只是更多的連線、更多的層以及更加複雜的訓練方法。畢竟,正如 Botvinick 所指出的,神經網路在數學上等同於一臺通用計算機,也就是說只要你能找到正確的連線權重,就沒有神經網路處理不了的計算——至少理論上是這樣。

但在實踐中,出現的錯誤卻可能是致命的——這也是為什麼人們越發感覺深度學習的劣勢需要從根本上解決。

擴充套件訓練資料的範圍是一種簡單的解決方法。例如,在 2018 年 5 月發表的一篇論文中,Botvinick 的 DeepMind 團隊研究了神經網路在多個任務上訓練時發生了什麼。他們發現,只要有足夠的從後面的層往前傳遞(這一特性可以讓網路隨時記住自己在做什麼)的「迴圈」連線,網路就能自動從前面的任務中學習,從而加速後續任務的學習速度。這至少是人類「元學習」(學習如何學習)的一種雛形,而元學習是人類能夠快速學習的一大原因。

一種更激進的可能性是,放棄只訓練一個大的網路來解決問題的做法,轉而讓多個網路協同工作。2018 年 6 月,DeepMind 團隊發表了一種新方法——生成查詢網路(Generative Query Network)架構,該架構利用兩個不同的網路,在沒有人工輸入的複雜虛擬環境中學習。一個是表徵網路,本質上是利用標準的影像識別學習來識別在任何給定時刻 AI 能看到的東西。與此同時,生成網路學習獲取第一個網路的輸出,並生成整個環境的 3D 模型——實際上是對 AI 看不到的物件和特徵進行預測。例如,如果一張桌子只有三條腿可見,上述 3D 模型將生成同樣大小、形狀及顏色的第四條腿。

Botvinick 表示,這些預測反過來又能讓系統比使用標準的深度學習方法更快地學習。「一個試圖預測事物的智慧體會在每一個時間步上自動得到反饋,因為它可以看到自己的預測結果如何。」因此,智慧體可以不斷更新、優化模型。更妙的是,這種學習是自監督的:研究者不必標記環境中任何事物,甚至也不用提供獎勵或懲罰。

一種更徹底的方法是不要再讓網路在每一個問題中都從頭開始學習。「白板」(blank-slate)方法的確可以讓網路自由地發現研究者從未想過的物件、動作的表徵方式,也有可能發現一些完全出人意料的玩遊戲策略。但人類從來不會從 0 開始:無論如何,人類至少會利用從之前經歷中學到的或在進化過程中留在大腦中的先驗知識。

例如,嬰兒似乎生來就有許多固有的「歸納偏置」,使他們能夠以驚人的速度吸收某些核心概念。到了 2 個月大的時候,他們就已經開始掌握一些直觀的物理規律,包括物體存在的概念,這些物體傾向於沿著連續的路徑移動,當它們接觸時,不會互相穿過。這些嬰兒也開始擁有一些基礎的心理直覺,包括識別面孔的能力,以及認識到世界上存在其他自主行動的智慧體。

擁有這種內建的直覺偏置可能會幫助深層神經網路以同樣的速度快速學習,因此該領域的許多研究人員優先考慮這種思路。實際上,僅僅在過去的 1 到 2 年裡,一種名為圖網路的方法就在社群內引起了不小的轟動,這是一種頗有前景的方法。Botvinick 表示,「這種深度學習系統擁有固有偏置,傾向於將事物表徵為物件和關係。」例如,某些物體(如爪子、尾巴、鬍鬚)可能都屬於一個稍大的物件(貓),它們之間的關係是「A 是 B 的一部分」。同樣地,「球 A 和方塊 B」之間的關係可能是「相鄰」,「地球」繞著「太陽」轉……通過大量其他示例——其中任何示例都可以表徵為一個抽象圖,其中的節點對應於物件,連線對應於關係。

圖網路是一種神經網路,它將圖作為輸入(而不是原始畫素或聲波),然後學會推理和預測物件及其關係如何隨時間演變。(某些應用程式可能會使用獨立的標準影像識別網路來分析場景並預先挑選出物件。)

圖網路方法已經被證明在各種應用程式上都可以快速學習和達到人類級別的效能,包括複雜的視訊遊戲。如果它繼續像研究人員所希望的那樣發展,它就可以通過提高訓練速度和效率來緩解深度學習的巨量資料需求問題,並且可以使網路更不容易受到對抗性攻擊。因為系統表徵的是物體,而不是畫素的模式,這使得其不會被少量噪音或無關的雜物輕易誤導。

Botvinick 坦言,任何領域都不會輕易或快速地取得根本性進展。但即便如此,他還是堅信:「這些挑戰是真實存在的,但並非死路一條。」

深度學習侷限何在?圖網路的出現並非偶然

原文連結:www.pnas.org/content/116…



相關文章