效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

邱陸陸發表於2018-01-06

撰文 | 邱陸陸

人工智慧度過了轟轟烈烈的 2017,有人山人海的學術會議,也有雨後春筍般的新興獨角獸。而邁入 2018,我們除了觀望創業者們如何在現實世界中搭建他們精心描繪的人工智慧藍圖(起碼搭個地基),也對注入了大量新鮮血液的研究領域抱有了更高的期待。

然而知名研究者,紐約大學心理學和神經科學教授 Gary Marcus 在新年第 2 天,就潑出了第一盆冷水:他在 arXiv 上釋出了一篇長達 27 頁的文章,歷數今日的深度學習十大無法逾越的鴻溝,得出「深度學習不是人工智慧的通用解決方案」的結論。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

Gary Marcus 在 2017 機器之心 GMIS 大會上


機器之心第一時間編譯了全文。然而儘管 Marcus 在文章開頭強調本文「寫給該領域的研究人員,也寫給缺乏技術背景又可能想要理解該領域的 AI 消費者」,並且在丟擲論點前給出了一小段背景介紹,但論述中仍然充滿了容易讓人分散注意力的大量專業術語。那麼如果撥開這些藤蔓,Gary Marcus 在批判深度學習時,究竟在批判什麼呢?

深度學習需要大量資料,但這為什麼是一個弱點?

批評深度學習依賴大資料,其實是在批評它效率太低。

大資料究竟有多大?這裡有一組具體的數字:

以 2012 年的 Krizhevsky,Sutskever 和 Hinton 的一篇知名論文為例:文章中的用於對 1000 類影象進行分類的模型有 65 萬個節點,6000 萬個引數,使用了 100 萬個樣本進行訓練。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

最簡單的模型


這是什麼概念?與世界上最簡單的模型 y = mx + b 做對比,這裡有 1 個自變數 x,有 2 個需要優化的引數 m 和 b,需要幾個或者幾十個樣本來優化 m 和 b 的值。而一個 6 年前的深度學習模型裡,就相當於有 65 萬個 x,6000 萬個 m,使用了 100 萬個樣本來優化引數的值。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

6 年前的神經網路

然而這個模型訓練好了之後,僅能分辨它見過的這 1000 類物體。作為對比,人類日常生活中常見的物體至少以萬為單位,地球上的物體則以百萬為單位。

不僅如此,他還提到了深度學習領域教父級人物 Geoffery Hinton 2017 年的一個觀點:卷積神經網路(常用於處理影象的深度學習模型)可能會遭遇「指數低效」並由此走向失敗。Hinton 的觀點是,識別物體需要模型有捕捉各種轉換的能力,雖然處理不變性轉換(比如同一物體不同角度的轉換)的能力已經在模型中存在了,但如果想要捕捉其他也普遍存在於自然界的轉換,則需要在大量擴大模型規模(6000 萬引數)和大量增加訓練樣本數量(100 萬張圖片)兩種方法中至少二選其一——選擇的結果是,模型需要的計算量指數上漲。

因此,Marcus 的第一個觀點是,以這麼鋪張浪費的方法進行下去,別說通用人工智慧了,就算是專用人工智慧也會早早遇到計算的瓶頸而走不下去。

深度學習太「膚淺」:學到的都是表象而不是本質

換句話說就是譴責深度學習「背答案」。

Marcus 的譴責物件有大名鼎鼎的 DeepMind 家會打各種 Atari 遊戲的強化學習模型。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

DeepMind 的打磚塊達人


Vicarious 的研究者發現,只要稍微改動一點設定,模型立刻就從高手變成連基本規則都不清楚的小白。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧


a:原版打磚塊設定;b:加了一塊打了沒用的「牆」;c:把一半的磚塊變成越打越多的「負磚塊」;d:稍微挪動接球拍的高度;e:在磚塊兩端新增空隙;f:多個球

此外還有一些非常有自嘲精神的學者嘗試以子之矛攻子之盾,自己調整資料「攻擊」自己的模型。


研究者 Robin Jia 和 Percy Liang 建了 16 個閱讀理解問答系統。原本在被問到「誰贏得了超級碗 XXXIII?」時,有 75% 的系統可以在閱讀一小段文字後正確回答:John Elway。然而如果在這一段文字裡插入「谷歌大神 Jeff Dean 曾經贏得 XX 碗比賽。」這句廢話,能正確回答的系統比例銳減到了 36%。

他用這個例子來質疑,所謂「能學習抽象概念」的機器學習模型,是不是在「不懂裝懂」呢?

深度學習太「單純」:挖坑就跳,一騙一個準

最早提出深度學習系統的「可欺騙性(spoofability)」的論文可能是 Szegedy et al(2013)。然而四年過去了,儘管研究活動很活躍,但目前仍未找到穩健的解決方法。

Marcus 舉出了更多人類用簡單手段給深度學習模型挖坑的例子——甚至都不算是挖坑了,這基本相當於平地摔。

比如有深度學習的影象描述系統將黃黑相間的條紋圖案誤認為校車:

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

把 3D 列印的烏龜模型誤認為是步槍:

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧


更致命的可能是交通標誌錯誤識別:

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧


一個最新的例子,只要在日常場景里加如一小張帶花紋的貼紙,香蕉就會被誤認為是烤麵包機:

因此,恐怕自動駕駛汽車在上路之前,是不是要先嚐試找出上述問題的解決方案,或者,制定完備的應對措施呢?

錯的不是深度學習,而是你

在羅列了深度學習模型與通用人工智慧之間的種種不可逾越的鴻溝之後,Marcus 話鋒一轉:其實深度學習的本質就是以概率論為代表的數學,它很有用,但它的底層數學基礎限定了它的有用範圍:它是資料足夠多的封閉式的分類問題的一個幾乎完美的答案,但也僅僅是這類問題的答案。

通用人工智慧根本就不是這類問題,因此錯的不是深度學習,而是對深度學習抱有錯誤期望的你:你指望一個特別好用的電動螺絲刀幫你鋸木頭、測電壓、量尺寸?

因此 Marcus 這篇長文的真正目的是,譴責媒體和投資人對於 AI 概念的過度炒作並預警:這樣的炒作只會帶來大量的期望泡沫,而隨著時間推移、泡沫破滅,70 年代的人工智慧低谷會捲土重來,失望的資金會如同潮水一樣離開這個領域。而且這一切已經初現苗頭,《連線》雜誌最新的文章《自動駕駛步入幻想破滅階段》,就是一個很好的例子。

他用了一個機器學習中的數學術語描述這一現象,「區域性極小值陷阱」。

效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧


機器學習模型選擇最合適的引數的過程,就像在這條彎彎曲曲的函式線上通過小步摸索的辦法尋找最小值,路線上有太多看起來像最小值的小坑窪,而真正的最小值只有一個。

我們探索最聰明的 AI 的路徑也一樣,在起伏的山路上尋找最低點,可山路上充滿著看起來像最低點的小坑窪。我們有沒有過分沉迷於這樣遠非最佳的小坑窪呢?有沒有過於專注地探索可用但侷限的模型、熱衷於摘取易於獲取的果實,而忽略那些風險很大,但是最終或許可以帶來更穩健發展的「小路」呢?

深度學習雖好,但沒有那麼好。調整過高的預期,轉移過分集中的關注點,放平心態不要急於求成,或許才是熱潮中的我們應該做的事情。效率低、易欺騙…什麼阻礙了深度學習實現通用人工智慧

相關文章