在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

tony.peng發表於2017-11-03
上週,Vicarious AI 發表在 Science 上的一篇論文引發了業內熱議,有褒有貶,甚至有媒體挖出了 Yann LeCun 2013 年對 Vicarious AI 的批判。在論文釋出後,機器之心對 Vicarious AI 的 CTO Dileep George 進行了專訪,談到了概率生成模型、Yann LeCun 的批判等話題。

在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

Dileep George

Vicarious AI 是一家矽谷的人工智慧 (A.I.) 初創公司,致力於從人腦中獲得啟發,實現擁有高等智慧的機器人。在 Vicarious AI 的辦公室裡,到處可見其標語——Our Frontier, Human-like AI。

上週,Vicarious AI 發表的一篇論文《A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs》引發了 AI 界的熱議。作者在論文中提出了一個不同於深度學習的模型——遞迴皮質網路(Recursive Cortical Network),突破了基於文字的全自動區分計算機和人類的圖靈測試 CAPTCHA。和主流的深度學習演算法相比,Vicarious AI 的遞迴皮質網路在場景文字識別中體現了 300 倍的訓練資料使用效率。

文字 CAPTCHA,也就是驗證碼,是用來防止機器人惡意登入網站的網路安全軟體。人類是很容易識別出 CATPCHA 中形狀怪異的文字,但對機器而言,CAPTCHA 則成了看不懂的鬼畫符,所以這也被視為是一種圖靈測試。

在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

早在 2013 年,Vicarious AI 就聲稱已經攻克 CAPTCHA,但公司直到上週才發表了論文。其中一個主要原因是,當時 CAPTCHA 還在被廣泛使用,Vicarious AI 擔心發表論文會引發不小的網路安全問題。現在,依舊使用 CAPTCHA 作為驗證手段的公司已經不多了,正是發表論文的好時機。

對 Vicarious AI 來說,攻克 CAPTCHA 只是通往 Human-like A.I. 的一箇中繼站。「我們的目標是解決所有人類擅長解決的問題,尤其是在面對自然視覺訊號時,」George 說。

「如果一生只解決一個問題,我肯定選擇人腦。」

George 本科畢業於印度理工學院,隨後來到美國史丹佛大學就讀電氣工程,同時鑽研機器學習。到了第二年,Dileep 開始對神經科學產生興趣。「我曾經在初中讀過很多心理學的書,在本科的時候全放棄了。這種興趣在研二的時候又突然回來了,這讓我開始側重對神經科學的研究。」

George 在史丹佛大學讀博士期間,遇到了 Jeff Hawkins——《人工智慧的未來》作者,也是矽谷掌上電腦公司 Palm 的創始人(Palm 在 2011 年被惠普收購)。Hawkins 是神經科學領域的大牛,和 George 意氣相投,兩人在 2005 年共同建立了 Numenta——一家致力於機器智慧的軟體公司。

Numenta 並不滿足於 George 對神經科學和機器學習的探索,所以在 2010 年,他準備重新創立一家新公司。碰巧在那個時候,D. Scott Phoenix 也就是 Vicarious AI 的現任 CEO 找到了他。創立 Vicarious AI 之前,Phoenix 曾有過一次創業經歷,公司被矽谷知名的孵化器 Y Combinator 收錄。之後,他又加入風投 Founders Fund,成為合夥人。

Phoenix 看中 George 在神經科學和工程學上的造詣,決定與他一同建立 Vicarious AI。從公司創立之初,他們的目標就很明確——從人腦獲得啟發,實現擁有高等智慧的 A.I.。

「人腦就是一個通用學習的基礎框架,可以在這個世界裡學習各種各樣的問題,」Phoenix 在接受高盛投資公司的採訪中說。

在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

D. Scott Phoenix

當時,提出這個想法的公司很少,但矽谷向來不缺慧眼識人的投資家,比如 Facebook 的天使投資人以及 Paypal 的創始人 Peter Thiel。Thiel 在 2010 年年底給 Vicarious AI 一筆種子輪融資。到了 2014 年,Vicarious AI 完成了 4000 萬美元的 B 輪融資,包括 Facebook 的創始人 Mark Zuckerberg,Y Combinator 的 CEO Sam Altman,以及 Tesla 的創始人 Elon Musk 都參與其中。截止目前,Vicarious AI 的融資總額已經超過了 1.3 億美元。

和融資額形成強烈反差的,是公司至今不過 50 人的規模以及緩慢的擴張速度。George 透露說,直到 2013 年,Vicarious AI 的團隊才只有六個人。

「不是不想招人,我們花了很長時間才確定了一條我們自認為正確的研究方向。」George 說。這條方向就是讓機器獲得感知。

機器理解世界,需要畫面感

A.I. 界有一句戲言——「無法理解自然語言的通用人工智慧都是耍流氓」。但是,Vicarious AI 在創立之初卻決定先回避對自然語言的研究,從計算機視覺領域入手。George 看來,如果機器無法感知這個世界,它也無法理解自己到底在幹什麼。

「一根垂直插在牆上的釘子和一根垂直插在地上的釘子,哪根釘子是橫向的?」George 舉了個簡單的例子。很明顯,插在牆上的釘子是答案。「通常來說,人們不是單純地從字面上得到這個答案,而是在腦中想象這個畫面。得到這個畫面前,你必須有關於牆的物理知識和牆與釘子的互動方式,這也是為什麼 Vicarious AI 要從視覺下手。」

在計算機視覺領域,如今的主流演算法是以卷積神經網路(Convolutional Neural Network) 為代表的深度學習演算法。但是,深度學習演算法只對固定的問題有效,一旦問題出現變化,演算法就不管用了。

「現在的強化學習已經可以玩打磚塊遊戲了,可如果下面的接受盤往上升三個畫素,那麼這個模型就會崩潰,」George 說完,還特別強調了「三個畫素(only three pixels)」。

大量的資料和計算能力同樣是制約深度學習的條件,至少人類下一盤圍棋只需要一雙手和一杯咖啡提提神,而基於深度學習的 AlphaGo 則要花上 3000 美金;重疊問題則是困擾卷積神經網路許久的「阿喀琉斯之踵」,一旦兩張圖片重疊,且重疊部分的顏色完全一致,那麼卷積神經網路就很難分辨出來。

因此,Vicarious AI 選擇了不同於深度學習的生成概率模型,能夠模擬和生成影象中物體的輪廓、外形,從而理解物體。生成模型有兩個明顯的好處:更好的泛化能力和處理對抗樣本的能力。在 Vicarious AI 最新的論文中,遞迴皮質網路就是一種能在多種計算機視覺任務中實現強大的效能和高資料效率的生成模型。

研究生成模型的挑戰在於:研究問題的邊界是未知的,這反而成了深度學習演算法的優勢——只讓機器做一件事情,它就可以做得很好。Vicarious AI 的團隊花了很長時間挑選研究的課題,既能解決計算機視覺中對物體的檢測和識別,也能體現泛化的能力。最後,Vicarious AI 選中了 CAPTCHA。

著名的哲學家 Douglas Hofstadter 曾說過:「AI 的核心問題就是理解字母 A(the central problem of AI to understand is the letter 『A』)」,George 對這句話深信不疑。

在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

代表字母 A 的四層遞迴皮質網路結構

「我認為 CAPTCHA 是一個『完全的 AI 問題』。如果你完全地解決了這種型別的問題,那你就得到了通用人工智慧。」George 告訴記者,為了能徹底識別 CAPTCHA,模型必須能識別任何文字。不只是驗證碼,即使有人在紙上隨便寫什麼形式的字型(就像 PPT 裡的藝術字一樣),模型也需要識別出來。

想要研究 CAPTCHA 的科學家不止 George 和他的團隊,很多科學家都意識到識別 CAPTCHA 的重要性。麻省理工大學的認知科學教授 Josh Tenenbaum 同樣在使用生成概率模型解決 CAPTCHA 的問題。

而 Vicarious AI 的解決方法和其他研究最大的區別是——將腦科學的研究成果應用到生成模型中。

人腦已經為機器搭好了框架

在實現通用人工智慧的方法上,如今的 A.I. 界出現了巨大的分歧:偏向於借鑑人腦先天機制的「自然派」與相信機器自身發展的「機器派」。今年 10 月,A.I. 界的兩位旗手——紐約大學心理學和神經科學教授 Gary Marcus 和 Facebook A.I. 研究所主管 Yann LeCun 就這個問題展開了兩個多小時的辯論。Marcus 支援前者,LeCun 則是機器派。

Vicarious AI 選擇了站隊「自然派」:對人類大腦的研究是實現通用人工智慧的關鍵。「所有的學習演算法到頭來都是搜尋,如果撇開人腦,這樣的搜尋量實在是太大了;所以,我們認為需要借鑑人腦的特徵來實現。」目前,Vicarious AI 有 20% 的成員是研究神經科學的專家,這些對人腦皮質的研究成果也在最新的這篇論文中體現。

在這篇論文中,最典型的例子就是利用視覺皮層中的橫向連線(lateral connections)。在人類的視覺系統中,橫向連線能夠保證人類理解物體輪廓的連續性;將人類視覺的特徵應用到遞迴皮質網路上時,橫向連線允許遞迴皮質網路在池化的過程中不會失去特異性,從而增加不變性。

另一個例子則是「自上而下的注意力機制」。即使是高度重疊且重疊部分透明的字母 A 和 B,人類也可以輕鬆地分開識別這些字母,這是依靠了注意力機制。當這種特性應用在遞迴皮質網路時,就可以允許網路擁有組合型(compositionality),允許用多個物件來表示場景。

「我們的研究需要一個稱之為『腳手架(scaffold)』的東西,」George 進一步解釋道。腳手架原本是程式設計中的專用詞,程式設計師會建造一個框架(腳手架)讓他們方便地訪問函式。同樣的,遞迴皮質網路沒有采取和 CNN 或者其他深度學習網路的方法,從一張白紙開始從頭分析影象;而是基於人類識別影象的這個框架,讓機器擁有和人類視覺系統一樣的特徵。

從結果上來看,遞迴皮質網路在場景文字識別基準的資料效率是深度學習演算法的 300 倍甚至更多。遞迴皮質網路在 reCAPTCHA 上的準確率達到 66.6%,BotDetect 64.4%,Yahoo 57.4%,PayPal 57.1%。只要準確率高於 1%,就被認為是攻破了 CAPTCHA。

當 2013 年 Vicarious AI 公佈結果時,業界褒貶不一,Vicarious AI 沒有拿出有效的研究方法是很多 A.I. 科學家口誅筆伐的主要理由,其中也包括了 LeCun。他在 2013 年對 Vicarious AI 進行了激烈的抨擊,並用「這是最糟糕的教科書式的 AI 炒作案例(It is a text example of AI hype of the worst kind)」來譴責 Vicarious AI。

在大家熱議Vicarious AI那篇Science論文時,我們和這家公司的CTO聊了聊(迴應LeCun批判)

過去的四年裡,不少人都問過 George 對 LeCun 這番話的評價,他都不予置評。直到上週的論文發表後,George 告訴機器之心,「這篇論文就是最好的答案。」

遞迴皮質網路不只是用來攻破 CAPTCHA,它還將被應用在控制、推理、機器人技術上。近兩年,Vicarious AI 已經在實驗室裡研究如何將技術應用到工業機器人上。

據 Vicarious AI 的商業化總監樓興華博士介紹,Vicarious AI 將提供倉儲機器人和工廠機器人所需要的視覺和控制的智慧模組,尤其是在柔性製造上(flexible manufacturing)。傳統的剛性製造生產線都是非標準自動化,每條生產線針對特定的產品,配置和模具都不一樣。柔性製造的概念是自動適應不同的產品,最明顯的優勢就是讓系統滿足不同的產品要求進行生產,在場景和需求都變化的情況下,機器人的生產效率也能夠被保障。

Vicarious AI 的投資人包括 ABB Group 和 Amazon,這家公司也與眾多國內外頂尖機器人公司和製造商建立了合作關係。

工業機器人是目前 Vicarious AI 技術落地的方式,但並不意味著 Vicarious AI 會就此止步。Vicarious AI 希望在 2040 年前後實現高等智慧的 A.I.。

「我不覺得其他公司會比我們先解決這個問題,」George 顯得很有信心,「實現高等智慧的 A.I. 就像是把人類送上月球一樣偉大,這是我們做下去的動力。」

相關文章