今天,《科學》雜誌封面刊登了一篇重磅研究:人工智慧終於能像人類一樣學習,並通過了圖靈測試。
這個人工智慧像你一樣學習寫字
假設你從來沒有見過菠蘿。有一天,有人送了你一個菠蘿。儘管你這輩子只見過這一個菠蘿,但你只用一眼就看出了菠蘿的特徵。第二天,你去水果店,很快就能從一堆蘋果、葡萄、柚子中認出菠蘿來。你甚至還能在紙上畫出菠蘿的簡筆畫。 這種「僅從一個例子就形成概念」的能力對人來說很容易。然而,儘管人工智慧近年來取得了長足的進步,但要讓機器做到這一點,卻難於上青天,因為目前的人工智慧通常需要從大量的資料中進行學習,你得讓它看成千上萬張菠蘿的圖片才行。 不過,這個事實或許從今天開始改變了。今天,一篇人工智慧論文登上了《科學》雜誌的封面,為人們帶來了人工智慧領域的一個重大突破:三名分別來自麻省理工學院、紐約大學和多倫多大學的研究者開發了一個「只看一眼就會寫字」的計算機系統。(論文點此下載:Human-level concept learning through probabilistic program induction)
《科學》雜誌封面[/caption] 只需向這個系統展示一個來自陌生文字系統的字元,它就能很快學到精髓,像人一樣寫出來,甚至還能寫出其他類似的文字——更有甚者,它還通過了圖靈測試。下面就是機器和人寫出的字元。你猜哪些是機器寫出來的?傻傻分不清了吧?
機器的作品是1,2;2,1;1,1。[/caption] 這三名研究者分別是紐約大學資料科學中心的Brenden Lake,多倫多大學電腦科學與統計學系的Ruslan Salakhutdinov和麻省理工學院大腦與認知科學系的Joshua Tenenbaum。他們創造的AI系統能夠迅速學會寫陌生的文字,從某種意義上說明它領悟到了字元的本質特徵(也就是字元的總體結構),同時還能識別出非本質特徵(也就是那些因書寫造成的輕微變異)。
三名研究者從左到右分別是:Ruslan Salakhutdinov, Brenden Lake和Joshua B. Tenenbaum。圖/Alain Decarie/The New York Times[/caption]
人類的概念具有極大的彈性,因此,儘管許多概念的邊界十分模糊,但我們依然能進行明確的分類。這三位研究者聲稱,他們的系統就抓住了這種彈性。該系統能模仿人類的一個特殊天賦——從少量案例中學習新概念。它所根植的計算結構叫做概率程式(probabilistic program),還可能有助於對人類獲得複雜概念的過程進行建模。
Joshua B. Tenenbaum是麻省理工學院大腦與認知科學系的教授,他說:「目前的人工智慧領域大都聚焦在對模式進行分類。但是,這種型別的智慧所缺少的不是分類或識別,而是思考。這就是為什麼儘管我們研究的是手寫字元,但也會大言不慚地使用『概念』這種詞。因為我們能用這些字元來研究更加豐富和複雜的概念。我們能理解字元的來歷和構件,也能理解如何用不同的方式來使用字元,並造出新的來。」
通過「圖靈測試」
這篇論文的第一作者Brenden Lake在Tenenbaum的團隊中獲得了認知科學的博士學位,如今他是紐約大學的博士後。根據Lake的介紹,他們在論文中分析了三個核心原則,這些原則都很通用,既可以用在字元上,也可以用在許多其他的概念上:
組合性(compositionality):表徵是由更簡單的基元構建而成。
因果性(causality):模型表徵了字元如何生成的抽象因果結構。
學會學習(learning to learn):過去的概念知識能夠幫助學習新概念。
研究者對這個AI系統進行了幾項測試。
研究者向系統展示它從未見過的書寫系統(例如,藏文)中的一個字元例子,並讓它寫出同樣的字元。並不是讓它複製出完全相同的字元,而是讓它寫出9個不同的變體,就像人每次手寫的筆跡都不相同一樣。例如,在看了一個藏文字元之後,演算法能挑選出該字元用不同的筆跡寫出來的例子,識別出組成字元的筆畫,並重畫出來。
研究者向系統展示了一個陌生書寫系統中的幾個不同的字元,並讓它創造出一些相似的字元。
研究者讓它在一個假定的書寫系統中創造出全新的字元。
與此同時,人類被試也被要求做同樣的事情。最後,研究者要求一組人類裁判(來自亞馬遜土耳其機器人,Amazon Mechanical Turk)分辨出哪些字元是機器寫的,哪些是人類寫的。結果,裁判的正確率僅為52%,和隨機的結果差不多。於是,機器通過了所謂的視覺圖靈測試。 [caption id="attachment_8397" align="aligncenter" width="500"]
紅圈標出的是機器的作品。
傳統的機器學習系統(比如手機上的語音識別演算法)在某些分類任務上的表現很好,但是它們首先需要大量的資料集來進行訓練。相比之下,人類只需要少量的例子就能抓住某個概念的精髓。這種「一次性學習」正是研究者希望他們的系統能模擬的能力。
學會如何學習
三位研究者採用的方法是「貝葉斯程式學習」(BPL,Bayesian Program Learning),能讓計算機系統對人類認知進行很好的模擬。傳統的機器學習方法需要大量的資料來訓練,而這種方法只需要一個粗略的模型,然後使用推理演算法來分析案例,補充模型的細節。
在這篇論文中,研究者的模型只規定了人類書寫系統的字元由筆畫組成。筆畫由抬高筆觸來區分,而筆畫又由更小的子筆畫組成,子筆畫用筆尖速度為零的點來區分。
有了這個初始模型之後,研究者向AI展現了人類手寫文字的方式,包括筆畫順序等,讓系統學習連續的筆畫和子筆畫之間的統計關係,以及單個筆畫所能容忍的變異程度。這個系統從未在它所分析的書寫系統上進行過任何訓練,它只是推理出了人類寫字的一般規律。
Tenenbaum說:「每個星期,我們似乎都能讀到機器在人臉識別、語音識別方面與人類旗鼓相當的新聞。但是,對我這種研究心智的科學家來說,機器學習和人類學習之間的鴻溝是巨大的。我們希望彌合這個鴻溝,這是我們的長期目標。」
各方評價
劍橋大學的資訊工程教授Zoubin Ghahramani說:「我認為這對人工智慧、認知科學和機器學習是一個重大的貢獻。深度學習目前已取得了重要的成功,這篇論文非常清醒地表明瞭深度學習的侷限性,因為深度學習需要大量的資料,並且在這篇論文所描述的任務上表現很差。這篇論文也展現了實現類人機器學習的重要方法。」 也有一些人對「人工智慧超越人腦」這種說法持謹慎態度。艾倫人工智慧研究所的Oren Etzioni說:「對『超人的表現』這種詞,我會非常謹慎。當然,這個演算法確實展現出了超過一般人的表現,除了達斯汀·霍夫曼。」(指霍夫曼主演的《雨人》電影。)
與深度學習優勢互補
多倫多大學和谷歌的人工智慧先驅Geoffrey Hinton說這個研究「令人印象非常深刻」。他說,這個模型能通過視覺圖靈測試,這很重要。「能實現這一點,是一個不錯的成就。」Hinton是深度學習的奠基者。深度學習近年來取得了舉世矚目的成就,被廣泛應用在許多領域,例如語音翻譯、影像識別等。深度學習用在谷歌的影像搜尋和Facebook的人臉識別上,獲得了巨量的資料以供學習。 然而,這篇新論文說「貝葉斯程式學習」比深度學習的表現更好。不過,三位作者和Hinton都禮貌地表明,這兩種方法在不同的任務上各領風騷,假如能彼此借鑑,一定能互相提升——如果能建出一個混血系統,說不定能有更大的提升。在資料量巨大但較混亂的情況下,深度學習能發揮優勢;而在資料量少而清晰的情況下,貝葉斯學習佔領上風。 Hinton說,這篇論文最令人興奮的成果或許是能讓那些宣稱智慧計算機系統的學習方式與人類完全不同的批評者閉嘴,因為他們的主要論據正是計算機不能從單個例子中形成概念。
未來
在未來,這種機器學習的技術能夠完成很多工,例如讀懂手語、提升語音識別軟體的效能等。運用這種方法,或許只用向計算機展示一張人臉照片,它就能從任何角度識別出這個人。它甚至有可能用來制定軍事行動計劃。 當然,儘管這個成果很重要,但它對人工智慧領域來說只是一個小小的起點,不代表未來的機器學習都必須採用這種方法。正如它顛覆了「計算機如何理解概念」這個課題一樣,在這個日新月異的領域中,極有可能下個月就出現一種新方法,將它甩在後面飛揚的塵土中。
參考:
Brenden M. Lake1, Ruslan Salakhutdinov, Joshua B. Tenenbaum. Human-level concept learning through probabilistic program induction. Science 11 December 2015: Vol. 350 no. 6266 pp. 1332-1338.
Larry Hardesty. Computer Drawings fool human judges, pass "Visual Turing Test". MIT News
John Markoff. A Learning Advance in Artificial Intelligence Rivals Human Abilities. nytimes
Researchers create an artificial intelligence model that learns, and draws, just like you. Torstar News Service
Dave Gershgorn. Computers are closer to copying the way human learn. Popsci.
作者:汪汪。