人工智慧之夢

turingbooks發表於2020-04-07

作者:張江

製造出能夠像人類一樣思考的機器是科學家們最偉大的夢想之一。用智慧的大腦解讀智慧必將成為科學發展的終極。而驗證這種解讀的最有效手段,莫過於再造一個智慧大腦——人工智慧(Artificial Intelligence,AI)。

人們對人工智慧的瞭解恐怕主要來自於好萊塢的科幻片。這些熒幕上的機器(見圖1-1)要麼殺人如麻,如《終結者》《黑客帝國》;要麼小巧可愛,如《機器人瓦利》;要麼多愁善感,如《人工智慧》;還有一些則大音希聲、大象無形,如《黑客帝國》中的Matrix網路,以及《超驗駭客》《超體》。所有這些熒幕上的人工智慧都具備一些共同特徵:異常強大、能力非凡。

這裡寫圖片描述

然而,現實中的人工智慧卻與這些熒幕上的機器人相差甚遠,但它們的確已經在我們身邊。搜尋引擎、郵件過濾器、智慧語音助手Siri、二維碼掃描器、遊戲中的NPC(非玩家扮演角色)都是近60年來人工智慧技術實用化的產物。這些人工智慧都是一個個單一功能的“裸”程式,沒有堅硬的、靈活的軀殼,更沒有想象中那麼善解人意,甚至不是一個完整的個體。為什麼想象與現實存在那麼大的差距?這是因為,真正的人工智慧的探索之路充滿了波折與不確定。

歷史上,研究人工智慧就像是在坐雲霄飛車,忽上忽下。夢想的肥皂泡一次次被冰冷的科學事實戳破,科學家們不得不一次次重新回到夢的起點。作為一個獨立的學科,人工智慧的發展非常奇葩。它不像其他學科那樣從分散走向統一,而是從1956年創立以來就不斷地分裂,形成了一系列大大小小的子領域。也許人工智慧註定就是大雜燴,也許統一的時刻還未到來。然而,人們對人工智慧的夢想卻是永遠不會磨滅的。

本章將按歷史的順序介紹人工智慧的發展。從早期的哥德爾、圖靈等人的研究到“人工智慧”一詞的提出,再到後期的人工智慧三大學派:符號學派、連線學派和行為學派,以及近年來的新進展:貝葉斯網路、深度學習、通用人工智慧;最後我們將對未來的人工智慧進行展望。

夢的開始(1900—1956)

大衛•希爾伯特

這裡寫圖片描述

說來奇怪,人工智慧之夢開始於一小撮20世紀初期的數學家。這些人真正做到了用方程推動整個世界。

歷史的車輪倒回到1900年,世紀之交的數學家大會在巴黎如期召開,德高望重的老數學家大衛•希爾伯特(David Hilbert)莊嚴地向全世界數學家們宣佈了23個未解決的難題。這23道難題道道經典,而其中的第二問題和第十問題則與人工智慧密切相關,並最終促成了計算機的發明。

希爾伯特的第二問題來源於一個大膽的想法——運用公理化的方法統一整個數學,並運用嚴格的數學推理證明數學自身的正確性。這個野心被後人稱為希爾伯特綱領,雖然他自己沒能證明,但卻把這個任務交給了後來的年輕人,這就是希爾伯特第二問題:證明數學系統中應同時具備一致性(數學真理不存在矛盾)和完備性(任意真理都可以被描述為數學定理)。

庫爾特•哥德爾

這裡寫圖片描述

希爾伯特的勃勃野心無疑激勵著每一位年輕的數學家,其中就包括一個來自捷克的年輕人:庫爾特•哥德爾(Kurt Godel)。他起初是希爾伯特的忠實粉絲,並致力於攻克第二問題。然而,他很快發現,自己之前的努力都是徒勞的,因為希爾伯特第二問題的斷言根本就是錯的:任何足夠強大的數學公理系統都存在著瑕疵:一致性和完備性不能同時具備。很快,哥德爾倒戈了,他背叛了希爾伯特,但卻推動了整個數學的發展,於1931年提出了被美國《時代週刊》評選為20世紀最有影響力的數學定理:哥德爾不完備性定理。

儘管早在1931年,人工智慧學科還沒有建立,計算機也沒有發明,但是哥德爾定理似乎已經為人工智慧提出了警告。這是因為如果我們把人工智慧也看作一個機械化運作的數學公理系統,那麼根據哥德爾定理,必然存在著某種人類可以構造、但是機器無法求解的人工智慧的“軟肋”。這就好像我們無法揪著自己的腦袋脫離地球,數學無法證明數學本身的正確性,人工智慧也無法僅憑自身解決所有問題。所以,存在著人類可以求解但是機器卻不能解的問題,人工智慧不可能超過人類。

但問題並沒有這麼簡單,上述命題成立的一個前提是人與機器不同,不是一個機械的公理化系統。然而,這個前提是否成立迄今為止我們並不知道,所以這一問題仍在爭論之中。關於此觀點的延伸討論請參見本書第4章。

艾倫•圖靈

這裡寫圖片描述

另外一個與哥德爾年齡相仿的年輕人被希爾伯特的第十問題深深地吸引了,並決定為此奉獻一生。這個人就是艾倫•圖靈(Alan Turing)。

希爾伯特第十問題的表述是:“是否存在著判定任意一個丟番圖方程有解的機械化運算過程。”這句話的前半句比較晦澀,我們可以先忽略,因為後半句是重點,“機械化運算過程”用今天的話說就是演算法。然而,當年,演算法這個概念還是相當模糊的。於是,圖靈設想出了一個機器——圖靈機,它是計算機的理論原型,圓滿地刻畫出了機械化運算過程的含義,並最終為計算機的發明鋪平了道路。

圖靈機模型(見圖1-2)形象地模擬了人類進行計算的過程。假如我們希望計算任意兩個3位數的加法:139 + 919。我們需要一張足夠大的草稿紙以及一支可以在紙上不停地塗塗寫寫的筆。之後,我們需要從個位到百位一位一位地按照10以內的加法規則完成加法。我們還需要考慮進位,例如9 + 9 = 18,這個1就要加在十位上。我們是通過在草稿紙上記下適當的標記來完成這種進位記憶的。最後,我們把計算的結果輸出到了紙上。

這裡寫圖片描述

圖靈機把所有這些過程都模型化了:草稿紙被模型化為一條無限長的紙帶,筆被模型化為一個讀寫頭,固定的10以內的運演算法則模型化為輸入給讀寫頭的程式,對於進位的記憶則被模型化為讀寫頭的內部狀態。於是,設定好紙帶上的初始資訊,以及讀寫頭的當前內部狀態和程式規則,圖靈機就可以執行起來了。它在每一時刻讀入一格紙帶的資訊,並根據當前的內部狀態,查詢相應的程式,從而給出下一時刻的內部狀態並輸出資訊到紙帶上。關於圖靈機的詳細描述,請參見本書第2章。

圖靈機模型一經提出就得到了科學家們的認可,這無疑給了圖靈莫大的鼓勵。他開始鼓起勇氣,展開想象的翅膀,進一步思考圖靈機運算能力的極限。1940年,圖靈開始認真地思考機器是否能夠具備類人的智慧。他馬上意識到這個問題的要點其實並不在於如何打造強大的機器,而在於我們人類如何看待智慧,即依據什麼標準評價一臺機器是否具備智慧。於是,圖靈在1950年發表了《機器能思考嗎?》一文,提出了這樣一個標準:如果一臺機器通過了“圖靈測試”,則我們必須接受這臺機器具有智慧。那麼,圖靈測試究竟是怎樣一種測試呢?

如圖1-3所示,假設有兩間密閉的屋子,其中一間屋子裡面關了一個人,另一間屋子裡面關了一臺計算機:進行圖靈測試的人工智慧程式。然後,屋子外面有一個人作為測試者,測試者只能通過一根導線與屋子裡面的人或計算機交流——與它們進行聯網聊天。假如測試者在有限的時間內無法判斷出這兩間屋子裡面哪一個關的是人,哪一個是計算機,那麼我們就稱屋子裡面的人工智慧程式通過了圖靈測試,並具備了智慧。事實上,圖靈當年在《機器能思考嗎?》一文中設立的標準相當寬泛:只要有30%的人類測試者在5分鐘內無法分辨出被測試物件,就可以認為程式通過了圖靈測試。

這裡寫圖片描述

2014年6月12日,一個名為“尤金”(Eugene Goostman)的聊天程式(見圖1-4)成功地在5分鐘內蒙騙了30%的人類測試者,從而達到了圖靈當年提出來的標準。很多人認為,這款程式具有劃時代的意義,它是自圖靈測試提出64年後第一個通過圖靈測試的程式。但是,很快就有人提出這只不過是一個噱頭,該程式並沒有宣傳的那麼厲害。例如,谷歌公司的工程總監、未來學家雷•庫茲韋爾(Ray Kurzweil)就表示,這個聊天機器人號稱只有13歲,並使用第二語言來回答問題,這成為了該程式重大缺陷的藉口。另外,測試者只有5分鐘與之展開互動,這大大增加了他們在短期內被“欺騙”的概率。

這裡寫圖片描述

由此可見,圖靈將智慧等同於符號運算的智慧表現,而忽略了實現這種符號智慧表現的機器內涵。這樣做的好處是可以將所謂的智慧本質這一問題繞過去,它的代價是人工智慧研製者們會把注意力集中在如何讓程式欺騙人類測試者上,甚至可以不擇手段。所以,對於將圖靈測試作為評判機器具備智慧的唯一標準,很多人開始質疑。因為人類智慧還包括諸如對複雜形式的判斷、創造性地解決問題的方法等,而這些特質都無法在圖靈測試中體現出來。

這裡寫圖片描述

總而言之,圖靈的研究無疑大大推動了人工智慧的進展。然而,圖靈本人卻於1954年死於一個被劇毒氰化物注射過的蘋果,享年僅僅42歲。傳聞他是一名同性戀,這在當時的英國是非法的。於是英國政府強行給他注射一種藥物抑制他的同性戀傾向,這導致他最終在治療期間痛苦萬分地自殺了。據說,蘋果公司為了紀念這位電腦科學之父,特意用那個被圖靈咬掉一口的蘋果作為公司的logo。1966年,美國計算機協會設立了以圖靈命名的圖靈獎,以專門獎勵那些對計算機事業作出重要貢獻的人,這相當於計算機領域的諾貝爾獎。

約翰•馮•諾依曼

就在哥德爾絞盡腦汁捉摸希爾伯特第二問題的時候,另外一個來自匈牙利布達佩斯的天才少年也在思考同樣的問題,他就是大名鼎鼎的約翰•馮•諾依曼(John von Neumann)。

然而,馮•諾依曼遠沒有哥德爾走運。到了1931年,馮•諾依曼即將在希爾伯特第二問題上獲得突破,卻突然得知哥德爾已經發表了哥德爾定理,先他一步。於是,馮•諾依曼一氣之下開始轉行研究起了量子力學。就在他的量子力學研究即將結出碩果之際,另外一位天才物理學家保羅•狄拉克(Paul Dirac)又一次搶了他的風頭,出版了《量子力學原理》,並一舉成名。這比馮•諾依曼的《量子力學的數學基礎》整整早了兩年。

受到兩次打擊之後,馮•諾依曼開始把部分注意力從基礎數學轉向了工程應用領域,終於大獲成功。1945年,憑藉出眾的才華,馮•諾依曼在火車上完成了早期的計算機EDVAC的設計,並提出了我們現在熟知的“馮•諾依曼體系結構”。

馮•諾依曼的計算機與圖靈機是一脈相承的,但最大的不同就在於,馮•諾依曼的讀寫頭不再需要一格一格地讀寫紙帶,而是根據指定的地址,隨機地跳到相應的位置完成讀寫。這也就是我們今天所說的隨機訪問儲存器(Random Access Memory,RAM)的前身。關於馮•諾依曼體系結構和現代計算機的工作原理,請參見本書第3章。

馮•諾依曼的計算機終於使得數學家們的研究結出了碩果,也最終推動著人類歷史進入了資訊時代,使得人工智慧之夢成為了可能。

諾伯特•維納

這裡寫圖片描述

我們要介紹的最後一位數學家是美國的天才神童諾伯特•維納(Norbert Wiener)。據說維納三歲的時候就開始在父親的影響下讀天文學和生物學的圖書。七歲的時候他所讀的物理學和生物學的知識範圍已經超出了他父親。他年紀輕輕就掌握了拉丁語、希臘語、德語和英語,並且涉獵人類科學的各個領域。後來,他留學歐洲,曾先後拜師於羅素、希爾伯特、哈代等哲學、數學大師。維納在他70年的科學生涯中,先後涉足數學、物理學、工程學和生物學,共發表240多篇論文,著作14本。

然而,與我們的主題最相關的,則要數維納於1948年提出來的新興學科“控制論”(Cybernetics)了。“Cybernetics”一詞源於希臘語的“掌舵人”。在控制論中,維納深入探討了機器與人的統一性——人或機器都是通過反饋完成某種目的的實現,因此他揭示了用機器模擬人的可能性,這為人工智慧的提出奠定了重要基礎。維納也是最早注意到心理學、腦科學和工程學應相互交叉的人之一,這促使了後來認知科學的發展。

這幾位數學大師不滿足於“躲進小樓成一統”,埋頭解決一兩個超級數學難題。他們的思想大膽地擁抱了斑駁複雜的世界,最終用他們的方程推動了社會的進步,開啟了人工智慧之夢。

夢的延續(1956—1980)

在數學大師們鋪平了理論道路,工程師們踏平了技術坎坷,計算機已呱呱落地的時候,人工智慧終於橫空出世了。而這一歷史時刻的到來卻是從一個不起眼的會議開始的。

達特茅斯會議

1956年8月,在美國漢諾斯小鎮寧靜的達特茅斯學院中,約翰•麥卡錫(John McCarthy)、馬文•閔斯基(Marvin Minsky,人工智慧與認知學專家)、克勞德•夏農(Claude Shannon,資訊理論的創始人)、艾倫•紐厄爾(Allen Newell,電腦科學家)、赫伯特•西蒙(Herbert Simon,諾貝爾經濟學獎得主)等科學家正聚在一起,討論著一個完全不食人間煙火的主題:用機器來模仿人類學習以及其他方面的智慧。

會議足足開了兩個月的時間,雖然大家沒有達成普遍的共識,但是卻為會議討論的內容起了一個名字:人工智慧。因此,1956年也就成為了人工智慧元年。

黃金時期

達特茅斯會議之後,人工智慧獲得了井噴式的發展,好訊息接踵而至。機器定理證明——用計算機程式代替人類進行自動推理來證明數學定理——是最先取得重大突破的領域之一。在達特茅斯會議上,紐厄爾和西蒙展示了他們的程式:“邏輯理論家”可以獨立證明出《數學原理》第二章的38條定理;而到了1963年,該程式已能證明該章的全部52條定理。1958年,美籍華人王浩在IBM704計算機上以3~5分鐘的時間證明了《數學原理》中有關命題演算部分的全部220條定理。而就在這一年,IBM公司還研製出了平面幾何的定理證明程式。

1976年,凱尼斯•阿佩爾(Kenneth Appel)和沃夫岡•哈肯(Wolfgang Haken)等人利用人工和計算機混合的方式證明了一個著名的數學猜想:四色猜想(現在稱為四色定理)。這個猜想表述起來非常簡單易懂:對於任意的地圖,我們最少僅用四種顏色就可以染色該地圖,並使得任意兩個相鄰的國家不會重色;然而證明起來卻異常煩瑣。配合著計算機超強的窮舉和計算能力,阿佩爾等人把這個猜想證明了。

另一方面,機器學習領域也獲得了實質的突破,在1956年的達特茅斯會議上,阿瑟•薩繆爾(Arthur Samuel)研製了一個跳棋程式,該程式具有自學習功能,可以從比賽中不斷總結經驗提高棋藝。1959年,該跳棋程式打敗了它的設計者薩繆爾本人,過了3年後,該程式已經可以擊敗美國一個州的跳棋冠軍。

1956年,奧利弗•薩爾夫瑞德(Oliver Selfridge)研製出第一個字元識別程式,開闢了模式識別這一新的領域。1957年,紐厄爾和西蒙等開始研究一種不依賴於具體領域的通用問題求解器,他們稱之為GPS(General Problem Solver)。1963年,詹姆斯•斯拉格(James Slagle)發表了一個符號積分程式SAINT,輸入一個函式的表示式,該程式就能自動輸出這個函式的積分表示式。過了4年後,他們研製出了符號積分運算的升級版SIN,SIN的運算已經可以達到專家級水準。

遇到瓶頸

所有這一切來得太快了,勝利衝昏了人工智慧科學家們的頭腦,他們開始盲目樂觀起來。例如,1958年,紐厄爾和西蒙就自信滿滿地說,不出10年,計算機將會成為世界象棋冠軍,證明重要的數學定理,譜出優美的音樂。照這樣的速度發展下去,2000年人工智慧就真的可以超過人類了。

然而,歷史似乎故意要作弄輕狂無知的人工智慧科學家們。1965年,機器定理證明領域遇到了瓶頸,計算機推了數十萬步也無法證明兩個連續函式之和仍是連續函式。薩繆爾的跳棋程式也沒那麼神氣了,它停留在了州冠軍的層次,無法進一步戰勝世界冠軍。

最糟糕的事情發生在機器翻譯領域,對於人類自然語言的理解是人工智慧中的硬骨頭。計算機在自然語言理解與翻譯過程中表現得極其差勁,一個最典型的例子就是下面這個著名的英語句子:

The spirit is willing but the flesh is weak. (心有餘而力不足。)

當時,人們讓機器翻譯程式把這句話翻譯成俄語,然後再翻譯回英語以檢驗效果,得到的句子竟然是:

The wine is good but the meet is spoiled.(酒是好的,肉變質了。)

這簡直是驢脣不對馬嘴嘛。怪不得有人挖苦道,美國政府花了2000萬美元為機器翻譯挖掘了一座墳墓。有關自然語言理解的更多內容,請參見本書第10章。

總而言之,越來越多的不利證據迫使政府和大學削減了人工智慧的專案經費,這使得人工智慧進入了寒冷的冬天。來自各方的事實證明,人工智慧的發展不可能像人們早期設想的那樣一帆風順,人們必須靜下心來冷靜思考。

知識就是力量

經歷了短暫的挫折之後,AI研究者們開始痛定思痛。愛德華•費根鮑姆(Edward A. Feigenbaum)就是新生力量的佼佼者,他舉著“知識就是力量”的大旗,很快開闢了新的道路。

這裡寫圖片描述

費根鮑姆分析到,傳統的人工智慧之所以會陷入僵局,就是因為他們過於強調通用求解方法的作用,而忽略了具體的知識。仔細思考我們人類的求解過程就會發現,知識無時無刻不在起著重要作用。因此,人工智慧必須引入知識。

於是,在費根鮑姆的帶領下,一個新的領域專家系統誕生了。所謂的專家系統就是利用計算機化的知識進行自動推理,從而模仿領域專家解決問題。第一個成功的專家系統DENDRAL於1968年問世,它可以根據質譜儀的資料推知物質的分子結構。在這個系統的影響下,各式各樣的專家系統很快陸續湧現,形成了一種軟體產業的全新分支:知識產業。1977年,在第五屆國際人工智慧大會上,費根鮑姆用知識工程概括了這個全新的領域。

在知識工程的刺激下,日本的第五代計算機計劃、英國的阿爾維計劃、西歐的尤里卡計劃、美國的星計劃和中國的863計劃陸續推出,雖然這些大的科研計劃並不都是針對人工智慧的,但是AI都作為這些計劃的重要組成部分。

然而,好景不長,在專家系統、知識工程獲得大量的實踐經驗之後,弊端開始逐漸顯現了出來,這就是知識獲取。面對這個全新的棘手問題,新的“費根鮑姆”沒有再次出現,人工智慧這個學科卻發生了重大轉變:它逐漸分化成了幾大不同的學派。

群龍問鼎(1980—2010)

專家系統、知識工程的運作需要從外界獲得大量知識的輸入,而這樣的輸入工作是極其費時費力的,這就是知識獲取的瓶頸。於是,在20世紀80年代,機器學習這個原本處於人工智慧邊緣地區的分支一下子成為了人們關注的焦點。

儘管傳統的人工智慧研究者也在奮力掙扎,但是人們很快發現,如果採用完全不同的世界觀,即讓知識通過自下而上的方式湧現,而不是讓專家們自上而下地設計出來,那麼機器學習的問題其實可以得到很好地解決。這就好比我們教育小孩子,傳統人工智慧好像填鴨式教學,而新的方法則是啟發式教學:讓孩子自己來學。

事實上,在人工智慧界,很早就有人提出過自下而上的湧現智慧的方案,只不過它們從來沒有引起大家的注意。一批人認為可以通過模擬大腦的結構(神經網路)來實現,而另一批人則認為可以從那些簡單生物體與環境互動的模式中尋找答案。他們分別被稱為連線學派和行為學派。與此相對,傳統的人工智慧則被統稱為符號學派。自20世紀80年代開始,到20世紀90年代,這三大學派形成了三足鼎立的局面。

符號學派

這裡寫圖片描述

作為符號學派的代表,人工智慧的創始人之一約翰•麥卡錫在自己的網站上掛了一篇文章《什麼是人工智慧》,為大家闡明什麼是人工智慧(按照符號學派的理解)。

(人工智慧)是關於如何製造智慧機器,特別是智慧的計算機程式的科學和工程。它與使用機器來理解人類智慧密切相關,但人工智慧的研究並不需要侷限於生物學上可觀察到的那些方法。

在這裡,麥卡錫特意強調人工智慧研究並不一定侷限於模擬真實的生物智慧行為,而是更強調它的智慧行為和表現的方面,這一點和圖靈測試的想法是一脈相承的。另外,麥卡錫還突出了利用計算機程式來模擬智慧的方法。他認為,智慧是一種特殊的軟體,與實現它的硬體並沒有太大的關係。

紐厄爾和西蒙則把這種觀點概括為“物理符號系統假說”(physical symbolic system hypothesis)。該假說認為,任何能夠將物理的某些模式(pattern)或符號進行操作並轉化成另外一些模式或符號的系統,就有可能產生智慧的行為。這種物理符號可以是通過高低電位的組成或者是燈泡的亮滅所形成的霓虹燈圖案,當然也可以是人腦神經網路上的電脈衝訊號。這也恰恰是“符號學派”得名的依據。

在“物理符號系統假說”的支援下,符號學派把焦點集中在人類智慧的高階行為,如推理、規劃、知識表示等方面。這些工作在一些領域獲得了空前的成功。

人機大戰

計算機博弈(下棋)方面的成功就是符號學派名揚天下的資本。早在1958年,人工智慧的創始人之一西蒙就曾預言,計算機會在10年內成為國際象棋世界冠軍。然而,正如我們前面討論過的,這種預測過於樂觀了。事實比西蒙的預言足足晚了40年的時間。

1988年,IBM開始研發可以與人下國際象棋的智慧程式“深思”——一個可以以每秒70萬步棋的速度進行思考的超級程式。到了1991年,“深思II”已經可以戰平澳大利亞國際象棋冠軍達瑞爾•約翰森(Darryl Johansen)。1996年,“深思”的升級版“深藍”開始挑戰著名的人類國際象棋世界冠軍加里•卡斯帕羅夫(Garry Kasparov),卻以2:4敗下陣來。但是,一年後的5月11日,“深藍”最終以3.5:2.5的成績戰勝了卡斯帕羅夫(見圖1-5),成為了人工智慧的一個里程碑。

這裡寫圖片描述

圖片來源:http://cdn.theatlantic.com/static/mt/assets/science/kasparov615.jpg。

人機大戰終於以計算機的勝利劃上了句號。那是不是說計算機已經超越了人類了呢?要知道,計算機通過超級強大的搜尋能力險勝了人類——當時的“深藍”已經可以在1秒鐘內算兩億步棋。而且,“深藍”儲存了100年來幾乎所有的國際特級大師的開局和殘局下法。另外還有四位國際象棋特級大師親自“訓練”“深藍”,真可謂是超豪華陣容。所以,最終的結果很難說是計算機戰勝了人,更像是一批人戰勝了另一批人。最重要的是,國際象棋上的博弈是在一個封閉的棋盤世界中進行的,而人類智慧面對的則是一個複雜得多的開放世界。

然而,時隔14年後,另外一場在IBM超級計算機和人類之間的人機大戰重新整理了記錄,也使得我們必須重新思考機器是否能戰勝人類這個問題。因為這次的比賽不再是下棋,而是自由的“知識問答”,這種競賽環境比國際象棋開放得多,因為提問的知識可以涵蓋時事、歷史、文學、藝術、流行文化、科學、體育、地理、文字遊戲等多個方面。因此,這次的機器勝利至少證明了計算機同樣可以在開放的世界中表現得不遜於人類。

這場人機大戰的遊戲叫作《危險》(Jeopardy),是美國一款著名的電視節目。在節目中,主持人通過自然語言給出一系列線索,然後,參賽隊員要根據這些線索用最短的時間把主持人描述的人或者事物猜出來,並且以提問的方式回答。例如當節目主持人給出線索“這是一種冷血的無足的冬眠動物”的時候,選手應該回答“什麼是蛇?”而不是簡單地回答“蛇”。由於問題會涉及各個領域,所以一般知識淵博的人類選手都很難獲勝。

然而,在2011年2月14日到2月16日期間的《危險》比賽中,IBM公司的超級計算機沃森(Watson)卻戰勝了人類選手(見圖1-6)。

這裡寫圖片描述

圖片來源:http://cdn.geekwire.com/wp-content/uploads/IBM-Watson.jpg。

這一次,IBM打造的沃森是一款完全不同於以往的機器。首先,它必須是一個自然語言處理的高手,因為它必須在短時間內理解主持人的提問,甚至有的時候還必須理解語言中的隱含意思。而正如我們前文所說,自然語言理解始終是人工智慧的最大難題。其次,沃森必須充分了解字謎,要領會雙關語,並且腦中還要裝滿諸如莎士比亞戲劇的獨白、全球主要的河流和各國首都等知識,所有這些知識並不限定在某個具體的領域。所以,沃森的勝利的確是人工智慧界的一個標誌性事件。

可以說,人機大戰是人工智慧符號學派1980年以來最出風頭的應用。然而,這種無休止的人機大戰也難逃成為噱頭的嫌疑。事實上,歷史上每次吸引眼球的人機大戰似乎都必然伴隨著IBM公司的股票大漲,這也就不難理解為什麼IBM會花重金開發出一款又一款大型計算機去參加這麼多無聊的競賽,而不是去做一些更實用的東西了。

實際上,20世紀80年代以後,符號學派的發展勢頭已經遠不如當年了,因為人工智慧武林霸主的地位很快就屬於其他學派了。

連線學派

我們知道,人類的智慧主要來源於大腦的活動,而大腦則是由一萬億個神經元細胞通過錯綜複雜的相互連線形成的。於是,人們很自然地想到,我們是否可以通過模擬大量神經元的集體活動來模擬大腦的智力呢?

對比物理符號系統假說,我們不難發現,如果將智力活動比喻成一款軟體,那麼支撐這些活動的大腦神經網路就是相應的硬體。於是,主張神經網路研究的科學家實際上在強調硬體的作用,認為高階的智慧行為是從大量神經網路的連線中自發出現的,因此,他們又被稱為連線學派。

神經網路

連線學派的發展也是一波三折。事實上,最早的神經網路研究可以追溯到1943年計算機發明之前。當時,沃倫•麥卡洛克(Warren McCulloch)和沃爾特•匹茲 (Walter Pitts)二人提出了一個單個神經元的計算模型,如圖1-7所示。

在這個模型中,左邊的I1, I2, … ,IN為輸入單元,可以從其他神經元接受輸出,然後將這些訊號經過加權(W1, W2, … ,WN)傳遞給當前的神經元並完成彙總。如果彙總的輸入資訊強度超過了一定的閾值(T),則該神經元就會發放一個訊號y給其他神經元或者直接輸出到外界。該模型後來被稱為麥卡洛克匹茲模型,可以說它是第一個真實神經元細胞的模型。

這裡寫圖片描述

1957年,弗蘭克•羅森布拉特(Frank Rosenblatt)對麥卡洛克匹茲模型進行了擴充,即在麥卡洛克匹茲神經元上加入了學習演算法,擴充的模型有一個響亮的名字:感知機。感知機可以根據模型的輸出y與我們希望模型的輸出y*之間的誤差,調整權重W1, W2, …, WN來完成學習。

我們可以形象地把感知機模型理解為一個裝滿了大大小小水龍頭(W1, W2, …, WN)的水管網路,學習演算法可以調節這些水龍頭來控制最終輸出的水流,並讓它達到我們想要的流量,這就是學習的過程。這樣,感知機就好像一個可以學習的小孩,無論什麼問題,只要明確了我們想要的輸入和輸出之間的關係,都可能通過學習得以解決,至少它的擁護者是這樣認為的。

然而,好景不長,1969年,人工智慧界的權威人士馬文•閔斯基給連線學派帶來了致命一擊。他通過理論分析指出,感知機並不像它的創立者羅森布拉特宣稱的那樣可以學習任何問題。連一個最簡單的問題:判斷一個兩位的二進位制數是否僅包含0或者1(即所謂的XOR問題)都無法完成。這一打擊是致命的,本來就不是很熱的神經網路研究差點就被閔斯基這一棒子打死了。

這裡寫圖片描述

多則不同

1974年,人工智慧連線學派的救世主傑夫•辛頓(Geoffrey Hinton)終於出現了。他曾至少兩次挽回連線學派的敗局,1974年是第一次,第二次會在下文提到。辛頓的出發點很簡單——“多則不同”:只要把多個感知機連線成一個分層的網路,那麼,它就可以圓滿地解決閔斯基的問題。如圖1-8所示,多個感知機連線成為一個四層的網路,最左面為輸入層,最右面為輸出層,中間的那些神經元位於隱含層,右側的神經元接受左側神經元的輸出。

這裡寫圖片描述

但接下來的問題是,“人多吃得多”,那麼多個神經元,可能有幾百甚至上千個引數需要調節,我們如何對這樣複雜的網路進行訓練呢?辛頓等人發現,採用幾年前阿瑟•布賴森(Arthur Bryson)等人提出來的反向傳播演算法(Back propagation algorithm,簡稱BP演算法)就可以有效解決多層網路的訓練問題。

還是以水流管道為例來說明。當網路執行決策的時候,水從左側的輸入節點往右流,直到輸出節點將水吐出。而在訓練階段,我們則需要從右往左來一層層地調節各個水龍頭,要使水流量達到要求,我們只要讓每一層的調節只對它右面一層的節點負責就可以了,這就是反向傳播演算法。事實證明,多層神經網路裝備上反向傳播演算法之後,可以解決很多複雜的識別和預測等問題。

幾乎是在同一時間,又有幾個不同的神經網路模型先後被提出,這些模型有的可以完成模式聚類,有的可以模擬聯想思維,有的具有深厚的數學物理基礎,有的則模仿生物的構造。所有這些大的突破都令連線學派名聲大噪,異軍突起。

統計學習理論

然而,連線學派的科學家們很快又陷入了困境。雖然各種神經網路可以解決問題,但是,它們究竟為什麼會成功以及為什麼在有些問題上會屢遭失敗,卻沒有人能說得清楚。對網路執行原理的無知,也使得人們對如何提高神經網路執行效率的問題無從下手。因此,連線學派需要理論的支援。

這裡寫圖片描述

2000年左右,弗拉基米爾•萬普尼克(Vladimir Naumovich Vapnik)和亞歷克塞•澤範蘭傑斯(Alexey Yakovlevich Chervonenkis)這兩位俄羅斯科學家提出了一整套新的理論:統計學習理論,受到連線學派的頂禮膜拜。

該理論大意可概括為“殺雞焉用宰牛刀”。我們的模型一定要與待解決的問題相匹配,如果模型過於簡單,而問題本身的複雜度很高,就無法得到預期的精度。反過來,若問題本身簡單,而模型過於複雜,那麼模型就會比較僵死,無法舉一反三,即出現所謂的“過擬合”(overfitting)現象。

實際上,統計學習理論的精神與奧卡姆剃刀原理有著深刻的聯絡。威廉•奧卡姆(William Occum,1287—1347)是中世紀時期的著名哲學家,他留下的最重要的遺產就是奧卡姆剃刀原理。該原理說,如果對於同一個問題有不同的解決方案,那麼我們應該挑選其中最簡單的一個。神經網路或者其他機器學習模型也應該遵循類似的原理,只有當模型的複雜度與所解決的問題相匹配的時候,才能讓模型更好地發揮作用。

然而,統計學習理論也有很大的侷限性,因為理論的嚴格分析僅僅限於一類特殊的神經網路模型:支援向量機(Supporting Vector Machine)。而對於更一般的神經網路,人們還未找到統一的分析方法。所以說,連線學派的科學家們雖然會向大腦學習如何構造神經網路模型,但實際上他們自己也不清楚這些神經網路究竟是如何工作的。不過,他們這種尷尬局面也是無獨有偶,另外一派後起之秀雖然來勢洶洶,卻也沒有解決理論基礎問題,這就是行為學派。

行為學派

行為學派的出發點與符號學派和連線學派完全不同,他們並沒有把目光聚焦在具有高階智慧的人類身上,而是關注比人類低階得多的昆蟲。即使這樣簡單的動物也體現出了非凡的智慧,昆蟲可以靈活地擺動自己的身體行走,還能夠快速地反應,躲避捕食者的攻擊。而另一方面,儘管螞蟻個體非常簡單,但是,當很多小螞蟻聚集在一起形成龐大的蟻群的時候,卻能表現出非凡的智慧,還能形成嚴密的社會分工組織。

正是受到了自然界中這些相對低等生物的啟發,行為學派的科學家們決定從簡單的昆蟲入手來理解智慧的產生。的確,他們取得了不錯的成果。

機器昆蟲

這裡寫圖片描述

羅德尼•布魯克斯(Rodney Brooks)是一名來自美國麻省理工學院的機器人專家。在他的實驗室中有大量的機器昆蟲(如圖1-9所示)。相對於那些笨拙的機器人鐵傢伙來說,這些小昆蟲要靈活得多。

這些機器昆蟲沒有複雜的大腦,也不會按照傳統的方式進行復雜的知識表示和推理。它們甚至不需要大腦的干預,僅憑四肢和關節的協調,就能很好地適應環境。當我們把這些機器昆蟲放到複雜的地形中的時候,它們可以痛快地爬行,還能聰明地避開障礙物。它們看起來的智慧事實上並不來源於自上而下的複雜設計,而是來源於自下而上的與環境的互動。這就是布魯克斯所倡導的理念。

這裡寫圖片描述

如果說符號學派模擬智慧軟體,連線學派模擬大腦硬體,那麼行為學派就算是模擬身體了,而且是簡單的、看起來沒有什麼智慧的身體。例如,行為學派的一個非常成功的應用就是美國波士頓動力公司(Boston Dynamics)研製開發的機器人“大狗② 。如圖1-10所示,“大狗”是一個四足機器人,它能夠在各種複雜的地形中行走、攀爬、奔跑,甚至還可以揹負重物。“大狗”模擬了四足動物的行走行為,能夠自適應地根據不同的地形調整行走的模式。推薦感興趣的讀者掃描下方二維碼觀看視訊介紹。

圖片來源:http://grant.solarbotics.net/walkman.htm。 BigDog,參見http://www.bostondynamics.com/robot_bigdog.html。

 

這裡寫圖片描述

當這隻大狗伴隨著“沙沙”的機器運作聲朝你走來時,你一定會被它的氣勢所嚇到,因為它的樣子很像是一頭公牛呢!

進化計算

這裡寫圖片描述

我們從生物身上學到的東西還不僅僅是這些。從更長的時間尺度看,生物體對環境的適應還會迫使生物進化,從而實現從簡單到複雜、從低等到高等的躍遷。

約翰•霍蘭(John Holland)是美國密西根大學的心理學、電器工程以及計算機的三科教授。他本科畢業於麻省理工學院,後來到了密西根大學師從阿瑟•伯克斯(Arthur Burks,曾是馮•諾依曼的助手)攻讀博士學位。1959年,他拿到了全世界首個電腦科學的博士頭銜。別看霍蘭個頭不高,他的骨子裡卻有一種離經叛道的氣魄。他在讀博期間就對如何用計算機模擬生物進化異常著迷,並最終發表了他的遺傳演算法。

遺傳演算法對大自然中的生物進化進行了大膽的抽象,最終提取出兩個主要環節:變異(包括基因重組和突變)和選擇。在計算機中,我們可以用一堆二進位制串來模擬自然界中的生物體。而大自然的選擇作用——生存競爭、優勝劣汰——則被抽象為一個簡單的適應度函式。這樣,一個超級濃縮版的大自然進化過程就可以搬到計算機中了,這就是遺傳演算法。

圖片來源:http://www.militaryfactory.com/armor/detail.asp?armor_id=184。

遺傳演算法在剛發表的時候並沒有引起多少人的重視。然而,隨著時間的推移,當人工智慧的焦點轉向機器學習時,遺傳演算法就一下子家喻戶曉了,因為它的確是一個非常簡單而有效的機器學習演算法。與神經網路不同,遺傳演算法不需要把學習區分成訓練和執行兩個階段,它完全可以指導機器在執行中學習,即所謂的做中學(learning by doing)。同時,遺傳演算法比神經網路具有更方便的表達性和簡單性。

無獨有偶,美國的勞倫斯•福格爾(Lawrence Fogel)、德國的因戈•雷伯格(Ingo Rechenberg)以及漢斯•保羅•施韋費爾(Hans-Paul Schwefel)、霍蘭的學生約翰•科扎 (John Koza)等人也先後提出了演化策略、演化程式設計和遺傳程式設計。這使得進化計算大家庭的成員更加多樣化了。

人工生命

無論是機器昆蟲還是進化計算,科學家們關注的焦點都是如何模仿生物來創造智慧的機器或者演算法。克里斯托弗•蘭頓(Chirstopher Langton)進行了進一步提煉,提出了“人工生命”這一新興學科。人工生命與人工智慧非常接近,但是它的關注點在於如何用計算的手段來模擬生命這種更加“低等”的現象。

人工生命認為,所謂的生命或者智慧實際上是從底層單元(可以是大分子化合物,也可以是數字程式碼)通過相互作用而產生的湧現屬性(emergent property)。“湧現”(emergence)這個詞是人工生命研究中使用頻率最高的詞之一,它強調了一種只有在巨集觀具備但不能分解還原到微觀層次的屬性、特徵或行為。單個的蛋白質分子不具備生命特徵,但是大量的蛋白質分子組合在一起形成細胞的時候,整個系統就具備了“活”性,這就是典型的湧現。同樣地,智慧則是比生命更高一級(假如我們能夠將智慧和生命分成不同等級的話)的湧現——在生命系統中又湧現出了一整套神經網路系統,從而使得整個生命體具備了智慧屬性。現實世界中的生命是由碳水化合物編織成的一個複雜網路,而人工生命則是寄生於01世界中的複雜有機體。

人工生命的研究思路是通過模擬的形式在計算機數碼世界中產生類似現實世界的湧現。因此,從本質上講,人工生命模擬的就是湧現過程,而不太關心實現這個過程的具體單元。我們用01數字代表蛋白質分子,併為其設定詳細的規則,接下來的事情就是執行這個程式,然後盯著螢幕,喝上一杯咖啡,等待著令人吃驚的“生命現象”在電腦中出現。

模擬群體行為是人工生命的典型應用之一。1983年,計算機圖形學家克雷格•雷諾茲(Craig Reynolds)曾開發了一個名為Boid的計算機模擬程式(見圖1-11),它可以逼真地模擬鳥群的運動,還能夠聰明地躲避障礙物。後來,肯尼迪(Kennedy)等人於1995年擴充套件了Boid模型,提出了PSO(粒子群優化)演算法,成功地通過模擬鳥群的運動來解決函式優化等問題。

這裡寫圖片描述

類似地,利用模擬群體行為來實現智慧設計的例子還有很多,例如蟻群演算法、免疫演算法等,共同特徵都是讓智慧從規則中自下而上地湧現出來,並能解決實際問題。關於人工生命的詳細討論,可以參考本書11~13章。

然而,行為學派帶來的問題似乎比提供的解決方法還多。究竟在什麼情況下能夠發生湧現?如何設計底層規則使得系統能夠以我們希望的方式湧現?行為學派、人工生命的研究者們無法回答。更糟糕的是,幾十年過去了,人工生命研究似乎仍然只擅長於模擬小蟲子、螞蟻之類的低等生物,高階的智慧完全沒有像他們預期的那樣自然湧現,而且沒有絲毫跡象。

圖片來源:http://www.red3d.com/cwr/boids/。

三大學派間的關係

正如我們前面提到的,這三個學派大致是從軟體、硬體和身體這三個角度來模擬和理解智慧的。但是,這僅僅是一個粗糙的比喻。事實上,三大學派之間還存在著很多微妙的差異和聯絡。

首先,符號學派的思想和觀點直接繼承自圖靈,他們是直接從功能的角度來理解智慧的。他們把智慧理解為一個黑箱,只關心這個黑箱的輸入和輸出,而不關心黑箱的內部構造。因此,符號學派利用知識表示和搜尋來替代真實人腦的神經網路結構。符號學派假設知識是先驗地儲存於黑箱之中的,因此,它很擅長解決利用現有的知識做比較複雜的推理、規劃、邏輯運算和判斷等問題。

連線學派則顯然要把智慧系統的黑箱開啟,從結構的角度來模擬智慧系統的運作,而不單單重現功能。這樣,連線學派看待智慧會比符號學派更加底層。這樣做的好處是可以很好地解決機器學習的問題,並自動獲取知識;但是弱點是對於知識的表述是隱含而晦澀的,因為所有學習到的知識都變成了連線權重的數值。我們若要讀出神經網路中儲存的知識,就必須要讓這個網路運作起來,而無法直接從模型中讀出。連線學派擅長解決模式識別、聚類、聯想等非結構化的問題,但卻很難解決高層次的智慧問題(如機器定理證明)。

行為學派則研究更低階的智慧行為,它更擅長模擬身體的運作機制,而不是腦。同時,行為學派非常強調進化的作用,他們認為,人類的智慧也理應是從漫長的進化過程中逐漸演變而來的。行為學派擅長解決適應性、學習、快速行為反應等問題,也可以解決一定的識別、聚類、聯想等問題,但在高階智慧行為(如問題求解、邏輯演算)上則相形見絀。

有意思的是,連線學派和行為學派似乎更加接近,因為他們都相信智慧是自下而上湧現出來的,而非自上而下的設計。但麻煩在於,怎麼湧現?湧現的機制是什麼?這些深層次問題無法在兩大學派內部解決,而必須求助於複雜系統科學。

三大學派分別從高、中、低三個層次來模擬智慧,但現實中的智慧系統顯然是一個完整的整體。我們應如何調解、綜合這三大學派的觀點呢?這是一個未解決的開放問題,而且似乎很難在短時間內解決。主要的原因在於,無論是在理論指導思想還是計算機模型等方面,三大學派都存在著太大的差異。

分裂與統一

於是,就這樣磕磕碰碰地,人工智慧走入了新的世紀。到了2000年前後,人工智慧的發展非但沒有解決問題,反而引入了一個又一個新的問題,這些問題似乎變得越來越難以回答,而且所牽扯的理論也越來越深。於是,很多人工智慧研究者乾脆當起了“鴕鳥”,對理論問題不聞不問,而是一心向“應用”看齊。爭什麼爭呀,實踐是檢驗真理的唯一標準,無論是符號、連線、行為,能夠解決實際問題的鳥就是好鳥。

群龍無首

在這樣一種大背景下,人工智慧開始進一步分化,很多原本隸屬於人工智慧的領域逐漸獨立成為面向具體應用的新興學科,我們簡單羅列如下:

 自動定理證明

 模式識別

 機器學習

 自然語言理解

 計算機視覺

 自動程式設計

每一個領域都包含大量具體的技術和專業知識以及特殊的應用背景,不同分支之間也幾乎是老死不相往來,大一統的人工智慧之夢彷彿破滅了。於是,計算機視覺專家甚至不願意承認自己搞的叫人工智慧,因為他們認為,人工智慧已經成為了一個僅僅代表傳統的符號學派觀點的專有名詞,大一統的人工智慧概念沒有任何意義,也沒有存在的必要。這就是人工智慧進入2000年之後的狀況。

貝葉斯統計

但是,世界總是那麼奇妙,少數派總是存在的。當人工智慧正面臨著土崩瓦解的窘境時,仍然有少數科學家正在逆流而動,試圖重新構建統一的模式。

麻省理工學院的喬希•特南鮑姆(Josh Tenenbaum)以及史丹佛大學的達芙妮•科勒(Daphne Koller)就是這樣的少數派。他們的特立獨行起源於對概率這個有著幾百年歷史的數學概念的重新認識,並利用這種認識來統一人工智慧的各個方面,包括學習、知識表示、推理以及決策。

這樣的認識其實可以追溯到一位18世紀的古人,這就是著名的牧師、業餘數學家:托馬斯•貝葉斯(Thomas Bayes)。與傳統的方法不同,貝葉斯將事件的概率視為一種主觀的信念,而不是傳統意義上的事件發生的頻率。因此,概率是一種主觀的測度,而非客觀的度量。故而,人們也將貝葉斯對概率的看法稱為主觀概率學派——這一觀點更加明確地凸顯出貝葉斯概率與傳統概率統計的區別。

貝葉斯學派的核心就是著名的貝葉斯公式,它表達了智慧主體如何根據蒐集到的資訊改變對外在事物的看法。因此,貝葉斯公式概括了人們的學習過程。以貝葉斯公式為基礎,人們發展出了一整套稱為貝葉斯網路(示例見圖1-12)的方法。在這個網路上,研究者可以展開對學習、知識表示和推理的各種人工智慧的研究。隨著大資料時代的來臨,貝葉斯方法所需要的資料也是唾手可得,這使得貝葉斯網路成為了人們關注的焦點。

這裡寫圖片描述

圖片來源:Wikipedia。

通用人工智慧

另外一個嘗試統一人工智慧的學者是澳大利亞國立大學的馬庫斯•胡特(Marcus Hutter),他在2000年的時候就開始嘗試建立一個新的學科,併為這個新學科取了一個響噹噹的名字:通用人工智慧(Universal Artificial Intelligence)。

這裡寫圖片描述

胡特認為,現在主流的人工智慧研究已經嚴重偏離人工智慧這個名稱的本意。我們不應該將智慧化分成學習、認知、決策、推理等分立的不同側面。事實上,對於人類來說,所有這些功能都是智慧作為一個整體的不同表現。因此,在人工智慧中,我們應該始終保持清醒的頭腦,將智慧看作一個整體,而不是若干分離的子系統。

如果非要堅持統一性和廣泛性,那麼我們就不得不放棄理論上的實用性,這恰恰正是胡特的策略。與通常的人工智慧研究非常不同,胡特採用的是規範研究方法,即給出所謂的智慧程式一個數學上的定義,然後運用嚴格的數理邏輯討論它的性質。但是,理論上已證明,胡特定義的智慧程式是數學上可構造的,但卻是計算機不可計算的——任何計算機都無法模擬這樣的智慧程式——只有上帝能計算出來。

不可計算的智慧程式有什麼用?相信讀者會有這樣的疑問。實際上,如果在20世紀30年代,我們也會對圖靈的研究發出同樣的疑問。因為那個時候計算機還沒有發明呢,那麼圖靈機模型有什麼用呢?這也彷彿是傳說中英國女王對法拉第的詰難:“你研究的這些電磁理論有什麼用呢?”法拉第則反問道:“那麼,我尊敬的女王陛下,您認為,您懷中抱著的嬰兒有什麼用呢?”

胡特的理論雖然還不能與圖靈的研究相比,但是,它至少為統一人工智慧開闢了新方向,讓我們看到了統一的曙光。我們只有等待歷史來揭曉最終的答案。更多關於通用人工智慧的內容,請參見本書第5章。

夢醒何方(2010至今)

就這樣,在爭論聲中,人工智慧走進了21世紀的第二個十年,似乎一切都沒有改變。但是,幾件事情悄悄地發生了,它們重新燃起了人們對於人工智慧之夢的渴望。

深度學習

21世紀的第二個十年,如果要評選出最惹人注目的人工智慧研究,那麼一定要數深度學習(Deep Learning)了。

2011年,谷歌X實驗室的研究人員從YouTube視訊中抽取出1000萬張靜態圖片,把它餵給“谷歌大腦”——一個採用了所謂深度學習技術的大型神經網路模型,在這些圖片中尋找重複出現的模式。三天後,這臺超級“大腦”在沒有人類的幫助下,居然自己從這些圖片中發現了“貓”。

2012年11月,微軟在中國的一次活動中,展示了他們新研製的一個全自動的同聲翻譯系統——採用了深度學習技術的計算系統。演講者用英文演講,這臺機器能實時地完成語音識別、機器翻譯和中文的語音合成,也就是利用深度學習完成了同聲傳譯。

2013年1月,百度公司成立了百度研究院,其中,深度學習研究所是該研究院旗下的第一個研究所。

……

這些全球頂尖的計算機、網際網路公司都不約而同地對深度學習表現出了極大的興趣。那麼究竟什麼是深度學習呢?

事實上,深度學習仍然是一種神經網路模型,只不過這種神經網路具備了更多層次的隱含層節點,同時配備了更先進的學習技術,如圖1-13所示。

這裡寫圖片描述

然而,當我們將超大規模的訓練資料餵給深度學習模型的時候,這些具備深層次結構的神經網路彷彿搖身一變,成為了擁有感知和學習能力的大腦,表現出了遠遠好於傳統神經網路的學習和泛化的能力。

當我們追溯歷史,深度學習神經網路其實早在20世紀80年代就出現了。然而,當時的深度網路並沒有表現出任何超凡能力。這是因為,當時的資料資源遠沒有現在豐富,而深度學習網路恰恰需要大量的資料以提高它的訓練例項數量。

到了2000年,當大多數科學家已經對深度學習失去興趣的時候,又是那個傑夫•辛頓帶領他的學生繼續在這個冷門的領域裡堅持耕耘。起初他們的研究並不順利,但他們堅信他們的演算法必將給世界帶來驚奇。

驚奇終於出現了,到了2009年,辛頓小組獲得了意外的成功。他們的深度學習神經網路在語音識別應用中取得了重大的突破,轉換精度已經突破了世界紀錄,錯誤率比以前減少了25%。可以說,辛頓小組的研究讓語音識別領域縮短了至少10年的時間。就這樣,他們的突破吸引了各大公司的注意。蘋果公司甚至把他們的研究成果應用到了Siri語音識別系統上,使得iPhone 5全球熱賣。從此,深度學習的流行便一發不可收拾。

那麼,為什麼把網路的深度提高,配合上大資料的訓練就能使得網路效能有如此大的改善呢?答案是,因為人腦恰恰就是這樣一種多層次的深度神經網路。例如,已有的證據表明,人腦處理視覺資訊就是經過多層加工完成的。所以,深度學習實際上只不過是對大腦的一種模擬。

模式識別問題長久以來是人工智慧發展的一個主要瓶頸。然而,深度學習技術似乎已經突破了這個瓶頸。有人甚至認為,深度學習神經網路已經可以達到2歲小孩的識別能力。有理由相信,深度學習會將人工智慧引入全新的發展局面。本書第6章將詳細介紹深度學習這一全新技術,第14章將介紹集智俱樂部下的一個研究小組對深度學習技術的應用——彩雲天氣,用人工智慧提供精準的短時間天氣預報。

模擬大腦

我們已經看到,深度學習模型成功的祕訣之一就在於它模仿了人類大腦的深層體系結構。那麼,我們為什麼不直接模擬人類的大腦呢?事實上,科學家們已經行動起來了。

例如,德國海德爾堡大學的FACETS(Fast Analog Computing with Emergent Transient States)計劃就是一個利用硬體來模擬大腦部分功能的專案。他們採用數以千計的晶片,創造出一個包含10億神經元和1013突觸的迴路的人工腦(其複雜程度相當於人類大腦的十分之一)。與此對應,由瑞士洛桑理工學院和IBM公司聯合發起的藍色大腦計劃則是通過軟體來模擬人腦的實踐。他們採用逆向工程方法,計劃2015年開發出一個虛擬的大腦。

然而,這類研究計劃也有很大的侷限性。其中最大的問題就在於:迄今為止,我們對大腦的結構以及動力學的認識還相當初級,尤其是神經元活動與生物體行為之間的關係還遠遠沒有建立。例如,儘管科學家早在30年前就已經弄清楚了秀麗隱杆線蟲(Caenorhabditis elegans)302個神經元之間的連線方式,但到現在仍然不清楚這種低等生物的生存行為(例如進食和交配)是如何產生的。儘管科學家已經做過諸多嘗試,比如連線組學(Connectomics),也就是全面監測神經元之間的聯絡(即突觸)的學問,但是,正如線蟲研究一樣,這幅圖譜僅僅是個開始,它還不足以解釋不斷變化的電訊號是如何產生特定認知過程的。

於是,為了進一步深入瞭解大腦的執行機制,一些“大科學”專案先後啟動。2013年,美國奧巴馬政府宣佈了“腦計劃”(Brain Research through Advancing Innovative Neurotechnologies,簡稱BRAIN)的啟動。該計劃在2014年的啟動資金為1億多美元,致力於開發能記錄大群神經元甚至是整片腦區電活動的新技術。

無獨有偶,歐盟也發起了“人類大腦計劃”(The Human Brain Project),這一計劃為期10年,將耗資16億美元,致力於構建能真正模擬人腦的超級計算機。除此之外,中國、日本、以色列也都有雄心勃勃的腦科學研究計劃出爐。這似乎讓人們想到了第二次世界大戰後的情景,各國爭相發展“大科學專案”:核武器、太空探索、計算機等。腦科學的時代已經來臨。關於人腦與電腦的比較,請參見本書第7章。

“人工”人工智慧

這裡寫圖片描述

2007年,一位谷歌的實習生路易斯•馮•安(Luis von Ahn)開發了一款有趣的程式“ReCapture”,卻無意間開創了一個新的人工智慧研究方向:人類計算。

ReCapture的初衷很簡單,它希望利用人類高超的模式識別能力,自動幫助谷歌公司完成大量掃描圖書的文字識別任務。但是,如果要僱用人力來完成這個任務則需要花費一大筆開銷。於是,馮•安想到,每天都有大量的使用者在輸入驗證碼來向機器證明自己是人而不是機器,而輸入驗證碼事實上就是在完成文字識別問題。於是,一方面是有大量的掃描的圖書中難以識別的文字需要人來識別;另一方面是由計算機生成一些扭曲的圖片讓大量的使用者做識別以表明自己的身份。那麼,為什麼不把兩個方面結合在一起呢?這就是ReCapture的創意(如圖1-14所示),馮•安聰明地讓使用者在輸入識別碼的時候悄悄幫助谷歌完成了文字識別工作!

這裡寫圖片描述

這一成功的應用實際上是藉助人力完成了傳統的人工智慧問題,馮•安把它叫作人類計算(Human Computation),我們則把它形象地稱為“人工”人工智慧。除了ReCapture以外,馮•安還開發了很多類似的程式或系統,例如ESP遊戲是讓使用者通過競爭的方式為圖片貼標籤,從而完成“人工”人工分類圖片;Duolingo系統則是讓使用者在學習外語的同時,順便翻譯一下網際網路,這是“人工”機器翻譯。

也許,這樣巧妙的人機結合才是人工智慧發展的新方向之一。因為一個完全脫離人類的人工智慧程式對於我們沒有任何獨立存在的意義,所以人工智慧必然會面臨人機互動的問題。而隨著網際網路的興起,人和計算機互動的方式會更加便捷而多樣化。因此,這為傳統的人工智慧問題提供了全新的解決途徑。

然而,讀者也許會質疑,這種摻合了人類智慧的系統還能叫作純粹的人工智慧嗎?這種質疑事實上有一個隱含的前提,就是人工智慧是一個獨立運作的系統,它與人類環境應相互隔離。但當我們考慮人類智慧的時候就會發現,任何智慧系統都不能與環境絕對隔離,它只有在開放的環境下才能表現出智慧。同樣的道理,人工智慧也必須向人類開放,於是引入人的作用也變成了一種很自然的事情。關於這個主題,我們將在本書第8章和第9章中進一步討論。

結語

本章介紹了人工智慧近60年所走過的曲折道路。也許,讀者所期待的內容,諸如奇點臨近、超級智慧機器人、人與機器的共生演化等激動人心的內容並沒有出現,但是,我能保證的,是一段真實的歷史,併力圖做到準確無誤。

儘管人工智慧這條道路蜿蜒曲折,荊棘密佈,但至少它在發展並不斷壯大。最重要的是,人們對於人工智慧的夢想永遠沒有破滅過。也許人工智慧之夢將無法在你我的有生之年實現,也許人工智慧之夢始終無法逾越哥德爾定理那個碩大無朋的“如來佛手掌”,但是,人工智慧之夢將永遠驅動著我們不斷前行,挑戰極限。

推薦閱讀

關於希爾伯特、圖靈、哥德爾的故事和相關研究可以閱讀《哥德爾、艾舍爾、巴赫:集異璧之大成》一書。關於馮•諾依曼,可以閱讀他的傳記:《天才的拓荒者:馮•諾依曼傳》。關於維納,可以參考他的著作《控制論》。若要全面瞭解人工智慧,給大家推薦兩本書:Artificial Intelligence: A Modern Approach和Artificial Intelligence: Structures and Strategies for Complex Problem Solving。瞭解機器學習以及人工神經網路可以參考Pattern Recognition和Neural Networks and Learning Machines。關於行為學派和人工生命,可以參考《數字創世紀:人工生命的新科學》以及人工生命的論文集。若要深入瞭解貝葉斯網路,可以參考Causality: Models, Reasoning, and Inference。深入瞭解胡特的通用人工智慧理論可以閱讀Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability。關於深度學習方面的知識可參考網站:http://deeplearning.net/reading-list/,其中有不少綜述性的文章。人類計算方面可以參考馮•安的網站:http://www.cs.cmu.edu/~biglou/。

參考文獻

1 候世達,嚴勇,劉皓. 哥德爾、艾舍爾、巴赫:集異璧之大成. 莫大偉 譯. 北京:商務印書館,1997.

2 諾曼•麥克雷. 天才的拓荒者:馮•諾伊曼傳. 範秀華,朱朝輝 譯. 上海:上海科技教育出版社,2008.

3 維納. 控制論:或關於在動物和機器中控制和通訊的科學. 郝季仁 譯. 北京:北京大學出版社,2007.

4 Luger G F. Artificial intelligence: structures and strategies for complex problem solving (6th Edition). Addison-Wesley, 2008.

5 Russel S K, Norvig P. Artificial Intelligence: A Modern Approach (2nd Edition). Prentice Hall, 2002.

6 Theodoridis S, Koutroumbas K. Pattern Recognition (2nd edition). Academic Press, 2008.

7 Haykin S O. Neural Networks and Learning Machines (3rd Edition). Prentice Hall, 2000.

8 李建會,張江. 數字創世紀:人工生命的新科學. 北京:科學出版社,2006.

9 Pearl J. Causality: models, reasoning, and inference. Cambridge University Press, 2000.

10 Hutter M. Universal Artificial Intelligence:Sequential Decisions based on Algorithmic Probability. Springer, 2005.

本文摘自《科學的極致:漫談人工智慧》

相關文章