人工智慧發展史-從圖靈測試到大資料

純潔的微笑發表於2017-06-12

我一直很好奇人工智慧是如何提出來的,它背後有什麼樣的故事,在人工智慧發展的這60年的時間中,又經歷了什麼?為什麼現在才是人工智慧的爆發點,未來人工智慧又將走向何處?帶著這樣的問題我讀了吳軍博士的《智慧時代》這本書,開啟了我對人工智慧的瞭解,這篇文章主要內容也來自於這本書。

我們這代人對人工智慧的關注,來自於2016年AlphaGo大戰世界著名圍棋選手李世民,在比賽之前各方關注度非常高,國內各方媒體爭相報導,預測這場比賽的結果,人們好奇人工智慧現在智慧到什麼程度以及計算機如何和人下圍棋,最終AlphaGo以4:1勝了李世明,大家都在感慨人工智慧時代即將來臨。僅僅過了一年,2017年5月27日AlphaGo的2.0版本3:0戰勝圍棋世界排名第一的柯潔九段,從此在AlphaGo面前已無人類對手。

計算機之所以能夠戰勝人類,是因為機器獲得智慧的方式和人類不同,它不是靠邏輯推理,而是靠大資料和演算法。Google使用了幾十萬盤圍棋高手之間的對弈的資料來訓練AlphaGo,這是它獲得所謂“智慧”的原因。在計算方面,Google使用了幾十萬臺伺服器來訓練AlphaGo下棋模型,並讓不同的AlphaGo相互對弈上千萬盤。第二個關鍵技術是啟發式搜尋演算法-蒙特卡洛樹搜尋演算法(英語:Monte Carlo tree search;簡稱:MCTS),它能將搜尋的空間限制在非常有限的範圍內,保證計算機能夠快速找到好的下法。由此可見,下圍棋這個看似智慧型的問題,從本質上講,是一個大資料和演算法的問題。

說到人工智慧,就不得不提計算機屆的一個傳奇人物:阿蘭.圖靈博士。1950年,圖靈在《思想》(mind)雜誌上發表了一篇《計算的機器和智慧》的論文。在論文中,圖靈既沒有講計算機怎樣才能獲得智慧,也沒有提出如何解決複雜問題的智慧方法,知識提出了一個驗證機器有無智慧的的判別方法。

人工智慧發展史-從圖靈測試到大資料

讓一臺機器和一個人坐在幕後,讓一個裁判同時與幕後的人和機器進行交流,如果這個裁判無法判斷自己交流的物件是人還是機器,就說明這臺機器有了和人同等的智慧。就是大名鼎鼎的圖靈測試。後來,電腦科學家對此進行了補充,如果計算機實現了下面幾件事情中的一件,就可以認為它有圖靈所說的那種智慧:

  • 1、語音識別
  • 2、機器翻譯
  • 3、文字的自動摘要或者寫作
  • 4、戰勝人類的國際象棋冠軍
  • 5、自動回答問題

今天,計算機已經做到了上述的這幾件事情,甚至還超額完成了任務,比如現在的圍棋比國際象棋要高出6-8個數量級,當然,人類走到這一步並非一帆風順,而是走了幾十年的彎路。


人工智慧的誕生:1943 - 1956

在20世紀40年代和50年代,來自不同領域(數學,心理學,工程學,經濟學和政治學)的一批科學家開始探討製造人工大腦的可能性。1956年,人工智慧被確立為一門學科。

1956年的夏天,夏農和一群年輕的學者在達特茅斯學院召開了一次頭腦風暴式研討會。會議的組織者是馬文·閔斯基,約翰·麥卡錫和另兩位資深科學家Claude Shannon以及Nathan Rochester,後者來自IBM。與會者包括Ray Solomonoff,Oliver Selfridge,Trenchard More,Arthur Samuel,Newell和Simon,他們中的每一位都將在AI研究的第一個十年中作出重要貢獻。

會議雖然叫做“達特茅斯夏季人工智慧研究會議”,其實它不同於今天我們召開幾天的學術會議,因為一來沒有什麼可以報告的科研成果,二來這個會議持續了一個暑假。事實上,這是一次頭腦風暴式的討論會,這10位年輕的學者討論的是當時計算機尚未解決,甚至尚未開展研究的問題,包括人工智慧、自然語言處理和神經網路等。

會上紐厄爾和西蒙討論了“邏輯理論家”,而麥卡錫則說服與會者接受“人工智慧”一詞作為本領域的名稱。1956年達特矛斯會議上人工智慧的名稱和任務得以確定,同時出現了最初的成就和最早的一批研究者,因此這一事件被廣泛承認為人工智慧誕生的標誌。

人工智慧發展史-從圖靈測試到大資料
60年前的達特茅斯大學


黃金年代:1956 - 1974

達特茅斯會議之後的數年是大發現的時代。對許多人而言,這一階段開發出的程式堪稱神奇:計算機可以解決代數應用題,證明幾何定理,學習和使用英語。當時大多數人幾乎無法相信機器能夠如此“智慧”。研究者們在私下的交流和公開發表的論文中表達出相當樂觀的情緒,認為具有完全智慧的機器將在二十年內出現。ARPA(國防高等研究計劃署)等政府機構向這一新興領域投入了大筆資金。

第一代AI研究者們非常樂觀,曾作出瞭如下預言:

  • 1958年,H. A. Simon,Allen Newell:“十年之內,數字計算機將成為國際象棋世界冠軍。” “十年之內,數字計算機將發現並證明一個重要的數學定理。”
  • 1965年,H. A. Simon:“二十年內,機器將能完成人能做到的一切工作。”
  • 1967年,Marvin Minsky:“一代之內……創造‘人工智慧’的問題將獲得實質上的解決。”
  • 1970年,Marvin Minsky:“在三到八年的時間裡我們將得到一臺具有人類平均智慧的機器。”

早期,人工智慧使用傳統的人工智慧方法進行研究,什麼是傳統的人工智慧研究呢?簡單的講,就是首先了解人類是如何產生智慧的,然後讓計算機按照人的思路去做。因此在語音識別、機器翻譯等領域遲遲不能突破,人工智慧研究陷入低谷。

第一次AI低谷:1974 - 1980

由於人工智慧研究者們對專案難度評估不足,這除了導致承諾無法兌現外,還讓人們當初的樂觀期望遭到嚴重打擊。到了70年代,人工智慧開始遭遇批評,研究經費也被轉移到那些目標明確的特定專案上。

1972年康奈爾大學的教授弗雷德.賈里尼克(Fred Jelinek)被要求到IBM做語音識別。在之前各個大學和研究這個問題已經花了20多年的時間,主流的研究方法有兩個特點,一個是讓計算機儘可能地模擬人的發音特點和聽覺特徵,一個是讓計算機儘可能的方法理解人所講的完整的語句。對於前一項研究,有被稱為特徵提取,後一項的研究大都使用傳統人工智慧的方法,它基於規則和語義。

賈里尼克任務,人的大腦是一個資訊源,從思考到找到合適的語句,再通過發音說出來,是一個編碼的過程,經過媒介傳播到耳朵,是一個解碼的過程。既然是一個典型的通訊問題,那就可以用解決通訊方法來解決問題,為此賈里尼克用兩個資料模型(馬爾科夫模型)分別描述信源和通道。然後使用大量的語音資料來訓練。最後,賈里尼克團隊花了4年團隊,將語音識別從過去的70%提高到90%。後來人們嘗試使用此方法來解決其他智慧問題,但因為缺少資料,結果不太理想。

在當時,由於計算機效能的瓶頸、計算複雜性的指數級增長、資料量缺失等問題,一些難題看上去好像完全找不到答案。比如像今天已經比較常見的機器視覺功能在當時就不可能找到一個足夠大的資料庫來支撐程式去學習,機器無法吸收足夠的資料量自然也就談不上視覺方面的智慧化。

專案的停滯不但讓批評者有機可乘——1973年Lighthill針對英國人工智慧研究狀況的報告批評了人工智慧在實現其“巨集偉目標”上的完全失敗,也影響到了專案資金的流向。人工智慧遭遇了6年左右的低谷。

繁榮:1980 - 1987

在80年代,一類名為“專家系統”的AI程式開始為全世界的公司所採納,而“知識處理”成為了主流AI研究的焦點。1981年,日本經濟產業省撥款八億五千萬美元支援第五代計算機專案。其目標是造出能夠與人對話,翻譯語言,解釋影象,並且像人一樣推理的機器。

受到日本刺激,其他國家紛紛作出響應。英國開始了耗資三億五千萬英鎊的Alvey工程。美國一個企業協會組織了MCC(Microelectronics and Computer Technology Corporation,微電子與計算機技術集團),向AI和資訊科技的大規模專案提供資助。DARPA也行動起來,組織了戰略計算促進會(Strategic Computing Initiative),其1988年向AI的投資是1984年的三倍。人工智慧又迎來了大發展。

人工智慧發展史-從圖靈測試到大資料
早期的專家系統Symbolics 3640

專家系統是一種程式,能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。最早的示例由Edward Feigenbaum和他的學生們開發。1965年起設計的Dendral能夠根據分光計讀數分辨混合物。1972年設計的MYCIN能夠診斷血液傳染病。它們展示了這一方法的威力。專家系統僅限於一個很小的知識領域,從而避免了常識問題;其簡單的設計又使它能夠較為容易地程式設計實現或修改。總之,實踐證明了這類程式的實用性。直到現在AI才開始變得實用起來。

專家系統的能力來自於它們儲存的專業知識。這是70年代以來AI研究的一個新方向。Pamela McCorduck在書中寫道,“不情願的AI研究者們開始懷疑,因為它違背了科學研究中對最簡化的追求。智慧可能需要建立在對分門別類的大量知識的多種處理方法之上。” “70年代的教訓是智慧行為與知識處理關係非常密切。有時還需要在特定任務領域非常細緻的知識。”知識庫系統和知識工程成為了80年代AI研究的主要方向。

1982年,物理學家John Hopfield證明一種新型的神經網路(現被稱為“Hopfield網路”)能夠用一種全新的方式學習和處理資訊。大約在同時(早於Paul Werbos),David Rumelhart推廣了反向傳播演算法,一種神經網路訓練方法。這些發現使1970年以來一直遭人遺棄的聯結主義重獲新生。

第二次AI低谷:1987 - 1993

“AI之冬”一詞由經歷過1974年經費削減的研究者們創造出來。他們注意到了對專家系統的狂熱追捧,預計不久後人們將轉向失望。事實被他們不幸言中:從80年代末到90年代初,AI遭遇了一系列財政問題。

變天的最早徵兆是1987年AI硬體市場需求的突然下跌。Apple和IBM生產的桌上型電腦效能不斷提升,到1987年時其效能已經超過了Symbolics和其他廠家生產的昂貴的Lisp機。老產品失去了存在的理由:一夜之間這個價值五億美元的產業土崩瓦解。

XCON等最初大獲成功的專家系統維護費用居高不下。它們難以升級,難以使用,脆弱(當輸入異常時會出現莫名其妙的錯誤),成了以前已經暴露的各種各樣的問題的犧牲品。專家系統的實用性僅僅侷限於某些特定情景。到了80年代晚期,戰略計算促進會大幅削減對AI的資助。DARPA的新任領導認為AI並非“下一個浪潮”,撥款將傾向於那些看起來更容易出成果的專案。

1991年人們發現十年前日本人巨集偉的“第五代工程”並沒有實現。事實上其中一些目標,比如“與人展開交談”,直到2010年也沒有實現。與其他AI專案一樣,期望比真正可能實現的要高得多。

走在正確的路上:1993 - 2005

現已年過半百的AI終於實現了它最初的一些目標。它已被成功地用在技術產業中,不過有時是在幕後。這些成就有的歸功於計算機效能的提升,有的則是在高尚的科學責任感驅使下對特定的課題不斷追求而獲得的。不過,至少在商業領域裡AI的聲譽已經不如往昔了。

“實現人類水平的智慧”這一最初的夢想曾在60年代令全世界的想象力為之著迷,其失敗的原因至今仍眾說紛紜。各種因素的合力將AI拆分為各自為戰的幾個子領域,有時候它們甚至會用新名詞來掩飾“人工智慧”這塊被玷汙的金字招牌。AI比以往的任何時候都更加謹慎,卻也更加成功。

第一次讓全世界感到計算機智慧水平有了質的飛躍實在1966年,IBM的超級計算機深藍大戰人類國際象棋冠軍卡斯伯羅夫,卡斯伯羅夫是世界上最富傳奇色彩的國際象棋世界冠軍,這次比賽最後以4:2比分戰勝了深藍。對於這次比賽媒體認為深藍雖然輸了比賽,但這畢竟是國際象棋上計算機第一次戰勝世界冠軍兩局。時隔一年後,改進後的深藍捲土重來,以3.5:2.5的比分戰勝了斯伯羅夫。自從1997年以後,計算機下棋的本領越來越高,進步超過人的想象。到了現在,棋類遊戲中計算機已經可以完敗任何人類。

深藍實際上收集了世界上百位國際大師的對弈棋譜,供計算機學習。這樣一來,深藍其實看到了名家們在各種局面下的走法。當然深藍也會考慮卡斯伯羅夫可能採用的走法,對不同的狀態給出可能性評估,然後根據對方下一步走法對盤面的影響,核實這些可能性的估計,找到一個最有利自己的狀態,並走出這步棋。因此深藍團隊其實把一個機器智慧問題變成了一個大資料和大量計算的問題。

人工智慧發展史-從圖靈測試到大資料
IBM“深藍”戰勝國際象棋世界冠軍

越來越多的AI研究者們開始開發和使用複雜的數學工具。人們廣泛地認識到,許多AI需要解決的問題已經成為數學,經濟學和運籌學領域的研究課題。數學語言的共享不僅使AI可以與其他學科展開更高層次的合作,而且使研究結果更易於評估和證明。AI已成為一門更嚴格的科學分支。

Judea Pearl發表於1988年的名著將概率論和決策理論引入AI。現已投入應用的新工具包括貝葉斯網路,隱馬爾可夫模型,資訊理論,隨機模型和經典優化理論。針對神經網路和進化演算法等“計算智慧”正規化的精確數學描述也被髮展出來。

大資料:2005 - 現在

從某種意義上講,2005年是大資料元年,雖然大部分人感受不到資料帶來的變化,但是一項科研成果卻讓全世界從事機器翻譯的人感到震驚,那就是之前在機器翻譯領域從來沒有技術積累、不為人所知的Google,以巨大的優勢打敗了全世界所有機器翻譯研究團隊,一躍成為這個領域的領頭羊。

就是Google花重金請到了當時世界上水平最高的機器翻譯專家弗朗茲·奧科 (Franz Och)博士。奧科用了上萬倍的資料來訓練系統。量變的積累就導致了質變的發生。奧科能訓練出一個六元模型,而當時大部分研究團隊的資料量只夠訓練三元模型。簡單地講,一個 好的三元模型可以準確地構造英語句子中的短語和簡單的句子成分之間的搭配,而六元模型則可以構造整個從句和複雜的句子成分之間的搭配,相當於將這些片段從一種語言到另一種語言直接對譯過去了。不難想象,如果一個系統對大部分句子在很長的片段上直譯,那麼其準確性相比那些在片語單元做翻譯的系統要準確得多。

如今在很多與“智慧”有關的研究領域,比如影象識別和自然語言理解,如果所採用的方法無法利用資料量的優勢,會被認為是落伍的。

資料驅動方法從20世紀70年代開始起步,在八九十年代得到緩慢但穩步的發展。進入21世紀後,由於網際網路的出現,使得可用的資料量劇增,資料驅動方法的優勢越來越明顯,最終完成了從量變到質變的飛躍。如今很多需要類似人類智慧才能做的事情,計算機已經可以勝任了,這得益於資料量的增加。

全世界各個領域資料不斷向外擴充套件,漸漸形成了另外一個特點,那就是很多資料開始出現交叉,各個維度的資料從點和線漸漸連成了網,或者說,資料之間的關聯性極大地增強,在這樣的背景下,就出現了大資料。

大資料是一種思維方式的改變。現在的相比過去大了很多,量變帶來了質變,思維方式、做事情的方法就應該和以往有所不同。這其實是幫助我們理解大資料概念的一把鑰匙。在有大資料之前,計算機並不擅長解決需要人類智慧來解決的問題,但是今天這些問題換個思路就可以解決了,其核心就是變智慧問題為資料問題。由此,全世界開始了新的一輪技術革命——智慧革命。

人工智慧發展史-從圖靈測試到大資料

建議購買正版書籍,如需試讀電子版本,請在公眾號回覆:”智慧時代“

參考:

人工智慧史

智慧時代


作者:純潔的微笑
出處:http://www.ityouknow.com/
版權歸作者所有,轉載請註明出處

相關文章