破解圖靈測試之困,量化分析機器與人類智慧之爭

網際網路X實驗室發表於2014-06-17

作者:劉鋒

enter image description here

1.關於機器與人類智慧未來的分歧

2011年2月18日,超級電腦“沃森”打敗了人類,站在了與人類智力競賽的最高領獎臺上。著名的未來學家庫茲韋爾相信,由於資訊科技正朝著“超人類智慧”的奇點邁進,當這個資訊奇點在2045年到來的時候,人工智慧將超越人類智慧。

但也有不少科學家認為機器智慧超越人類智慧還只是一個科學幻想,包括麻省理工的計算機學教授羅勃•米勒(Rob Miller),Facebook人工智慧實驗室主任、深度學習專家Yann LeCun,都認為機器演算法在一些領域的確超越了人類的能力範圍。但在另一些領域,例如對社會和文化的認知領域,包括不斷發明各種新詞彙、傳播小貓的視訊並點贊,或一起參與構建的其他文化現象,卻是機器演算法很難企及的領域。

1950年,圖靈發表題為《機器能思考嗎?》的論文,第一次提出“機器思維”的概念。他提出假想:一個人在不接觸對方(一臺機器)的情況下,通過一種特殊的方式,和對方進行一系列的問答,如果在相當長時間內,他無法根據這些問題判斷對方是人還是計算機,那麼,就可以認為這個計算機具有同人相當的智力,即這臺計算機是能思維的。這就是著名的“圖靈測試”(Turing Testing)。

圖靈測試經常用來檢驗機器是否具備人的智慧,但圖靈測試受人為因素干擾太多,嚴重依賴裁判者和被測試者的主觀判斷,而且只判斷機器是否具備了人的智慧,但機器與人類智慧的差距和變化速度並不能得到定量的分析。因此往往有人宣稱其程式通過圖靈測試,例如2014年6月英國雷丁大學客座教授凱文•沃維克宣稱一款名為“尤金•古特曼”(Eugene Goostman)的計算機軟體通過了測試,但很快就被人揭發他們的測試有很大漏洞並有欺詐嫌疑。

那麼有沒有一種方法,能夠定量檢測機器智力的發展水平和速度,並與人類智力進行對比,觀察可能潛在的風險並進行防範呢?2013年以來我們在機器與互聯智商方向進行了探索,初步成果已經發表在2014年6月6日舉辦的ITQM會議上,下面我們將簡要介紹如何定量分析機器與人類智慧的未來之爭。

2.機器與人類智商通用測試方法(M&H IQ)

在心理科學中,智力(intelligence)是最難理解的概念之一。目前有關智力的定義累積起來不下百種,但一個基本共識是,智力是人們認識客觀事物並運用知識解決實際問題的能力。

對人類智力的測量即智商測試由比奈和西蒙最早提出,1905年比奈和西蒙發表了《診斷異常兒童智力的新方法》, 即比奈-西蒙智力量表,標誌著智力測驗的正式出現。1916年,美國史丹佛大學教授推孟(L.M. Terman)將比奈-西蒙量表介紹到美國並予以修訂,修訂之後的量表稱為史丹佛比奈量表,它成為目前世界上廣泛流傳的標準測驗之一。

因為目前機器智力發展還很不完善,不能完全套用對人的智商測試。幾乎沒有任何機器系統能夠完成人類智商測量的操作能力測試,因此我們需要吸收以上智商測試量表的優點,設計新的智力評價體系和建立測試題庫,使之能同時對機器系統和不同年齡階段的人類進行測試。這樣得出的結果將可以定量地看出機器智慧與人類智慧的差距,通過定時測試,也可以發現機器智慧與人類智慧差距的變化情況。

基於“智力是人們認識客觀事物並運用知識解決實際問題的能力”這一基本認知,可以從知識的獲取能力(觀察能力)、知識掌握能力、知識創新能力、知識的反饋能力(表達能力)等四大方面建立新的機器與人類通用智商評價體系,從這四個方面建立15個分測試,並採用德爾菲法對其賦予權重。

enter image description here

具有機器智慧的程式有很多種類,其中搜尋引擎具有很強的代表性,作為目前網際網路最重要的應用之一,搜尋引擎代表有Google、Baidu、Bing等,這些搜尋引擎目前在通過各種方式不斷提高智慧水平。

例如1從只能識別文字增加到能夠識別聲音和圖片;2引入“語義理解”技術,試圖理解使用者的搜尋意圖;3通過深度學習,讓搜尋引擎可以自動識別影像中是什麼物體。因此選擇對搜素引擎進行智商測試並與人類進行對比將具有典型的意義。

3.世界搜尋引擎排名與機器智慧的弱點

根據機器與人類通用智力量表,可以建立機器與人類通用智商測試題庫(因為篇幅問題,本文不進行詳細介紹),2014年5月我們利用這個測試題庫對全世界50個搜尋引擎和3個不同年齡階段的人類群體進行測試得到結果如下:

enter image description here

通過測試我們發現,搜尋引擎在知識的掌握能力上遠遠超過人類,但在知識的創新能力上全部得分為0。由於知識創新能力在通用智商測試(M&H IQ)的權重更高,因此世界範圍的搜尋引擎的總體智商大大低於人類智慧,最高的Google的智商值也不到人類6歲兒童的一半。

從上述研究還可以看出智慧或智力是由不同的因素組成的,例如天文、地理、歷史等常識,數學計算,語言翻譯。這些方面機器或網際網路已經遠遠超過普通人類的能力,甚至強大到令人恐怖的地步,這也是庫茲韋爾的觀點能夠震懾住很多人的主要原因。

但我們往往忽略,除此之外,智力還包括猜測預測、排列組合、規律發現、創新創造、偽裝欺騙等更高等級的智慧因素,而在這些方面,機器和網際網路表現的基本為0,更不用說與嬰兒比較。

從科技的發展看,低端的智慧方面,機器的能力突飛猛進;高階的智慧方面,機器的能力舉步維艱,數十年來毫無進展。未來的智慧世界應該是機器與人類的分工,低端重複性的智慧由機器承擔,高階的創造性的智慧由人類來承擔。過分地宣揚機器智慧超越人類智慧,正如Facebook人工智慧實驗室主任Yann LeCun所說:“人工智慧的每一個新浪潮,都會帶來這麼一段從盲目樂觀到不理智最後到沮喪的階段。未來學家生來就願意做出盲目的預測,尤其是他們特別渴望這個預測成真的時候,可能是為了實現個人抱負。”

最後需要指出,目前建立的機器與人類通用智商測試量表(M&H)還有很大的改進空間,但希望這是一個起點,能夠解決圖靈測試的不足和缺陷,為定量分析機器智慧能否超越人類智慧打下初步的基礎。

相關文章