本文作者 Ben Medlock 是 SwiftKey 的聯合創始人。SwiftKey 是一款使用預測技術來適應使用者打字習慣的移動應用。Medlock 參與評議過許多著名的國際期刊,並且在自然語言處理領域的頂級會議 ACL 上發表過學術論文。本文觀點不代表機器之心的看法。
我們往往會認為心智(mind)位於更原始的認知結構(cognitive structures)之上。我們認為我們是有意識的存在,畢竟,我們在以某種方式感受我們心跳的韻律和腸胃的悸動。如果大腦中的運算可被分離出來或分層,那麼也許我們構造出類似於這個頂層的東西,並繞過有機物特有的雜亂肉身而實現人工智慧。
我理解這種觀點的吸引力,因為我曾聯合創立了一家語言預測軟體公司 SwiftKey,該公司後來被微軟收購了。我們的目標是模擬出人類理解和操作語言的了不起的過程。我們取得了一些不錯的進展:我對我們在 2012 年到 2014 年之間為物理學家史蒂芬·霍金所開發的優雅的新交流系統而感到十分自豪。但儘管有這些鼓舞人心的成果,但絕大多數時間我都被不斷提醒我們離類似人類的人工智慧還遙不可及。為什麼?因為分層的認知模型是錯的。目前大部分人工智慧研究者都缺失了整個藍圖的一個核心組分:具身化(embodiment)。
在 20 世紀 50 年代現代人工智慧起步的時候,研究走上了錯誤的方向。電腦科學家決定通過構建基於符號的邏輯系統來嘗試模擬有意識的推理。這種方法涉及到將真實世界的實體和數字程式碼關聯起來以創造出關於環境的虛擬模型,然後該模型可被用於投射回這個世界本身。比如說,使用符號邏輯,你可以通過使用類似「貓>是>動物(cat > is > animal)」這樣的數學公式來編碼特定的知識,從而指示一臺機器「學習」到:貓是動物。這樣的公式可以彙整合更為複雜的陳述,從而讓系統可以操作和測試命題——比如你的貓平均下來是不是和馬一樣大,或者是不是很有可能會追逐老鼠。
這種方法在簡單的經過設計的環境中取得了一些早期的成功。比如 MIT 電腦科學家 Terry Winograd 在 1968 年到 1970 年之間創造的一個虛擬世界 SHRDLU,使用者可以通過與這臺計算機交談來在簡單的塊狀體(如椎體和球)周圍移動。但事實證明,在面對真實世界問題時,符號邏輯完全不行。在真實世界中,經過精心調節的符號在面對模糊定義和多重解釋時就會崩潰。
後來幾十年,隨著計算機算力的提升,研究者開始轉向使用統計學來從大量資料中提取模式(pattern)。這些方法通常被稱為「機器學習(machine learning)」。機器學習並不試圖編碼高階知識和邏輯推理,而是通過一種自底向上的方法來讓演算法通過重複任務來分辨關係,這些任務包括分類影像中的視覺目標或將錄音轉錄為文字。比如,這樣的系統能夠通過檢視數百萬張貓的照片學會識別貓,或根據貓和鼠在大量文字中被描述的方式來找到貓和鼠之間的關係。
近些年來,機器學習已經產生了很多實際的應用。我們已經創造了在語音識別、影像處理和閱讀脣語上超越人類水平的系統,也造出了在國際象棋、Jeopardy! 和圍棋上擊敗了人類的系統,另外還有能夠創造視覺藝術、合成流行音樂和編寫自己的軟體程式的系統。在某種程度上,這些能自我學習的演算法模擬了我們所知的有機大腦的潛意識過程。機器學習演算法從簡單的「特徵(feature,比如單個字母或畫素)」入手,然後將它們組合成更復雜的「類別(category)」,同時還考慮到了真實世界資料中所固有的不確定性和模糊性。這在某種程度上類似於視覺皮層,其能夠接收來自眼睛的電訊號並將其解讀成可識別的模式和目標。
但是能像人一樣思考的演算法仍遙不可及,兩者最大的區別在於生物進化以及資訊處理方式。人類由數萬億個真核細胞組成,真核細胞在 25 億年前的化石之中首次被發現。一個人類細胞即是一個非比尋常的網路,其元件數量等同於一架現代化大型噴氣式客機,這是一個長期而深入的自然進化過程的結果。在《Basin and Range(盆地與山脈)》(1981)一書中,作者 John McPhee 發現,如果你站著把手臂伸展出來以表示地球的整個歷史,複雜的有機體開始只在手腕處進化,而且「你拿著一箇中型的指甲銼,一下子就可以抹除人類的歷史」。
傳統的進化觀點暗示人類細胞的複雜性來自於早期真核細胞的隨機突變和選擇。但是在 2005 年,芝加哥大學生物學家 James Shapiro 描述了一個激進的新觀點。他認為真核細胞通過自我操控 DNA 響應環境刺激以「智慧地」適應有機體寄主及其環境。最近的微生物學發現佐證了這一想法。例如,哺乳動物的免疫系統傾向於複製 DNA 序列從而可以產生有效的抗體應對疾病攻擊;現在我們知道 43% 人類基因組是由 DNA 組成的,通過一種自然的「基因工程(genetic engineering)」過程,DNA 可以在不同位置之間移動。
現在,這只是聰明的自組織細胞進化為大腦型智慧生物過程中的一丁點的小跨越。但重點是很久以前我們已是有意識會思考的生物,細胞讀取環境資料並協同工作以將我們塑造成穩健可持續的存在。那麼,我們認為的智慧不僅僅是使用符號以如其所是的形式表徵世界。相反,世界僅展現被我們揭示出來的一面,這種認識世界的方式深深根植於作為有機體的我們的進化和表現的需求之中。自然「自然並非僅使用大腦構建了理性,還使用了包含大腦的身體。」神經科學家 Antonio Damasio 在其對認知科學產生巨大影響的《笛卡爾的謬誤》一書中這樣寫道。換句話說,除了大腦,我們還用身體思考。
我猜想身體的存續在一個不確定的世界中是基本而又至關緊要的,這構成了人類智慧的靈活性與能量的基礎。但是很少有人工智慧研究者真正意識到這些見解的意義。絕大多數演算法的目的在於從大量的訓練資料集中推斷模式——因此演算法在看了數百萬甚至數十億隻單個貓的照片之後才能精確地識別貓。與之相比,為了滿足作為有機體的需求,人類的身體包含有極其豐富的模型以應對外部環境。從相對較少的被觀察樣本中我們就可以總結經驗做出預判。因此當人類在思考一隻貓時,她很可能描畫貓行走的方式,聽到咕嚕咕嚕的聲音,感受到貓伸出爪子就要抓撓。在其理解「貓」這一概念時,人類有著豐富的感知資訊,並且其他相關概念也有助於其理解。
這意味著當人類解決一個新問題時,絕大部分的困難工作已經完成了。通過這種我們剛剛開始理解的方式,由細胞進化而來的身體和大腦,已經構建了一種世界模式,使我們可以及時應對各種挑戰。但是對於人工智慧演算法,每一次都是從頭開始執行。有一個活躍而重要的研究路線,其被稱為「歸納遷移」,致力於利用機器先前學習的知識解決新問題。然而,照目前來看,人們仍然質疑這種方法是否可以獲取一些像豐富的身體模型般東西。
2014 年,在 SwiftKey 推出霍金專用的新通訊系統的同一天,他接受了 BBC 的採訪,警告說智慧機器有可能毀滅人類。這次採訪無疑成了當日頭條。我同意霍金認為應該嚴肅對待流氓人工智慧所造成的危害的觀點。但我認為人類還遠沒到擔憂被取代的時候。我們達成人工智慧目標的希望並不大,除非在演算法中加入一種長期的具身化關係,就像大腦具於身體之中。