1463066304-7949-01

從《2001太空漫遊》中的 HAL 到 Spike Jonze 編導的《她》中的 Samantha,幾十年來我們都一直執迷於人工智慧驅動的計算機有一天能像人類一樣與我們進行互動、聽從口語指令以及獨立進行決策。

自從 Siri 出現在 iPhone 4 的螢幕上以來,谷歌、Facebook、亞馬遜、微軟和百度也都已進入了這一領域。但儘管每一代更新都為其帶來了很多有趣的新功能或應用場景,但它們仍與電影中出現的人工智慧形象相差甚遠。現在還很難想象有人能與 Siri 發展出某種浪漫關係,或 NASA 讓 Alexa 來負責飛船的控制。

電影將標準設定得相當高,而我們仍在等待這樣的普遍存在的語音控制人工智慧進入真實世界。但是,距離能在我們的日常生活中真正幫助我們的智慧助理時代,肯定比預想的要近。

依賴使用者輸入的被動式助理

當談到智慧個人助理時,人們往往會想到 Siri、小娜或亞馬遜 Echo。更瞭解技術的使用者可能還聽說過來自 Siri 的創始人的 Viv、Facebook 最近釋出的 M 和其它基於訊息的人工智慧工具,如 Operator 或 Magic。然而,儘管這些新工具最近引起了人們很大的關注,但當涉及到它們的使用情況時,它們中大部分都仍還困在只是聽起來很不錯的問答領域內。

過去幾年,有很多訊號表明這些技術先驅是真的要將人工智慧帶入下一階段了。谷歌在 2014 年以 4 億英鎊收購了位於倫敦的深度學習研究團隊 DeepMind,IBM 在去年收購了 AlchemyAPI,還有蘋果也在最近僅 4 天內就進行了兩次關於人工智慧的收購。

在此之前,GPU 加速的深度學習技術實現了突破;這些收購使得在模式識別中實現額外提升成為可能,也帶來了用於語音識別和計算機視覺的很不錯的應用。據 Expect Labs 的創始人兼 CEO Tim Tuttle 表示,在未來兩年內,機器就應該能比人類更好地聽從口語指令了。

儘管可以說通過我們的感官進行溝通的能力是人類智慧的精華所在,但這只是必需配方中的一個成分而已。加州大學伯克利分校教授  Stuart Russell 確定了計算機要通過完全的圖靈測試所應當具備的六種主要能力:自然語言處理、知識表徵、自動推理、機器學習、計算機視覺和機器人學。

教計算機學習人類行為中的語境是一項艱鉅的任務。

簡單來說,這些是人工通用智慧的構造模組,而語音識別只是其中的一個方面。當你的手很忙時,語音是點選鍵盤的一個方便的替代,但你的聲音只是一個媒介,不總是能作為最好的輸入方法。有多少次你一開始用 Siri 查詢某事物而最終卻在谷歌上打字輸入了你的查詢?

語境是困難的部分

Viv 背後的團隊相信,他們可以使用先進的深度學習技術讓機器教自己學習怎麼解決問題,從而開發出更好的個人助理。儘管他們可以理解地將祕方藏在心中,但是,目前已公佈的資訊說明,為了建構使用例項,仍需要一些人類指導。和人類使用來自知道怎麼解決該問題的人的線索來學習解決問題的方式一樣,人工智慧也需要他們的指導以尋找它自己的解決問題的方法。

但是,與人類的比較只能到此為止;因為和機器不一樣,通過將問題放進語境中並尋找最初的解決方案, 我們能夠自動地在既有知識之上構建知識。我們自然將「點連起來」,尋找答案,做出決策,而現在,實現的人工智慧往往不能將問題和周圍語境——這也是形式化的關鍵,但是,也非常難以形式化——關聯起來。

語境能賦予人工智慧構建更智慧決策的能力,而不僅僅是依賴定義良好的輸入指令。因此,語境通過連線過去、現在和未來來解決複雜的問題。來自巴黎大學的  Patrick Brézillon 教授說:「在人工智慧中,缺乏對語境的明確表徵,是很多基於知識的系統失敗的原因之一。」確實還有很多有待掌握。

教計算機學習人類行為中語境是一項艱鉅的任務;人類不總是能正確預測,而情形的種類基本上是無窮盡的。在個人層面上,使用機器學習技術理解人類進行社會互動和決策的方式,將涉及到無數個小時的使用者輸入。這可以通過一天觀察你 24 小時來實現,但因為讀心術目前還不存在,所以,你也將需要大聲表達出你的推理以讓機器能學習像你一樣思考。

利用網際網路的力量

機器學習需要大量資料。對於自然語言處理,資料通常從語料庫中收集——語料庫是可被用於訓練人工智慧的大型結構化的文字集合。為了讓你理解這些資料集可以有多大——在沃森擊敗 Jeopardy 人類冠軍之前,它已經攝入了整個維基百科資料庫。

IBM 沃森的故事中有趣的地方是,其所使用的語料庫不需要以前的結構,這意味著沃森可以在沒有人類監督的情況下使用這些資料。現在要是 M 也得到了相似的訓練,以實現交流和執行復雜任務的更進一步目標呢?應該會是什麼模式,我們又該在哪裡尋找合適的資料?

距離能在我們的日常生活中真正幫助我們的智慧助理的時代,比預想的更近。

網際網路包含數百萬小時的談話、視訊、書籍、資料和能讓神經網路構建智慧的一切。你想教機器學習愛?就讓它們讀《羅密歐與朱麗葉》等愛情小說。學習商業呢?讓它們接入《華爾街日報》的新聞源。DeepMind 最近讓我們瞭解了這種方法可以做到什麼,他們通過一個包含 CNN 和《每日郵報》 300,000 篇文章的資料庫教他們的人工智慧學習語言。

資料已經有了,而現在我們似乎才停留在膚淺的表面。但是,機器學習中的又一輪進展很快就能讓我們可以從網路包含的艾位元組(exabytes)量級的資訊中提取意義,這樣的進步將成為通往人工超級智慧的進化之路上的一次巨大飛躍。

除了在網路上可用的非結構化資料海洋表面刮擦,能讓我們的生活更容易的近未來已經到來了。每天人類都會在網上做數百個決策,每次我們點選一個連結,這些點選就會被跨多個網站的廣告和分析公司記錄下來。想象一下,如果這些資訊被專門用來理解你的瀏覽偏好的人工智慧使用,它在你瀏覽過程中收集你和其他數百萬使用者的瀏覽的相關資訊,然後從這些資料中確定模式。

它不僅為你提供一個更個性化和更語境化的網路體驗,也將更好地理解你的意圖,甚至能在你表達出你的需要之前就預測到你的需要!瞧,一個能使用已有技術真正減輕負擔的人工智慧個人助理!

研究人員預測,在可以真切體驗到無處不在的類人智慧之前,我們至少還需要再等上另外十年時間。與此同時,網際網路也發展到了這個階段:蒐集所有必要條件,為人工智慧的飛躍做好準備;而且我們已經有了很多機器人程式、分析技術以及其它 API,它們都在蒐集著可加利用的線上資料。

因此,讓我們斷開眼前發生著的真實進步與電影畫面之間的聯絡吧,我們要意識到,要想創造出讓生活更簡單的人工智慧,最大的機遇就是利用好某些我們每天使用的東西。

©本文由機器之心編譯