從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

李亞洲發表於2018-05-09

2018 年 5 月 8 日,一年一度的谷歌 I/O 開發者大會在美國加州山景城開幕。2016 年穀歌從移動優先到人工智慧優先(AI-first),兩年來我們從谷歌 I/O 看到了谷歌如何踐行這一戰略。在今日剛剛結束的 Keynote 中,機器學習依舊是整個大會的主旋律:谷歌釋出了 TPU 3.0、Google Duplex,以及基於 AI 核心的新一代安卓作業系統 Android P,也介紹了自己在 News、Map、Lens 等眾多產品中對 AI 與機器學習模型的應用。本文帶你一覽谷歌 I/O 2018 首日 keynote 的核心亮點。

在今天的 Keynote 中,谷歌 CEO 桑德爾·皮查伊等人介紹了谷歌一年來的多方面 AI 研究成果,例如深度學習醫療、TPU3.0、Google Duplex 等,也展示了 AI 如何全方位地融入了谷歌每一條產品線,從安卓到 Google Lens 和 Waymo。在本文中,機器之心對 Keynote 的核心內容進行了整理。

深度學習醫療

大會剛開始,昨天谷歌所有的 AI 研究合併出的 Google AI 釋出了一篇部落格,介紹谷歌在醫療領域的研究:

聯合史丹佛醫學院、加州大學舊金山分校 、芝加哥大學醫學中心,谷歌今天在 Nature Partner Journals: Digital Medicine 上釋出了一篇論文《Scalable and Accurate Deep Learning with Electronic Health Records》。

在此研究中,谷歌使用深度學習模型根據去識別的電子病歷做出大量與病人相關的預測。重要的是,谷歌能夠使用原始資料,不需要人工提取、清潔、轉換病歷中的相關變數。

在預測之前,深度學習模型讀取早期到現在所有的資料點,然後學習對預測輸出有幫助的資料。由於資料點數量巨大,谷歌基於迴圈神經網路與前饋網路開發出了一種新型的深度學習建模方法。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

病人病歷中的資料以時間線的形式展示

至於預測準確率(標準:1.00 為完美得分),如果病人就醫時間較長,論文提出的模型預測得分為 0.86,而傳統的 logistic 迴歸模型得分為 0.76。這一預測準確率已經相當驚人。

Looking to Listen:音訊-視覺語音分離模型

而後,皮查伊介紹了谷歌部落格不久前介紹的新型音訊-視覺語音分離模型。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

在論文《Looking to Listen at the Cocktail Party》中,谷歌提出了一種深度學習音訊-視覺模型,用於將單個語音訊號與背景噪聲、其他人聲等混合聲音分離開來。這種方法用途廣泛,從影片中的語音增強和識別、視訊會議,到改進助聽器,不一而足,尤其適用於有多個說話人的情景。

據介紹,這項技術的獨特之處是結合了輸入影片的聽覺和視覺訊號來分離語音。直觀地講,人的嘴的運動應當與該人說話時產生的聲音相關聯,這反過來又可以幫助識別音訊的哪些部分對應於該人。視覺訊號不僅在混合語音的情況下顯著提高了語音分離質量(與僅僅使用音訊的語音分離相比),它還將分離的乾淨語音軌道與影片中的可見說話者相關聯。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

在谷歌提出的方法中,輸入是具有一個或多個說話人的影片,其中我們需要的語音受到其他說話人和/或背景噪聲的干擾。輸出是將輸入音訊軌道分解成的乾淨語音軌道,其中每個語音軌道來自影片中檢測到的每一個人。

皮查伊還介紹了谷歌其他 NLP 應用,例如透過谷歌的鍵盤輸入摩斯電碼讓語言障礙者重新獲得表達能力、GMail 中利用語言模型與語境資訊預測輸入。

之後,皮查伊介紹了谷歌在計算機領域的一些研究成果與應用,包括醫療影像方面的研究,移動裝置中應用的照片理解、摳圖、自動上色和文件處理等。

TPU 3.0

去年,谷歌 I/0 公佈了 TPU 2.0,且開放給了谷歌雲客戶。今天,皮查伊正式宣佈 TPU 3.0 版本。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

皮查伊介紹,TPU 3.0 版本功能強大,採用液冷系統,計算效能是 TPU 2.0 的 8 倍,可解決更多問題,讓使用者開發更大、更好、更準確的模型。更多有關 TPU 3.0 的資訊也許會在之後放出。

Google Assitant 與 Google Duplex

整合谷歌人機互動研究的 Google Assistant 在今日的 keynote 中必然會亮相。Google Assitant 負責工程的副總裁 Scott Huffman 介紹了 Google Assitant 過去一年的成果,谷歌產品管理總監 Lilian Rincon 介紹了帶有視覺體驗的 Google Assistant 產品,且有數款產品將在今年 7 月份釋出。

而後谷歌 CEO 桑德爾·皮查伊在 Keynote 中展示了語言互動的重要性,並正式介紹了一種進行自然語言對話的新技術 Google Duplex。這種技術旨在完成預約等特定任務,並使系統儘可能自然流暢地實現對話,使使用者能像與人對話那樣便捷。

這種自然的對話非常難以處理,因為使用者可能會使用更加不正式或較長的句子,且語速和語調也會相應地增加。此外,在互動式對話中,同樣的自然語句可能會根據語境有不同的意思,因為人類之間的自然對話總是根據語境儘可能省略一些語言。

為了解決這些問題,Duplex 基於迴圈神經網路TensorFlow Extended(TFX)在匿名電話會話資料集上進行訓練。這種迴圈網路使用谷歌自動語音識別(ASR)技術的輸出作為輸入,包括語音的特徵、會話歷史和其它會話引數。谷歌會為每一個任務獨立地訓練一個理解模型,但所有任務都能利用共享的語料庫。此外,谷歌還會使用 TFX 中的超引數最佳化方法最佳化模型的效能。

如下所示,輸入語音將輸入到 ASR 系統並獲得輸出,在結合 ASR 的輸出與語境資訊後可作為迴圈神經網路的輸入。這一深度 RNN 最終將基於輸入資訊輸出對應的響應文字,最後響應文字可傳入文字轉語音(TTS)系統完成對話。RNN 的輸出與 TTS 系統對於生成流暢自然的語音非常重要,這也是 Duplex 系統關注的核心問題。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

在 Duplex 系統的語音生成部分,谷歌結合了拼接式的 TTS 系統和合成式的 TTS 系統來控制語音語調,即結合了 Tacotron 和 WaveNet。

由於這樣的系統引入了「嗯、額」等停頓語,系統生成的語音會顯得更加的自然。當結合拼接式 TTS 引擎中大量不同的語音單元或新增合成式停頓時,這些引入的停頓語允許系統以自然的方式表示它還需要一些處理時間。

總的來說,Google Duplex 的這些結構與方法對生成更自然的對話與語音有非常大的幫助。目前雖然主要是針對特定領域中的語言互動,但確實提升了語音會話中的使用者體驗。

安卓以及閃現的 DeepMind

即將在今年 9 月迎來自己 10 歲生日的安卓也在 I/O 上宣佈了新一代作業系統。繼承 Android Oreo 工作的新版安卓系統被命名為 Android P。

「本次釋出有三個主題,分別是智慧(Intelligence)、簡潔(Simplicity)與數字健康(Digital Wellbeing)。Android P 是我們『AI 位於作業系統核心』願景的第一步,而 AI 也是『智慧』主題的奠基石。」谷歌工程副總裁 Dave Burke 如是展開了他的演講。

智慧部分裡首先介紹了兩個功能,Adaptive Battery 自適應電池管理系統和 Adaptive Brightness 自適應亮度調節系統。

其中,Adaptive Battery 透過卷積神經網路來預測使用者接下來會使用的應用程式,透過適應使用者的使用模式將電池僅用於你接下來可能需要的應用程式中,這減少了 30% 的後臺 CPU 喚醒。而 Adaptive Brightness 則不再單純根據照明情況調節亮度,而是加上了使用者喜好和所處環境因素。超過一半的測試使用者減少了他們手動調節亮度條的頻率。

事實上,這兩個功能均來自之前一度被美媒質疑「燒錢還傲嬌不幹實事」的 DeepMindDeepMind 本次並沒有直接在 I/O 露出,只是在部落格上發表了一篇文章(https://deepmind.com/blog/deepmind-meet-android/),說明了 Android 的這兩個新功能來自 DeepMind for Google 團隊。

除此之外,Android P 也將去年釋出的、準確率達到 60% 的「使用者接下來可能使用哪個 App」預測更進一步,轉而預測「使用者接下來可能用什麼 App 進行什麼操作」,並直接在上滑選單頂部呈現給使用者。

Dave Burke 在介紹上述每一個功能時都著重強調了所有的預測均由在端上執行的機器學習模型完成,以確保使用者隱私得到最大程度的保護。

除了將 AI 融入作業系統的最佳化之外,Android 還試圖降低非機器學習背景的開發者使用相關技能的門檻:包括圖片標註、文字識別、智慧回覆等一系列 AI 相關的 API 將以 ML Kit 的形式開放給開發者。

「你可以將 ML Kit 視作基於 TensorFlow Lite 提供的、為移動裝置最佳化過的、隨拿隨用機器學習模型。」Dave Kurve 介紹說。而且,谷歌非常大方地同時對 iOS 系統開放了這一 API 集。

從TPU3.0到DeepMind支援的Android P,谷歌I/O 2018的AI亮點全在這了

開發者今天就能在 Pixel 上實驗 Android P Beta 的效果了。值得一提的是,除了 Pixel 之外,Android P Beta 還對其他 7 家手機生產廠商的旗艦機開放,其中有 4 家都來自中國,它們分別是小米、vivo、oppo 和一加。

無人駕駛

昨日,起源於史丹佛人工智慧實驗室的自動駕駛汽車初創公司 Drive.ai 於 7 日宣佈,將與德克薩斯州的弗里斯科政府以及 Hall 集團進行合作,在德州落地首個無人計程車服務。而在今天的 Keynote 中,Waymo CEO John Krafcik 透過影片展示了居住在鳳凰城的一些人參與其 EarlyRider 專案(即體驗 Waymo 的自動駕駛技術)的場景。Krafcik 稱 Waymo 將在今年於鳳凰城開始 passenger-pickup 專案,鳳凰城是第一站。

結語

一年一度的谷歌 I/O 開發者大會首日 Keynote 中的核心內容如上,相比於偏重機器學習技術的 2016 年與 2017 年,今年的內容更多關於 AI 的應用與產品。兩年來,我們看到了谷歌如何踐行 AI First 戰略。接下來幾天,機器之心將會繼續報導谷歌 I/O 2018 的更多精彩內容。

相關文章