北京時間 5 月 8 日凌晨,一年一度的谷歌 I/O 大會在加州山景城如期開幕。今年的大會上,除了常規的安卓 Q 版本更新以外,新手機和「家庭智慧裝置中心」Nest Hub 顯得更加引人注目。而去年驚豔的「能和人打電話的 AI」Duplex 也有了新升級。
前有微軟 Build 大會推出多個重磅產品,谷歌 CEO 桑達爾·皮查伊並不希望被搶去風頭。在陣陣掌聲中,一個又一個新應用與新產品呈現在了人們的眼前。
「今天我們釋出的新產品和裝置,有關你的工作、你的家庭和你的生活。」皮查伊在大會 Keynote 開場白中表示。
「鯊魚上舞臺」的谷歌搜尋
搜尋,是谷歌的核心業務。Pichai 首先介紹了谷歌搜尋新增的新特徵。
去年,谷歌釋出 Google News 新特徵 Full Coverage。如今谷歌把 Full Coverage 功能加入到了搜尋中,從而更好地組織與搜尋主題相關的資源。以搜尋「黑洞」為例,谷歌使用機器學習識別不同型別的文章,全景展示與搜尋詞條相關的故事。此外,Podcasts 也將融入到谷歌搜尋中。
但谷歌搜尋最令人尖叫的新特徵是視覺展示。使用計算機視覺與擴增實境,谷歌進一步強化了搜尋體驗:3D。
例如搜尋大白鯊,檢視 3D 模式,然後可以直接把它搬到舞臺中央!
當然,這一功能並非只是噱頭,它還有很強的實用性,例如購買鞋子時,可以把 3D 展示拉入現實場景,看鞋子和自己的衣服是否搭配,從而提升購物體驗。
搜尋,只是計算機視覺技術應用的場景之一。從今天的大會上,我們可以看到谷歌在 CV 上的研究已經融入谷歌的產品生態中,例如透過 Assistant、Camera 等 APP,使用者可以藉助 Google Lens 識別選單中的熱門菜品;透過 Google Go,翻譯圖片中的外語,並進行語音誦讀。
接管一切的智慧助手
介紹完了視覺相關應用,進入語音部分。
去年的 I/O 大會上,Google Duplex 和人類打電話訂餐館的表演震驚了世人。但當時 Duplex 只能透過手機語音訂餐館,今年穀歌把該功能升級成為 Duplex on web,讓人工智慧可以幫助你在電腦和手機上自動訂餐、訂機票、叫車了。以叫車為例,新版的 Duplex 可以自動填充乘車人資訊,使用者只需根據需要作出修改並確認即可。
此外,谷歌在模型壓縮方面的研究也有了回報。Pichai 介紹了谷歌取得的一項新的里程碑,近年來深度學習的發使得谷歌能夠把 100GB 的語音識別模型壓縮到 0.5GB,從而讓 Google Assistant 在移動端變得更快。
有多快?移動端實時識別語音速度提升 10 倍!谷歌工作人員的演示引起了現場觀眾的陣陣尖叫。
今天的語音助手和人的對話已經接近自然,在與 Google Assistant 對話中,使用者不在需要每次說「hey,Google」喚醒詞,且能跨越手機上的 APP 工作,例如在簡訊對話方塊讓 Google Assistant 搜尋一張圖片發給好友。
此外,Google Assistant 還加入了一些新功能,例如 Personal References 能夠為你最佳化溝通結果;透過說"Hey Google, let's drive.",開啟谷歌助手駕駛模式,不過這個功能要在今年夏天才會到來。
預計在今年下半年新的 Pixel 手機中,你就能看到新一代的 Google Assistant 了。
模型偏見與資料隱私
「以隱私與安全為核心,開發我們的技術」,這是 Pichai 介紹過前面如此多強大的 AI 應用之後強調的重點。
隨著深度學習在我們日常生活中的應用越來越普遍,我們不得不重視神經網路的一大問題:模型可解釋性。在使用大量資料訓練深度學習模型時,一個普遍的擔心是它們會學習到人類所擁有的偏見。
為了保證 AI 模型不會學習到這種偏見,谷歌做了大量研究提升模型透明度。
首先,Pichai 介紹了谷歌曾釋出的一種方法:TCAV。
以識別斑馬的模型為例,使用了 TCAV 方法,能夠理解每個概念 (如條紋)對模型預測的重要性。
TCAV 相關論文:https://arxiv.org/pdf/1711.11279.pdf
除了提升模型透明度,谷歌建立「AI for Everyone」的另一種方式是保證產品的安全與私密性,讓人們清楚、明白資料所帶來的選擇。
從 2004 年到 2018 年,谷歌為其所有的產品新增了大量安全保護特徵,包括 Google Takeout、Activity Controls,以及如今谷歌賬戶的自動(資料)刪除設定、谷歌地圖的匿名模式。
「我們想要使用更少的資料,為使用者做更多的事。」聯邦學習為谷歌的這一願景提供瞭解決方案。
2016 年,谷歌提出聯邦學習用於解決安卓手機終端使用者在本地更新模型的問題,從而保障資料交換時的資訊保安、保護終端資料和個人資料隱私,保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
以谷歌 Gboard 為例,單獨的裝置上學習無法為使用者主動推薦經常用到的詞彙,但加上聯邦學習,就能在使用者多次使用相關詞彙之後自動推薦。如今,大量裝置的 Gboard 都已經使用到了聯邦學習,在輸入時為使用者推薦單詞與表情。
安卓 Q:加入防沉迷功能
在搜尋之外,安卓(Android)系統是谷歌今天成功的重要原因之一。在 I/O 大會上谷歌透露,今天全球約有 25 億臺正在執行的安卓裝置。它已經成為了谷歌以及大多數其他公司部署新應用最優先的平臺。如谷歌 AI 語音助理、人工智慧影像識別產品等。Android 也是 Wear OS、Android Auto 和 Google 的流媒體電視平臺 Android TV 的基礎。
Beta 版的安卓 Q 已經在一些開發者手中出現一段時間了,其中包括廣受人們歡迎的系統級暗色模式。在華為和三星推動下,安卓 Q 也加入了對摺疊屏手機的完整支援:在打遊戲的時候,手機在副螢幕和主螢幕(摺疊屏)上可以無縫立即切換顯示。谷歌智慧推薦功能現在已經可以預測你下一步的動作了。而「裝置上學習」功能的存在可以讓手機越用越聰明。
手機好用,但過於沉迷也不是好事,谷歌特意在安卓 Q 中加入了 Focus Mode,可以讓使用者選擇遮蔽郵件、資訊的提示。谷歌表示在美國,孩子開始接觸手機的年齡已經下降到 8 歲左右了。安卓 Q 也引入了家長模式,可以讓父母觀察孩子們的手機使用了哪些應用,並控制他們的使用時間。
安卓 Q 上內建了 Live Caption 功能,可以為任何手機正在播放的影片實時顯示字幕,這是此前幫助聽障人士的功能 Live Transcribe 的升級版,適用於從 Youtube 影片到相簿中影片的任何影片內容。「它不僅可以幫助聽障人士無障礙地接觸更多資訊,也可以在普通人不方便開啟聲音的時候安靜地觀看影片。」桑達爾·皮查伊介紹道。
值得一提的是,Live Caption 功能可以完全在裝置端執行,在不聯網甚至飛航模式下也可以實時生成字幕。這得益於谷歌在裝置上機器學習方面取得的突破,他們將模型進一步縮小,使得資料可以直接在客戶端進行處理,無需離開手機上傳到雲端,可以有效保護使用者隱私。
隨著 I/O 大會的召開,安卓 Q 的第三版測試也已開始,首批將在這些品牌的手機上出現,其中包括華為、小米、vivo、oppo 和一加。
由於 Beta 版是面向開發者的,在安裝前請三思而後行,除了所有 Pixel 手機之外,安卓 Q Beta 3 還支援華為 Mate 20 Pro、小米 9、一加 6T 等機型。Google 讓 Pixel 所有者只需使用谷歌賬號登入,然後選擇相容測試版的相應裝置即可加入測試階段。你可以透過這種方式獲得測試版更新,就像通常用於穩定版本的系統一樣。
「平價版」Pixel 手機
谷歌從未在 I/O 大會上釋出新手機,但今年是個例外。今天,谷歌在 I/O 大會上釋出了 Pixel 家族的兩款新機 Pixel 3A 和 3A XL,並表示,這是為了讓全球更多人能夠接觸到最先進的人工智慧技術。
谷歌首次在 I/O 大會上開了場「手機釋出會」,推出了 Pixel 3a 和 3a XL。
Pixel 手機永遠不是硬體配置最好的那一個,不過它總會最先得到谷歌官方帶來的新技術應用,如 Duplex、Night Sight 等。這些功能不受手機硬體的限制,更多的是谷歌的開發水平和利用人工智慧能力的體現。谷歌特別提醒道:Pixel 3a 將會得到谷歌未來三年內所有新技術升級的保證。
兩款手機都有相同的背面指紋識別、1220 萬畫素單攝像頭(前攝像頭 800 萬畫素)以及 OLED 螢幕,尺寸分別為 5.6 寸和 6 寸,電池容量分別為 3000mAh 和 3700mAh,據說可以至少滿足「長達 30 小時的使用時間」。兩款手機都有黑白粉色三種顏色可選。
在最重要的配置上,Pixel 3a 和 Pixel 3a XL 搭載驍龍 670 處理器,運存 4G,儲存容量 64G。
谷歌希望新技術可以為更多人服務,但發現當今的高階手機越來越貴了,因此希望讓 AI 技術能夠在普通配置的手機上也能呈現。新手機就是這種思想的載體。
「Pixel 3a 保留了 3.5mm 耳機介面,並使用 AI 演算法讓單攝像頭在各種光線下保持高拍照水準。」谷歌產品負責人 Sabrina Ellis 表示。在谷歌的展示中,低光、景深虛化、超解析度等其他手機需要雙攝像頭、甚至三攝四攝實現的功能,在 3a 上都可以透過高效率的演算法來完成。
使用 Pixel 就意味著可以搶先體驗谷歌最新發布的各種應用,現在你已經可以用谷歌地圖 AR 顯示巨大的虛擬路標用來導航了。
Pixel 3a 和 3a XL 的售價分別為 399 美元和 479 美元(摺合人民幣 2700/3250 元),講道理這樣的價格已經可以在國內買到很多品牌的驍龍 855 級旗艦機了,可能只有喜歡嘗試谷歌新 app 的玩家才會去買吧。
進軍智慧家居
谷歌重組了智慧家居的產品線,將所有產品都集中在 Nest 旗下,希望能夠讓自己的智慧家居裝置覆蓋 5 歲到 95 歲的人群。Nest Hub Max 是谷歌這次在 I/O 大會上推出最具特色的新硬體,它是谷歌的 10 英寸螢幕版本 Home Hub,是一個帶有攝像頭、大螢幕的智慧音響,它將成為智慧家庭的控制中心,也可以作為監控攝像頭或者視訊通話裝置。
與其他廠商聲紋識別區分使用者的方式不同,谷歌有一個基於人臉識別的 Face Match 功能:不同的人在 Nest Hub Max 的螢幕上看到的內容都是他們專屬的。
大螢幕也讓 Hub Max 可以當做一個「廚房電視」,放音樂或者用影片教你做飯。有攝像頭的音響也可以加手勢識別功能,如果你的電話來了想停止音樂,衝它抬一下手就行了。
助力殘障人士
在過去的一年裡,谷歌曾因與政府合作軍事專案而備受指責,讓人懷疑谷歌變了,不再是那個堅持「不作惡」的谷歌了。在今年的 I/O 大會上,谷歌似乎竭力挽回其社會形象,致力於打造「人人可用的產品」(Accessible products for Everyone)。
大會中,谷歌多位負責人強調了其產品的可及性以及對人的幫助,尤其是對殘障人士的幫助,其代表產品包括 Live Transcribe、Live Caption、Live Relay、Project Euphonia 等。
前面已經提到,Live Caption 和 Live Transcribe 都是語音轉文字的應用,可以幫助到全球 5 億的聽力障礙者。
一位聽力障礙人士在利用谷歌的 Live Transcribe「聽」其他人講話。
Live Relay 是一款幫助聾啞人士接電話的應用。電話接通後,語音助手會將聾啞使用者想要表達的內容生成語音展現給對方,同時將對方的語音資訊轉換為文字呈現給聾啞人士,將電話介面轉換成了聊天視窗。這款應用也適用於漸凍症等特殊疾病人群。
Project Euphonia 是專為中風、口吃等語音不清晰的人群打造的專案。這些人無法使用普通的語音模型,需要對模型進行個性化訓練。研究人員收集了大量來自目標人群的語音資料,使得這類人群也能用上谷歌最新的語音技術,提高其產品的可及性和公平性。
Bert 太牛,上臺吹一波!
在今天上午的 keynote 中,最後上臺的是 Jeff Dean 大神,這在之前的谷歌 I/O 中極為罕見。
在一片掌聲中,Jeff Dean 介紹了谷歌 AI 近來取得的新成果,特別是在自然語言理解方面。Jeff Dean 說,「我們想要計算機有人類一樣流暢的語言能力」。因此過去數年,谷歌 AI 在這方面做了大量工作,特別是 2017 年提出 Transformers,取得了極大進步。
後來,在 Transformers 的基礎上,谷歌提出 Bert,在 11 種語言處理任務上都取得了頂尖成果,引發業內巨震。如今,Bert 模型廣為人知……
除了 Bert,Jeff Dean 在演講中簡略提及了 TensorFlow 框架,谷歌 AI 醫療團隊的 Lily Peng 介紹了一項她們在醫療領域的最新研究成果:從 CT 影像識別肺癌,相關論文將發表在 Nature Medicine 期刊上。
小結
未來你的生活或許會是這樣:早晨,在廚房開啟 Nest Hub 的食譜學做早餐,開啟 Pixel 手機看到明天要去的城市,使用 Duplex 租一輛車,谷歌地圖會幫你計劃好行車路線——而在整個過程中,你不需要動一個手指。這就是谷歌 I/O 大會為我們展示的 AI 智慧時代新體驗。