給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

AI前線發表於2018-05-09
給你打電話的可能不是人!谷歌Duplex顛覆智慧助手
策劃 | Vincent
組稿 | Vincent,Natalie,Debra
編輯 | Natalie


AI 前線導讀: 北京時間 2018 年 5 月 9 日,對於全球的科技媒體來說都將會是個忙碌的日子,不僅微軟 Build 2018 開發者大會第二天的議程在今天舉行,Google I/O 開發者大會同樣也在這一天拉開序幕。相比 Build 大會,Google 做的準備更加充分,黑科技層出不窮,最讓人印象深刻的莫過於已經進化到幾乎和真人一模一樣的 Google Assistant。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
打 Call!以假亂真的 Google Assistant 降臨!

先來回顧一下這讓人有些“瑟瑟發抖”的演示片段:

v.qq.com/x/page/l064…

你真的能聽出來這位打電話預約的客人到底是不是人類嗎?

Google CEO Sundar Pichai 一再強調:這是真實的電話錄音!

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

接著,視訊演示了谷歌語音助手幫助主任預定美髮服務,包括時間、地點、預約服務內容等,語音助手都能根據說話人的講話做出比較自然的反應:

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

最後視訊顯示,語音助手順利幫助主人預約到了時間,整個過程非常順利。

接下來的另一段錄音視訊演示了語音助手在遇到複雜和未預料到的情況下如何做出反應。演示中說的是在原定預約時間需要 5 位客人才能預約,谷歌語音助手會貼心地問“等位時間需要多久”這種人類都有可能想不到的小細節,結果非常順利地約到了沒有客位限制的時間。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

這波操作得到了臺下觀眾的一片掌聲和會心微笑,看來大家對這個小助手是相當滿意了。

不過也有人開玩笑稱,這個助手不會冒充我打點電話吧?連電話也能替我打了,不想搭理的人打電話過來直接扔給語音助手,連應酬敷衍都省了,那還活著幹嘛?!玩笑歸玩笑,不得不承認 谷歌助手功能還是挺強大的——不過目前僅限在演示裡,因為並沒有在現場實際操作,難道是怕現場出差錯?還是這種 666 操作的穩定性並不是特別強,谷歌怕在全球人民面前出糗?Google Assistant 是不是真的這麼 666,有待大家用上這個功能之後再做評判。

背後的黑科技 Duplex

據官方介紹,Google Assistant 之所以能夠在電話中做到和真人幾乎一模一樣,背後還要依賴於這項被稱為 Google Duplex 的技術,這是一種用於通過電話進行自然對話以執行“真實世界”任務的新技術。該技術旨在完成特定任務,例如安排某些型別的約會。對於這樣的任務,系統使對話體驗儘可能地自然,使人們能夠正常對話,就像他們對另一個人講話一樣,而不是機器。

為了讓對話聽上去儘可能自然,Google 除了在聲音上下了功夫之外,更重要的是將自然語言理解的能力提升了不少。在自然的對話中,人們說話比機器說話時要快得多,經常聽不太清楚,所以語音識別更困難,而且會產生更高的單詞錯誤率。在電話通話中,問題更加嚴重,因為通常電話通話中背景噪音大,音質不佳。

在較長的談話中,相同的句子可以根據上下文具有非常不同的含義。例如,當預訂“Ok for 4”可以表示預訂時間或人數。通常情況下,相關的上下文可能會返回幾個句子,這個問題會因電話中增加的字錯誤率而變得複雜。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

Duplex 的核心是專門為應對這些挑戰而設計的迴圈神經網路(RNN),使用 TensorFlow Extended(TFX)開發。為了獲得高精度,設計者們在匿名電話會話資料的語料庫上訓練 Duplex 的 RNN。該網路使用 Google 的自動語音識別(ASR)技術的輸出,以及來自音訊的功能、對話的歷史記錄、對話的引數(例如預約的所需服務或當前時間)等等。設計者為每項任務分別訓練理解模型,跨任務利用了共享語料庫。最後,使用 TFX 中的超引數優化來進一步改進模型。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

傳入的聲音通過 ASR 系統進行處理,然後用上下文資料和其他輸入分析後生成響應文字,最後通過 TTS 系統朗讀響應文字。

正如我們在視訊中看到的那樣,Google Assistant 在對話過程中甚至還會發出:eh,well 等語氣助詞,這也是設計者們為了讓它更像人所做的精心設計,在系統處理資訊的過程中,發出這樣的聲音會讓對方感覺更像是人在思考。

另外,Google 還重點強調了 延遲 的重要性。舉個例子,當人們說了一些簡單的話之後,例如“喂?”,他們所期待的是即時響應,這時候人們對於延遲更敏感。當檢測到需要低延遲時,Duplex 會使用更快的低置信度模型(例如語音識別或端點)。在極端情況下甚至不等待 RNN 返回響應,而是使用更快的近似響應(通常會猶豫一下再做響應,就像一個人在沒有完全理解對方的情況下也會稍有遲疑)。這使 Google Assistant 在這些情況下的響應延遲小於 100 毫秒。有趣的是,在某些情況下,研究人員發現引入更多的延遲反而會讓對話變得更自然,例如在回答一個非常複雜的句子時。

基於 Google Duplex,使用者無需直接打電話,只需與 Google Assistant 進行互動,後面撥打電話的事情完全由 Google Assistant 在後臺進行,使用者無需介入其中。 對於更喜歡發郵件和資訊,一想到要打電話就緊張手抖的眾多社交恐懼症“患者”來說,感覺是一項重大福利呢……

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

根據官方的介紹,Duplex 配置在 Google Assistant 中,將會為使用者解決多種生活場景裡的事務,現場演示的只是它很小的一部分功能。不過說到這裡,其實小編腦洞有些大開,想提出一些問題:

之前的智慧助手都是使用者發出指令,智慧助手執行,但是打電話、訂餐位之類的事情還是需要人來操作。然而經過 Google 這麼一來,人的作用似乎就更少了,只需要一句話,智慧助手全幫你辦了,一旦交流中間出現什麼問題,這個責任該誰來負呢?

不過谷歌官方也重點說明,目前 Google Duplex 只能侷限於某些封閉領域,只有當這些領域足夠狹窄才適合 Duplex 進行深入探索。Duplex 只有在這些領域經過深度訓練之後才能進行自然對話,它並不能進行更加廣泛的一般性對話。

Google Assistant 還有哪些神奇的新特性?

除了 Duplex 技術之外,在今天的 I/O 大會上,Google 也宣佈了虛擬助手其它非常多的功能更新,其中有不少十分強大……

新的聲音

可能使用者已經聽膩了 Google Assistant 的標準聲音,這也是為什麼 Google 決定為它再增加 6 種不同的男聲和女聲。其中就有一種來自於曾經在《愛樂之城》裡出演過的美國歌手約翰·傳奇 (John Legend)。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

不過,厲害的並不是請來約翰·傳奇,而在於 Google 為 Assistant 生成新聲音的超高效率。

藉助 DeepMind 的深度神經網路模型 WaveNet,只用很少量的語料,輔以強大的計算,Google 就可以製作出和原始語料相似度極高的語音形象,用時從幾個月降低到了幾百小時。

更強大的多輪對話和多重任務處理能力

Google Assistant 副總裁 Scott Huffman 播了一段網上超火的一名老奶奶不太會使用 Google Home 智慧音響的影片,並指出使用者體驗還有很大的進步空間。之後他示範了新功能:Multiple Actions——增強智慧語音助理與人類自然、多輪“對話”的能力。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

過去跟 Google Assistant 對話,需要每一句前面都加一個喚醒詞 “Ok Google”。從今天開始這個設定終於退役了。除此之外,Google Assistant 還能理解一句話裡表達的多個意思,一次性處理多重任務。

比如上圖這個例子中,使用者先詢問了勇士隊的比賽結果,然後詢問了勇士隊的下一場比賽,最後讓虛擬助手提醒他回家的時候找一下他的毛線衫,三次對話之間只在一開始加了一個喚醒詞。

對於人類來說,理解一個情境下連續的幾句話非常簡單,但在過去,別提多重任務,某些虛擬助手連一個簡單的任務都完成不了。如今,Google Assistant 看上去已經能夠很好地處理多重任務了。

Gmail 智慧寫郵件 (Smart Compse)

你應該知道 Gmail、Inbox 支援智慧回覆,但過去只有“感謝”、“就這樣”之類的簡單回覆。很快,Gmail 將獲得一個強大的智慧寫郵件功能。就像搜尋引擎的自動完成一樣,Gmail 也會根據你寫的上一個單詞自動建議下一個單詞,直到你把整個郵件都寫完……

聽起來有點玄乎,可以看看效果:

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

據介紹,Google Assistant 已經接入了全球範圍超過 5 億個裝置,分為 5000 種不同的裝置,車品牌就超過 40 個。

除了自然語言處理能力的改善之外,Google 將另一個改進的地方放在視覺的輔助——Visually Assistive,Google Assistant 產品經理主管 Lilian Rincon 舉例,例如你問星巴克咖啡店,手機就會同時展示出咖啡店選單內容。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

One More Thing

雖然官方文章裡沒有明說,但是我們也猜得到,Google Assistant 水平的提升,離不開背後的訓練模型與基礎裝置,如果不出意外,Google Assistant 很有可能採用了本次大會新發布的 TPU 3.0 進行訓練。

在正式介紹 TPU 3.0 之前,我們要先打個岔,聊聊 GPU 生產商英偉達最近的一個小動作。在 IO 大會開始前,英偉達突然爆出了一組最新型號 GPU V100 的資料:

  • 在訓練 ResNet-50 時,單個 V100 張量核心 GPU 可實現每秒 1,075 張影像,相比上一代 Pascal GPU,效能提升 4 倍。

  • 一臺配備 8 臺 Tensor Core V100 的 DGX-1 伺服器可實現每秒 7,850 張影像,幾乎是同一系統上每年 4,200 張影像的 2 倍。

  • 由八臺 Tensor Core V100 供電的單個 AWS P3 雲例項可在不到三個小時的時間內訓練 ResNet-50,比 TPU 例項快 3 倍。

給你打電話的可能不是人!谷歌Duplex顛覆智慧助手

如果沒有猜錯,英偉達對比的應該是上一代 TPU,即 2.0 版本。選在這個時候釋出,想必英偉達也是動了些小心思的。可是,TPU 3.0 的釋出,可能要讓英偉達的小心思落空了。

TPU 3.0 除了在效能上提升至上一代產品的 8 倍,Waymo 的 CEO 更是表示,在應用了新版本 TPU 的無人車訓練中,效能提升了 15 倍。 同時,這一代 TPU 還加入了液冷系統,基於新架構,可以執行更大、更復雜更準確的模型,並解決更困難的問題。目前 TensorFlow 是使用率最高的深度學習框架,特別是 Cloud TPU 商用之後,能夠吸引更多人來使用其服務。

昨天在微軟 Build 2018 開發者大會上,針對 FPGA 的 Project Brainwave(腦波計劃)也釋出了預覽版,雖然在晶片領域稍有落後,不過可以看出,微軟也在奮力追趕。前不久,Facebook、阿里巴巴等企業也宣佈了進軍晶片領域的計劃,下一個決勝的戰場是否會從晶片開始呢?

參考資料:

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

mp.weixin.qq.com/s/gG8mdlkOo…

https://devblogs.nvidia.com/tensor-core-ai-performance-milestones/


相關文章