Siri不行了?微軟小冰或許是未來的方向

AI科技大本營發表於2018-04-09

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&retryload=1


作者 | 阿司匹林

出品 | AI科技大本營(公眾號ID:rgznai100)


語音助手大戰已經進入到白熱化的階段了,除了蘋果、亞馬遜、Google、微軟等國際玩家,國內的百度、阿里、騰訊、天貓也已經紛紛在這個賽道上加快佈局,好不熱鬧。


不論你承認與否,現階段的語音助手都還處在探索階段。蘋果的 Siri 作為元老,已經很多年沒有帶給我們驚喜了,而亞馬遜雖然 Alexa 風頭正盛,但是他們其實也在焦慮,沒人敢斷定,現在的 Alexa 就一定是語音助手的終極形態。


與此同時,微軟卻通過小冰向大家展示了另外一種可能性——基於 Session-oriented 基礎框架的對話 AI 系統。


什麼是 Session-oriented?


小冰負責人李笛表示,對話式 AI 基礎框架的理念之爭正在發生變化。目前,以蘋果 Siri 為代表的語音助手都是基於 Turn-oriented 框架,只有微軟小冰是採用的 Session-oriented 框架。


640?wx_fmt=png


如何理解這兩個框架?


Turn-oriented:這種框架主要是面向單個任務,每一次對話就像是一個“十字路口”,它的中心就像是這個路口中間指揮交通的“民警”。每當你發出一個指令,他就會把你迅速引導到目的地,當這個任務完成之後,他會把你拉回這個十字路口的中心,一切歸零,再迴圈上述的過程。如果他沒有辦法把你引導到目的地,那麼就會通過搜尋引擎提供搜尋協助。這個框架已經發展 20 年了,雖然可以在某些場景下迅速完成某個任務,但是卻沒有辦法進行很好的對話。


Session-oriented:這個框架主要是面向對話全程。基於這個框架的對話就像“河流”一樣,從一個 turn 往下一個 turn 走,這個 turn 可能跟任務有關,但是這個任務之後可能會進入到進一步的交流,而進一步的交流有可能引發出新的任務,然後再隨著新的任務引發一些知識的瞭解,然後這樣流轉下去。當我們關注整個 Session 的時候,那麼整個 Session 的質量高低都要優於任何一個單一任務完成的質量高低。


640?wx_fmt=png


全雙工語音互動


雖然李笛宣稱 Session-oriented 有很大的優勢,但是口說無憑,使用者體驗才是最重要的。


去年下半年,微軟開始與小米生態鏈企業 Yeelight 合作,將小冰內建在了 Yeelight 的智慧音響之上。與此同時,在微軟內部打磨了一年半的全雙工語音技術也首次出現在大眾視野。具體的體驗視訊可以參考AI科技大本營此前的評測文章:


而這個全雙工語音互動感官就是 Session-oriented 框架的最後一環,在此之前的所有感官,都是 Turn-oriented 的。李笛稱,目前國內的對話式 AI 系統都不能算是全雙工,最多算半雙工。


640?wx_fmt=png


什麼全雙工語音互動?


一次喚醒就可以連續對話,不用每次對話都要喚醒詞,這是普通使用者最直接的感知,它可以理解為流式互動、連續互動、實時互動、雙向互動,是 EQ 和 IQ 的結合。不過,它與目前的多輪互動、持續聆聽、免喚醒詞有著本質上的不同。


近日,微軟小冰的首席架構師周力就首度公開了全雙工語音互動背後幾大技術支撐。


邊聽邊想:通過預測模型,小冰不會再等到一句話說完,再進行語音識別,然後再處理如何回覆,而是沒有、聽到一個字,就會提前預測使用者的完整意思,提前開始“思考”回應;此外,小冰還會根據預估的思考時間、複雜任務的完成時間,有選擇地將回答拆解為多段,而不再是使用者輸入一條,系統回答一條,這樣可以減少使用者感知的等待時間。


640?wx_fmt=png


通過預測模型,我們可以讓回答更加迅速,而且會有不一樣的互動,因為在全雙工中,不再拘泥於我要回訊息,系統就可以使用更好的策略,讓對話變得更加流暢。


節奏控制器:在全雙工的對話中,節奏就會變得非常的重要。使用者每一句話的重要性並不一樣,因此需要採取不同的策略,與自己協調,與人類協調,甚至與其他語音助手協調,來判斷是繼續傾聽,還是回覆,甚至丟擲新話題等等。


聲音場景的理解:在全雙工語音互動中,環境的處理同樣重要。傳統意義上的語音識別是通過其中一段語言識別其中對應的文字,但全雙工場景實現的理解不止如此,它包括了分類器、環境處理、物件判斷。


其中分類器主要用來識別使用者的身份和情緒,以及環境中的音樂,而環境處理則主要涉及背景噪聲識別、回聲消除、動態音量識別與調整等等,至於物件判斷則主要是用來進行聲紋識別,針對不同使用者,提供不同的服務,不過目前聲紋識別還在內測中。


自然語言理解與生成模型:與微信小冰用的檢索模型不同,全雙工版的小冰用的是生成模型,通俗的解釋就是,後者的每一句話都是自創的。利用這種技術,系統可以實現更好的容錯性,並且可以基於時間、整個對話的內容、以及使用者的意圖,來動態決定是否主動結束整個 Session。


周力表示,生成模型本身本身更適於一種引流性互動的模式。因為第一個詞出來的時候,系統已經開始生成對應的語音音訊了。而且生成的模型也可以幫助對整個場景的理解,而且還可以去判斷什麼時候這個對話應該結束了,這個如果是用傳統的形式,或者用搜尋的技術,很難達到這樣的效果,也很難作出這樣的判斷。


Siri 們和小冰的未來


李笛表示,國內人工智慧整體的發展更像在堆積木,而沒有特別多探索到底層框架的設計。從全球的範圍來看,大家已經開始逐漸向 Session-oriented 的方向再轉,為什麼?


“Turn-oriented 的上限決定了語音助手未來的發展空間。”


在李笛看來,現在的 AI Speaker(AI 音響),相當於原來用遙控器去遙控的 Siri,現在改為用語音互動命令去遙控她,並沒有完成更多的增值,也沒有給人工智慧留下多大的空間。因為框架決定了,她在未來的擴充性比較低。


李笛稱,蘋果最近也在考慮是不是要把 Siri 原來的框架廢止掉,然後切換到一個新的框架上。“如果我們僅僅是針對一兩個功能、技能,或者是一些知識圖譜去做調整的話,不需要廢掉原來的框架,這實際上是技術底層框架發生很大的改變。”


雖然這麼說,但是 Alexa 憑藉著上萬種 Skills(技能)引發了效仿的熱潮。雖然小冰在 Yeelight中沒內建如此多的技能,不過周力表示,他們並不擔心。


“真正重要的並不是說有 100 個、1000 個功能,而是我用起來到底費勁不費勁,如果費勁的話,你有再多的功能,我可能嘗試一下之後,也不太會經常用。但如果你的互動變得很自然,哪怕功能很少,我可能也會經常去用,每天都會去用,甚至像我們天天用手機一樣。”


而就在去年下半年,亞馬遜為 Alexa 舉辦了一場競賽,賽題是:建立一個社交機器人,這臺機器人要能夠與人類進行交流,並對熱門話題持續討論 20 分鐘。


李笛認為,這是亞馬遜在探索從 Turn-oriented 轉向 Session-oriented 標誌。


據悉,微軟還會為小冰增加視覺互動的功能,與全雙工語音互動一起形成完整的 Session-oriented 框架。但是這個框架是不是就是對話式 AI 系統的終極框架呢?李笛並沒有盲目樂觀。


“實際上,我們也一直是在類似糾結的過程中。我們在一個領域裡領先的時候,我們很害怕,因為底層框架或者一些技術嚴重滯後的原因,突然出現一種新的框架,它的發展空間比我們的發展空間高,那我們就沒有辦法再追了,這是很重要的一件事情。”


招聘

AI科技大本營現招聘AI記者和資深編譯,有意者請將簡歷投至:gulei@csdn.net,期待你的加入


AI科技大本營讀者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,和你志同道合的小夥伴也在這裡!關注AI科技大本營微信公眾號,後臺回覆:讀者群,新增營長請務必備註姓名,研究方向。

640?wx_fmt=gif

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

AI科技大本營公眾號ID:rgznai100640?wx_fmt=jpeg


☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

相關文章