Siri不行了?微軟小冰或許是未來的方向
作者 | 阿司匹林
出品 | AI科技大本營(公眾號ID:rgznai100)
語音助手大戰已經進入到白熱化的階段了,除了蘋果、亞馬遜、Google、微軟等國際玩家,國內的百度、阿里、騰訊、天貓也已經紛紛在這個賽道上加快佈局,好不熱鬧。
不論你承認與否,現階段的語音助手都還處在探索階段。蘋果的 Siri 作為元老,已經很多年沒有帶給我們驚喜了,而亞馬遜雖然 Alexa 風頭正盛,但是他們其實也在焦慮,沒人敢斷定,現在的 Alexa 就一定是語音助手的終極形態。
與此同時,微軟卻通過小冰向大家展示了另外一種可能性——基於 Session-oriented 基礎框架的對話 AI 系統。
▌什麼是 Session-oriented?
小冰負責人李笛表示,對話式 AI 基礎框架的理念之爭正在發生變化。目前,以蘋果 Siri 為代表的語音助手都是基於 Turn-oriented 框架,只有微軟小冰是採用的 Session-oriented 框架。
如何理解這兩個框架?
Turn-oriented:這種框架主要是面向單個任務,每一次對話就像是一個“十字路口”,它的中心就像是這個路口中間指揮交通的“民警”。每當你發出一個指令,他就會把你迅速引導到目的地,當這個任務完成之後,他會把你拉回這個十字路口的中心,一切歸零,再迴圈上述的過程。如果他沒有辦法把你引導到目的地,那麼就會通過搜尋引擎提供搜尋協助。這個框架已經發展 20 年了,雖然可以在某些場景下迅速完成某個任務,但是卻沒有辦法進行很好的對話。
Session-oriented:這個框架主要是面向對話全程。基於這個框架的對話就像“河流”一樣,從一個 turn 往下一個 turn 走,這個 turn 可能跟任務有關,但是這個任務之後可能會進入到進一步的交流,而進一步的交流有可能引發出新的任務,然後再隨著新的任務引發一些知識的瞭解,然後這樣流轉下去。當我們關注整個 Session 的時候,那麼整個 Session 的質量高低都要優於任何一個單一任務完成的質量高低。
▌全雙工語音互動
雖然李笛宣稱 Session-oriented 有很大的優勢,但是口說無憑,使用者體驗才是最重要的。
去年下半年,微軟開始與小米生態鏈企業 Yeelight 合作,將小冰內建在了 Yeelight 的智慧音響之上。與此同時,在微軟內部打磨了一年半的全雙工語音技術也首次出現在大眾視野。具體的體驗視訊可以參考AI科技大本營此前的評測文章:
而這個全雙工語音互動感官就是 Session-oriented 框架的最後一環,在此之前的所有感官,都是 Turn-oriented 的。李笛稱,目前國內的對話式 AI 系統都不能算是全雙工,最多算半雙工。
什麼全雙工語音互動?
一次喚醒就可以連續對話,不用每次對話都要喚醒詞,這是普通使用者最直接的感知,它可以理解為流式互動、連續互動、實時互動、雙向互動,是 EQ 和 IQ 的結合。不過,它與目前的多輪互動、持續聆聽、免喚醒詞有著本質上的不同。
近日,微軟小冰的首席架構師周力就首度公開了全雙工語音互動背後幾大技術支撐。
邊聽邊想:通過預測模型,小冰不會再等到一句話說完,再進行語音識別,然後再處理如何回覆,而是沒有、聽到一個字,就會提前預測使用者的完整意思,提前開始“思考”回應;此外,小冰還會根據預估的思考時間、複雜任務的完成時間,有選擇地將回答拆解為多段,而不再是使用者輸入一條,系統回答一條,這樣可以減少使用者感知的等待時間。
通過預測模型,我們可以讓回答更加迅速,而且會有不一樣的互動,因為在全雙工中,不再拘泥於我要回訊息,系統就可以使用更好的策略,讓對話變得更加流暢。
節奏控制器:在全雙工的對話中,節奏就會變得非常的重要。使用者每一句話的重要性並不一樣,因此需要採取不同的策略,與自己協調,與人類協調,甚至與其他語音助手協調,來判斷是繼續傾聽,還是回覆,甚至丟擲新話題等等。
聲音場景的理解:在全雙工語音互動中,環境的處理同樣重要。傳統意義上的語音識別是通過其中一段語言識別其中對應的文字,但全雙工場景實現的理解不止如此,它包括了分類器、環境處理、物件判斷。
其中分類器主要用來識別使用者的身份和情緒,以及環境中的音樂,而環境處理則主要涉及背景噪聲識別、回聲消除、動態音量識別與調整等等,至於物件判斷則主要是用來進行聲紋識別,針對不同使用者,提供不同的服務,不過目前聲紋識別還在內測中。
自然語言理解與生成模型:與微信小冰用的檢索模型不同,全雙工版的小冰用的是生成模型,通俗的解釋就是,後者的每一句話都是自創的。利用這種技術,系統可以實現更好的容錯性,並且可以基於時間、整個對話的內容、以及使用者的意圖,來動態決定是否主動結束整個 Session。
周力表示,生成模型本身本身更適於一種引流性互動的模式。因為第一個詞出來的時候,系統已經開始生成對應的語音音訊了。而且生成的模型也可以幫助對整個場景的理解,而且還可以去判斷什麼時候這個對話應該結束了,這個如果是用傳統的形式,或者用搜尋的技術,很難達到這樣的效果,也很難作出這樣的判斷。
▌Siri 們和小冰的未來
李笛表示,國內人工智慧整體的發展更像在堆積木,而沒有特別多探索到底層框架的設計。從全球的範圍來看,大家已經開始逐漸向 Session-oriented 的方向再轉,為什麼?
“Turn-oriented 的上限決定了語音助手未來的發展空間。”
在李笛看來,現在的 AI Speaker(AI 音響),相當於原來用遙控器去遙控的 Siri,現在改為用語音互動命令去遙控她,並沒有完成更多的增值,也沒有給人工智慧留下多大的空間。因為框架決定了,她在未來的擴充性比較低。
李笛稱,蘋果最近也在考慮是不是要把 Siri 原來的框架廢止掉,然後切換到一個新的框架上。“如果我們僅僅是針對一兩個功能、技能,或者是一些知識圖譜去做調整的話,不需要廢掉原來的框架,這實際上是技術底層框架發生很大的改變。”
雖然這麼說,但是 Alexa 憑藉著上萬種 Skills(技能)引發了效仿的熱潮。雖然小冰在 Yeelight中沒內建如此多的技能,不過周力表示,他們並不擔心。
“真正重要的並不是說有 100 個、1000 個功能,而是我用起來到底費勁不費勁,如果費勁的話,你有再多的功能,我可能嘗試一下之後,也不太會經常用。但如果你的互動變得很自然,哪怕功能很少,我可能也會經常去用,每天都會去用,甚至像我們天天用手機一樣。”
而就在去年下半年,亞馬遜為 Alexa 舉辦了一場競賽,賽題是:建立一個社交機器人,這臺機器人要能夠與人類進行交流,並對熱門話題持續討論 20 分鐘。
李笛認為,這是亞馬遜在探索從 Turn-oriented 轉向 Session-oriented 標誌。
據悉,微軟還會為小冰增加視覺互動的功能,與全雙工語音互動一起形成完整的 Session-oriented 框架。但是這個框架是不是就是對話式 AI 系統的終極框架呢?李笛並沒有盲目樂觀。
“實際上,我們也一直是在類似糾結的過程中。我們在一個領域裡領先的時候,我們很害怕,因為底層框架或者一些技術嚴重滯後的原因,突然出現一種新的框架,它的發展空間比我們的發展空間高,那我們就沒有辦法再追了,這是很重要的一件事情。”
招聘
AI科技大本營現招聘AI記者和資深編譯,有意者請將簡歷投至:gulei@csdn.net,期待你的加入!
AI科技大本營讀者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,和你志同道合的小夥伴也在這裡!關注AI科技大本營微信公眾號,後臺回覆:讀者群,新增營長請務必備註姓名,研究方向。
AI科技大本營公眾號ID:rgznai100☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容
相關文章
- 小冰負責人李笛:微軟不缺錢,缺對未來的把握微軟
- 可能是未來遊戲引擎的一個方向遊戲引擎
- Audeze Sine頭戴式耳機:或許是未來iPhone耳機形態iPhone
- 生成式AI:未來的發展方向是什麼?AI
- java的未來發展方向Java
- 檢測顏值包,基於微軟小冰微軟
- 蘋果MacBook Pro曾有土豪金版本 未來或許推出蘋果Mac
- Win10無法召喚微軟小冰如何解決 win10微軟小冰召喚不出的解決方法Win10微軟
- Javaweb目前的未來學習方向JavaWeb
- <開放世界>是國內遊戲界未來的發展方向?遊戲
- 未來 Android 開發的從業方向Android
- 我國大資料未來的發展方向大資料
- 智慧CDN(下):CDN的未來發展方向
- 微軟小冰:全雙工語音對話詳解微軟
- 如何實現“科技向善”?騰訊兩年來的功能遊戲佈局或許可以給出方向遊戲
- 未來的方向:由 Java 到 Kotlin 轉變JavaKotlin
- iPhone特別版除了全面屏或許還給你喚醒Siri的新方式iPhone
- 或許《火焰之紋章:風花雪月》展示了戰棋遊戲的未來遊戲
- 微軟小冰:那個胖胖的羅叔叔 別欺負我跟姐姐微軟
- AI的未來是一個巨大的模型,還是多個specialized小模型AI模型Zed
- 人工智慧只是為了賺錢嗎?未來的發展方向是什麼?人工智慧
- 什麼型別是未來的方向呢?從梳理遊戲新分類談起型別遊戲
- 無處不在的Windows藍屏 這或許是微軟最尷尬的事(多圖)Windows微軟
- 或許是夢開始的起點?
- Mac或許將在未來增加對VR的支援:Mac也在與時俱進MacVR
- 404的眾包平臺,也許是園子商業化的未來
- 國產單機遊戲的未來,只能是創意小製作嗎?遊戲
- 【AIGC未來的發展方向】面向人工智慧的第一步,一文告訴你人工智慧是什麼以及未來的方向分析AIGC人工智慧
- 分散式 SQL:資料庫的未來發展方向分散式SQL資料庫
- 大巴起火致30人遇難 智慧大巴車或許成未來首選
- 論吸量,做放置類遊戲或許不是一個的好方向遊戲
- AI領域未來幾年最引人矚目的新方向是什麼?AI
- TensorFlow技術主管Peter Wardan:機器學習的未來是小而美機器學習
- 【經驗心得】談一談我IT行業未來的方向行業
- 索尼、微軟和任天堂的未來分歧之路微軟
- 轉:Nokia是否還有未來 - 小議諾基亞和微軟的戰略佈局微軟
- Linux的英文發音&未來軟體界的方向(轉)Linux
- windows10系統怎麼使用自帶微軟小冰測顏值Windows微軟