超全面的語音互動知識:從原理、場景到趨勢

AIBigbull2050發表於2019-08-25



2019年全球語音互動市場規模達到13億美元,預計2025年全球語音互動市場規模將69億美元,目前以廣泛應用到智慧家居、車載語音、智慧客服等行業和場景。筆者從事語音互動產品一年有餘,針對語音互動的概念定義、優劣勢、適用場景和產品、未來發展等進行梳理總結。

超全面的語音互動知識:從原理、場景到趨勢

1. 什麼是語音互動?

語音互動(VUI)指的是人類與裝置透過自然語音進行資訊的傳遞。一次完整的語音互動需要經歷ASR→NLP→Skill→TTS的流程:

超全面的語音互動知識:從原理、場景到趨勢

(1)ASR

用於將聲學語音進行分析,並得到對應的文字或拼音資訊。語音識別系統一般分訓練和解碼兩階段:

  • 訓練即透過大量標註的語音資料訓練數學模型,透過大量標註的文字資料訓練語言模型;
  • 解碼,即透過聲學和語言模型將語音資料識別成文字。

聲學模型可以理解為是對發生的建模,它能夠把語音輸入轉換成聲學表示的輸入,更準確的說是給出語音屬於某個聲學符號的機率。語言模型的作用可以簡單理解為消解多音字問題,在聲學模型給出發音序列之後,從候選的文字序列中找出機率最大的字串序列。

(2)NLP

用於將使用者的指令轉換為結構化的、機器可以理解的語言。NLP的工作邏輯是:將使用者的指令進行Domain(領域)→Intent(意圖)→Slot(詞槽)三級拆分。

以“幫我設定一個明天早上8點的鬧鐘”為例:該指令命中的領域是“鬧鐘”,意圖是“新建鬧鐘”,詞槽是“明天8點”。這樣,就將使用者的意圖拆分成機器可以處理的語言。

(3)Skill

也即AI時代的APP。Skill的作用就是:處理NLP界定的使用者意圖,做出符合使用者預期的反饋。

(4)TTS

即語音合成,從文字轉換成語音,讓機器說話。TTS業內普遍使用兩種做法:一種是拼接法,一種是引數法。

  • 拼接法即從事先錄製的大量語音中,選擇所需的基本發音單位拼接而成。優點是語音的自然度很好,缺點是成本太高,費用成本要上百萬。參
  • 數法指使用統計模型來產生語音引數並轉化成波形。優點是成本低,一般價格在20萬~60萬不等,缺點是發音的自然度沒有拼接法好。但是隨著模型的不斷最佳化,現在引數法的效果已經非常好了,因此業內使用引數法的越來越多。

2. 語音互動有哪些優劣勢?

PART 1: 語音互動的優勢

優勢1:資訊傳遞效率高

百度語音開放平臺的研究結果顯示,相比於傳統的鍵盤輸入,語音輸入方式在速度及準確率方面更具優勢。利用語音輸入英語和普通話的速度分別是傳統輸入方式的3.24倍和3.21倍,資訊傳遞效率進一步可拆分為4類:

  1. 檢索高效:針對複雜的輸入詞,尤其是在輸入方式不便的場景下,語音互動更高效。例如電視場景下進行電影搜尋。
  2. 跨空間便捷:遠場語音互動可以跨3~5米進行交流,針對需要跨空間的操作,語音互動更高效,例如:智慧家居控制。
  3. 跨場景便捷:語音互動的潛在好處時可以根據說話內容自動判斷意圖場景,在需要頻繁跨場景互動的場景下語音互動更高效。
  4. 支援組合指令:語音互動可以一次性下達多條指令,然後分別執行,在需要支援多意圖同時傳遞的場景下語音互動更高效。假設你今晚想要看一部電影,你可以選擇說:“播放劉德華的電影電影要四星以上並且是免費觀看的。”

優勢2:解放雙手和雙眼

透過語言互動可以將手和眼睛空起來處理其他事情,在需要多感官協同的場景下效率更高。例如:車載場景透過語音點播音樂,醫療場景醫生在溝通病情的同時記錄病歷,工業場景在雙手佔用的同時下達指令。

優勢3:使用門檻低

  • 非文字使用者友好:人類是先有語音再有文字,每個人都會說話但有一部分人不會寫字,針對老人、小孩、失明的人群,無法使用文字互動,語音互動會為其帶來極大的便利。
  • 學習成本低:語音互動更自然,在非複雜場景下,語音互動比介面互動更自然,上手成本更低。

優勢4:傳遞聲學資訊

  • 聲紋識人:透過聲紋可以進行身份判斷,並且可以在下達指令的同時進行身份判斷,效率更高。同時聲音還可以判斷性別、年齡層、情緒等資訊。
  • 聲音傳遞情感:聲音互動可以傳遞情感,因此在有情感訴求的場景下,聲音是一個很好的選擇。

PART 2:語音互動的劣勢

劣勢1:資訊接收效率低

語音輸出是線性的,當別人說話時,你可能得等全部說完後才能理解,無法像文字一樣可以跳過閱讀;語音互動也會增加使用者的記憶負擔,尤其是面臨多項選擇並且選項內容較長時。

因此它無法同時輸出很多內容,在接受資訊和多選擇互動時,視覺具有更大的優勢,聲音的效率不高。總結來講,語音互動針對單向指令是更有效的,而雙向互動不是很有效。

劣勢2:嘈雜環境下語音識別精度降低

語音識別需要清晰的識別出人聲,包括將人聲和環境聲進行分離,將人聲和人聲進行分離。嘈雜環境使得人聲的提取變得非常困難,尤其是針對遠場語音互動,噪音的問題更加突出。

目前業內普遍使用麥克風陣列硬體和相關演算法來最佳化該問題,但是無法完全解決,例如遠場安靜環境下語音識別準確率能達到95%,但是在嘈雜環境下僅能達到80%出頭。但是隨著技術的進度,嘈雜環境下的遠場語音識別準確度也肯定會逐步完提升。

劣勢3:公開環境下語音互動具有心理負擔

語音互動的心理障礙是使用者不能預設和預先判斷。在同一情況下,不同的人可能會產生完全不同的行為和期望。這給設計者帶來了很大的麻煩,也給使用者帶來了不確定性。從心理體驗來看,沒有多少人願意對著機器說話,因為有可能會得到毫無感情甚至是錯誤的反應

3. 語音互動適合什麼場景和裝置?

我們判斷什麼場景和裝置適合增加語音互動,根據語音互動的優劣勢分析,得出以下加分項和減分項,為了簡單起見,每個得分享賦予相同的權重,然後計算綜合得分,將適用程度劃分為高、中、低3檔,分別記2、1、0分。

原則1:每個裝置型別僅考慮起本身的功能,不考慮因為入口性質附加的額外功能,例如智慧音響,現在除了音響屬性,被賦予了天氣、智慧家居等其他屬性。未來形態下家庭語音入口會分散式的,智慧音響被賦予的生活助手的角色也會被剝離。

原則2:裝置的功能考量時會考慮現在還不具備但是以後會延展的相關功能,例如冰箱,支援查詢冰箱內的物品情況。

加分項:

  • 需要複雜的資訊輸入:輸入指令不能被窮舉,則得分最高,如果僅簡單的輸入指令,則得分低;
  • 使用物件雙手或雙眼被佔用;
  • 使用物件為非文字使用者:如果使用人群裡老人、小孩和失明人群較多,則得分高,反之得分低;
  • 需要跨短距離空間的操作:如果有實體按鍵,則得分高,如果可遠端遙控則得分次之,而且皆無,則不得分;
  • 原資訊輸入的工具比較受限:輸入方式的便利程度觸屏>遙控>按鈕;
  • 需要跨意圖指令輸入:如果需要同時或者相繼發出不同意圖的指令則得分高,反之得分低;
  • 使用頻次:基本每天都要使用得分最高,每週3次左右次之,低於每週一次不得分;
  • 裝置與聲音的關聯度:如果裝置本身就是播放多媒體內容的得分高,其他的不得分;
  • 需要聲音傳遞額外資訊:例如聲紋、發音評測。

減分項:

  • 環境私密程度低:例如辦公場景;
  • 環境嘈雜:例如商場場景;
  • 涉及到多層次互動(觸屏可彌補):例如點外賣;
  • 涉及到多條目選擇(觸屏可彌補):例如購物;
  • 涉及到重要/隱私資訊傳達(螢幕可彌補):例如取款機。

下表為各的場景和裝置適合語音化的得分:

超全面的語音互動知識:從原理、場景到趨勢

(1)家居場景

家庭環境比較封閉和私密,並且噪音少,是實現語音互動的很好環境。

  1. 電視:機頂盒視為和電視同類,電視本身普及率及使用頻次高,生態內容豐富使得其操作相對複雜,但又受限於遙控器這種低效的輸入方式,使得電視成為最適合進行語音改造的裝置,但是受囿於價格昂貴,嚐鮮門檻高,所以改造的節奏相對較慢,但是新一代的電視語音化肯定是不可阻擋的趨勢。
  2. 平板:市面上目前流行的帶屏音響,更合適的說法應該是語音平板。
  3. 音響:音響因為其低廉的成本(無需螢幕和影片資源)而率先引爆市場。
  4. :雖然指令簡單,但是因其操作頻繁且需要起身走到面前操作,跨空間成本高,使得燈具被語音化的訴求也較高。但是燈最適合的語音化是本地離線指令,也即透過“開燈”、”關燈”本地直接識別並控制燈具,無需加喚醒詞,也無需先傳到雲端,雲端處理完再傳到本地,更簡潔更快速。
  5. 空調:空調因此相對高頻的使用和較為複雜的指令,和燈具類似具備一定的語音化必要。
  6. 冰箱:基本沒有語音化必要,除非冰箱承載的功能做了極大延展,例如冰箱增加螢幕,同時作為餐廳的電視使用,那麼其語音化的必要性與電視一致。
  7. 洗衣機:基本沒有語音化必要。

(2)車載場景

隨著車聯網和智慧汽車的興起,越來越多的功能被搭載在車機上。層出不窮的功能和日趨複雜的介面形成了對駕駛者注意力的爭奪,新的矛盾由此誕生。車載語音技術的獨特優勢——幫助駕駛者降低對車內裝置的操作依賴,增加駕駛安全係數。

車載場景相對比較私密,但是噪音相比家庭場景較高,尤其是當開窗之後風噪更大。但是因為開車時手和眼睛都被佔用,語音成為互動的最佳選擇,如接聽電話、開關車窗、廣播音樂、路線導航等語音指令,這就使得駕駛更加安全,可以更專注於路況。

車載常用語音功能如下:

超全面的語音互動知識:從原理、場景到趨勢

(3)醫療場景

病歷錄入:語音識別在醫療中的應用主要集中在直接將語音轉成結構化電子病歷,方便醫生隨時查閱,大大減輕了工作量。可以為醫生節省手寫病歷的時間,同時也可以為醫患糾紛提供材料佐證。

語音識別技術已經在以美國為首的西方國家成功運用到醫院放射科、病理科、急診室等部門中,臨床中使用語音識別錄入的比例已達到20%以上,並能夠明顯降低醫生工作強度,提高工作效率,降低了醫院日常運作成本。醫療業務營收佔全球最大的語音技術公司Nuance全部營收的50%。

(4)企業場景

智慧客服:智慧客服分為語音呼叫中心和線上客服兩塊來看。在客戶服務行業,當使用者請求接入後,先由智慧客服機器人解答80%的常見問題,剩下20%複雜問題再由真人專家客服來回答解決。智慧客服機器人創造的整套流程已經完全改變了整個客服行業的勞動力結構和工作方式。

  • 目前,中國大約有500萬全職客服,以年平均工資6萬計算,再加上硬體裝置和基礎設施,整體規模約4000億人民幣。按照40-50%的替代比例,並排除場地、裝置等基礎設施以及甲方預算縮減,大概會有200-300億規模留給智慧客服公司。
  • AI對企業服務市場的變革並不僅限於客服場景,以企業和使用者溝通為橋樑和入口,智慧客服公司可以延伸到營銷、銷售等重要的企業服務外部場景,從互動方式、流程最佳化、資料分析等角度推動企業外部服務的全面智慧化,從而釋放100-200億的原有營銷、銷售等市場規模。
  • 除了取代部分人工的客服機器人,AI也在變革企業傳統的線下客服互動方式。隨著智慧裝置、物聯網的普及,各種裝置也將成為企業服務客戶的入口和新興場景,智慧客服公司、尤其是AI公司有機會在千億智慧裝置互動市場中分得200-300億規模。

(5)教育場景

語音平板:在少兒教育場景,語音可以發揮的空間會非常大,一方面少兒的文字學習還沒有非常完善,因此在資訊錄入和互動方面,語言是更低門檻的互動選擇,另一方面,語音可以進行中英文發音的測評和糾正,對少兒的學習成長價值更大。

  • 互動語言學習:針對語言發音,進行實時評測和糾正,提升學習效果;
  • 互動動畫:在動畫中插入場景化語音互動,寓教於樂,提升少兒的沉浸感。

(6)出行場景

智慧耳機:搭配工具來進行語音互動會使得私密性更強而且更加方便。耳機作為本身就是穿戴中的一種產品,攜帶方便,決定了它有更多自然的使用場景,耳機這樣私人且私密化很強的產品,無論人們是在上班通勤、戶外運動還是在旅行時也能保持更高的使用率,戴在耳朵上的耳機,離人的語言器官很近,當你和耳機進行語音互動的時候,更像是和朋友交談。

使用耳機來與手機的語音互動模式連線時,是不是也可以使用一些動作來喚醒它,例如:去敲擊耳機,透過這類動作去喚醒可能會比喊它更加的自然,即使在公共場合也會避免尷尬出現。

(7)機器人

語言互動是人類日常最常用的互動方式,機器人自然要整合語音互動的功能。機器人分為消費級機器人和商戶級機器人,消費級機器人使用語音傳遞情感和提升互動效率,商戶級機器人使用語音傳遞品牌感和提升服務效率。

(8)安全與鑑權

聲紋:是無感知的身份識別,聲紋識別的理論基礎是每一個聲音都具有獨特的特徵,透過該特徵能將不同人的聲音進行有效的區分。

美國研究機構已經表明在某些特點的環境下聲紋可以用來作為有效的證據。並且美國聯邦調查局對2000例與聲紋相關的案件進行統計,利用聲紋作為證據只有0.31%的錯誤率。目前利用聲紋來區分不同人這項技術已經被廣泛認可,並且在各個領域中都有應用。

聲紋常常應用於刑偵破案、罪犯跟蹤、國防監聽、個性化應用等等,說話人確認技術常常應用於證券交易、銀行交易、公安取證、個人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的識別等。

4. 語音互動與其他互動方式的融合?

語音互動有著資訊接收效率低、嘈雜環境識別精度低、公開環境心理負擔的劣勢,因此在很多場景下純語音互動很受限,但是這些互動方式是可以透過其他互動進行彌補的。

毋庸置疑,在接下來的幾年內肯定會有更多不同結合方式的產品出現。

超全面的語音互動知識:從原理、場景到趨勢

(1)語音輸入/視覺化輸出

近些年,市面上有許多產品合入了語音輸入,其中有很多是有螢幕的產品。在這些產品上,我們允許使用者語音輸入,而用介面顯示輸出的資訊。

語音智慧電視也是一個很好的例子。它們沒有能夠支援複雜輸入的硬體裝置,而本身又有足夠多的功能足以支撐自然語義查詢。比如透過語音直接說“播放流浪地球”,要比用遙控器上的十字箭頭方便多了。

語音智慧螢幕是另外一個例子,從18年下半年語音智慧螢幕開始流行,主要針對老人和小孩的人群,對老人的價值在於可以透過語音互動,搜尋想看的影視內容,對兒童的價值,在於語音溝通、影視播控以及聲音的評測。

實際上,那些有複雜功能,需要複雜輸入,而這些輸入都可以用語音命令代替,同時返回的結果不適合機讀出來的系統,都適合使用語音作為輸入方式,而用視覺作為輸出方式。

(2)混合模式

許多裝置都在朝著混合模式的方向發展,它們會將語音、物理輸入和螢幕、語音輸出結合。導航app就是一個將這些互動手段結合的典型例子。

使用者能夠觸控拖動地圖來檢視,用物理按鍵或虛擬鍵盤輸入。當駕車時,可以透過直接說目的地名稱來開啟導航,用這種方式使用者可以不用將目光移向螢幕或用手來操作。語音輸出可以輸出導航的命令指示,而例如周圍道路擁堵狀況等較為難以描述的資訊可以使用螢幕顯示。

這是一種很好的輸入輸出結合方式,每種互動方式都將自己的優勢發揮出來。整個導航系統會根據使用者需求和資訊的複雜程度來選擇資訊的呈現方式,一方面,使用者在特定場景下可以不用手眼就能操作,而同時使用者也能選擇在另一些場景下使用螢幕。

但這種方式的設計還很少見,因為上述的方式是基於對使用者的使用方式有深刻理解的基礎上的。導航系統在汽車內使用語音還是一個比較明顯的場景,但不是所有的產品都有一個明確的使用環境,所以判斷什麼情況下使用語音互動是比較困難的。

5. 語音互動的未來

雖然目前的語音識別技術已經能夠讓機器聽懂大部分人類的聲音,但離“賈維斯”這種假想的超級智慧助理的互動能力還很遠,語音識別技術的發展方向將從識別到感知認知。

趨勢1:免喚醒互動

遠場語音互動,出於意圖識別考慮,增加喚醒詞作為對話開始的條件,但是喚醒詞也無形中增加了溝通的成本。尤其是在一些多輪次互動方案中,例如:你想看電影,主流程需要“我要看電影”-“播放第3個”-“全屏”-“快進3分鐘”,如果每次都要喚醒,使用者體驗很差,部分情況反而不如遙控器效率高。因此在特定多流程場景下迫切需要免喚醒互動。

趨勢2:離線語音識別

離線語音識別指的是在本地直接進行指令的識別和處理,而無需連線到雲端,好處是一方面無需喚醒詞,另一方面無需聯網,速度快。針對燈、空調、電視等裝置,採用離線指令識別體驗更好,例如直接對裝置說“開燈”和“關燈”可以快速實現檯燈的開和關。

趨勢3:多通道互動

IOT時代家庭的聯網裝置越來越多,但是體驗提升有限,直到IOT有了語音AI的加持,徹底宣告AIOT時代的到來,透過語音裝置可以控制聯網裝置,進一步促進了家庭智慧裝置的滲透和覆蓋,2018年中國智慧音響銷售量約2200萬臺,隨著家庭智慧裝置的越來越多,使用者的需求也逐步出現新的特徵。

  • 第1:需求往往都是非單一任務,而是多工聚合;
  • 第2:需要多裝置之間的聯動;
  • 第3:服務狀態可以持續性遷移,無論是跨時間還是空間。

多通道互動就是綜合使用多種輸入通道和輸出通道,用最恰當的方式傳遞服務,滿足使用者需求。

通俗一點講,多模態互動就是將智慧裝置的通道進行註冊和管理,根據使用者的需求,給不同的通道分配相應的任務,以期用最恰當的方式去滿足使用者需求。例如:將智慧音響和電視作為一個系統進行多通道互動,可以綜合使用它們5個輸入和輸出通道。舉個最簡單的例子:當我問音響天氣的時候,可以將天氣的圖形透過電視進行顯示和播報,更使用者更直觀的體驗。

MCUI在家庭場景落地的最典型案例,就是智慧音響和機頂盒的組合,可以實現帶屏智慧音響的所有功能,並且體驗更佳。

  • 一方面成本更低,一個無屏音響100元以內,帶屏智慧音響需要500元左右。
  • 另一方面大屏觀看體驗更佳,針對兒童教育場景,大屏不容易造成近視,並且父母的可管控型更強,因此智慧音響+機頂盒的產品體驗,以後一定會成為主流。

參考資料:Laura Klein,面對智慧化的未來,設計師你準備好了麼(語音互動篇)

作者:Jason,微信公眾號:Smart_Byte

【End】



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2654844/,如需轉載,請註明出處,否則將追究法律責任。

相關文章