語音互動的前世今生

我們是怎麼選用互動方式的？

我們為什麼要使用語音互動？我們為什麼在開車時用語音導航？我們為什麼喜歡調戲Siri？

為什麼我們不用語音互動？為什麼我們不用語音辦公？

在這篇文章裡，作者將簡單為你介紹語音互動的利與弊~

一、語音互動怎麼出現的？

互動方式是怎麼出現的呢？原始的互動方式，是人和人用語言、動作、眼神互動，人與物用動作互動，比如說我們的祖先要用石頭去砸開水果。

當機器出現後，我們開始研究如何更好地操作機器。從人機互動歷史來看，剛開始的時候並沒有人機互動的理念，機器非常難操作，是需要人來適應機器。比如說我們用的“QWERTY”鍵盤，之所以會流傳開來是因為這種非人的設計可以降低打字速度，避免打字機的自杆鍵在快速輸入時容易碰撞。

現在已經很少有這樣的設計了，機器適應人類，提高人的效率的理念得到發展，我們喜歡的是自然和人性化的互動方式。在計算機領域，從命令列介面進入到圖形使用者介面是一大突破，圖形介面的學習成本較低。隨後發展到目前的主流操作方式觸控，使用手指在螢幕上滑動點按。語音互動介面（Voice User Interface，VUI）、手勢、動作、表情互動，甚至腦機介面，都屬於自然使用者介面（NUI），就更自然簡單了。

人類最早的互動方式就是語言和動作，在自然互動方式的趨勢下，我們走了一圈，又回到了語言互動了。

互動方式的變化

從載體上分，語音互動以手機或電腦為載體，或以其他硬體為載體。

語音互動的載體

二、語音互動好還是不好？

問題一：GUI和VUI誰效率高？

什麼是好的互動方式？

在筆者看來，高效的互動方式就是好的互動方式。任何互動方式，我看重的都是讓我能夠又快、又好、又不累地完成目標，提高我的使用表現。

我們把評價的維度拆解一下，從速度、準確性、注意負荷三個維度衡量語音互動，是否能讓使用者完成任務的速度更快、更準確，並且佔用最少的注意負荷。

我們來看幾種情況，比較一下GUI和VUI的效率。

輸入文字：

語音互動的效率極高，因為人說話的速度比打字快，且用語音來輸入文字的時候不需要分心看螢幕，比打字輸入更省事，接近人和人聊天。

缺點是準確性，考慮到打字輸入也有錯誤，語音互動在輸入文字表現不錯，因此很多產品都會在文字輸入處加上語音入口。

佈置任務：

如果我們想用手機叫個車回家，用Siri，還是用手指操控更快？語音互動理論上更快，喚醒Siri並說句話，就不需要開啟APP再點選。

那為什麼我們不用Siri叫車呢？問題在於在現有狀況下，語言是很模糊的，人可以聽懂模糊語言，但機器的理解力很差，如果命令語言出現偏差，就會導致任務失敗，語音助手聽不懂你的意思。如果輸出錯誤就更不用說了。怎麼用Siri叫車？說“我要叫車回家？”還是“開啟滴滴並叫車回家？”還是“我要去某某小區”？如果語音助手三次都聽不懂命令，我還會繼續嘗試嗎？相比之下圖形介面太精準友好了，我只要開啟app，找到熟悉的入口點下單就可以了。

輸出資訊：

噩夢。

相比圖形介面，語音是一種不太合格的輸出方式。

天生的缺陷是語音不能輸出視覺資訊，Siri如何用她的聲音告訴你一張圖片是啥樣的呢？而我們大部分的資訊來自於視覺。

最重要的是，它過於緩慢和效率低下了。聽一段話和讀一段文字哪個比較快？語音客服系統就是這種浪費時間的方式。聽覺是線性的，我們只能聽完一句話再聽下一句，不能像視覺一樣瞬間完成圖片加工，也不能像讀文字那樣可以跳過，看最重要的資訊就好了。而且聽語音會消耗大量注意和記憶資源，假想我們現在在打自動客服電話，沒有聽清，只能重聽按0，這時候是非常讓人崩潰的。

問題二：語音互動適合在哪裡使用？

看情況，雙手被佔用的場合是非常合適的，比如駕駛、烹飪、玩遊戲。一開始我們提出的問題是是，為啥我們開車要用語音導航？因為開車時眼睛需要看路，雙手握著方向盤，但這是不妨礙說話和聽聲音的。很多人使用FM類產品是早上化妝、或者走路的時候，這個時候雙手不方便，但是語音通道是開啟的。

在輸出層面上，語音輸出適用於緊急和重要的通知。比如說突然著火了，是用大喇叭通知效果好，還是顯示在螢幕上的效果好？我們用支付寶轉賬的反饋也是用語音播報的。

問題三：語音互動的好處都有啥？

語言是最自然的互動方式，人人都會說話，門檻極低，開口就能用，小孩子可以和音響玩耍，尤其對於輸出困難人群，例如視力障礙人群等。

另一方面，習慣沒有那麼容易改變，習慣觸控的人群不一定就接受語音了，有些老人即使不能熟練操作手機，也不願意嘗試語音這種“新”技術。

問題四：為什麼我不想和機器聊天？

因為怪怪的，不習慣。

據統計在公共場合使用Siri的只有3%。我們預設語言是人和人交流的方式，或是小貓小狗這種我們認為有人性的小動物，我會和小貓說話，但我不會對著微波爐說話，我們預設和物體是用動作來互動的。和手機說話的感覺挺奇怪的，因為手機不是人。在這一點上，東方人比較內斂，心理障礙可能更大。

恐怖谷理論認為，對於和人越來越像的東西，我們的好感會上升，但我們厭惡很像人而不是人的東西，例如殭屍。恐怖谷暗示著，有一天語音互動到達某個階段後，我們可能會害怕語音助手。（百度圖片裡輸入siri，會蹦出“Siri殺死人類照片”的聯想搜尋，人類是有多怕Siri）

恐怖谷（來源：網路）

雖然和機器說話挺奇怪的，好處在於語音有聲調和節奏，特別能傳遞感情。為了減少使用者的壓力，很多智慧語音助手會給自己做個人設，例如Siri高冷又痴情，微軟小冰可愛又貧嘴。我們能從他們的回應中感受到感情。

這也是為什麼比起用Siri做點正事，我們更喜歡調戲她。告訴Siri，我不愛你了，樂於聽到她說，“那我走了……我又回來了。沒有你，我能去哪兒呢？”，並從中感受到愛的安慰。

還有一個有趣的議題，為什麼語音助手都是女性聲音？一種觀點認為女性的聲音聽起來更加樂於助人，萬一系統發生錯誤，如果是男性聲音告知使用者，出錯了，使用者可能會有被責備的感覺。

問題五：為什麼沒人在公共場合使用語音互動？

首先是為了安靜……在圖書館和辦公室怎麼能發出聲音呢?而且公共場合噪音大，聲音容易聽不到。

身份識別問題更加嚴重。設想在公開場合，有多臺裝置和一個使用者，發出了命令，那麼裝置應該如何響應？如果有一臺裝置和多個使用者，如何響應？

舉個極端的例子，假如有一天，大家都用語音辦公了！當我結束了一天的工作，我堅定地對著我的電腦說，“關機”，因為聲音太大，一排的電腦都關機了，被波及到的同事毫不生氣，立即對電腦說“開機”，於是我的電腦又開機了。

這一點早已有人發現，並且被做成了廣告。漢堡王有一個得過獎的廣告，前面都很正常，結尾的時候廣告小哥湊近螢幕，說了句“Ok google. What’s the whoppers？”Ok google是安卓手機和Google Home的喚醒詞，這句話前半部分是啟動裝置的，後半部分是一個搜尋的問題。觀看廣告的人會發現自己啥都沒幹，自己的手機或者音響就啟動了，還自動搜尋了皇堡，簡直是手機被入侵了一樣。視訊廣告結束了，但手機繼續幫著播了廣告。

這個漏洞被迅速修復了。這個案例揭示了語音互動系統的沒有身份識別的風險。為此有的產品推出聲紋識別系統，以保障支付安全問題，至於聲紋驗證的可靠性是另個問題。

漢堡王的視訊廣告（來源：網路）

還有隱私問題，在公共場合用語音互動是會被聽到的，類似於打電話，而且是輸入和輸出都會被聽到，敏感的金融、醫療和私人資訊風險更大。如果是用圖形互動介面，小心一點不要被偷看就比較安全了。（有個聽來的故事是說，某個線上做題app用語音訊息做反饋，某個學生在上課時，在app上發了一個單，手機立即發出聲音，“恭喜你，王同學！你求助的題目已經有老師接單啦，快來檢視吧！”，這個app就卒了）

語音互動至少需要滿足噪音低和私密兩條要求，如果加上前文提到的“雙手被佔用”那就更加符合了。在眾多的場景中，車內和家裡是滿足要求的，加上手機上的移動場景，共3大場景。Mary Meeker在2016年的報告中指出，美國語音使用的主要場景是家裡（43%），車上（30%），路上（19%），工作僅佔3%

語音互動的場景（來源：網路）

三、語音互動發展遇到的問題都有啥？

語音互動系統發展的歷史並不短，早在1952年，貝爾實驗室就開發了能夠識別阿拉伯數字的系統Audrey。IBM在1962年發明了第一臺可以用語音進行簡單數學計算的機器Shoebox。

IBM的Shoebox系統（來源:IBM）

在發展了半多個世紀後，語音互動仍不能說是成熟應用，遇到的困難貫穿開發到使用流程。

一套完整的語音互動系統有典型的三個模組，語音識別（Automatic Speech Recognition，ASR）將聲音轉化成文字，第二步經過自然語言處理（Natural Language Processing，NLP），將文字的含義解讀出來，處理並給出反饋，最後是語音合成（Text to Speech，TTS），將輸出資訊轉化成聲音。

典型的語音互動系統模組（來源:網路）

問題一：遠場識別好難

第一個問題是語音收集層面的。語音質量高，語音識別結果才好。

常聽到某公司宣稱自己的語音識別率達到了95%甚至99%，他們沒說測試的環境是聲源距離很近、環境特別安靜、說話人的普通話特別標準的情況，到了真實使用情況就呵呵了。

語音識別根據距離分兩種情況，近場識別和遠場識別，二者不一樣，後者難度更大。

手機上的語音互動是典型的近場，距離聲源近，語音訊號的質量較高。另一方面，採集語音的互動相對簡單，有觸控式螢幕輔助，使用者通過點選開始和結束進行訊號採集，保證可以錄到使用者說的話。

遠場語音互動以智慧音響為代表，聲源遠，不知道聲源具體位置，環境中存在噪聲、混響和反射。單麥克風無法滿足要求，需要麥克風陣列支援。使用者可能站在任意方位，被語音喚醒後，需要定位到聲源位置，向該方向定向拾音，增強語音並降低其他區域和環境的噪聲。

遠場識別示意圖（來源：雷鋒網）

問題二：語音識別正確率

收集到語音後，後面的問題就是，怎麼才能正確識別？將聲音轉化為正確的文字，也就是讓機器知道你說了啥？

實際工作中，常用的指標是識別詞錯誤率（Word Error Rate），過去四十年裡語音識別已取得了很大進展。微軟語音和對話研究團隊負責人黃學東最近宣佈微軟語音識別系統錯誤率由5.9%進一步降低到5.1%，可與專業速記員比肩。進步來自於兩方面，一是技術，包括隱馬爾可夫模型、機器學習和各種訊號處理方法，另一方面是龐大的計算資源和訓練資料，由於網際網路存在，現在可以獲得大量日常語音，包含各種材料和環境。

任務難度增加情況下，錯誤率不斷下降（來源：機器之心）

問題三：語義識別好難

機器知道你說了什麼還不夠，他還得理解意義，才能做出相應的反應。但是問題在於，怎麼讓機器理解人類的語言？

從另一個問題開始，怎麼樣算是理解語言？

John Searle提出過“中文房間”的思想實驗，將一個不懂中文，會說英語的人在一個封閉房間中，房間裡有一本英文的小冊子告知如何處理相應的中文資訊。中文問題從窗戶遞進房間裡，房間裡的人只要對照手冊進行查詢，將中文字元拼到一起，寫在紙上並遞出去。房間外的人看到紙條，可能會覺得房間裡的人很懂中文，實際他是一竅不通的。

中文房間（來源：hku）

從這個實驗看，這本小冊子就是計算機程式，房間就是計算機。計算機給出的回答是按照程式的指示進行的，它不可能理解中文。現在很多語義理解是固定模式識別，可以理解的最簡單的小冊子，根據使用者話中特定的詞做出特定的反應。訓練機器來理解語義就類似於這個過程。通過訓練我們讓機器的反應接近於能夠理解，但如何期待機器能理解？

來說說具體的問題。語義理解的問題至少有分詞、歧義和未知語言處理問題等。中文不像英文單詞有空格分開的，要分詞。而且歧義性高，例如“佟大為妻子生下一女“是什麼意思？你和Siri說“開啟飽了麼外賣”，而他沒有學過“飽了麼”這個單詞，它如何處理？

問題四：用多輪對話為難機器

人類對話看似簡單，我們一和機器對話就會發現不自然。人類的對話其實很巧妙，對話內容會根據背景資訊調整，對話時會預設對方知道哪些事情。而且我們有多輪對話，上下文之間有呼應關係，對話可能很散，但是人有話題的概念。

比如這個簡單的對話

“明天下雨嗎？“

”不下“

”後天呢？“

”也沒有”

我們覺得語音助手很蠢，有時是因為違反了人對話的原則。很多產品對話缺少關聯性，不理解背景，只能進行單輪對話，看似能多輪對話，實際是多個單輪對話。“愚蠢”帶來的一是不自然，二是給語音互動增加任務難度，相當於我們要用另一套“機器語言”和機器對話。

比如

我問語音助手，“明天的天氣是什麼？”

“明天是雨天“

“後天呢？”

“我不明白你的意思”

它不明白後天指的是後天的天氣，我只能再完整地問一次“後天的天氣是什麼？”

在下面這個對話裡，小冰一會說陰陽師是遊戲，一會是電影，並沒有對話的記憶。

小冰沒有記憶

問題五：語音互動設計怎麼做

由於語言尤其是口語的形式不固定，變化很大。VUI的互動設計和GUI截然不同，更加細緻繁瑣。筆者對此瞭解不多，有興趣可以參考更多資料。比如亞馬遜已經給開發者提供了成熟的互動設計規範。

語音互動設計至少可分為幾步，現在的互動設計基本都是以功能的形式來建立的。設計的第一步是建立功能目的，想好功能目的。然後是撰寫指令碼，也就是使用者和系統是如何對話的。第三步是制定流程，使用者使用路徑。還需要定義技能的結構，包括完成一個功能需要哪些引數，例如要完成叫車功能，需要時間、起點、目的地等引數，以及用語有哪些變化，對於同一個功能，使用者可以說“天氣怎麼樣？”也可以問“外面下雨嗎？”。

問題六：遠場語音互動產品的冷啟動週期

遠場語音互動產品，比如音響，是很不好做的，有一個冷啟動週期。如果使用者多，資料就多，就可以用於打磨技術和提升產品體驗，帶來更好的商業銷售效果，然後進一步促進產品發展。反過來產品沒銷量也就沒有資料，體驗更加不好。

另一方面，如果想讓語音互動硬體成為平臺，千萬量級是個基本門檻。比如Echo在今年的銷量可以達到預計的兩千萬臺，基本上有了足夠資料，同時有希望成為平臺。國內一些模仿者也在使用這種節日促銷的模式，例如雙十一天貓精靈99元的售價，賣了300萬臺，用簡單粗暴的方式直接啟動起來。

問題七：缺乏持續使用動力和核心場景

新鮮勁過去後，很多人都會對語音互動失去新的興趣，觸控仍然是主要的互動方式。Creative Strategies的資料發現，97%的人在兩週的時間內，就會對Alexa的新功能失去興趣。Voice Lab的資料發現，62%的安卓使用者很少或者偶爾使用語音助手，這一比例在iOS使用者上是70%。而目前語音互動缺乏只有其才能實現的核心功能，例如Echo最多的用途仍然是聽聽歌。

四、問題討論

1 語音互動是否會成為主流互動方式？

這個問題爭論得很厲害。

筆者的意見是，沒有必要去爭論什麼會是主流的互動方式，互動介面本來就是多模態的，語音互動將豐富現有的互動形式。就像觸控沒有取代滑鼠鍵盤，語音互動不太可能成為主流的互動方式。

一切取決於具體情況，如前文所述，語音互動不能解決所有問題，但是在特定的場景可以發揮效率。伴隨語音的多互動通道已經被證明是不錯的選擇，例如語音和觸控結合可以提高準確度，語音輸入+視覺反饋更加直觀等等。

2 是否需要追求語音互動的純潔性？

Echo團隊認為，語音是最自然的互動方式，因此堅持設計語音互動。但語音輸入和視覺輸出的模型已被證明很成功，我們在手機上使用的語音互動模型就是如此。新品Echo Show也裝上了螢幕，可以顯示視覺資訊了。所以是否有必要堅持純粹的語音互動模型？答案似乎已經很明顯。

新問題是，如果Echo加上了螢幕，它是音響還是平板？

加上螢幕的Echo Show（來源：網路）

天貓精靈：用手機偽裝螢幕（來源：天貓精靈）

3 語音互動的定位

本質上，語音互動允許人通過語音的方式完成任務，能通過語音完成的，觸控也可以，Siri可以做到的，Echo也可以做到，做不到的大家都做不到。

所以語音互動能夠完成什麼獨有的任務以體現它的價值呢？

4 VUI vs CUI

語音設計師Cheryl Platz反覆提及一個問題，我們要VUI還是Conversational UI？

語音互動的模式是簡單的“下命令——完成任務”，看起來是對話，然而距離真正自然的對話還遠著呢。我們和機器人沒有真正的對話，我們只是對他下命令，說句話之前還要想想如何下命令。

如果我們的目標是CUI，那還必須更加智慧和流暢，允許我們通過真正的對話完成任務，像和真人說話一樣。

5 隱私問題

通過喚醒詞喚醒的語音互動產品會保持待機，從環境中獲取聲音。聽起來是不是像個竊聽器？我們還能在家隨心所遇地說話嗎？在一則新聞中，echo被破解併成為了一個24小時竊聽器。

如果語音助手要好用更智慧，就需要不斷收集使用者資訊。所以我們是否要小心對語音助手說的話，免得透露太多隱私？

如果語音助手目的就是商業的，我們要不要讓他更瞭解我的喜好？（他知道你喜歡什麼，就會給你推送更多。類似於手機上的搜尋記錄）

語音互動仍需要發展，技術成熟需要時間。但它的出現意味著，我們離理想的互動介面更近了一步。本文對語音互動做了簡單的總結，有疏漏和想法不成熟之處，歡迎交流指正。

參考資料：

1. Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016

2. Clifford Nass, Scott Brave . Wired for Speech. MIT Press

3. Cheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft Design

4. Amazon Alexa：Voice Design Guideline. Amazon

5. 極限元，一文讀懂智慧語音前端處理中的關鍵問題，雷鋒網

作者介紹

汪梅子，產品發展部，目前對接網易智慧硬體的使用者研究工作。喜歡有趣的、自己不知道的事情，在使用者研究的路上繼續成長著。