[自譯]結合圖形和語音,打造更好的體驗
非常不錯的一篇文章,作者思考下一代的人機互動方式,提出了multi-modal interfaces(多模式介面)的概念,機器將適應人類的感受方式,通過場景下最合適的媒介傳達資訊與使用者交流。作者引入了很多有現實意義的案例,chatbot,無人車,Echo,還有廚房裡的使用者也是很經典的一個預設物件。作者提到了,Echo上視覺和語音操作轉換的細節,也是一個不錯的創新點。通過連續的多模式互動,完成一條最佳的體驗路徑。作者結合自己的經驗,也給出了一些實踐建議,MIT Media Lab 1979年的那一個視訊,嗯,人類走的比想象中還快。
原文連結:Combining Graphical And Voice Interfaces For A Better User Experience
原文作者:David Pasztor
隨著語音介面,AI和chatbots的出現,GUIs的未來是什麼?別擔心,儘管會有一些悲觀的預測,但是GUIs在未來的許多年裡仍會保留。我來分享我個人的見解,介紹多模式介面,作為人與機器之間更友好的交流方式。
我們主要的感受方式是什麼?
“一圖勝千言”這句古語說的很正確,我們的大腦是一個不可思議的影象處理及其。當我們處理複雜資訊的時候,視覺化的內容會理解的更快。根據研究,當我們與其他人交流的時候,三分之二是通過非語言溝通。另一項研究表明,我們從視覺接受大部分資訊(83%視覺,11%聽覺,3%嗅覺,2%觸覺,1%味覺)。簡而言之,視覺是我們主要的感受方式。我們的耳朵是第二重要的感受器,在某些場景下,語音對話是非常有效的方式。想象一下,拿起電話訂購披薩會比app瀏覽所有不同的服務更加方便。但是場景複雜之後,僅僅依靠口頭交流是不夠的。舉個例子,你不會都沒看一眼就買一雙鞋子吧?
甚至傳統基於文字的簡訊平臺也引入視覺化元素。在Facebook建立chabot平臺的時候,視覺部分是優先考慮的事情,這並不意外。有些資訊看見後更容易理解。
在某些用例中,純文字和語音介面可以做得很好,但是在今天,它們並不是所有事情的最佳選擇。只要視覺影象仍是人們的主要資訊
源,我們能夠以視覺化的方式處理複雜的資訊,GUI就會保持下去。另一方面,傳統的GUI也不能適應當下的發展。因此我有了這樣一個想法:使用者介面會更適應我們的感受方式。
自適應多模式介面
人類有不同的輸入和輸出裝置,就像計算機一樣。我們的眼睛和耳朵是主要的輸入感測器。我們非常擅長影象識別和處理。這意味著我們可以更快地處理複雜資訊。另一方面,我們對聲音的反應更快,所以聲音可以很好地作為提示預警的方式。
我們也有輸出裝置:我們可以對話,作出手勢,我們的嘴巴是最有效的輸出裝置,大多數人的說話速度都比他們打字,寫字,作出手勢更快。
因此人們會通過不同的組合方式表達自身,我預測機器也會伴隨發展,以多模式的介面來適應人類的能力。這些介面將使用不同的輸入和輸出通道,和不同的資訊傳遞介質。
介面會通過場景,通過最方便的傳遞媒介和資訊型別來適應類人。讓我們來看一些例子,包括我們在UX Studio中探索的內容,和一些成熟的商業產品。
Chatbots更加視覺化
Nuru是一款概念chatbot,解決非洲人民的日常工作。最初設計為純粹的聊天應用,但很快就發現了純文字介面的侷限性。
對於基本的通訊,聊天比使用者介面更加有效。在非洲,聊天可以促進當地的商業。買家和賣家可以找到彼此,去協商。這種一對一的情況下,聊天時理想的方式。但涉及到複雜的互動時,比如許多不同的工作職位,我們需要一個更高階的介面。於是我們向聊天頁面加入了卡片,使用者可以通過它來瀏覽。
一些其它的公司,例如騰訊,讓開發者在微信中構建小程式。這帶來了啟發,每個獨立的聊天介面都可以是一個應用,你可以和你的聊天夥伴一起玩小遊戲,就像15年前我們在MSN Messenger上做的那樣。在簡單的介面上作出更豐富的功能。
無人駕駛汽車和混合介面
一年前,我們的團隊獎自動駕駛汽車的介面,想象成一個純運動的多模式設計,我們設想了整個過程,嘗試優化每一步的互動。
要命令一輛汽車,你可以在手機上去點選一個按鈕。這是最簡單的互動,它足以發出命令。只需要按一下,你不需要去給汽車打一個電話。
然後你進入了車內,你會花費一些時間讓自己坐得舒適,放好東西,繫好安全帶。在這之後,對話溝通會更加方便,汽車會問你去哪,將地名說出來,會比在螢幕上輸入後顯示更快。為了能夠正常工作,汽車必須理解你給出的模稜兩可的命令。
信任是無人駕駛汽車的一個重要問題。當我們在路上的時候,我們想要看看我們是否朝著正確的方向前進。我們的無人駕駛汽車是否注意到前面的自行車。如果每次都去檢查汽車不太現實,特別是你和朋友一起旅行的時候。一個類似tablet的介面,對所有人可見,可以解決這個問題。它將始終現實汽車和周圍檢測到的東西,以及在地圖中所處的位置,這可以讓信任持續。在地圖上顯示資訊比任何對話資訊都要方便。
在這個例子中,你可以使用觸控屏來給汽車發出指令,給出語音命令,接收聽覺反饋,檢查螢幕上的狀態。汽車總是以最方便的方式互動。
家庭娛樂和智慧助手
帶有Kinect的Xbox是混合介面的另一個例子。你可以通過語音和手勢來控制它的GUI。在下面的視訊中你可以看到手勢識別技術還不完善,但將來會改進。語音識別有點笨拙,因為每次命令前你都需要說出Xbox這個詞。
儘管技術上存在缺陷,但這是一個很好的例子,說明機器如何給聲音和手勢提供持續的反饋。當你使用手作為控制時,你可以看到螢幕上一個小指標作為遊標,當你移動到不同的模組時,它總會高亮遊標下的內容,顯示你將要啟用哪一個。當你說出“Xbox”這個詞來發出命令的時候,控制檯會在每一個tile上給出綠色的命令詞,這樣你就知道該說什麼來選擇一個專案了。
當然,這裡的目標時幫助你通過語音控制介面。它最初是為了聲音而設計的。在未來,更準確的語言識別和語言處理,會讓人們能夠用自己的語言發出命令。這也是讓混合介面走向更加主流的重要一步。
毫無疑問,Amazon是語音介面的先驅之一。及時如此,它也在新一代的Echo裝置上新增了一個螢幕,此前有人認為它會將GUI作為應用推送到使用者的手機上。
一個語音UI給你帶來的自由度真的很吸引人,尤其是你第一次嘗試的時候。站在廚房裡說“play Red Hot Chili Peppers”會比用髒手在Spotify上滾動容易得多。
但在一段時間之後,當你想要通過它來完成更高階的任務時,它就不起作用了,在一次視訊評論中,一位使用者指出當你設定一個廚房定時器的時候,沒有螢幕的話你將頻繁地詢問裝置狀態。現在通過Echo Show,你可以在dashboard上看到多個計時器。
The Amazon Echo Show – Pretty Dang Good (the MOST in-depth review on YT)
對Amazon來說,有什麼比購物更重要呢?有了Echo後,你可以在購物車中新增物品,但你必須先開啟應用來實際購買東西。聽到Alexa從商店裡讀出冗長的名稱和描述真是太可怕了。現在你可以更容易處理這些任務,因為它可以顯示你的產品,你可以選擇你喜歡的。
與Kinect不同,Echo Show是一個聲控裝置,它的主螢幕上沒有應用圖示。但單一發出一個初始語音指令,螢幕上就會顯示所有相關資訊。當你需要了解更多的時候,你只需要去看螢幕就知道了。這一點和人在廚房工作是一個方式:我們可以保持基本的談話,我們專注於做飯,但是當一個重要的事情出現的時候,我們會停下來去檢視是怎麼一回事。這也是為什麼Echo Show作為多模態介面更加自然。
這裡有一個設計細節,在主螢幕上,Echo會顯示一個新聞標題,並凸顯其中一個單詞,粗體顯現,讓它成為你想要聽完整故事的命令詞。通過這種方式,產品的功能是清晰的,你也可以很容易知道如何去使用它。Echo有效地設定了期望,並通過它的視覺化介面表達出來。
Echo的主要競爭對手Google Home的主要優勢之一,是你可以詢問後續問題。問完“多少人住在Budapest?”之後,你還可以問“那兒的天氣怎麼樣?”Google Home知道你詢問的是同一個地點,語境的理解,是很好的優勢,這也是在未來產品中必備的。
當我們設計一個介面的時候,我們知道語境,我們可以消除摩擦。但使用者手上正忙時,產品可以在廚房中使用嗎?使用語音控制;它比觸控屏更容易。使用者可以在擁擠的火車上使用它嗎?觸控屏會比語音助手更加容易。使用者需要一個簡單的答案嗎?通過對話來告訴ta。使用者需要影象理解複雜的資料嗎?通過螢幕來展示。為了提高易用性,我們可以提出問題,然後挑選出合適的方法。
Google Home缺少的是對多使用者支援。這樣的裝置會被許多不同的人使用。會讓我們回到早期PC時代,共享計算機那樣。無縫切換使用者將會是一個艱鉅的挑戰,安全性和UX很難平衡。想象一下,你正在與你的智慧助手交流,你可以訪問所有的資料和內容,一秒鐘後其他人進入房間,也可以做同樣的事情。
Amazon Echo和Google Home在聽到你的聲音尋找答案時,都給了很好的視覺反饋。他們使用LED動畫。對於多模態介面,保持聲音和視覺輸出同步是必要的。否則,人們很容易感到困惑。例如,當我們和某人說話時,我們可以很容易看到他們的臉,來確認他們是否獲得了資訊,在與產品對話時,我們希望這一點同樣做到。
健康產品
PD Measure是一款用於測量佩戴眼鏡的人瞳孔距離的應用,它可以結合視覺和語音,是一個很好的例子。
在網上購買眼鏡之前,使用者都需要去了解他們瞳孔的距離,如果不知道,他們就得去實體店了。在家中完成測量的工具開啟了一個市場。
有了PD Measure,使用者站在鏡子前,照一張自己的照片,把手機放在特定的位置,按指令進行。通過內部的演算法完成瞳孔距離的計算。它的精度可以讓網上購買眼鏡成為可能。
PD Measure的UI是螢幕上插畫動畫的組合,它告訴你如何手持手機,發出語音指令,告訴你該怎麼做。使用者必須將他移動到正確的位置,應用通過感測器及時給予反饋。當選擇正確之後,它會為使用者提供聽覺反饋(鈴聲)。使用者習慣了語音確認後,就可以連續的進行之後的測量。在原型開發階段,我們進行了大量的使用者測試,結果人們更喜歡語音指令而不是視覺。
出版業的案例
2013年,一家名為Volio的公司嘗試了混合介面。主打產品是叫做《Esquire》的雜誌,它創造了一個互動體驗,人們可以和Esquire的專欄作家交談。正如你在下面這個視訊中看到的,這是一系列視訊,你可以根據你在本期視訊中給出的答案選擇下一個視訊。你可以從一些預設的答案中選擇,但是互動仍感覺像是實時對話。它很好的結合了媒介:聲音作為命令輸入,螢幕作為內容顯示。
許多人認為今天這麼多平螢幕的世界,內容的輸入通道是單一的。混合介面不止於此。人們可以同時在不同的裝置上使用你的應用(例如Alexa語音輸入,你也可以在pad上檢視資料)。
結合語音和GUI也不是必要的。我們在設計一款賽事直播的應用時,足球比賽進行評論,與其它球迷交談,這兩個螢幕可以同時出現。
這樣的高階介面提供了許多不同裝置和媒介的功能。有時候是多餘的。但也有優勢,它給使用者提供了備選項,還可以幫助那些不可以使用語音和GUI的殘障人士。
如何選擇主模式
在討論了一些趨勢和時下產品之後,讓我們對使用語音和圖形構建介面做一些總結。
視覺介面效果更好的場景:
-需要列出許多的條目(朗讀會花費很多時間);
-複雜的資訊(圖表和大量屬性的資料);
-你需要比較或必須作出選擇的東西;
-購買前你需要看一遍的產品;
-你想要不時的檢視狀態資訊(時間、計數器、速度、地圖等等);
語音介面效果更好的場景:
命令(跳過導航,直接傳送的命令);
使用者說明,人們更傾向於傾聽語音說明而不是文字說明;
-對成功和錯誤狀況的聲音反饋;
-警告和通知(反應更快);
-簡單問題的簡單答案。
接下來是什麼
當我詢問其它設計師朋友知不知道混合介面是什麼,他們中有人提到了1979年MIT Media Lab的一段視訊,撇開懷舊不談,38年前,這項技術的雛形已經發展得讓人震驚了。我們以為自己發展的很快,只是一種錯覺嗎?
語音識別今天仍然有一些挑戰,只有少數的玩家可以基於語音識別為產品提供服務,包括微信和Amazon這樣。
一個不錯的開端,是通過小程式和bot將這些功能整合。以下是我們在實踐中對多模態介面的經驗建議:
-速度和準確性是殺手鐗。
-同步聲音和視覺介面,總是對正在發生的事情有視覺反饋。
-當裝置在聽和思考的時候,給出視覺提示。
-在圖形介面中突出語音指令字元。
-設定正確的使用者期望,瞭解介面的功能,確保產品能夠清楚地說明它是如何工作的。
-產品應該意識到裝置和對話所處的物理和社會環境,並作出相應的反應。
-考慮使用者的語境,並確定哪些媒介可以減少摩擦,並讓任務更輕鬆地完成。
-讓使用者可以選擇接入的媒介方式。這可以讓產品適用的人群更廣。
-不要忽視安全和使用者的隱私。允許使用者關閉許可權,並通過透明來構建信任。不要太過於強勢(語音提示垃圾郵件會讓人反感)。
-避免冗長的獨白。如果不能簡要地概括,就讓它在螢幕上顯示。
-花點時間瞭解每個平臺的具體狀況,選擇合適的平臺。
與其它設計相比,多模態介面仍然是一個尚未開發的領域。
受限,我們並沒有通過通用語言和框架來描述混合介面。這樣一個連貫的語言可以在庫中定義語音和GUI元素,使開發和設計更容易。它還支援多種輸出和輸入選項,使我們能夠設計多通道,多裝置,多螢幕的體驗。
其次,設計師必須設計出新的設計模式,來支援多模態介面的特殊需求。
雖然未來讓人興奮,而且很快就會發生,但我們仍需要到達語音識別和語言處理的臨界點:語音媒介可以達到較高的水平,讓它成為一系列媒介中最好的選擇。我們也需要更好的工具來設計和編寫多模式介面。
一旦我們實現了這些目標,那麼它就會走向主流。
相關文章
- 深度學習和圖形學渲染的結合和應用深度學習
- 如何巧用柵格檢視打造更好的APP產品體驗APP
- 語音翻譯軟體怎麼用?怎麼實現語音的翻譯
- AR空間音訊能力,打造沉浸式聲音體驗音訊
- C語言實驗——for迴圈列印圖形(迴圈結構)(sdut oj)C語言
- [譯] TypeScript 和 Babel:美麗的結合TypeScriptBabel
- 用於遊戲開發的圖形和音樂工具遊戲開發
- 學習筆記TF060:影像語音結合,看圖說話筆記
- Resolume Arena 7 Mac/Win——打造極 致VJ音影片體驗Mac
- 快速實現語音轉文字,還自帶翻譯
- orabbix結合python傳送圖形報表(二)Python
- 自媒體運營經驗:教你如何打造好的內容?
- 結合自己的經歷談談怎麼更好地學習Go語言Go
- C語言結構體作為形參C語言結構體
- 使用圖靈社群線上提交譯稿的體驗圖靈
- 短影片app原始碼,圖形和簡訊驗證碼的自動識別獲取APP原始碼
- 直播app開發搭建,圖形和簡訊驗證碼的自動識別獲取APP
- 利用FastAPI和OpenAI-Whisper打造高效的語音轉錄服務ASTAPIOpenAI
- 程式語言——沒有更好的,只有更適合的
- 如何做好遊戲內實時語音體驗遊戲
- java 語音用xml檔案實現圖形介面 xml檔案JavaXML
- C語言中編譯和連結C語言編譯
- MSE 結合 Dragonwell,讓 Java Agent 更好用GoJava
- [譯] 使用 Nexmo 和微軟語音翻譯 API 構建 Babel Fish微軟APIBabel
- 圖形化配置和Kconfig基本語法
- [自譯]實時特性提升使用者體驗
- Opensignal:移動語音應用體驗報告
- Rxjs初體驗:製作語音測試工具JS
- 08【matplotlib】06matplotlib繪製多次圖形和不同圖形的差異介紹和總結
- 人工智慧解讀唇語 不止能解碼語音和語言翻譯人工智慧
- 翻譯的初體驗
- Flutter 生成圖形驗證碼Flutter
- Django之圖形驗證碼Django
- Linux下C語言圖形化除錯工具RedHat Insight,極致除錯體驗!LinuxC語言除錯Redhat
- [譯]《Smashing》: 用 CSS 形狀打造高階排版CSS
- 【譯】編寫更好JavaScript條件語句的5個技巧JavaScript
- C語言-->(十四)結構體、巨集、編譯C語言結構體編譯
- 用PageTransformer打造更好的動畫效果ORM動畫