智慧新時代-不一樣的人機互動體驗

dlfeicui發表於2017-08-11
人工智慧(Artificial Intelligence, AI )是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。 人工智慧是電腦科學的一個分支,它企圖瞭解智慧的實質,並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器,該領域的研究包括機器人、語言識別、影象識別、自然語言處理和專家系統等。人工智慧從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智慧帶來的科技產品,將會是人類智慧的“容器”。我們行業(UXPA)觀察站首位採訪的嘉賓是:龍夢竹Shiny——思必馳市場總監


思必馳由劍橋大學團隊建立於2007年,2008年回國創業,是國內唯一擁有人機對話技術,國際上極少數擁有自主產權,中英文綜合語音技術的公司之一,先後獲得三輪融資。思必馳是國內唯一專注於智慧硬體領域的語音公司,主要面向智慧硬體三個垂直領域:智慧車載、智慧家居和智慧機器人,提供智慧語言互動解決方案。
 
Q&A 
Q1:您對人工智慧是持有怎麼一個理解呢?您可以從思必馳比較擅長的智慧語音這個領域出發來來談。
龍夢竹:人工智慧這個行業,國內現在特別地關注,但整個的發展已經60多年了。人工智慧的話,你要辯證來看,語音智慧只是人工智慧這個大領域下的多模態互動方面的一環,多模態互動除了語音以外也包括像機器視覺、手勢、體感等等,只是語音智慧作為最天然的互動入口、最天然的一種互動方式,因此更多地被大家所關注。這兩年除了語音智慧以外,包括機器視覺,演算法上的深度學習,監督模型等等,也是被大家所關注著,現在只是恰好到了人工智慧最旺盛的時候。


Q2:思必馳的定位是專注人性化的智慧語音互動技術,那怎麼理解這個個性化智慧語音呢?
龍夢竹:個性化智慧語音和場景是一個意思。因為我們在說每一句話,在每一個不同的環境下,他的意思可能是不一樣的。比如你在車裡開車的時候,你要說一句我餓了,那你在車裡對你的車載產品說這句話,你的目的肯定是導航,想找一下餐廳。那你在家裡,如果對你的音響說我餓了,你不會希望音響給你導航吧,那你需要的可能是訂餐。你如果對一個機器人說我餓了,那你有可能是想調戲它,跟它玩。就是我們要打造個性化的產品體驗,根據產品跟受眾、還有場景的不一樣,去做不一樣的互動方式。


Q3:思必馳主要是做三個垂直領域:智慧車載、智慧家居和智慧機器人。那目前來看,您覺得這三條線,思必馳發展得最快或者是最有前景的是哪一條?
龍夢竹:現在在我們三大業務領域裡,我們在車載後裝已經站穩了第一。從去年下半年到現在一直在持續發力的是家居方向。因為這兩塊場景是未來我們的主打三個業務裡面的最前的兩個方向。車載目前的飽和度和保有率會特別高,家居非常有前景。因為家居的產品,內部會更多。第二是家居產品的受眾的基數肯定是比車載的基數要大的。


Q4:關於會話式互動,思必馳在做這個語音類產品的時候,有沒有專門的人來做規劃設計,或者說有沒有專門考慮到使用者體驗這個問題?
龍夢竹:從技術上講,我們有專門的產品部門,是在做整個對話設計的流程。因為語言是沒有介面的,但現在很多產品都會配合介面,那麼如何讓介面顯示,如何讓語音這種無屏的互動和有屏的產品結合起來,這一塊我們是有專門的UI設計。比如怎樣的介面對使用者來說會更友好,儘量的讓每一個介面反饋方式能夠讓人機互動變得更順暢,這個是從非技術的角度,從UI的角度去考慮的。


Q5:我們知道voice designer在矽谷是比較搶手的,現階思必馳有沒有考慮找一些專門做語音互動的設計師來幫助我們提升產品體驗這一塊呢?
龍夢竹:這塊未來會是一個重點,現在需求還沒有那麼高,因為畢竟現在國內這一塊以中文為核心的語音互動還在一個大發展的時期,最核心的問題還在技術能力上。關於外部的,包括我們剛剛提到的,現在也會越來越重視整個產品的體驗,包括我們在UI介面上也會越來越重視,但是到現在為止,它的核心挑戰力還是在底層的技術方向。而且包括你說的voice designer這一塊,它其實也是偏技術的。


Q6:那您覺得現在國內,智慧語音這個行業的發展情況是怎樣子的?
龍夢竹:做中文最好的語音公司,也沒有疑問,是在中國。在國內,做語音的龍頭企業是科大訊飛。但是從識別率的角度上來講,現在所有的公司,包括一些規模比我們小的公司,在識別率上其實是相差無幾的。而語音技術,它本身是沒有盈利模式,沒有應用方向,它一定是跟具體的場景、環境和產品結合以後,它才會變得有意義。那麼結合到業務領域來看的話,包括科大訊飛、微軟、百度,沒有哪一家能說自己是最好的。我們以訊飛為例,訊飛的最大的優勢在於它識別的語種特別多,因為訊飛有很強烈的政府背景的因素,它的方言識別能夠支援40多種,而百度有20多種。相對它們而言,我們是沒有做單獨的方言識別優化的。我們支援的是帶方言的普通話,就是在普通話的範圍內做方言的矯正。訊飛在業務領域在教育、醫療方向,它絕對是老大,但在網際網路方向,它們的量可能還沒有我們大。訊飛雖說總體體量最大,但它在不同的方向下會面臨著不同的競爭對手。百度的優勢在於通用使用者下的識別搜尋,但是在具體的業務場景裡面,比如說在教育領域,它肯定比不過訊飛,在銀行客服領域,它比不過捷通華聲。每個領域下其實都有一兩家是比較突出的。


Q7:那在您看來,目前我們的互動發展水平到了什麼程度?已經可以產品化運用到我們的生活當中了,還是僅僅是停留在一些概念性的demo層面?
龍夢竹:早就已經應用了,現在所謂的demo概念層面是一些新的前沿技術,有的還在實驗室階段。但是整個語音人機互動早就已經進入到我們的生活中,而且是各個領域都有。比如醫療領域,現在百度、訊飛都在做的一件事就是用語音來輸入電子病歷。教育領域,像口語評測,訊飛在這個方向做得最好,在高考和各種考試中已經開始普及。


Q8:那您覺得國內國外在語音智慧這一塊的發展方向或者是發展重點上有什麼不同嗎?
龍夢竹:這塊其實還真沒有什麼不同,基本上現在大家在做的都是對話,做多人情景的理解和語義。隨著人工智慧的火熱,越來越多的創業公司也在做這些內容,但稍微不一樣的是,現在的創業公司可能沒有了我們當年的機會去做這種從底層技術、到實驗室研發到互動到一體化的這種能力。現在很多的創業公司更多的是在做比我們還要單點垂直,還要細分的方向。比如新的創業公司只做這個語義理解或者只做麥克風陣列,做裡面的晶片模組,或者是隻做合成這一塊,對他們來講的話還會有一些新的機會。從前沿技術來看,包括百度、訊飛,包括我們,大家現在基本上都是在做聲紋,或者是去解決遠場互動的問題,解決語義理解。方向其實大同小異,因為語音的幾個基本點都是圍繞這幾個點去解決實際場景下的問題,所以方向大概都是一樣的。


Q9:最後一個問題。您覺得語音互動行業未來的發展趨勢還有前景是怎樣的呢?
龍夢竹:像我們剛剛其實在提的一個前景,就是說從單一的模態互動向多模態的互動發展。這其實是說語音是入口,有一個概念層次就是這個意思,可能會在語音的基礎上會加更多的模態識別和互動。第一個方向是從單一的模態互動向多模態的互動來發展。比如說車裡的防疲勞的輔助駕駛,通過影像的識別配合聲音,用語音互動來做更便捷的互動方式,用虹膜,機器視覺來判斷疲勞駕駛所輔助。比如機器人,通過聲音確定使用者方向,通過面部識別抓取,鎖定使用者行動軌跡。現在很多的產品已經在用多模態互動的方式來做人際互動的體驗了。第二個方向是從被動式互動方式到主動式,甚至更加個性化的服務。現在我們都是先對機器發出指令,機器才會反饋你。那麼未來,機器就可以根據使用者的一些需求,隨時分辨並智慧推薦。第三個從技術上來講,聲紋識別技術發展會對人際互動的體驗有很大改善。比如在什麼時候它通過什麼樣的辦法來判斷你的性別,你的情緒。這些就是真正的個性化智慧服務,這塊是跟底層技術等各個方向分不開的,我覺得這個是整個語音發展的三個大的方向。
 
UXPA中國成立於2004年,是中國本土的第一個非盈利性使用者體驗行業協會組織。UXPA中國致力於推動使用者體驗在中國的發展提高,提供一個專業的交流和學習平臺,為中國最具影響力的使用者體驗組織。經過13年的努力,UXPA中國在中國使用者體驗行業具有相當高的知名度及影響力,UXPA中國組織的活動或專案也獲得國內外企業及行業人士的高度認可,聚集一大批大部分活躍在中國的使用者體驗專業人員、產品經理、關注使用者體驗行業發展的人群。


原文來自公眾號UXPA(ID:uxpachina)
大連中鈺睿泓與你分享精品文章

相關文章