摘要:近日,飛象網記者對阿里iDST (Institute of Data Science and Technologies) 智慧語音互動團隊總監鄢志傑博士進行了專訪,從阿里iDST發展戰略、平臺建設、自然人機互動技術等多角度揭開阿里智慧語音互動的神祕面紗。
人機之間的自然互動一直是人工智慧領域的一個美好願景,而語音是人機互動中最重要的手段之一。隨著人工智慧的迅速崛起,新一輪語音技術變革已經躍然眼前,成為科技巨頭們爭相攻下的堡壘。
近日,飛象網記者對阿里iDST (Institute of Data Science and Technologies) 智慧語音互動團隊總監鄢志傑博士進行了專訪,從阿里iDST發展戰略、平臺建設、自然人機互動技術等多角度揭開阿里智慧語音互動的神祕面紗。
“達摩院”要做下一代顛覆性的人機互動
PC時代,人們與機器通過鍵盤和滑鼠交流,與機器“溝通”需要學會打字、按鍵操作;移動網際網路時代,人們與智慧手機通過觸控螢幕交流,只需滑一滑手指即可完成任務;未來智慧時代,機器將更像人類的一員,與它之間的互動方式將更趨同於與人之間互動。而要做到像“人”一樣交流,機器就必須具備語音識別技術。
因此,語音識別將是未來人機互動的入口,如果沒有這個入口的話,你可能反而會覺得這臺機器不夠“智慧”。為了能夠在這個即將到來的生態系統中搶佔制高地,各大科技巨頭越來越重視語音技術發展,Google有Assistant,亞馬遜有Alexa,微軟有Cortana,Facebook有ParlAI,無不在加大語音識別的研發力度。
作為國內BAT三巨頭之一,阿里在今年的雲棲大會上宣佈千億元成立“達摩院”,研究領域包括:量子計算、人工智慧、機器學習、視覺計算、自然語言處理、下一代人機互動等。而鄢志傑博士所在的IDST,則被外界稱為阿里最神祕的部門,它是達摩院在下一代顛覆性人機互動技術和使用者體驗方面的核心團隊,其中還包括鄢志傑博士負責的智慧語音互動。
鄢志傑博士看來,達摩院要做的是面向未來10年、20年後的下一代的人機互動,將是突破現有“一問一答”層面的全新一代互動,人機互動會越來越自然,而實現這一突破的關鍵在於“多模態和主動互動兩大技術的融合”。
“相比傳統單一的互動模式,阿里IDST更重視多模態和主動互動技術的融合,它主要基於感測器技術,融合了視覺、聽覺、觸覺、嗅覺等多種互動方式,機器可以更象人,表達效率和表達的資訊完整度更高,是智慧互動的發展趨勢。”
鄢志傑博士舉了一個例子,通過感測器技術可以感知我們所處環境的溫度,比如天氣熱時室內溫度比較高,機器就會幫我們把空調開啟,而現在的智慧家居,還只能被動的接受指令。
這樣的應用場景看似簡單,但實現起來還是有諸多技術難點需要解決的。鄢志傑博士表示,要做到下一代的人機互動體驗,還需要解決三大問題:
1、怎麼把感測器採集到的訊號進行融合,從而產生融合以後的互動體驗,這個是有距離的。因為現在感測器收集的資訊是割裂的,比如攝像頭在做人臉識別,麥克風在做語音設別,真正融合的還沒看到。
2、感測器採集的資訊還處於感知層面,相對還是比較淺層的,真正認知層面還是有距離的。
3、互動形式單一,現在無非是螢幕或TTS(從文字到語音),怎麼把視覺、聽覺、觸覺、嗅覺等多種互動方式融合到人機互動中還沒有突破。
鄢志傑博士表示,人機互動其實就是使用者獲取服務的過程,而阿里智慧語音互動扮演的是中間橋樑的作用,它通過語音連線多端,跟網際網路上廣泛的服務對接,為使用者提供所需的服務。
通過阿里雲輸出語音能力
阿里的iDST部門除了負責建立自然語音互動平臺,另外一個重要任務是通過阿里雲輸出語音能力,幫助阿里及其合作伙伴去做具體業務。
“我們最開始做這樣的能力,完全是從阿里內部客服中心的需求來出發的,因為阿里每天淘寶、天貓和支付寶每天都有上百萬次的客服電話,而且這一數字還在快速增長。所以,當我們把語音能力引入到電話客服呼叫中心,就可以把語音轉換文字,做服務質量的質檢,並將一些自動化的規則和模型引入進去,使得服務質量能夠保證。目前,通過阿里語音質檢系統已經輸出有1.2億個電話,客服機器也有超過1億的處理量,阿里的語音能力已經把傳統的客服呼叫中心,打造成智慧的呼叫中心。”
鄢志傑博士表示,阿里整套AI的能力就是幫助傳統行業提升效率,而且原來在比拼準確識別率,而阿里要比拼的是大規模低成本的定製能力,能夠對各個垂直領域進行定製,並和其他的模態進行融合,形成例如電話客服系統或庭審系統,來提升整體的生產效率。
此外,針對直播網站,阿里語音還在業內一個推出了語音稽核的產品,和影像稽核是放在一起的,主要來監測視訊內容是否違規或有不良的內容,這一技術可以幫助視訊網站節省70%的人工成本。在政府部門,阿里語音技術也有廣泛應用,例如司法系統,有這樣的生產力工具可以大大提升效率。
在2C領域,通過Link-Voice平臺將語音能力進行輸出,鄢志傑博士表示,“我們是站在端和雲的中間,端就是各類終端,包括電視、汽車、音響、IOT裝置等,雲端就是阿里過往佈局的網際網路內容和服務,Link-Voice配合阿里雲IoT的智慧生活開放平臺,使得廠商在裝置智慧化過程中能一站式地整合語音互動,極大地縮短了開發週期,幫助廠商佔據市場先機。”
目前阿里雲IoT團隊和iDST團隊已經深度共建從裝置端的喚醒、拾音到雲端的語音識別、語義理解及服務執行和語音合成整體語音互動解決方案,並通過Link-Voice平臺把能力開放給所有合作伙伴。
在平臺建設方面,Link-Voice平臺已經具備完善的生態產業鏈,已覆蓋音樂、智慧家居控制、生活服務、個人助手等核心高頻服務及內容。擁有Rokid、LinkPlay、芯中芯、慶科等行業內經驗豐富的合作伙伴,產出了單麥、雙麥、四麥、六麥等一站式軟硬體一體解決方案。傳統音響及其他家電廠商可以快速基於Link-Voice平臺的體系完成智慧語音互動升級。
據瞭解,阿里雲IoT平臺的裝置出貨量在國內排名第一,已經覆蓋一百多個品類,合作一千多家品牌,已經有20餘款音響產品及跑步機、按摩椅、家庭中控螢幕等產品使用Link-Voice的服務進行售賣,出貨量達千萬規模。
智慧家居需要“統一語言”來交流
近兩年,亞馬遜Echo的出現引爆了智慧音響市場。據統計,亞馬遜Echo在2016年銷售量超過650萬臺,預計2017年超過1000萬臺,繼亞馬遜之後,谷歌釋出Google Home智慧音響,蘋果也釋出了HomePod智慧音響。與此同時,阿里、京東、聯想、喜馬拉雅等也紛紛入局。
巨頭們的殺入以及中小廠商的蜂擁而上,一度提升了智慧音響市場成為風口的可能性。對此,鄢志傑博士表示,智慧音響的火爆是因為在美國市場Echo取得了優異的成績傳導到國內市場的結果,我們也希望在國內市場能智慧音響行業能儘快取得爆發式增長,目前各大巨頭都已經佈局該領域,我們不排斥競爭,這個市場需要大夥一起來培養和教育。
除了智慧音響,鄢志傑博士認為傳統裝置的語音互動升級也是個巨大的市場。“使用者可能很難為一個類似智慧音響的新物種買單,但容易接受以稍高一些的價格購買帶有語音互動的傳統家電裝置。比如我們在雲棲大會前夕釋出的智慧語音跑步機,在市場上就取得非常好的反饋。”
但是,智慧語音也面臨一些挑戰。目前智慧家居平臺各自為戰,擁有各自的通訊協議,使用者購買不同平臺的裝置就要安裝各自新的App,很難集合各家平臺到統一的控制中心。阿里雲IoT擁有國內最大的智慧家居平臺,並主導成立ICA互聯互通聯盟,目前已經有100餘家廠商加入該聯盟,越來越多的裝置正在採用統一的“語言”來交流,這為語音控制家居打下了非常好的基礎。