大廠林立,思必馳推可定製開發語音互動技術!

趙鈺瑩發表於2018-05-07

  一年一度的SACC大會又在金秋時節準時與大家見面了!下午的語音識別技術專場集結了來自眾多大廠的技術一線專家——先聲教育、阿里巴巴、搜狗、滴滴、思必馳......從Siri問世時語音識別技術的可有可無,再到今天逐漸成為某些場景的剛需。不得不承認,iOT時代已經到來!眾多大廠林立,思必馳如何殺出重圍呢?這條語音互動探索之路又該如何解讀呢?

大廠林立,思必馳推可定製開發語音互動技術!

  三段探索經歷,思必馳為啥決定搞可定製開發語音互動技術?

  一場革命的勝利通常是多個階段性勝利的必然結果。思必馳研發總監張順將語音互動探索經歷分為了三個階段:通用語音雲、完整語音互動系統(AIOS)以及大規模定製開發(DUI平臺)。

  在通用語音雲階段,語音互動領域玩家倒是不少,只是似乎都玩得不太專業。一個APP一個語音入口,各種語音助手互動方式各異,對使用者而言也並不足以構成絕對吸引力。研發難度大,玩家自身需要了解語音對話相關知識,可呼叫的介面及庫匱乏;當技術瓶頸被逐個擊破,玩家們進入了第二階段。在這個階段,已具備了整合完整互動系統的能力,思必馳開始思考“對使用者而言,語音互動在什麼樣的場景下才是剛需?”語音廠商開始活躍起來,模型氾濫,定製能力卻不足;未來,定製開發(DUI平臺)將讓Skill開發者更簡單,可自助式定製開發,產品接入更簡單快速。

  這三個階段既是思必馳對語音互動技術的探索和思考,似乎也是語音互動市場的部分真實寫照。既然看準了,就大膽地試,大膽地闖!思必馳DUI可定製語音互動便在現場與大家見面了!

  DUI可定製語音互動,思必馳的問題與思考!

  目前,DUI的可定製語音互動主要有檢索型、知識型以及任務型三種。檢索型最典型的應用場景就是聊天,一般是單輪一問一答。知識型一般是特定域,可以結構化,同樣是單輪一問一答。任務型的典型場景就是導航、打電話、聽歌,此時對語音識別的準確度要求非常高,需要跟蹤對話狀態以及決策策略,會出現多輪對話,但輪數越少越好。

大廠林立,思必馳推可定製開發語音互動技術!

  隨著技術深度的推進,思必馳也遇到過很多問題,比如怎樣處理內容資源、語言模型和語義之間的關係?多模態互動如何處理?跨Skill的上下文怎麼做?一路遇坑,一路填坑,思必馳本著讓互動更自然,更智慧,更魯棒的原則一刻也不放鬆技術上的修煉。

  從識別、理解到互動,思必馳現在已擁有全面的AI語音技術,全面擁抱對話智慧。通用模型識別率高達97%以上。張順表示,思必馳希望和客戶一起打磨產品,傾聽更多的聲音,不斷實現產品迭代。

大廠林立,思必馳推可定製開發語音互動技術!

  結語

  眾多大廠林立又如何?思必馳照樣走出了自己的一條DUI全鏈路定製探索之路!隨著人工智慧、物聯網、雲端計算等眾多技術的興起,湧出了眾多新的技術方向和趨勢可供企業選擇,到底有沒有韌勁拔得頭籌就看各位廠商的實力了!

大廠林立,思必馳推可定製開發語音互動技術!
▲更多資訊盡在IT168現場報導專題  http://sacc.it168.com/topic2017/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2153946/,如需轉載,請註明出處,否則將追究法律責任。

相關文章