大廠林立,思必馳推可定製開發語音互動技術!
一年一度的SACC大會又在金秋時節準時與大家見面了!下午的語音識別技術專場集結了來自眾多大廠的技術一線專家——先聲教育、阿里巴巴、搜狗、滴滴、思必馳......從Siri問世時語音識別技術的可有可無,再到今天逐漸成為某些場景的剛需。不得不承認,iOT時代已經到來!眾多大廠林立,思必馳如何殺出重圍呢?這條語音互動探索之路又該如何解讀呢?
三段探索經歷,思必馳為啥決定搞可定製開發語音互動技術?
一場革命的勝利通常是多個階段性勝利的必然結果。思必馳研發總監張順將語音互動探索經歷分為了三個階段:通用語音雲、完整語音互動系統(AIOS)以及大規模定製開發(DUI平臺)。
在通用語音雲階段,語音互動領域玩家倒是不少,只是似乎都玩得不太專業。一個APP一個語音入口,各種語音助手互動方式各異,對使用者而言也並不足以構成絕對吸引力。研發難度大,玩家自身需要了解語音對話相關知識,可呼叫的介面及庫匱乏;當技術瓶頸被逐個擊破,玩家們進入了第二階段。在這個階段,已具備了整合完整互動系統的能力,思必馳開始思考“對使用者而言,語音互動在什麼樣的場景下才是剛需?”語音廠商開始活躍起來,模型氾濫,定製能力卻不足;未來,定製開發(DUI平臺)將讓Skill開發者更簡單,可自助式定製開發,產品接入更簡單快速。
這三個階段既是思必馳對語音互動技術的探索和思考,似乎也是語音互動市場的部分真實寫照。既然看準了,就大膽地試,大膽地闖!思必馳DUI可定製語音互動便在現場與大家見面了!
DUI可定製語音互動,思必馳的問題與思考!
目前,DUI的可定製語音互動主要有檢索型、知識型以及任務型三種。檢索型最典型的應用場景就是聊天,一般是單輪一問一答。知識型一般是特定域,可以結構化,同樣是單輪一問一答。任務型的典型場景就是導航、打電話、聽歌,此時對語音識別的準確度要求非常高,需要跟蹤對話狀態以及決策策略,會出現多輪對話,但輪數越少越好。
隨著技術深度的推進,思必馳也遇到過很多問題,比如怎樣處理內容資源、語言模型和語義之間的關係?多模態互動如何處理?跨Skill的上下文怎麼做?一路遇坑,一路填坑,思必馳本著讓互動更自然,更智慧,更魯棒的原則一刻也不放鬆技術上的修煉。
從識別、理解到互動,思必馳現在已擁有全面的AI語音技術,全面擁抱對話智慧。通用模型識別率高達97%以上。張順表示,思必馳希望和客戶一起打磨產品,傾聽更多的聲音,不斷實現產品迭代。
結語
眾多大廠林立又如何?思必馳照樣走出了自己的一條DUI全鏈路定製探索之路!隨著人工智慧、物聯網、雲端計算等眾多技術的興起,湧出了眾多新的技術方向和趨勢可供企業選擇,到底有沒有韌勁拔得頭籌就看各位廠商的實力了!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2153946/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 簡單剖析智慧語音互動技術
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 小程式--語音合成tts 對接多平臺(訊飛,思必馳,百度)TTS
- 思必馳周強:AI 和傳統訊號技術在實時音訊通話中的應用AI音訊
- 融入語音互動技術,搜狗地圖釋出智慧副駕地圖
- 雲知聲推出音庫定製服務,“硬核”智慧語音技術再上新高
- 聯盟鏈技術開發方案定製部署
- 思必馳xiaochi獲2020 AESR“口音種類識別“冠軍和“口音英語語音識別”亞軍
- 北京銳智互動:軟體定製開發商排名
- 低延遲流式語音識別技術在人機語音互動場景中的實踐
- 保利威,提供可整合、可定製的視訊直播技術
- 微軟正式推出新一代全雙工語音互動技術微軟
- 11Labs 推出 Conversational AI,可定製互動式語音智慧體;Recall.ai:視訊會議智慧體通用 APIAI智慧體API
- 語音互動的前世今生
- 5G技術迅猛發展推動智慧製造轉型
- 語音識別技術
- OpenDevin出技術報告了,大模型Agent開發者必讀dev大模型
- 樹莓派語音互動--語音輸入識別樹莓派
- 語音直播系統原始碼開發有哪些技術問題原始碼
- 語音識別技術竟然發展如此迅速
- 位元組跳動-技術美術(抖音特效開發)一面特效
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 【魅族大賽技術公開課】移動應用開發技術精選
- “直播+遊戲”語音房互動玩法遊戲
- 思必馳闖關IPO:老將求生AI紅海AI
- 百度地圖行業首發語音定製功能,20分鐘即可為使用者定製個人語音包地圖行業
- 區塊鏈NFT農場遊戲專案系統開發技術定製方案(成熟技術)區塊鏈遊戲
- 科技互動沙盤的六大技術特點
- 智慧語音技術的深度解析
- 開發多人純語音聊天直播交友平臺的技術難點分析
- 技術人如何提升自己(推薦必讀)
- golang 後端技術開發必備總結Golang後端
- 智慧語音,互動入口的新未來
- 前端開發者必備思維前端
- 2021 技術展望丨實時互動場景下,音訊的技術變遷與機遇音訊
- nft數藏平臺系統開發技術方案丨數藏nft系統ai繪畫定製開發技術流程AI
- 利用 Vue Slots 開發可高度定製的 Tabs 元件Vue元件
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型