語音識別技術發展漸入佳境 AI企業奮力前行

dicksonjyl560101發表於2019-03-21


物聯網時代,語音識別被視作為人機互動的入口,人工智慧和機器學習的迅猛發展,使語音控制變得更為實用。雖然語音識別與生物識別相比,發展相對緩慢,但是學術界和工業界對於語音市場都很看好,這意味著未來發展空間十分巨大。


語音識別技術發展漸入佳境 AI企業奮力前行


據中國語音產業聯盟釋出的《2017-2018中國智慧語音產業白皮書》顯示,2014年至2018年,中國智慧語音產業規模由30億元增長至159.7億元,年平均增長率接近40%。不難發現,語音識別技術正在開啟智慧新時代,其中AI公司的力量不可忽視。

AI語音晶片競相湧現,產品落地戰打響

隨著語音/聲學以及人工智慧技術的發展,語音已經被認為是下一代人機互動關鍵技術。埃森哲調研顯示,有77%的受訪中國消費者使用智慧語音助手,對於獨立智慧語音助手的滿意度達到97%,因而對其有著更高的期待,希望更多的裝置與之實現整合,並保證更高的資訊透明度。

目前無論是智慧音響還是其他智慧裝置,更多的智慧都是在雲端來實現,但云端存在著語音互動時延的問題,對網路的需求限制了裝置的使用空間,以及由此帶來的資料與隱私危機。為了讓裝置使用場景不受侷限,使用者體驗更好,端側智慧已成為一種趨勢,語音AI晶片也隨之而來。

與國際科技巨頭一樣,中國的AI公司也在積極推出語音晶片,以支援智慧音響和其他語音助手裝置,讓語音訊號解碼、壓縮和傳輸更加清晰、迅速,從而更好地提高語音識別能力,提升語音指令的使用者體驗。


語音識別技術發展漸入佳境 AI企業奮力前行

▲近期語音公司推出AI晶片主要玩家統計


除了智慧家居場景外,對以智慧語音互動為核心業務的廠商來說,車載市場無疑是另一大領域。隨著越來越多車載語音互動量產車的落地,未來車載晶片設計領域也必然會把語音互動功能作為一大重要板塊進行整合。

錯詞率不斷降低,語音開放平臺大放光彩

語音識別的關鍵是基於大量樣本資料的識別處理,國內大多數語音識別技術商都在平臺化的方向上發力,以透過不同平臺以及軟硬體方面的資料和技術積累不斷提高識別準確率。近年來,AI公司不斷深耕行業,紛紛佈局智慧語音,取得炫目的成就,以人工智慧四小龍中的依圖與雲從為例,便可窺見一斑:

上榜CB Insights全球AI百強的依圖科技,在中文語音識別技術上致力創新,成果斐然。2018年12月,在中文開源資料庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,大幅重新整理現有紀錄。依圖還聯合微軟Azure推出依圖語音開放平臺,並攜手華為釋出“智慧語音聯合解決方案”,將依圖的語音識別技術提供給廣泛的第三方應用開發者,共同推動智慧語音行業的進步。

雲從科技作為人工智慧獨角獸企業,在語音識別領域亦有不凡表現。2018年10月,雲從科技在語音識別技術上取得重大突破,在全球大的開源語音識別資料集Librispeech上重新整理了世界紀錄,錯詞率(Worderrorrate,WER)降到了2.97%,將Librispeech的WER指標提升了25%,超過阿里、百度、約翰霍普金斯大學等企業及高校,大幅重新整理原先記錄,使得語音識別離更良好的互動體驗越來越近。

結語:如果說視覺是人獲取資訊的主要渠道,那麼語音則是人輸出資訊的主要渠道。要實現更好的人工智慧體驗,“視覺+語音+語義”的複合型AI技術將缺一不可,尤其在人機互動場景中。相信隨著智慧語音技術步入黃金期,未來成熟化的語音產品將透過雲平臺和智慧硬體平臺快速實現商業化部署。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2638939/,如需轉載,請註明出處,否則將追究法律責任。

相關文章