原來智慧語音是“拼湊”出來的,重要的VAD模組
計算機互動技術透過幾年連續開發,語音訊號中包含的情感資訊越來越受到關注。通常,語音訊號的感情特徵多透過語音韻律的變化來表現。例如,當人們生氣或驚訝時,演講速度會增加,音量會增加,音調也會改變,而當你憂鬱或傷心時,聲音往往很低。因此,振幅的結構、發音的持續時間、說話速度等語音訊號的特徵是所有重要的研究特徵。
在進行語音識別的過程中,系統的處理物件是有效語音訊號。尤其在在多人說話的情況下,如果不對輸入訊號做分離處理而直接進行語音識別的話,識別效果會很差。這時,需要從輸入訊號中找到語音部分的起止點和終止點,從中抽取語音情感識別所需的訊號特徵。這樣的語音訊號“切割”過程被稱為語音端點檢測(Voice Activity Detection,VAD),是一種驅動性的語音訊號處理技術。
簡單來說,VAD就是將有效的語音訊號和無用的語音訊號或者噪音訊號進行分離,以使後續的說話人識別、語義識別及語音情感分析等工作更加高效,是語音處理過程非常必要且關鍵的環節。
1.在儲存或傳輸語音的場景下,從連續的語音流中分離出有效語音可以降低儲存或傳輸的資料量;
2.只針對有效語音訊號進行識別工作,在不降低語音資訊量的前提下,可大大降低語音識別系統的運算量;
3.由於去除了非語音訊號的中噪聲的干擾,系統的識別準確率也得到了極大提高;VAD技術的興起。
在VAD技術應用比較廣就是智慧電話機器人的開發,很多行業內部人士已經接觸過電銷機器人,並且我們在生活中也接到過許多機器人打來的電話。比如,一些來自企業招聘、教育培訓、電話服務、等企業的銷售電話。機器人代替人工作業已經屢見不鮮,但機器人代替人工打電話並且進行推銷業務,這樣的電話機器人好不好用,行業間一直有此疑問。
其次就是騷擾電話的層出不窮,好在今年3.15整治下,一些使用氾濫技術的企業都得到了應有的懲罰。同時為了整頓行業內部,也出了相關的規定,在諸多條件的限制下,語音互動市場也慢慢走上了正軌。
回到上面的話題,說道VAD模組的開發要從最早1959年開始,貝爾實驗室率先將VAD技術應用於電話傳輸,到後來日本、英國、美國等各國專家相繼提出基於頻域、基於人工神經網路演算法、基於倒譜距離等多種語音端點檢測方法,語音技術便進入高速發展階段。
目前,端點檢測的方法主要有兩大類,一是基於語音特徵的檢測方法,該方法的關鍵在於對訊號提取其魯棒性特徵,以便能夠很好地區分語音/非語音。近幾年使用該方法的檢測演算法主要有:基於能量特徵、基於週期特徵及基於多特徵融合等演算法,此方法對多種低訊雜比(訊雜比越低,混在訊號裡的噪聲越大)的情況有著較好的檢測正確率。
第二種是決策規則的檢測方法,包括基於統計模型和基於機器學習的檢測方法,是近年來的研究熱點。其中基於機器學習的端點檢測方法是將語音的檢測轉換成一個二元分類的問題,然後訓練其學習其語音和噪聲的不同特性。
VAD技術的應用難點和要求
目前,許多VAD演算法都需要用到一些假設來保證實現良好的檢測效能,如:
· 在比較長的一段時間內,背景噪音是平穩的;
· 語音能量要高於噪音的能量,即訊雜比高(混在訊號裡的噪聲小);
· 語音譜比噪音普更加有序;
· 語音訊號的週期性要比噪音的週期性好;
如果上述假設都可以滿足,我們就可以使用較為簡單的檢測演算法做出正確的檢測。但在實際情況中 ,上述假設很難同時滿足。因此,一個效能良好的VAD演算法需要滿足以下要求:
· 在較低訊雜比下仍有精準的檢測能力;
· 使用多個特徵聯合進行檢測,特別是那些可以充分表徵語音訊號和噪音訊號之間差異的特徵;
· 在背景噪音有變化或未知噪音型別的情況下仍能較好的檢測,即噪音適應性好;
· 對於與噪音特性相似的清音、破音和摩擦音等訊號,能夠將其正確檢測為語音,儘可能的避免丟失。
以歐能智慧的產品為例,透過語音情緒識別等情感計算技術為教學“賦能”,幫助企業和使用者提供更個性化的指導。對語音訊號處理技術VAD的逐步應用和深入研究,這些方面的研發將幫助歐能研發團隊大幅縮短資料處理時間,提高語音識別系統準確率,快速驅動更高效的產品落地。
科技巨頭都在打造自己的智慧語音生態系統,在語音識別程式中,為了解決電話機器人好不好用的問題,減少了17%的運算時間,從而使得識別準確率相對提高了1%。智慧語音技術是人工智慧應用最成熟的技術之一,並擁有互動的自然性,因而具有巨大的市場空間。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2649240/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一文告訴你智慧語音中的VAD模組為什麼這麼重要
- 開發智慧語音機器人所需要的Freesiwtch VAD識別模組引數機器人
- 智慧語音,互動入口的新未來
- js 雜湊雜湊值的模組JS
- 人是被帶出來的,不是管出來的
- CyclicBarrier原來是這樣的
- 給王心凌打Call的,原來是神奇的智慧湖倉
- vue經驗(從別的文章裡拼湊來的,不希望有人看,防止侵權)Vue
- Javascript 模組化管理的來世今生JavaScript
- python中重要的模組--asyncioPython
- 原來你是這樣的switch~
- 原來你是這樣的FlutterFlutter
- 原來你是這樣的PromisePromise
- 自走棋產品大戰,原來是一場“拼爹遊戲”遊戲
- 人工智慧的第三定律:計算的未來是模擬人工智慧
- 使用XGboost模組XGBClassifier、plot_importance來做特徵重要性排序Import特徵排序
- 我在下載模組的時候下不下來出現這種情況是什麼意思?
- JavaScript 中的原型原來是這樣的JavaScript原型
- 應用與互動,智慧電話的幾個重要模組
- 【Spring】原來SpringBoot是這樣玩的Spring Boot
- 原來JavaScript是這樣執行的JavaScript
- 原來Stable Diffusion是這樣工作的
- mkvtoolnix 分離影片音軌 把英語的音軌分離出來 - 軟體推薦
- WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?WebOpenAI
- 業務的未來是可組合的 - Gartner
- 人工智慧帶來的,是大規模失業,還是“少幹活多拿錢”?人工智慧
- 模切企業離不開ERP的規範管理,原來是這樣的原因
- 原來CNN是這樣提取影像特徵的。。。CNN特徵
- 原來你是這樣的http2......HTTP
- axios 修改了baseURL,仍然是原來的iOS
- 原來Java的發家史是這麼回事Java
- 高效能是設計出來的
- 阿里雲打造未來智慧城市的新模樣!阿里
- [譯] 格子拼貼 — 關於模組化的故事
- 人工智慧,世界未來十大最重要的問題人工智慧
- 雜湊遊戲之雜湊盒子的趨勢未來可期遊戲
- android IM模組-語音-錄製篇1Android
- [譯] 為什麼我不再使用 export default 來匯出模組Export