一文告訴你智慧語音中的VAD模組為什麼這麼重要
計算機互動技術透過
幾年
連續開發,語音訊號中包含的情感資訊越來越受到關注。通常,語音訊號的感情特徵多透過語音韻律的變化來表現。例如,當人們生氣或驚訝時,演講速度會增加,音量會增加,音調也會改變,而當你憂鬱或傷心時,聲音往往很低。因此,振幅的結構、發音的持續時間、說話速度等語音訊號的特徵是所有重要的研究特徵。
在進行語音識別的過程中,系統的處理物件是有效語音訊號。尤其在在多人說話的情況下,如果不對輸入訊號做分離處理而直接進行語音識別的話,識別效果會很差。這時,需要從輸入訊號中找到語音部分的起止點和終止點,從中抽取語音情感識別所需的訊號特徵。這樣的語音訊號 “ 切割 ” 過程被稱為語音端點檢測( Voice Activity Detection,VAD ),是一種驅動性的語音訊號處理技術。
簡單來說, VAD 就是將有效的語音訊號和無用的語音訊號或者噪音訊號進行分離,以使後續的說話人識別、語義識別及語音情感分析等工作更加高效,是語音處理過程非常必要且關鍵的環節。
1. 在儲存或傳輸語音的場景下,從連續的語音流中分離出有效語音可以降低儲存或傳輸的資料量;
2. 只針對有效語音訊號進行識別工作,在不降低語音資訊量的前提下,可大大降低語音識別系統的運算量;
3. 由於去除了非語音訊號的中噪聲的干擾,系統的識別準確率也得到了極大提高; VAD 技術的興起 。
在 VAD 技術應用比較廣 就是智慧電話機器人的開發 ,很多行業內部人士已經接觸過電銷機器人,並且我們在生活中也接到過許多機器人打來的電話。比如,一些來自 企業招聘 、教育培訓 、電話服務、 等企業的銷售電話。機器人代替人工作業已經屢見不鮮,但機器人代替人工打電話並且進行推銷業務,這樣的電話機器人好不好用,行業間一直有此疑問。
其次就是騷擾電話的層出不窮,好在今年 3.15 整治下,一些使用氾濫技術的企業都得到了應有的懲罰。同時為了整頓行業內部,也出了相關的規定,在諸多條件的限制下,語音互動市場也慢慢走上了正軌。
回到上面的話題從最早 1959 年,貝爾實驗室率先將 VAD 技術應用於電話傳輸, 到後來 日本、英國、美國等各國專家相繼提出基於頻域、基於人工神經網路演算法、基於倒譜距離等多種語音端點檢測方法,語音技術 便 進入高速發展階段。
目前,端點檢測的方法主要有兩大類,一是基於語音特徵的檢測方法,該方法的關鍵在於對訊號提取其魯棒性特徵,以便能夠很好地區分語音 / 非語音。近幾年使用該方法的檢測演算法主要有:基於能量特徵、基於週期特徵及基於多特徵融合等演算法,此方法對多種低訊雜比(訊雜比越低,混在訊號裡的噪聲越大)的情況有著較好的檢測正確率。
第二種是決策規則的檢測方法,包括基於統計模型和基於機器學習的檢測方法,是近年來的研究熱點。其中基於機器學習的端點檢測方法是將語音的檢測轉換成一個二元分類的問題,然後訓練其學習其語音和噪聲的不同特性。
VAD 技術的應用難點和要求
目前,許多 VAD 演算法都需要用到一些假設來保證實現良好的檢測效能,如:
· 在比較長的一段時間內,背景噪音是平穩的;
· 語音能量要高於噪音的能量,即訊雜比高(混在訊號裡的噪聲小);
· 語音譜比噪音普更加有序;
· 語音訊號的週期性要比噪音的週期性好;
如果上述假設都可以滿足,我們就可以使用較為簡單的檢測演算法做出正確的檢測。但在實際情況中 ,上述假設很難同時滿足。因此,一個效能良好的 VAD 演算法需要滿足以下要求:
· 在較低訊雜比下仍有精準的檢測能力;
· 使用多個特徵聯合進行檢測,特別是那些可以充分表徵語音訊號和噪音訊號之間差異的特徵;
· 在背景噪音有變化或未知噪音型別的情況下仍能較好的檢測,即噪音適應性好;
· 對於與噪音特性相似的清音、爆音和摩擦音等訊號,能夠將其正確檢測為語音,儘可能的避免丟失 。
以歐能智慧的產品為例, 透過語音情緒識別等情感計算技術為教學 “ 賦能 ” ,幫助 企業和使用者 提供更個性化的指導。對語音訊號處理技術 VAD 的逐步應用和深入研究, 這些方面的研發 將幫助 歐能 研發團隊大幅縮短資料處理時間,提高語音識別系統準確率,快 速驅動 更高效的產品落地。
智慧語音技術是人工智慧應用最成熟的技術之一,並擁有互動的自然性,因而具有巨大的市場空間。科技巨頭都在打造自己的智慧語音生態系統 ,在 語音識別程式中, 為了解決電話機器人好不好用的問題, 減少了 17% 的運算時間, 從而 使得識別準確率相對提高了 1% 。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2651120/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一文告訴你什麼是NAT,為什麼需要NAT
- 原來智慧語音是“拼湊”出來的,重要的VAD模組
- 一文告訴你大資料是什麼大資料
- BI小白不能錯過|一文告訴你什麼是商務智慧
- 告訴你MySQL主鍵查詢為什麼這麼快MySql
- 為什麼凸優化這麼重要?優化
- 元宇宙是什麼?一文告訴你元宇宙需要什麼技術支撐元宇宙
- 一座島告訴你,什麼是智慧!
- 為什麼那麼多人要學Java?這三個原因告訴你Java
- 網際網路之父告訴你為什麼網路中立很重要
- 一文告訴你全世界最頂級的開發者都在使用什麼資料庫資料庫
- Java面試題:你知道Spring的IOC嗎?那麼,它為什麼這麼重要呢?Java面試題Spring
- 告訴我你的廚房有什麼智慧物件物件
- 圖解|12張圖告訴你MySQL的主鍵查詢為什麼這麼快圖解MySql
- 集合:安卓開發中怎麼注意細節?一文告訴你四十個安卓
- 收藏 | 一文告訴你大資料分析對企業有什麼幫助大資料
- 面試中圖論都考什麼?這篇文章告訴你!面試圖論
- 為什麼Julia語言這麼棒?
- 11點告訴你,Python為什麼這些年在程式語言排行榜上一直上升?Python
- AnyForWeb告訴你什麼才是“最好的”程式語言Web
- Python分析42年高考資料,告訴你高考為什麼這麼難?Python
- 一文告訴你勝任力模型對企業有多重要模型
- 碼教授告訴你什麼事人工智慧人工智慧
- 為什麼為什麼為什麼為什麼為什麼你要做一名程式設計師?程式設計師
- 開發智慧語音機器人所需要的Freesiwtch VAD識別模組引數機器人
- 你構建的程式碼為什麼這麼大
- 為什麼會有這麼多的程式語言?
- 什麼是智慧數字經營系統?這三點告訴你答案
- 程式設計師你為什麼這麼累?程式設計師
- 小程式代理加盟:這些理由告訴你,為什麼要加盟小程式
- 為什麼 Go 語言能在中國這麼火?Go
- 為什麼會有這麼多程式語言
- Node之CommonJS,為什麼模組該這麼寫JS
- ITAM是什麼?為什麼它很重要?
- 為什麼你的專案要花這麼長時間?
- 5個理由告訴你,為什麼UX設計那麼貴UX
- 11條理由告訴你,為什麼你的網站不賣座網站
- 讓機器學習告訴你,你的siri在想什麼!機器學習