原來智慧語音是“拼湊”出來的,重要的VAD模組

發光的房子君發表於2019-07-01

計算機互動技術透過幾年連續開發,語音訊號中包含的情感資訊越來越受到關注。通常,語音訊號的感情特徵多透過語音韻律的變化來表現。例如,當人們生氣或驚訝時,演講速度會增加,音量會增加,音調也會改變,而當你憂鬱或傷心時,聲音往往很低。因此,振幅的結構、發音的持續時間、說話速度等語音訊號的特徵是所有重要的研究特徵。


在進行語音識別的過程中,系統的處理物件是有效語音訊號。尤其在在多人說話的情況下,如果不對輸入訊號做分離處理而直接進行語音識別的話,識別效果會很差。這時,需要從輸入訊號中找到語音部分的起止點和終止點,從中抽取語音情感識別所需的訊號特徵。這樣的語音訊號“切割”過程被稱為語音端點檢測(Voice Activity Detection,VAD),是一種驅動性的語音訊號處理技術。


簡單來說,VAD就是將有效的語音訊號和無用的語音訊號或者噪音訊號進行分離,以使後續的說話人識別、語義識別及語音情感分析等工作更加高效,是語音處理過程非常必要且關鍵的環節。

1.在儲存或傳輸語音的場景下,從連續的語音流中分離出有效語音可以降低儲存或傳輸的資料量;

2.只針對有效語音訊號進行識別工作,在不降低語音資訊量的前提下,可大大降低語音識別系統的運算量;

3.由於去除了非語音訊號的中噪聲的干擾,系統的識別準確率也得到了極大提高;VAD技術的興起。


在VAD技術應用比較廣就是智慧電話機器人的開發,很多行業內部人士已經接觸過電銷機器人,並且我們在生活中也接到過許多機器人打來的電話。比如,一些來自企業招聘、教育培訓、電話服務、等企業的銷售電話。機器人代替人工作業已經屢見不鮮,但機器人代替人工打電話並且進行推銷業務,這樣的電話機器人好不好用,行業間一直有此疑問。


其次就是騷擾電話的層出不窮,好在今年3.15整治下,一些使用氾濫技術的企業都得到了應有的懲罰。同時為了整頓行業內部,也出了相關的規定,在諸多條件的限制下,語音互動市場也慢慢走上了正軌。


回到上面的話題,說道VAD模組的開發要從最早1959年開始,貝爾實驗室率先將VAD技術應用於電話傳輸,到後來日本、英國、美國等各國專家相繼提出基於頻域、基於人工神經網路演算法、基於倒譜距離等多種語音端點檢測方法,語音技術便進入高速發展階段。


目前,端點檢測的方法主要有兩大類,一是基於語音特徵的檢測方法,該方法的關鍵在於對訊號提取其魯棒性特徵,以便能夠很好地區分語音/非語音。近幾年使用該方法的檢測演算法主要有:基於能量特徵、基於週期特徵及基於多特徵融合等演算法,此方法對多種低訊雜比(訊雜比越低,混在訊號裡的噪聲越大)的情況有著較好的檢測正確率。

第二種是決策規則的檢測方法,包括基於統計模型和基於機器學習的檢測方法,是近年來的研究熱點。其中基於機器學習的端點檢測方法是將語音的檢測轉換成一個二元分類的問題,然後訓練其學習其語音和噪聲的不同特性。

VAD技術的應用難點和要求

目前,許多VAD演算法都需要用到一些假設來保證實現良好的檢測效能,如:

· 在比較長的一段時間內,背景噪音是平穩的;

· 語音能量要高於噪音的能量,即訊雜比高(混在訊號裡的噪聲小);

· 語音譜比噪音普更加有序;

· 語音訊號的週期性要比噪音的週期性好;

如果上述假設都可以滿足,我們就可以使用較為簡單的檢測演算法做出正確的檢測。但在實際情況中 ,上述假設很難同時滿足。因此,一個效能良好的VAD演算法需要滿足以下要求:

· 在較低訊雜比下仍有精準的檢測能力;

· 使用多個特徵聯合進行檢測,特別是那些可以充分表徵語音訊號和噪音訊號之間差異的特徵;

· 在背景噪音有變化或未知噪音型別的情況下仍能較好的檢測,即噪音適應性好;

· 對於與噪音特性相似的清音、破音和摩擦音等訊號,能夠將其正確檢測為語音,儘可能的避免丟失。


以歐能智慧的產品為例,透過語音情緒識別等情感計算技術為教學“賦能”,幫助企業和使用者提供更個性化的指導。對語音訊號處理技術VAD的逐步應用和深入研究,這些方面的研發將幫助歐能研發團隊大幅縮短資料處理時間,提高語音識別系統準確率,快速驅動更高效的產品落地。


科技巨頭都在打造自己的智慧語音生態系統,在語音識別程式中,為了解決電話機器人好不好用的問題,減少了17%的運算時間,從而使得識別準確率相對提高了1%。智慧語音技術是人工智慧應用最成熟的技術之一,並擁有互動的自然性,因而具有巨大的市場空間。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2649240/,如需轉載,請註明出處,否則將追究法律責任。

相關文章