論文地址:https://indico2.conference4me.psnc.pl/event/35/contributions/3364/attachments/777/815/Thu-1-10-4.pdf
一種基於深度學習的魯棒級聯回聲消除演算法
摘要
AEC是用來消除揚聲器和麥克風之間的反饋。理想情況下,AEC是一個線性問題,可以通過自適應濾波來解決。然而,在實際應用中,有兩個重要的問題嚴重影響AEC的效能,即1)雙講問題和2)主要由揚聲器和/或功率放大器引起的非線性失真。針對這兩個問題,我們提出了一種將自適應濾波和深度學習相結合的級聯式自動控制演算法。具體來說,採用兩種長短期記憶網路(LSTM)分別進行雙語檢測(DTD)和非線性建模。採用自適應濾波去除回聲的線性部分。實驗結果表明,在匹配場景下,該方法在客觀評價指標上明顯優於傳統方法。此外,與端到端深度學習方法相比,該方法在不匹配場景下具有更好的泛化能力。
關鍵字:回聲消除,雙講檢測,深度學習,長短時記憶
1 引言
在與行動電話、遠端會議系統等全雙工擴音裝置的通訊過程中,由於揚聲器與麥克風的耦合,回聲廣泛存在[1,2,3]。這些裝置的麥克風捕捉來自自身揚聲器的訊號,會產生令人不舒服的回聲,嚴重干擾正常的通訊。因此,一個需要解決的重要問題是回聲消除。理想情況下,AEC可以完全去除回聲,只將近端語音傳輸到遠端。然而,AEC的主要挑戰之一是如何使其在雙語、背景噪聲和非線性失真等條件下得到很好的推廣。本文主要研究AEC演算法在不同場景下的泛化能力,特別是在低訊號回聲比(SER)條件下。
雖然傳統的AEC方法在過去幾十年裡被提出來處理雙音和噪聲,但這些方法大多是基於訊號之間的相關性,或基於語音和噪聲的統計特性[4,5,6]。在非預期的聲學條件下,它們往往無法跟蹤非平穩失真,因此相關的訊號特性嚴重影響其效能。
近年來,深度學習在語音識別、語音分離等領域取得了顯著的成果[7,8,9]。最近,Zhang和Wang[10]將AEC表述為一種有監督語音分離問題,其中回聲被認為是一種特殊的干擾噪聲。他們採用端到端的深度學習結構來解決這個問題。最近,Zhang等人進一步開發了一種深度學習演算法,該演算法考慮了非線性失真和加性噪聲的影響。對於基於學習的演算法[10,11,12,13,14],在不匹配的情況下(訓練階段看不見的樣本),即泛化問題,其效能往往會下降。這一問題對於AEC來說更為嚴重,因為許多因素都會導致不匹配的場景,如麥克風、揚聲器、環境噪聲和遠端訊號[15,16,17]。為了提高泛化效果,最直接的方法是收集儘可能多的訓練資料。然而,它付出了巨大的代價。
在本文中,我們提出了一種將傳統的自適應濾波與深度學習相結合的級聯演算法。該演算法由線性濾波模型(LFM)和非線性濾波模型(NLM)組成。在LFM中,LSTM被用作雙向通話檢測器(DTD)以提高自適應濾波的效能。利用LFM的輸出,可以訓練另一個LSTM來抑制LFM輸出中的殘留回聲。實驗結果表明,該方法在匹配場景下的客觀評價指標上優於傳統方法。此外,我們還發現,在不匹配的情況下,該方法具有良好的泛化能力。
本文的其餘部分組織如下。在第2節中,我們介紹了AEC系統並給出了所提出的方法。實驗設定在第3節中介紹。實驗結果和討論將在第4節給出。最後,第5節是全文的總結。
2 演算法描述
2.1 系統概述
我們提出的單通道AEC方法如圖1所示。
圖1 在聲學回聲情況下提出的方法的框圖
麥克風接收訊號\(y(n)\)由遠端信\(x(n)\)與房間脈衝響應(RIR)[18]卷積產生的近端語音訊號\(s(n)\)和回聲訊號\(d(n)\)組成:
式中*為卷積運算,h(n)為實際回聲傳輸路徑的傳遞函式。因此,y(n)由:
AEC的目標是通過\(y(n)\)和\(x(n)\)估算\(h(n)\)來獲得\(s(n)\)。由式(1)和(2)可知,在沒有近端訊號的情況下,利用自適應濾波演算法,如最小均方(LMS)、歸一化最小均方(NLMS)和遞迴最小二乘(RLS), \(h(n)\)是很容易估計的[19,20]。
2.2 線性濾波模型(LFM)
然而,當近端訊號和回聲同時出現時,估計\(h(n)\)就變得很複雜。這就是所謂的雙講問題。一個常見的策略是,當出現雙講的情況時,停止更新\(h(n)\)。因此,DTD的準確性對AEC的效能和收斂速度有很大的影響。在本小節中,我們將介紹AEC線性部分的方法。LFM由基於深度學習的DTD和RLS自適應濾波組成。
2.2.1 雙講檢測
從效能和收斂速度兩個方面考慮,最有效的方法是在時頻單元級檢測雙講。因此,我們採用深度神經網路來估計目前在語音增強中廣泛使用的時頻掩碼[21,22]。訓練目標由式(3)定義:
其中\(|S(t, f)|\) 和 \(|D(t, f)|\)分別為\(S(n)\)和\(D(n)\)時幅譜的時頻(t -f)單位。
將所有輸入訊號取樣到16khz,然後分成窗長為20ms、偏移量為10ms的幀,使用Hanning窗。我們採用短時傅立葉變換(STFT)幅度譜,只使用前161個頻域。IRM實際上可以看作是回聲在T-F單位出現的概率。如果IRM接近1,則表示沒有近端訊號出現。否則,就意味著會出現雙講的說法。
為了估計IRM,我們使用了一個有4個LSTM層的迴圈神經網路,每層300個單元,如圖2所示。將用於特徵提取的全連線層作為輸入層。將\(y(n)\)和\(x(n)\)的幅譜連線為輸入特徵,其維數為161 × 2 = 322,然後輸入LSTM。我們在輸出層使用sigmoid啟用函式,它是完全連線的,其尺寸為161,對應於估計的掩模的一幀。使用Adam優化器[23]更新LSTM的權值,使用均方誤差(mean squared error, MSE)作為損失函式。學習速率設定為0.0003,訓練epoch數設定為50,批量大小設定為32。
圖2 用於時頻掩碼估計的LSTM網路架構
2.2.2 自適應濾波
RLS有一個重要的特點,它的收斂速度比標準的LMS濾波器快得多[19,20],它採用了一種具有DTD的頻域RLS自適應濾波器來去除麥克風訊號中的線性回聲分量。這個過程可以描述如下。
\(X(t,f)\)和\(Y(t,f)\)分別為\(X(n)\)和\(Y(n)\)在時間幀\(t\)和頻率點\(f\)的頻域對應項,\(n\)為時間指標。代價函式是誤差平方和,如下所示:
其中\(T\)是轉置運算,\(\beta\)是遺忘因子,\(W\)是權矩陣。優化就是找到一個\(W\)來最小化\(E\):
其中,\(H\)、\(P\)為\(IRM(t, f) > LC\)時,由式(6)、(7)更新的協方差矩陣。\(LC\)是區域性標準。
當\(I R M(t, f) \leq L C\)時,更新公式為(8),(9):
這意味著,當出現雙重對話時,我們不會更新引數。估計的頻域回聲訊號\(\hat{D}(t, f)\)由:
則估計的頻域近端訊號\(G(t, f)\)為:
因此,利用逆STFT (iSTFT)[24],由\(G(t, f)\)合成LFM輸出時域訊號\(g(n)\)。需要注意的是,式(10)包含了矩陣逆運算,對於大型矩陣來說,這是非常耗時的。在實踐中,矩陣逆可以通過遞迴演算法來避免(推導的細節見[20])。
2.3 非線性濾波模型(NFM)
由於揚聲器和/或放大器的非線性,線性調頻後仍存在殘餘回聲。通常,後處理模組是必需的。為了去除殘留的回聲,我們訓練了另一個LSTM,除了輸入和訓練目標之外,它的結構與雙語檢測中使用的LSTM相同。第二個LSTM的輸入是\(|G(t,f)|\)和\(|Y (t,f)|\),它們是\(g(n)\)和\(y(n)\)的幅度譜。訓練目標為相位敏感掩模(PSM)[25,26],如下所示:
其中\(|S(t, f)|\)和\(|G(t, f)|\)分別表示\(s(n)\)和\(g(n)\)的幅度譜,\(\theta_{s}\)和\(\theta_{g}\)分別表示t - f單元中的相。\(\operatorname{Re}\{\cdot\}\)計算實分量。在測試階段,估計的近端訊號\(|\hat{S}(t, f)|\)的幅度譜由:
最後,利用iSTFT將\(|\hat{S}(t, f)|\)與\(|{G}(t, f)|\)相結合,重新合成估計的時域近端語音訊號\(\hat{s}(n)\)。
3 實驗設定
3.1 評價指標
我們使用兩個指標來評估AEC的效能:單通話時段的回聲損耗增強(ERLE)[27]和雙通話時段的語音質量感知評價(PESQ)[28]。
ERLE測量麥克風訊號\(y(n)\)與估計近端語音\(\hat{s}(n)\)之間的回聲衰減,定義為:
其中,\(E[\cdot]\)為統計期望運算。
PESQ使用認知模型計算目標語音與被處理語音之間的干擾,其範圍為-0.5 ~ 4.5。分數越大,處理後的語音質量越好。
3.2 資料準備
我們使用TIMIT語料庫[29],它由630個揚聲器組成,每個包含10個語音,總共6300個語音在16khz取樣。首先選取100對揚聲器分別作為遠端和近端訊號。對於每一對,我們隨機選擇三個話語,將它們連線起來形成遠端訊號。通過在訊號的前後加零,近端訊號與遠端訊號具有相同的長度。我們總共產生5200對訊號。分別使用4000、900和300個話語進行訓練、驗證和測試。應該提到的是,測試集中的揚聲器不會出現在訓練和驗證集中。
我們使用文獻[10]中類似的方法生成了7種不同的RIRs。所有的房間脈衝響應都是通過影像法[30]產生的,混響時間(\(T_{60}\))為200ms, RIR的反射階數設定為512。模擬室尺寸(長×寬×高)為(4 × 4 × 3) m。麥克風固定在房間中心位置。揚聲器隨機放置在7個距離麥克風1.5米的位置。隨機選取6個RIR生成回聲訊號進行訓練,剩餘的RIR進行測試。
對於訓練和驗證集,我們通過將近端語音訊號和回聲訊號混合,從{-6,-3,0,3,6}dB中隨機選擇產生SER級的麥克風訊號。這裡的SER水平是在雙關語期間評估的。定義為:
為了測試混合物,我們在四個不同的SER級別{-10,-5,0,5}dB產生麥克風訊號。
3.3 比較方法和引數設定
我們將我們的方法與兩種AEC演算法進行比較。1) NCCNLMS:傳統的NLMS與歸一化互相關DTD[5]相結合。濾波大小設定為512,步長設定為0.2,正則化因子設定為0.06。2)端到端學習方法:利用LSTM的遠端和麥克風訊號作為輸入,直接估計近端訊號的PSM。LSTM有四個隱藏層,每個層有300個單位。用於特徵提取的全連線層,作為LSTM輸入層,有322個單元。Sigmoid啟用函式用於一個完全連線的輸出層,有161個單元。
4 評估和比較
4.1 雙講情況下的效能
在第一個實驗中,我們將所提出的方法作為匹配場景在雙語情況下進行了評估。
表1顯示了這些方法在不同SER條件下的平均ERLE和PESQ得分,其中“None”(即未處理的語音)的結果是通過比較兩組談話期間的\(y(n)\)和\(s(n)\)計算出來的。最好的分數用黑體字標出。從上表的結果可以看出,所有的方法都能夠去除回聲。以0 dB的SER為例,從LFM-NFM到NCC-NLMS, ERLE提高了24.89,PESQ提高了0.67。我們提出的演算法在這兩個指標上都顯著優於其他演算法。
表1 語音回聲的平均ERLE和PESQ得分
4.2 音樂回聲效能
在訓練階段,遠端訊號是語音訊號。在實踐中,音樂也是一種很常見的回聲。本實驗旨在評價AEC對音樂訊號的泛化效能。我們使用GTZAN音樂庫(在http://marsyas.info上可以找到),它包含了10種不同型別的1000首不同的歌曲,每種型別有100首歌,每首歌持續30秒左右。我們隨機選擇了300首歌曲,並以16kHz重新取樣。
這些方法在背景音樂回聲的不同SER條件下的結果如表2所示。請注意,在表格中,當每個演算法的PESQ得分低於' None '時,我們認為該演算法是無效的,分數用斜體顯示。從表中可以看出,LSTM對於未經訓練的音樂回聲是無效的。我們還發現,NCC-NLMS在處理非平穩回聲時效果良好。在0 dB SER的情況下,與NCC-NLMS相比,LFM-NFM的ERLE提高了7.05,PESQ提高了0.8。該方法始終優於傳統方法,在未經訓練的音樂回聲和SERs條件下都有較好的泛化效能。
表2 音樂回聲的平均ERLE和PESQ分數
4.3 在不可見條件下非線性回聲的效能
在實際應用中,揚聲器和放大器往往會產生非線性。為了測試本文演算法的泛化能力,我們按照文獻[10,12]中的方法,依次模擬麥克風經過功率放大器、揚聲器和聲傳輸後捕獲的嚴重非線性失真回聲。
首先,功率放大器的非線性可以用硬削方式[31]建模:
其中\(x_{\text {hard }}(n)\)為硬剪下輸出,\(x_{\max }(n)\)設為輸入訊號最大值的80%。然後,為了模擬非對稱揚聲器失真,我們對遠端訊號應用如下無記憶的sigmoid非線性函式[32]:
引數\(\gamma\)為sigmoid增益,設為2,p為sigmoid斜率,表示為:
因此,通過\(x_{\mathrm{NL}}(n)\)與RIRs的卷積產生非線性失真回聲訊號。需要說明的是,我們在訓練階段沒有新增任何非線性。
由於NLMS不能處理非線性失真,因此採用二階Volterra自適應濾波器[33]來消除麥克風訊號中的非線性回聲。一階Volterra核的長度設為512,二階長度設為64,學習速率分別設為0.2和0.1。表3顯示了這些方法在非線性失真的不同SER條件下的平均ERLE和PESQ得分。雖然LSTM方法對噪聲的抑制最強(ERLE為12.61 dB),但它對近端訊號的損害最嚴重(PESQ為1.25)。也可以看出,該方法在這種非線性情況下表現最好。
表3 非線性情況下的平均ERLE和PESQ得分。
5 結論
在本研究中,我們提出了一種級聯的方法來提高AEC的魯棒性。與傳統演算法不同的是,AEC問題被視為一個監督學習任務,通過預測IRM進行雙語檢測和PSM殘餘回聲抑制。實驗結果表明,該方法在匹配場景下的客觀評價指標優於傳統方法。此外,實驗結果還表明,該方法在不匹配場景下能夠顯著提高回聲的去除效果,並且具有良好的泛化效能,特別是在低SER條件下,這對AEC的實際應用是一個有前景的跡象。
6 參考文獻
[1] C. Breining, P. Dreiscitel, E. Hansler, A. Mader, B. Nitsch, H. Puder, T. Schertler, G. Schmidt, and J. Tilp, “Acoustic echo control. An application of very-high-order adaptive filters,” IEEE Signal Processing Magazine, vol. 16, no. 4, pp. 42–69, 1999.
[2] E. Hansler and G. Schmidt, ¨ Acoustic echo and noise control: a practical approach. John Wiley & Sons, 2005, vol. 40.
[3] C. Faller and C. Tournery, “Robust acoustic echo control using a simple echo path model,” in 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, vol. 5. IEEE, 2006, pp. 281–284.
[4] D. Duttweiler, “A twelve-channel digital echo canceler,” IEEE Transactions on Communications, vol. 26, no. 5, pp. 647–653, 1978.
[5] M. Iqbal, J. Stokes, and S. Grant, “Normalized double-talk detection based on microphone and aec error cross-correlation,” in Multimedia and Expo, 2007 IEEE International Conference on. IEEE, Jul. 2007, pp. 360–363.
[6] T. Gansler, M. Hansson, C.-J. Ivarsson, and G. Salomonsson, “A double-talk detector based on coherence,” IEEE Transactions on Communications, vol. 44, no. 11, pp. 1421–1427, 1996.
[7] H. Geoffrey, D. Li, Y. Dong, E. George, and A.-r. Mohamed, “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, 2012.
[8] M. Delfarah and D. L. Wang, “Features for masking based monaural speech separation in reverberant conditions,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 5, pp. 1085–1094, 2017.
[9] J. Chen and D. L. Wang, “Long short-term memory for speaker generalization in supervised speech separation,” The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705–4714, 2017.
[10] H. Zhang and D. L. Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” in Interspeech 2018. ISCA, 2018, pp. 3239–3243.
[11] H. Zhang, K. Tan, and D. L. Wang, “Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions,” in Interspeech 2019, Sep. 2019, pp. 4255–4259.
[12] C. Lee, J. Shin, and N. Kim, “Dnn-based residual echo suppression,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015.
[13] Q. Lei, H. Chen, J. Hou, L. Chen, and L. Dai, “Deep neural network based regression approach for acoustic echo cancellation,” in Proceedings of the 2019 4th International Conference on Multimedia Systems and Signal Processing - ICMSSP 2019. ACM Press, 2019, pp. 94–98.
[14] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Multipleinput neural network-based residual echo suppression,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018, pp. 231–235.
[15] J. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP’03)., vol. 5. IEEE, 2003, pp. V–389.
[16] G. Lazzarin, S. Pupolin, and A. Sarti, “Nonlinearity compensation in digital radio systems,” IEEE Transactions on Communications, vol. 42, no. 234, pp. 988–999, 1994.
[17] S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony,” Signal Processing, vol. 64, no. 1, pp. 21–32, Jan. 1998.
[18] E. Habets, “Room impulse response generator,” Technische Universiteit Eindhoven, Tech. Rep, vol. 2, no. 2.4, p. 1, 2006.
[19] S. Haykin, Adaptive filter theory. Pearson Education India, 2005.
[20] W. Liu and S. Weiss, Wideband beamforming: concepts and techniques. Chichester, West Sussex, U.K.; Hoboken, N.J.: Wiley,2010.
[21] D. L. Wang, “On ideal binary mask as the computational goal of auditory scene analysis,” in Speech separation by humans and machines. Springer, 2005, pp. 181–197.
[22] Y. Wang, A. Narayanan, and D. L. Wang, “On training targets for supervised speech separation,” IEEE/ACM transactions on audio,speech, and language processing, vol. 22, no. 12, pp. 1849–1858,2014.
[23] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[24] P. Loizou, Speech enhancement: theory and practice, 2nd ed.Boca Raton, Fla: CRC Press, 2013.
[25] H. Erdogan, J. Hershey, S. Watanabe, and J. Le Roux, “Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 708–712.
[26] Y. Wang and D. L. Wang, “A deep neural network for time-domain signal reconstruction,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015,pp. 4390–4394.
[27] G. Enzner, H. Buchner, A. Favrot, and F. Kuech, “Acoustic echo control,” in Academic Press Library in Signal Processing. Elsevier, 2014, vol. 4, pp. 807–877.
[28] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749–752.
[29] L. Lamel, R. Kassel, and S. Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Speech Input/Output Assessment and Speech Databases, 1989.
[30] J. Allen and D. Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[31] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7,pp. 2065–2079, 2012.
[32] D. Comminiello, M. Scarpiniti, L. Azpicueta-Ruiz, J. ArenasGarcia, and A. Uncini, “Functional link adaptive filters for nonlinear acoustic echo cancellation,” IEEE Transactions on Audio,Speech, and Language Processing, vol. 21, no. 7, pp. 1502–1512,2013.
[33] A. Stenger, L. Trautmann, and R. Rabenstein, “Nonlinear acoustic
echo cancellation with 2nd order adaptive volterra filters,” in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258),vol. 2. IEEE, 1999, pp. 877–880.