論文地址：https://dl.acm.org/doi/abs/10.1145/3330393.3330399

基於深度神經網路的回聲消除迴歸方法

摘要

　　聲學回聲消除器(AEC)的目的是消除近端傳聲器接收到的混合訊號中的聲學回聲。傳統的方法是使用自適應有限脈衝響應(FIR)濾波器來識別房間脈衝響應(RIR)，因為房間脈衝響應對各種野外場景都不具有魯棒性。在本文中，我們提出了一種基於深度神經網路的迴歸方法，從近端和遠端混合訊號中提取的特徵直接估計近端目標訊號的幅值譜。利用深度學習強大的建模和泛化能力，可以很好地消除複雜的回聲訊號。實驗結果表明，該方法在雙講、背景噪聲、RIR變化和非線性失真場景下是有效的。此外，該方法對真實的車輛聲學回聲具有較好的泛化性。

關鍵字：回聲消除;深度學習;神經網路;迴歸。

1 引言

　　在通訊系統中，回聲問題已經討論了幾十年。由於揚聲器與近端麥克風之間的聲耦合，麥克風從近端揚聲器中接收到混合了延遲聲音的目標訊號，或者說是來自遠端揚聲器的回聲訊號。回聲訊號的音素和音節都是清晰可識別的，這使得混合語音具有誤導性。因此，回聲的存在極大地損害了目標語音的感知能力和可理解性。

　　為了解決這個問題,傳統的聲學回聲消除(AEC)方法估計揚聲器和近端麥克風的回聲脈衝響應(也稱為房間脈衝響應(RIR)),利用遠端說話者的參考訊號和近端麥克風的混合訊號。傳統的估計RIR的方法是採用一種自適應有限脈衝響應(FIR)濾波器，並通過幾種自適應演算法[1][2]更新濾波器係數。

　　裝備AEC的通訊系統廣泛應用於許多野外場景。雙講是現實世界中比較複雜的一種情況，即來自近端揚聲器的參考訊號與來自近端揚聲器的目標訊號同時處於活動狀態。近端語音訊號的存在嚴重降低了自適應演算法的收斂性。為了解決這一問題，提出了雙講檢測器(DTD)[3][4]來抑制雙講期間的自適應。此外，在近端麥克風接收到的訊號中，除了回聲和近端語音外，通常還存在背景噪聲。然而，自適應回聲消除器不能單獨抑制背景噪聲，因此在[5]中引入了後置濾波器。同時，回放裝置造成的回聲訊號非線性失真不可避免地增加了AEC的難度。因此，提出了殘差回波抑制(RES)[6][7]來抑制非線性回波失真。

　　考慮到實際場景中存在多種干擾，建議採用具有魯棒性、低延遲、低複雜度和良好效能的AEC估計演算法。除了傳統的AEC方法，最近出現的深度學習技術有望解決複雜的回聲問題，這是我們感興趣的。

　　受新引入的監督語音分離正規化[8]的啟發，我們嘗試採用基於深度學習的方法從近端麥克風接收到的混合訊號中分離近端目標語音。同時，遠端參考語音可以作為附加資訊。利用深度神經網路(DNN)強大的建模和泛化能力，我們提出的方法可以很好地直接分離混合語音，而無需進行上述額外的操作，既可以處理模擬情況，也可以處理真實生活中的複雜場景，包括雙講、背景噪聲和非線性失真。

　　本文的其餘部分組織如下。第2節介紹了相關工作。第3節介紹了所提出的方法。第4節給出了實驗結果。第5節是論文的總結和下一步工作。

2 相關工作

　　在之前的研究中，M. Muller提出了一種頻率相關的語音活動檢測(VAD)，利用[8]中混合訊號訓練的2層DNN檢測近端訊號的活動。基於DNN的VAD模型是對傳統回聲消除技術的補充，其實質仍然是通過預測RIR來減小回聲。儘管如此，DNN增強方法的效能仍優於傳統方法。

　　在[9]中，Guillaume Carbajal提出了一種基於神經網路的方法，直接從多個輸入中估計相位敏感掩模(PSM)，包括AEC輸出、遠端語音和AEC計算的回聲。該方法在回聲損耗增強(ERLE)[12]和訊號失真比(SDR)[13]方面均顯著優於Valin[10]和Schwar [11] RES。

　　在研究的後期，我們注意到最近提出了一種非常類似於我們的方法[14]，其中AEC也被視為一種監督式語音分離問題。本文利用雙向長短時記憶迴圈神經網路(BLSTM)，在雙講、背景噪聲和非線性失真的情況下，從近端和遠端混合訊號中提取特徵來估計理想的比率掩碼。基於BLSTM的語音質量感知評價方法在ERLE和語音質量感知評價[15]方面均優於傳統方法，後者與主觀評分具有較高的相關性。然而，考慮到AEC演算法的低延遲和低複雜度要求，基於BLSTM的方法需要整個語音，消耗大量的計算資源，不適合實際應用。我們從一開始就著眼於AEC的真實場景，使用DNN對目標訊號的對數幅值譜進行預測，這是一種簡單而有效的線上方法。

3 提出方法

3.1 基於DNN的回聲消除迴歸模型

　　近端麥克風\(y(n)\)的混合訊號由近端揚聲器的目標訊號\(s(n)\)、背景噪聲\(v(n)\)和回聲訊號\(d(n)\)組成。回聲訊號由遠端揚聲器的參考訊號\(x(n)\)與RIR卷積產生:

\[y(n)=d(n)+s(n)+v(n)　　(1) \]

\[d(n)=x(n) * r(n)　　(2) \]

　　傳統的回聲消除嘗試使用自適應濾波器合成回聲訊號的副本，並從混合訊號中減去它。與此有很大不同的是，我們的方法引入了基於DNN的迴歸模型，以麥克風訊號\(y(n)\)預測目標訊號\(s(n)\)，並將訊號\(x(n)\)作為輸入。具體來說，DNN直接輸出目標訊號經\(\mu\)律壓縮後的估計對數譜圖。最後，利用提取的混合訊號相位和估計的目標訊號幅度譜，利用短時傅立葉反變換(ISTFT)對估計的目標訊號進行重構。。

3.2 DNN 模型建立

　　模型結構如圖1所示，包括輸入層、隱藏層和輸出層。

　　首先將輸入訊號(\(y(n)\)和\(x(n)\))以16khz取樣，分成32ms幀，幀移16ms。然後對輸入訊號的每個時間幀應用512點短時傅立葉變換(STFT)，產生257個頻率點。最後，對每幀的幅值響應進行\(\mu\)律壓縮，得到幅值光譜特徵。在該方法中，輸入的幀上下文為27幀(13個未來幀和13個過去幀);將混合訊號和參考訊號的特徵串接起來作為輸入特徵。因此輸入的維數為\(257 \times 27 \times 2 = 13554\)。

　　該模型包含五層:輸入層，輸入大小為13554，三個隱藏層，每層有2048個節點，輸出層有257個節點。校正線性單元(ReLU)啟用函式[16]用於隱藏層和輸出層的數值範圍。在啟用函式[17]之前，對每個隱層進行批處理規範化。採用Adam優化器[18]使均方誤差(MSE)代價函式最小。設定學習速率為\(1e-5\)，設定訓練epoch數為100。

論文翻譯：2019_Deep Neural Network Based Regression Approach for A coustic Echo Cancellation

圖1 所提出的基於DNN的方法示意圖

4 實驗

　　下面，比較我們的方法與傳統的AEC: Valin[10]實現的SpeexDSP，一個使用可變步長的AEC魯棒雙講檢測，在各種場景下。

4.1 資料集

　　在實驗中，我們主要使用模擬資料，因為很多情況下，包括雙講，背景噪聲和非線性失真可以方便地合成。此外，我們還在真實資料集上檢驗了我們的模型的泛化能力。

　　模擬時，首先根據預先設定的房間配置生成RIR\(r(n)\);然後將選定的參考訊號\(x(n)\)與\(r(n)\)卷積，生成回聲訊號\(d(n)\);最後將\(d(n)\)與目標訊號\(s(n)\)進行移位相加生成混合訊號\(y(n)\)，以模擬目標訊號與參考訊號之間的延時。

　　對於RIR，我們使用基於影像源方法[20]的python工具包Pyroomacoustics [19]來生成RIR，給出了房間的形狀、大小、溫度、溼度、氣壓、牆壁的吸收係數、麥克風位置和揚聲器位置等房間配置。由於實際情況，該方法優於基於RT60[21]的方法。在我們的實驗中，模擬室的大小(長×寬×高)為\(5 \times 4 \times 3 m\)。各邊的吸收係數為0.1，室內溫度、相對溼度、氣壓分別為\(20^{\circ} \mathrm{C} 、 0 、 10^{5} \mathrm{~Pa}\)。

　　對於原始訊號，我們選擇目標訊號並參考TIMIT資料集[22]中的訊號，該資料集包含630個美國英語八種主要方言的說話者的寬頻錄音，每個人閱讀10個語音豐富的句子。TIMIT語料庫包括時間對齊的正字法、語音和單詞轉錄，以及每個話語的16位、16kHz語音波形檔案。官方將TIMIT分為兩部分:訓練和測試。訓練包含462個揚聲器，測試包含剩餘的168個揚聲器。從TIMIT列中隨機選取6000對近端訊號和遠端訊號作為訓練集，從TIMIT列中隨機選取200對驗證集，從TIMIT列中隨機選取200對測試集。

4.2 在雙講情況下的表現

　　在雙講的情況下，目標訊號和參考訊號同時活躍。顯然，回聲訊號的功率越大，從混合訊號中分離目標訊號就越困難。這裡的訊號回聲比(SER)水平是在雙講週期上評估的。定義為:

\[\mathrm{SER}=10 \log _{10} \frac{\varepsilon\left[d(n)^{2}\right]}{\varepsilon\left[s(n)^{2}\right]}　　(3) \]

同時，回聲訊號與目標訊號重疊越多，從混合訊號中分離目標訊號就越困難。這裡的相對重疊率(ROR)水平是根據雙講週期來評估的。定義為:

\[R O R=\frac{l_{d}+l_{s}-l_{y} / l_{y}}{\min \left(l_{s}, l_{d}\right\} / \max \left\{l_{s}, l_{d}\right\}}　　(4) \]

　　對於相同的ROR，回聲訊號可以在目標訊號之前開始，反之亦然。由於傳統方法的自適應演算法的限制，開始的順序將導致不同的結果。

　　我們評估了雙講情況下的提出方法，並將其與傳統方法進行比較。為了進行訓練和測試，通過將參考訊號與RIR卷積來產生回波訊號，源位置和麥克風位置分別（2.5,2,2）和（2.5,2,1）。並且目標訊號與來自-15到5dB（間隔為0.1）的SER範圍的回聲訊號混合，ROR範圍為0.5到1（間隔為0.001）。

　　圖2-(a)顯示了不同SER條件下的兩種方法的平均PESQ值。本圖所示的結果表明，基於DNN的方法優於所有條件下PESQ改善的傳統方法，並且較大的SER，得到的提升越大。

　　圖2-(b)顯示了不同ROR條件下兩種方法的平均PESQ值。本圖所示的結果表明，基於DNN的方法在PESQ方面優於傳統方法。當回聲訊號在目標訊號之前開始時，將更容易分離目標訊號。更重要的是，我們方法的不同開始順序之間的間隙小於所有條件中的傳統方法。

圖2 在雙講情況下，SER(a)和ROR(b)的平均PESQ值

4.3 雙講，背景噪聲情況下的效能

　　第二個實驗研究了雙講和背景噪音的情況。高斯白噪聲以不同的訊號噪聲比（SNR）新增到混合訊號中，該訊號被定義為：

\[\mathrm{SNR}=10 \log _{10} \frac{\varepsilon\left[v(n)^{2}\right]}{\varepsilon\left[s(n)^{2}\right]}　　(5) \]

　　對於訓練，SER設定為5; ROR設定為1，SNR範圍為-5至5，間隔為0.1。對於測試，SER設定為5; ROR設定為1，SNR隨機選自{-4.55，-2.55,0.55,2.55,4.55}。在訓練和測試中使用的RIR與第一個實驗相同。

　　表1中示出了具有5dB SER水平的不同SNR條件下的常規方法和基於DNN的方法的平均PESQ值。從表1中可以看出，基於DNN的方法優於傳統方法，對於所有條件，PESQ產生平均改善最高可達0.96。結果表明，基於DNN的方法比傳統方法對抗噪聲更具魯棒性。

表1 在雙講和背景噪音情況下的平均PESQ值

4.4 在雙講，RIR變異情況下的效能

　　由於裝置的移動，RIR可能在句子期間改變。我們使用第三個實驗比較我們的方法和傳統方法在RIR變異，雙講情況下的效能。

　　我們使用分段卷積來模擬RIR的變化。首先，我們通過使用零填充將引用訊號劃分為多個段，然後通過使用零填充將每個子引用訊號填充到原始訊號的長度。然後使用不同的RIR卷積子參考訊號以獲得子回聲訊號。最後，副回聲訊號被連線以獲得回聲訊號。

　　我們在水平接地上直觀地選擇6000點作為麥克風和源頭位置的水平分量。麥克風和源極位置的垂直分量分別限制為2M和1M。對於訓練，RIR更改無法看到（換句話說，RIRS的數量更改為0），並且RIR變化的數量是隨機選擇用於測試的{0,1,11}。實驗結果如表2所示。

表2 雙講和RIR變化情況下的平均PESQ值

　　從表可以看出，基於DNN的方法優於傳統方法，並且PESQ幾乎是我們在所有條件下的方法的常數。結果表明，基於DNN的方法對RIR短時變化具有比傳統方法更好的魯棒。

　　在我們看來，這個結果的主要原因如下。我們的方法是逐幀操作，一幀的時間僅為32毫秒。只有幾個幀包含兩個RIR，並且對於大多數幀，只包含一個RIR。

4.4 在雙講，非線性失真情況下的效能

　　我們使用第三個實驗來比較我們的方法和傳統方法在RIR短時改變、雙講情況中的效能。該實驗評估了基於DNN的方法在用雙講，非線性失真的情況下的效能。由於簡化，通過以下非線性函式處理參考訊號以模擬由功率放大器和揚聲器引入的非線性失真。

\[\operatorname{claw}(x)=\operatorname{sgn}(x) \frac{\ln (1+\mu|x|)}{1+\mu}　　(6) \]

\[\operatorname{erf}(x)=\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{\sqrt{\pi}}{2} x} e^{-t^{2}} d t　　(7) \]

\[\tanh (x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}　　(8) \]

\[\arctan (x)=\frac{2}{\pi} \arctan \left(\frac{\pi}{2} x\right)　　(9) \]

　　為了訓練，處理參考訊號以獲取非線性處理的參考訊號，然後將該非線性處理的遠端訊號與RIR卷積生成回聲訊號，其源位置和麥克風位置分別為（3,2,1）和（3.8，2，1.6）。SER設定為0 dB，ROR設定為\(>0.5\)。實驗結果如表3所示。

表3 雙講和非線性失真情況下的平均PESQ值

　　從表3中可以看出，我們的方法比傳統方法在四個非線性失真的條件下，PESQ得分大約高0.5。

4.6 真實資料集上的效能

　　在我們的最後一個實驗中，測試和分析了我們方法的泛化能力。我們分別在模擬資料集和實時資料集上訓練DNN模型，然後分別在不同的實時資料集上進行評估。有兩個資料集，一個名為Car echoic資料集，錄製在汽車中用於訓練和測試，另一個是名為Studio echoic資料集，該資料集記錄在Studio中僅用於測試。

　　在汽車回聲資料集中，通過汽車揚聲器播放參考訊號，並且目標訊號由人造口在主驅動位置上播放。外部環境包括市中心，郊區，高速公路和高架橋。汽車型號包括雪佛蘭克魯澤，奇瑞蒂戈，吉普車，豐田，別克GL8和寶馬。速度包括0，\(\leq 40\),41至60,100，120 km / h。總持續時間為18446s，根據18054：205：187的比例分為訓練集，驗證組和測試集。實驗結果如表4所示。

表4 汽車回聲資料集的平均PESQ值

　　在Studio echoic資料集中，工作室的可用大小是\(548.08 \times 419.46 \times 287.21 \mathrm{~cm}^{3}\)。我們在水平接地上挑選12個點作為麥克風和源頭位置的水平分量。麥克風和光源位置的垂直分量分別限於79.54cm和58.12cm。使用的SER包括-15，-10，-5,0,5 dB。總持續時間為157s，僅用於測試。給定的模擬資料與Studio echoic資料集相同的配置用於訓練。實驗結果如表5所示。

表5 在Studio Echoic資料集的平均PESQ值

　　從表4中可以看出，訓練的DNN在實際測試資料上超過了傳統方法，在PESQ上產生高達0.46的改進。

　　從表5中可以看出，傳統方法優於除SER為5dB之外的實際測試資料上的模擬資料上訓練的DNN。與表4中顯示的結果相比，即使我們在模擬中使用相同的引數，模擬資料和實際資料也存在很大的區別。我們的方法在實際錄音中產生了鼓舞人心的表現，雖然該模型僅在模擬資料上訓練而不訪問真正的錄音。

5 結論和未來的工作

　　我們提出了一種基於DNN的AEC方法，它提供了比傳統自適應濾波方法更好的聲學回聲消除效果，在雙講、背景噪聲、RIR變化和非線性失真的情況下。更重要的是，所提出的方法顯示了其能夠去除聲學回聲的實際記錄。未來的工作主要是優化網路結構，並新增一些預處理和後處理方法，希望提高基於深度學習的方法的效能。

6 參考文獻

[1] Benesty, J., Gänsler, T., Morgan, D. R., Sondhi, M. M., & Gay, S. L. (2001). Advances in network and acoustic echo cancellation. Berlin: Springer.
[2] Benesty, J., Paleologu, C., Gänsler, T., & Ciochină, S. (2011). A perspective on stereophonic acoustic echo cancellation (Vol. 4). Springer Science & Business Media.
[3] D. Duttweiler. A Twelve-Channel Digital Echo Canceler. In IEEE Transactions on Communications vol. 26, no. 5, pp. 647-653, May 1978
[4] Mahfoud Hamidia, Abderrahmane Amrouche. A new robust double-talk detector based on the Stockwell transform for acoustic echo cancellation. In Digital Signal Processing, Vol. 60, ISSN 1051-2004, Pages 99-112, 2017
[5] Turbin, V., Gilloire, A., & Scalart, P. (1997, April). Comparison of three post-filtering algorithms for residual acoustic echo reduction. In icassp (p. 307). IEEE.
[6] Schwarz, A., Hofmann, C., & Kellermann, W. (2013, October). Spectral feature-based nonlinear residual echo suppression. In Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on (pp. 1-4). IEEE.
[7] Kuech, F., & Kellermann, W. (2007, April). Nonlinear residual echo suppression using a power filter model of the acoustic echo path. In Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on (Vol. 1, pp. I-73). IEEE.
[8] Xu, Y., Du, J., Dai, L. R., & Lee, C. H. (2015). A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 23(1), 7-19.
[9] Carbajal, G., Serizel, R., Vincent, E., & Humbert, E. (2018, April). Multiple-input neural network-based residual echo suppression. In ICASSP 2018-IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 1-5).
[10] Valin, J. M. (2007). On adjusting the learning rate in frequency domain echo cancellation with double-talk. IEEE Transactions on Audio, Speech, and Language Processing, 15(3), 1030-1034.
[11] Schwarz, A., Hofmann, C., & Kellermann, W. (2013, October). Spectral feature-based nonlinear residual echo suppression. In Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on (pp. 1-4). IEEE.
[12] Enzner, G., Buchner, H., Favrot, A., & Kuech, F. (2014). Acoustic echo control. In Academic press library in signal processing (Vol. 4, pp. 807-877). Elsevier.
[13] Vincent, E., Gribonval, R., & Févotte, C. (2006). Performance measurement in blind audio source separation. IEEE transactions on audio, speech, and language processing, 14(4), 1462-1469.
[14] Zhang, H., & Wang, D. (2018). Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios. Training, 161(2), 322.
[15] Rix, A. W., Beerends, J. G., Hollier, M. P., & Hekstra, A. P. (2001). Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs. In Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP'01). 2001 IEEE International Conference on (Vol. 2, pp. 749-752). IEEE.
[16] Glorot, X., Bordes, A., & Bengio, Y. (2011, June). Deep sparse rectifier neural networks. In Proceedings of the fourteenth internationalconference on artificial intelligence and statistics (pp. 315-323).
[17] Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.
[18] Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
[19] Scheibler, R., Bezzam, E., & Dokmanić, I. (2018, April). Pyroomacoustics: A python package for audio room simulation and array processing algorithms. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 351-355). IEEE.
[20] Allen, J. B., & Berkley, D. A. (1979). Image method for efficiently simulating small‐room acoustics. The Journal of the Acoustical Society of America, 65(4), 943-950.
[21] Lehmann, E. A., & Johansson, A. M. (2010). Diffuse reverberation model for efficient image-source simulation of
room impulse responses. IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1429-1439.
[22] Lamel, L. F., Kassel, R. H., & Seneff, S. (1989). Speech database development: Design and analysis of the acousticphonetic corpus. In Speech Input/Output Assessment and Speech Databases.

論文翻譯：2019_Deep Neural Network Based Regression Approach for A coustic Echo Cancellation