部落格地址：https://www.cnblogs.com/LXP-Never/p/14210359.html

摘要

　　傳統的聲學回聲消除（AEC）通過使用自適應演算法識別聲學脈衝響應來工作。我們將AEC公式化為有監督的語音分離問題，該問題將說話人訊號和近端訊號分開，以便僅將後者傳輸到遠端。訓練雙向長短時記憶的遞迴神經網路（BLSTM）對從近端和遠端混合訊號中提取的特徵進行估計。然後應用BLSTM估計的理想比率掩模來分離和抑制遠端訊號，從而去除回波。實驗結果表明，該方法在雙向通話，背景噪聲和非線性失真情況下回波去除的有效性。另外，所提出的方法可以推廣到未經訓練的說話者。

1 引言

　　當揚聲器和麥克風在通訊系統中耦合，從而使麥克風拾取揚聲器訊號及其混響時，就會產生回聲。如果處理不當，則位於系統遠端的使用者會聽到自己的聲音，該聲音會由於系統的往返時間而延遲（即回聲），並與來自近端的目標訊號混合在一起。回聲是語音和訊號處理應用程式（例如電話會議，擴音電話和行動通訊）中最煩人的問題之一。通常，通過使用有限衝激響應（FIR）濾波器[1]自適應地識別揚聲器和麥克風之間的聲學衝激響應來實現回聲消除。文獻[1] [2]中提出了幾種自適應演算法。其中歸一化最小均方（NLMS）演算法家族[3]由於其相對魯棒的效能和低複雜度而得到了最廣泛的應用。

　　雙向通話是通訊系統中固有的，因為當雙方的揚聲器同時通話時，雙向通話是典型的通話。然而，近端語音訊號的存在嚴重降低了自適應演算法的收斂性，並可能導致它們發散[1]。解決此問題的標準方法是使用雙向通話檢測器（DTD）[4] [5]，它會在雙向通話期間禁止自適應。

　　在麥克風處接收的訊號不僅包含回聲和近端語音，還包含背景噪聲。公認的是，僅AEC就無法抑制背景噪聲。通常使用後置濾波器[6]來抑制背景噪聲和殘留在回聲消除器輸出端的回聲。 Ykhlef和Ykhlef [7]將自適應演算法與基於短時頻譜衰減的噪聲抑制技術相結合，並在存在背景噪聲的情況下獲得了大量的回聲消除。

　　文獻中的許多研究將回聲路徑建模為線性系統。但是，由於諸如功率放大器和揚聲器之類的元件的限制，在AEC的實際情況下，非線性失真可能會引入到遠端訊號中。為了克服這個問題，一些工作[8]-[9]提出應用殘餘回聲抑制（RES）來抑制由非線性失真引起的殘餘回聲。由於深度學習具有對複雜的非線性關係進行建模的能力，因此它可以成為對AEC系統的非線性進行建模的有力選擇。 Malek和Koldovsk`y [10]將非線性系統建模為Hammerstein模型，並使用兩層前饋神經網路和自適應濾波器來識別模型引數。最近，李等人。文獻[11]採用了深度神經網路（DNN）來估計遠端訊號和聲學回聲抑制（AES）輸出的RES增益[12]，以消除回聲訊號的非線性成分。

　　AEC的最終目標是完全消除遠端訊號和背景噪聲，以便僅將近端語音傳送到遠端。從語音分離的角度來看，AEC可以自然地視為分離問題，其中近端語音是要與麥克風錄音分離併傳送到遠端的來源。因此，代替估計聲回聲路徑，我們採用監督語音分離技術，以可訪問的遠端語音作為附加資訊將近端語音從麥克風訊號中分離出來[13]。通過這種方法，無需執行任何雙向通話檢測或後置過濾即可解決AEC問題。

　　深度學習已顯示出語音分離的巨大潛力[14] [15]。遞迴神經網路（RNN）建模時變函式的能力可以在解決AEC問題中發揮重要作用。 LSTM [16]是RNN的一種變體，旨在處理傳統RNN的消失和爆炸問題。它可以對時間依賴性進行建模，並在嘈雜的條件下表現出良好的語音分離和語音增強效能[17] [18]。在最近的研究中，Chen和Wang [19]使用LSTM來研究與噪聲無關的模型的說話人泛化，評估結果表明，LSTM模型比前饋DNN取得了更好的說話人泛化。

　　在這項研究中，我們使用雙向LSTM（BLSTM）作為監督學習機，根據從混合訊號以及遠端語音中提取的特徵來預測理想比率掩碼（IRM）。我們還研究了該方法的說話人概括。實驗結果表明，該方法能夠在嘈雜，雙向通話和非線性失真情況下消除聲學回聲，並能很好地推廣到未經訓練的揚聲器。

　　本文的其餘部分安排如下。第2節介紹了基於BLSTM的方法。實驗結果在第3節中給出。第4節總結了論文。

2 提出的方法

2.1 問題公式化

　　考慮傳統的聲學訊號模型，如圖1所示，其中麥克風訊號$y(n)$由回聲$d(n)$、近端訊號$s(n)$和背景噪聲$v(n)$組成。

$$公式1：y(n)=d(n)+s(n)+v(n)$$

圖1 回聲場景示意圖

　　回聲訊號是由說話人訊號與房間脈衝響應(RIR)卷積產生的。然後將回聲、近端語音和背景噪聲混合產生麥克風訊號。我們將AEC定義為一個有監督的語音分離問題。如圖2所示，將麥克風訊號和回聲提取的特徵輸入到BLSTM中。將估計的掩膜與麥克風訊號的譜圖逐點相乘，得到近端訊號的估計譜圖。最後，利用短時間傅立葉反變換(ISTFT)將傳聲器訊號的相位與估計的幅度譜圖重新合成$s(n)$。

2.2 特徵提取

　　首先將輸入訊號$y(n)$和$x(n)$以16khz取樣，以20ms幀長（320取樣點），10ms幀移進行分幀。然後將320點短時傅立葉變換(STFT)應用於輸入訊號的每個時間幀，結果產生161個frequency bins。最後，對幅度響應進行對數運算，得到了對數幅度譜特徵[20]。該方法將麥克風訊號和遠端訊號的特徵串聯在一起作為輸入特徵。因此，輸入的維數是161*2 = 322。

2.3 訓練目標

　　我們使用理想比值掩膜（IRM）作為訓練目標。IRM定義為：

$$公式2：\operatorname{IRM}(m, c)=\sqrt{\frac{S^{2}(m, c)}{S^{2}(m, c)+D^{2}(m, c)+V^{2}(m, c)}}$$

其中，$S^2(·)、D^2(·)、V^2(·)$表示T-F單元內近端訊號、聲學回聲和背景噪聲在m時刻和c頻率的能量。

2.4 學習機器

　　本文采用的BLSTM結構如圖2所示。一個BLSTM包含兩個單向LSTM，一個LSTM對訊號進行正向處理，另一個lstm對訊號進行反向處理。採用全連線層進行特徵提取。BLSTM有4個隱藏層，每層有300個單位。輸出層是一個全連線的層。由於IRM的取值範圍為[0,1]，所以我們使用sigmoid函式作為輸出層的啟用函式。採用Adam優化器[21]和均方誤差(MSE)代價函式對LSTM進行訓練。學習速率設定為0.0003。訓練epoch設定為30。

3 實驗結果

3.1 效能度量

　　本文采用兩種效能指標來比較系統的效能：單端通話時期(無近端訊號週期)的回波損耗增強(ERLE)和雙端通話時期的語音質量感知評價(PESQ)。

ERLE[3]用於評估系統實現的回波衰減，定義為

$$公式3：\mathrm{ERLE}=10 \log _{10}\left\{\frac{\mathcal{E}\left[y^{2}(n)\right]}{\mathcal{E}\left[\hat{s}^{2}(n)\right]}\right\}$$

其中$\varepsilon $是統計期望操作。

　　PESQ與主觀得分[22]高度相關。它是通過將估計的近端語音s(n)與原始語音s(n)進行比較得到的。PESQ評分範圍為0.5 ~ 4.5。分數越高質量越好。

　　在接下來的實驗中，對訊號處理約3秒後，即穩態結果，對傳統AEC方法的效能進行測量。

3.2 實驗設定

　　TIMIT資料集[23]在文獻[24][5]中被廣泛用於評價AEC效能。我們從TIMIT資料集的630個說話人中隨機選擇100對說話人作為近端和遠端說話人(40對男性-女性，30對男性-男性，30對女性-女性)。每個說話人有10個以16khz取樣的語音。隨機選擇同一遠端說話人的三種發音，並將其串聯起來形成遠端訊號。然後，通過在前端和後端填充零，將近端說話人的每個語音擴充套件到與遠端訊號相同的大小。稍後將在圖3中顯示如何生成混合的示例。這些說話人的七個語音被用來生成混合語音，每個近端訊號都與五個不同的遠端訊號混合。因此，我們總共有3500種訓練混合語音。其餘的三種語音用於生成300種測試混合語音，其中每個近端訊號與一個遠端訊號混合。為了研究該方法的泛化效果，我們從TIMIT資料集中的其餘430位說話人中隨機選擇了另外10對說話人（4對男女，3對男女，3對男女），並生成了100個未經訓練的說話人測試混合語音。

圖3：3.5 dB SER和10 dB SNR的波形和頻譜圖。（a）麥克風訊號，（b）回聲訊號，（c）近端語音，（d）BLSTM估計的近端語音。

　　使用image方法[25]，在混響(reverberation)時間（T60）為 0.2 s 時產生室內脈衝響應。RIR的長度設定為512。模擬室尺寸為（4,4,3）m，麥克風固定在（2,2,1.5）m處，揚聲器隨機放置在7處，距離麥克風1.5 m。因此，生成7個不同位置的RIRs，其中前6個RIRs用於生成訓練混合語音，最後一個RIRs用於生成測試混合語音。

3.3 雙方通話情況下的表現

　　首先，我們評估了該方法在雙端通話的情況下，並與傳統的NLMS演算法進行了比較。每個訓練混合語音$x(n)$與從6個RIR中隨機選擇的RIR卷積以產生回波訊號$d(n)$。然後從{6，3，0，3，6}dB中隨機選擇signal-to-echo ratio (SER)將$d(n)$與$s(n)$混合。這裡的SER level是在雙音週期上評估的。定義為

$$公式4：\mathrm{SER}=10 \log _{10}\left\{\frac{\mathcal{E}\left[s^{2}(n)\right]}{\mathcal{E}\left[d^{2}(n)\right]}\right\}$$

　　由於回波路徑是固定的，並且沒有背景噪聲或非線性失真，因此在這種情況下，結合Geigel DTD [4]的著名NLMS演算法可以很好地工作。 NLMS的過濾器大小設定為512，與模擬RIR的長度相同。 NLMS演算法[1]的步長和正則化因子分別設定為0.2和0.06。 Geigel DTD的閾值設定為2。

　　表1顯示了這兩種方法在不同SER條件下的平均ERLE和PESQ值，其中，將麥克風訊號$y(n)$與麥克風中的近端語音$s(n)$進行比較，得出None（或未處理的結果）的結果。雙端通話時段。下表中的結果表明NLMS和BLSTM方法都能夠消除聲波回波。基於BLSTM的方法在ERLE方面優於NLMS，而NLMS的PESQ則優於BLSTM。

表1：雙端通話情況下的平均ERLE和PESQ值

表2：SNR為10 dB的雙向通話和背景噪聲情況下的平均ERLE和PESQ值

3.4 在雙向通話和背景噪音情況下的效能

　　第二個實驗研究了雙端對話和背景噪聲的情景。由於單獨使用Geigel-DTD的NLMS無法處理背景噪聲，因此採用基於頻域後置濾波的AEC方法[7]來抑制AEC輸出的背景噪聲。

　　同樣，每個訓練混合物都是在SER水平上從{6,3,0,3,6}dB中隨機選擇的。將白噪聲以從{8、10、12、14} dB中隨機選擇的SNR級別新增到麥克風訊號。這裡的訊雜比水平是根據雙端通話週期來評估的，定義為

$$公式5：\mathrm{SNR}=10 \log _{10}\left\{\frac{\mathcal{E}\left[s^{2}(n)\right]}{\mathcal{E}\left[v^{2}(n)\right]}\right\}$$

　　表2顯示了NLMS，配備了後置濾波器的NLMS和基於BLSTM的方法在10 dB SNR級別的不同SER條件下的平均ERLE和PESQ值，如表2所示。在NLMS + 後置濾波情況下，NLMS演算法的濾波器大小、步長和正則化因子分別設定為512、0.02和0.06。 Geigel DTD的閾值設定為2。後置濾波器的兩個遺忘因子設定為0.99。從表中可以看出，與未處理的結果相比，所有這些方法在PESQ方面均顯示出改進。在所有條件下，BLSTM均優於其他兩種方法。另外，通過比較表1和表2，我們發現將背景噪聲新增到麥克風訊號會嚴重影響NLMS的效能。在這種情況下，後置過濾器可以提高NLMS的效能。

3.5 在雙端通話、背景噪聲和非線性失真情況下的效能

　　第三個實驗評估了基於BLSTM的方法在通話雙方，背景噪聲和非線性失真情況下的效能。通過以下兩個步驟處理遠端訊號，以模擬功率放大器和揚聲器引入的非線性失真。

首先，將clip [26]應用於遠端訊號，以模擬功率放大器的特性

$$公式6：x_{\text {hard }}(n)=\left\{\begin{array}{cc}
-x_{\max } & x(n)<-x_{\max } \\
x(n) & |x(n)| \leq x_{\max } \\
x_{\max } & x(n)>x_{\max }
\end{array}\right.$$

其中$x_{max}$設定為輸入訊號最大音量的80％。

　　然後應用無記憶的sigmoidal函式[27]來模擬揚聲器的非線性特性：

$$公式7：x_{\mathrm{NL}}(n)=\gamma\left(\frac{2}{1+\exp (-a \cdot b(n))}-1\right)$$

其中

$$公式8：b(n)=1.5 \times x_{\mathrm{hard}}(n)-0.3 \times x_{\mathrm{hard}}^{2}(n)$$

將Sigmoid增益設定為4。如果$b(n)> 0$，則將 sigmoid 斜率$a$設定為4，否則將其設定為0.5。

　　對於每種訓練混合物，對x（n）進行處理以獲得xNL（n），然後將此非線性處理的遠端訊號與從6個RIR中隨機選擇的RIR卷積，以生成回波訊號d（n）。 SER設定為3.5 dB，白噪聲以10 dB SNR的水平新增到混合物中。

　　圖3說明了使用基於BLSTM的方法的回聲消除示例。可以看出，基於BLSTM的方法的輸出類似於乾淨的近端訊號，這表明該方法可以很好地保留近端訊號，同時抑制背景噪聲和非線性失真的回聲。

　　我們將提出的BLSTM方法與基於DNN的殘餘回聲抑制（RES）進行了比較[11]，結果如表3所示。在我們實現AES + DNN的過程中，AES和DNN的引數設定為[ 11]。 SNR = 1的情況，這是在[11]中評估的情況，表明基於DNN的RES可以處理回波的非線性分量並提高AES的效能。當涉及到背景噪聲的情況時，將基於DNN的RES新增到AES在PESQ值方面顯示出較小的改進。僅基於BLSTM的方法就勝過AES + DNN.ERLE方面提高了約5.4 dB，PESQ方面提高了0.5 dB。如果我們遵循[11]中提出的方法，並將AES作為前處理器新增到BLSTM系統中，即AES + BLSTM，則可以進一步提高效能。此外，從表3中可以看出，所提出的BLSTM方法可以推廣到未經訓練的說話者。

表3：在3.5 dB SER的雙向通話，背景噪聲和非線性失真情況下的平均ERLE和PESQ值，SNR = $\infty $表示無背景噪聲

4 總結

　　提出了一種基於BLSTM的有監督聲回聲消除方法，以解決雙向通話，背景噪聲和非線性失真的情況。所提出的方法顯示了其消除聲學回聲並將其推廣到未經訓練的揚聲器的能力。未來的工作將將該方法用於解決其他AEC問題，例如多通道通訊。

6 參考文獻

[1] J. Benesty, T. G ansler, D. R. Morgan, M. M. Sondhi, S. L. Gay et al., Advances in network and acoustic echo cancellation. Springer, 2001.
[2] J. Benesty, C. Paleologu, T. G ansler, and S. Ciochin a, A perspective on stereophonic acoustic echo cancellation. Springer Science & Business Media, 2011, vol. 4.
[3] G. Enzner, H. Buchner, A. Favrot, and F. Kuech, Acoustic echo control, in Academic Press Library in Signal Processing. Elsevier, 2014, vol. 4, pp. 807 877. [4] D. Duttweiler, A twelve-channel digital echo canceler, IEEE Transactions on Communications, vol. 26, no. 5, pp. 647 653, 1978. [5] M. Hamidia and A. Amrouche, A new robust double-talk detector based on the stockwell transform for acoustic echo cancellation, Digital Signal Processing, vol. 60, pp. 99 112, 2017. [6] V. Turbin, A. Gilloire, and P. Scalart, Comparison of three post-filtering algorithms for residual acoustic echo reduction, in Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on, vol. 1. IEEE, 1997, pp. 307 310.
[7] F. Ykhlef and H. Ykhlef, A post-filter for acoustic echo cancellation in frequency domain, in Complex Systems (WCCS), 2014 Second World Conference on. IEEE, 2014, pp. 446 450.
[8] F. Kuech and W. Kellermann, Nonlinear residual echo suppression using a power filter model of the acoustic echo path, in Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on, vol. 1. IEEE, 2007, pp. 73 76.
[9] A. Schwarz, C. Hofmann, and W. Kellermann, Spectral featurebased nonlinear residual echo suppression, in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on. IEEE, 2013, pp. 1 4.
[10] J. Malek and Z. Koldovsk`y, Hammerstein model-based nonlinear echo cancellation using a cascade of neural network and adaptive linear filter, in Acoustic Signal Enhancement (IWAENC), 2016 IEEE International Workshop on. IEEE, 2016, pp. 1 5.
[11] C. M. Lee, J. W. Shin, and N. S. Kim, Dnn-based residual echo suppression, in Sixteenth Annual Conference of the International Speech Communication Association, 2015. [12] F. Yang, M. Wu, and J. Yang, Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain, IEEE Signal Processing Letters, vol. 19, no. 4, pp. 227 230, 2012.
[13] J. M. Portillo, Deep Learning applied to Acoustic Echo Cancellation, Master s thesis, Aalborg University, 2017.
[14] D. L. Wang and J. Chen, Supervised speech separation based on deep learning: an overview, arXiv preprint arXiv:1708.07524, 2017.
[15] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 22, no. 12, pp. 1849 1858, 2014. [16] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.
[17] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015, pp. 708 712.
[18] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr, in International Conference on Latent Variable Analysis and Signal Separation. Springer, 2015, pp. 91 99.
[19] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.
[20] M. Delfarah and D. L. Wang, Features for maskingbased monaural speech separation in reverberant conditions, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 5, pp. 1085 1094, 2017.
[21] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.
[22] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, in Acoustics, Speech, and Signal Processing, 2001. Proceedings.( ICASSP 01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 749 752.
[23] L. F. Lamel, R. H. Kassel, and S. Seneff, Speech database development: Design and analysis of the acoustic-phonetic corpus, in Speech Input/Output Assessment and Speech Databases, 1989.
[24] T. S. Wada, B.-H. Juang, and R. A. Sukkar, Measurement of the effects of nonlinearities on the network-based linear acoustic echo cancellation, in Signal Processing Conference, 2006 14th European. IEEE, 2006, pp. 1 5.
[25] J. B. Allen and D. A. Berkley, Image method for efficiently simulating small-room acoustics, The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943 950, 1979.
[26] S. Malik and G. Enzner, State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation, IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7, pp. 2065 2079, 2012.
[27] D. Comminiello, M. Scarpiniti, L. A. Azpicueta-Ruiz, J. Arenas- Garcia, and A. Uncini, Functional link adaptive filters for nonlinear acoustic echo cancellation, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1502 1512, 2013.

論文翻譯：2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

摘要