論文地址：https://ieeexploreieee.53yu.com/abstract/document/9414715

Netshell 中的 AEC：關於 FCRN 聲學回聲消除的目標和拓撲選擇

摘要：

　　聲學回聲消除(AEC)演算法在訊號處理中具有長期穩定的作用，其方法可以改善諸如汽車擴音系統、智慧家居和揚聲器裝置或網路會議系統等應用的效能。就在最近，第一個基於深度神經網路(DNN)的方法被提出，採用DNN聯合進行AEC和殘餘回聲抑制(RES)/噪聲降低，在回聲抑制效能方面有顯著改善。另一方面，在DNN方法方面，降噪演算法已經得到了很多關注，其中全卷積迴圈網路(FCRN)結構是最先進的拓撲結構之一。然而，最近發表的聯合AEC/RES DNNs令人印象深刻的回聲消除效能，到目前為止，伴隨著不可否認的語音質量損害。在這項工作中，我們將解決這個問題，並顯著提高近端語音組成部分的質量。此外，據我們所知，我們首次提出了一種以回聲估計器形式存在的純DNN AEC，它基於競爭性FCRN結構，並提供了對實際應用有用的質量。
關鍵字：聲學回聲消除，回聲抑制，卷積神經網路，ConvLSTM

1 引言

　　諸如汽車擴音系統、智慧家居和揚聲器裝置、網路會議系統等應用都面臨著類似的潛在挑戰:麥克風訊號接收了來自系統自身揚聲器的不想要的回聲部分。在過去的幾十年裡，AEC演算法在訊號處理中發揮了穩定的作用，這些演算法通常部署一個自適應濾波器來估計揚聲器-外殼-麥克風(LEM)系統的脈衝響應(IR)，然後估計回聲並且從麥克風訊號中減去回聲分量，得到一個廣泛的無回聲增強近端語音訊號。

　　傳統的AEC演算法[1,2,3]在訊號處理中有著長期的作用，隨著演算法的不斷髮展，由此產生了著名的演算法，如NLMS演算法[4]或卡爾曼濾波[5,6]，包括RES方法[7,8]。最近，神經網路——尤其是卷積神經網路——在一般的語音增強方面表現出了顯著的效能，例如Strake等人在降噪方面的工作。然而，迄今為止，AEC只看到了很少的資料驅動方法。最初，其中只有用於RES的網路[10,11]。

　　就在最近，Zhang等人[12,13]提出了一種完全學習的AEC，顯示了令人印象深刻的回聲消除效能。這些工作中一個有趣的方面是AEC問題的解決方式。將其作為訊號源分離方法，訓練網路直接輸出估計的增強訊號。

　　然而，AEC DNNs的困難在於，它們一直伴隨著不可否認的近端語音成分質量的損害。在這項工作中，我們將通過一系列實驗來研究這個問題，以顯示和揭示不同效能方面在回波抑制、降噪和近端語音質量方面的權衡。以完全卷積迴圈網路(FCRN)[9,14]及其已被證明的高保真自編碼語音的能力為基礎，我們將介紹幾種克服了早期問題的DNN AEC體系結構，從而顯著改進現有方法。我們將提供有用的見解網路設計選擇，給讀者在尚未廣泛探索的DNN AEC領域的指導。

　　本文的其餘部分結構如下:在第2節，系統概述，包括框架和一般網路拓撲結構。訓練和不同的實驗變體，包括新的網路拓撲選擇，將在第3節中描述。第4節給出了所有方法的實驗驗證和討論。第5節給出結論。

2 網路拓撲結構、模擬框架和資料

2.1 新型FCRN網路拓撲結構

　　與傳統的自適應濾波器不同的是，該演算法本身是由神經網路實現的。我們實驗的基礎是在[9]中提出的效能良好的全卷積迴圈網路(FCRN)編解碼器結構。然而，我們在網路拓撲中引入了重要的AEC細節。我們提出的網路在圖1的綠框中描述，作用於離散傅立葉變換(DFT)輸入\(X_{\ell}(k)\)與幀索引\(\ell\)和頻點\(k\)，幷包含一些新特性:最初只包含一個編碼器(即，在這裡，最有可能與麥克風訊號\(Y_{\ell}(k)\)執行早期融合和只跟隨各自的訊號路徑)，我們研究了一個並行第二編碼器(部分)，包括多達兩倍的卷積層，其次是使用步長2在特徵維度上進行最大池化。前兩個卷積層使用N×1大小的F卷積核(在特徵軸上卷積) ，而後兩個使用相同大小的2F filter核心。Leaky ReLU啟用[15]用於這些層。為便於閱讀，在每一層的輸入和輸出中都可以看到特徵維度，即特徵圖的feature axis×time axis×number。在推理過程中，網路隨後處理單個輸入幀，時間軸值設為1表示。

論文翻譯：2021_AEC IN A NETSHELL: ON TARGET AND TOPOLOGY CHOICES FOR FCRN ACOUSTIC ECHO CANCELLATION

圖1 具有跳躍連線、編碼器融合和訓練目標的各種選項的系統模型和網路。卷積層的引數是Conv(# filters, kernel dimensions)，最大池MaxPooling(pool dimensions)在特徵軸上，同樣用於上取樣。跳過連線變體(無，SkipA, SkipB)由具有相同命名的各自開始和結束位置表示。一次只涉及單個虛線路徑(- - -)，決定在編碼器中參考和麥克風訊號的早期、中期或晚期融合。訓練目標選項由開關位置soute(語音目標)或outd(回聲目標)表示。

　　在編碼器的瓶頸處，即特徵軸達到 \(M/4\)的最大壓縮時，放置一個卷積LSTM[16]，帶有大小為 \(N×1\)的F濾波器核心，使網路能夠建模時間上下文。解碼器被精確地設定為與編碼器的逆，然後是一個帶有線性啟用的最終卷積層，以產生維度\(M×1×C\)的最終輸出。為了提取圖1中給出的結構的輸入特徵和訓練目標，在取樣率為16kHz的情況下，使用了\(k = 512\)個樣本的幀長，幀移設定為256個樣本。利用平方根Hann窗和512點DFT，得到了復譜。分離為實部和虛部，並對高度\(M= 260\)的特徵圖進行零填充，這導致\(C=2\)個通道用於參考、麥克風和估計的回聲或(乾淨的)語音訊號。

2.2 模擬框架和資料

　　為了模擬圖1所示的聲學設定，我們採用了[13]中描述的程式，並進行了一些修改。因此，為了模擬典型的單和雙說話場景，使用TIMIT資料集[17]建立遠端語音\(x(n)\)和近端語音\(s(n)\)。背景噪聲\(n(n)\)取自QUT資料集[18]進行訓練和驗證，babble、白噪聲和操作室噪聲取自NOISEX-92資料集[19]作為測試集。噪聲n(n)與近端語音\(s(n)\)在麥克風上疊加，將揚聲器非線性[13]施加於遠端訊號\(x(n)\)，並將其與512樣本長度的脈衝響應(IRs)卷積，從而產生回波訊號\(d(n)\)。IRs使用影像方法[20]建立，混響時間\(T_{60} \in\{0.2,0.3,0.4\} \mathrm{s}\)用於訓練和驗證，測試混合物使用0.2s，從而跟隨[13]。由於篇幅的原因，這裡省略了帶有額外真實IRs的測試，因為[13]中令人印象深刻地顯示，顯然對於DNN AECs，真實和模擬IRs都獲得了可比較的結果。對於各種各樣的模擬，每個混合物的訊雜比(SER)在\(\{-6,-3,0,3,6, \infty\}\)dB之間隨機選擇，每個混合物的訊雜比(SNR)在\(\{8,10,12,14, \infty\}\)dB之間隨機選擇。注意，我們在SER和SNR值中包含了\(\infty\)dB，因為在實際應用中，網路也可以處理無回聲或噪聲的情況，這是絕對必要的。在我們的設定中，總共有3000個訓練、500個評估和280個測試混合，而後者與[13]不同，是由來自CSTR VCTK資料庫[21]的未見揚聲器組成，具有未見的語音、脈衝響應和噪聲序列。試驗混合料的SER和訊雜比分別設定為0db和10db。為了更深入地瞭解網路效能，我們額外評估測試檔案，但只包含回聲，或近端噪聲或近端語音。

3 實驗變數和訓練

3.1 訓練目標變數

　　我們調查的一個主要問題是相當重要的，涉及到訓練目標的選擇。這裡，[13]與AEC的傳統概念不同，在AEC中產生一個估計的回波\(\hat{d}(n)\)，然後從麥克風訊號中減去這個回波，(理想情況下)得到一個無回波增強訊號\(e(n)\)。然而，在[12,13]中，回波問題是通過訓練直接輸出估計的增強訊號\(E_{\ell}(k)\)的源分離方法來解決的，從而使迴歸訓練目標\(\bar{E}_{\ell}(k)\)在DFT域中有兩種有意義的可能性:復值目標可以選擇\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)(即，只由網路執行回聲抵消)，或只\(\bar{E}_{\ell}(k)=S_{\ell}(k)\)(即，執行回波和噪聲消除)。這就導致了上述目標中哪一個是最合適的，以及是否存在需要處理的折衷問題。

　　由圖1中的網路輸出開關表示，我們研究了在頻域(開關位置outE)中具有MSE損失\(J_{\ell}=\frac{1}{K} \sum_{k \in K}\left|E_{\ell}(k)-E_{\ell}(k)\right|^{2}\)的兩種不同變體的訓練目標，\(\hat{E}_{\ell}(k)\)為各自的網路輸出。作為第三種變體，MSE 損失\(J_{\ell}=\frac{1}{K} \sum_{k \in K}\left|\hat{D}_{\ell}(k)-\bar{D}_{\ell}(k)\right|^{2}\)是使用回聲分量訓練目標\(\bar{D}_{\ell}(k)=D_{\ell}(k)\)直接從麥克風訊號(開關位置outD)中減去後續的。

3.2 跳過連線變數

　　在整個工作過程中，我們將實驗從編碼器到解碼器的跳轉連線的不同位置。原始模型在紅色標記的點skipB1和點skipB2[9]之間有一個跳躍連線。以下，此設定將表示為SkipB。由於特徵圖的尺寸不同，第二種可能性是通過對稱的方式放置跳躍連線，即，一個在skipA1點之間，另一個在skipA2點之間。這個設定將被標記為SkipA。最後一種變數是根本不使用跳過連線，它將被表示為NoSkips(-)。

3.3 編碼器融合變數

　　傳統的AEC演算法以參考訊號作為輸入，用自適應濾波器複製IR訊號。麥克風訊號\(y(n)\)(更確切地說是基於其上的錯誤訊號)作為自適應濾波器的控制輸入。相比之下，對於[13]的網路，對於我們使用組合編碼器(早期融合)的網路，參考和麥克風訊號的特徵對映直接連線在網路輸入處，記為EarlyF。

　　然而，使用編碼器-解碼器結構的最初想法是允許網路對其輸入訊號進行預處理，並在整個編碼器中找到合適的表示，然後由其瓶頸層很好地處理。在這一點上，重要的是要注意沿頻率軸帶有\(N×1\)核的卷積層不能建模延遲，我們認為這對處理參考和麥克風訊號之間的時間移位至關重要。由於我們在瓶頸層的主要處理單元是一個卷積LSTM，它確實可以建模延遲，我們實驗了在編碼器的不同位置進行參考和麥克風訊號的融合。這將允許網路在一定程度上分別處理麥克風和參考訊號，然後將各自的特徵圖連線在一起，並在剩餘的網路中一起處理。

　　編碼器融合的兩種變體將被考慮:第一個是中間融合，在下面表示為MidF，其中只涉及各自的虛線訊號路徑。第二種變體複製整個編碼器，並在卷積LSTM的輸入處執行特徵對映連線。這裡，只使用最後一個各自的虛線訊號路徑。該方法在實驗中被稱為LateF。

　　如果結合跳躍連線進行中後期融合，則跳躍連線將從麥克風訊號路徑分支出來，如圖1所示。我們還考慮將它們的起始點放在參考訊號路徑中，但正如可以預期的那樣，這不會導致任何有意義的結果。當進行早期融合時，跳過連線從共同編碼器的各自位置分支出來。

3.4 訓練引數

　　使用Adam優化器[22]的標準引數對網路進行訓練。批量大小和序列長度分別設定為16和50。當初始學習率為0.00005時，如果損失在3個epoch內沒有改善，學習率乘以0.6。當學習率低於0.000005或損失在10個epoch內沒有改善時，訓練就停止。引數的數量隨編碼器融合位置而變化，EarlyF和MidF的引數分別為5.2M和5.6M, LateF的引數為7.1M。

4 結論與討論

　　表1-3顯示了我們提出的所有變數組合的實驗結果，使用三種方法對不同類別的效能進行評級:採用最近更新的寬頻PESQ MOS LQO[23,24]用於評估語音質量；採用[dB]中的dSNR 用於評估降噪；\(E R L E(n)=10 \cdot \log \left(d^{2}(n) /(d(n)-\hat{d}(n))^{2}\right)\)用於評估回聲抑制。最終的ERLE如[25]中那樣計算，對每個樣本分量\(d(n)\)和\(\hat{d}(n)\)進行使用帶有因子0.9996的一階IIR平滑法，並在整個檔案中取平均值。

　　每個表被分為兩個主要部分:當輸入檔案只包含echo (\(d(n)\)，用ERLE評定)，或近端噪聲(\(n(n)\)，用dSNR評定)或近端語音(\(s(n)\)，用PESQ評定)時，最右邊的三列提供網路效能。這些結果使我們能夠深入瞭解每個網路模型:如果沒有其他訊號存在，它如何處理回聲或近端噪聲?最重要的是:模型能“簡單地”通過清晰的近端語音嗎?

　　四個中心列提供了正常的前面描述的測試集的結果，即，全混合輸入訊號。這裡,PESQ MOS的全面評估輸出訊號,和所謂的黑盒方法根據ITU-T建議P .1110 [26, sec. 8]和[27 28 29]用於獲得增強訊號的處理分量\(e(n)=\tilde{d}(n)+\tilde{n}(n)+\tilde{s}(n)\),從而使計算ERLE dSNR,屬於\(\tilde{d}(n), \tilde{n}(n)\), 和 \(\tilde{s}(n)\)。這些措施用索引BB(黑匣子)進行了標記。

　　為了更好地評價結果，我們還提供了一種傳統的AEC演算法的效能，即眾所周知的變對角狀態空間頻域自適應卡爾曼濾波器，包括其殘餘回波抑制後濾波器[5,30,31,32]，作為參考點。

表1 實驗結果:所有具有清晰語音訓練目標OutE: \(\bar{E}_{\ell}(k)=S_{\ell}(k)\)[13]的模型的ERLE和deltaSNR為[dB]，以及PESQ MOS LQO。為了更深入地瞭解，右邊的三列顯示了麥克風前只有一個元件時各自的效能。每項測量的最佳結果用粗體標出，次最佳結果用下劃線標出。

表2 所有模型的實驗結果如表1所示，但帶有噪聲的語音訓練目標outE：\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)。每項測量的最佳結果用粗體標出，次最佳結果用下劃線標出。最佳模型EarlyF/A的額外結果，從[9]分離隨後的噪聲降低，在本工作的資料(EarlyF/A+)上重新訓練。

表3 所有模型的實驗結果如表2所示，但有回波訓練目標OutD: \(\bar{D}_{\ell}(k)=D_{\ell}(k)\)，隨後從麥克風訊號中減去。每項測量的最佳結果用粗體標出，次最佳結果用下劃線標出。最佳模型LateF/A的附加結果，從[9]中分離隨後的噪聲降低，在本工作的資料(LateF/A+)上進行再訓練。

　　表1顯示了所有具有清晰語音訓練目標的模型的結果: \(\bar{E}_{\ell}(k)=S_{\ell}(k)\)。無跳躍連線的模型在麥克風上只有相應的部件時，其回聲和噪聲抑制效能最高可達21.33 db ERLE和33.62 db dSNR。對於該目標選擇，編碼器融合位置沒有明顯的偏好，但早期融合模型earlyf /- 顯示了最佳的整體權衡結果;注意Zhang等[12,13]也使用清晰的語音目標進行早期融合。然而，乾淨語音目標較強的抑制效能是有代價的:當PESQ值不超過3.65 mos時，沒有一個模型能夠通過乾淨語音。這一點也可以在完整的混合結果中看到，特別是與卡爾曼濾波器參考的完美近端語音成分評分pesqbb相比。

　　表2中噪聲語音目標選擇outE：\(\bar{E}_{\ell}(k)=S_{\ell}(k)+N_{\ell}(k)\)，當麥克風前只有各自的分量時，PESQ分數略有提高，而回聲抑制效能略有下降。可以看出，跳過連線對於通過清晰的語音非常有幫助，考慮到近端語音質量，這些目標的最佳總體權衡設計是早期融合模型earlyf /A。然而，完全混合的PESQ分數仍然可以與表1中的分數相媲美。結果的多樣性再次表明，為了在抑制效能和近端語音質量之間找到一個好的折衷，設計選擇是多麼重要。

　　最後，我們新提出的回聲訓練目標OutD: \(\bar{D}_{\ell}(k)=D_{\ell}(k)\)的結果以及隨後從麥克風訊號中減去的結果如表3所示。後來的融合位置證明非常有益，並導致這些目標的最佳模型ellatef / a。與前面的表相比，該模型不僅實現了高的回波抑制，同時保持了最佳的近端語音質量。雖然這個特定的模型也優於表2中的最佳權衡模型，但所有模型的混合PESQ分數(最左邊一列)顯然高於所有其他目標選擇。

　　對於表2和表3中的兩個最佳權衡模型，我們考慮在AEC之後對輸出訊號\(e(n)\)執行後續的單獨降噪[9]作為後處理器，對該工作的資料(symbol +)進行訓練。結果顯示在表格的底部。正如預期的那樣，它們顯示了改進的噪聲和殘餘回波抑制，但有趣的是，再次顯示了近端語音的退化——而只有我們提出的latef /ADNN回波目標AEC能夠保持近端語音質量。

5 結論

　　我們提出了一個更深入的研究聲回波消除與全卷積神經網路。以及一種新的以回聲估計器的形式提出的網路結構，該結構比現有方法提供了顯著改善的近端語音質量(模型:LateF/A DNN，回波目標，表3)，我們揭示了不同效能方面在回波抑制、降噪和近端語音質量方面的權衡，從而為尚未廣泛探索的DNN AEC領域的關鍵設計選擇提供指導。

6 參考文獻

[1] E. Hansler and G. Schmidt, ¨ Acoustic Echo and Noise Control: A Practical Approach, Wiley-Interscience, Hoboken, NJ, USA, 2004.
[2] J. Lee and C. Un, “Block Realization of Multirate Adaptive Digital Filters,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, no. 1, pp. 105–117, Feb. 1986.
[3] H. Shin, A. H. Sayed, and W. Song, “Variable Step-Size NLMS and Affine Projection Algorithms,” IEEE Signal Processing Letters, vol. 11, no. 2, pp. 132–135, Feb. 2004.
[4] K. Steinert, M. Schonle, C. Beaugeant, and T. Fingscheidt, ¨ “Hands-free System with Low-Delay Subband Acoustic Echo Control and Noise Reduction,” in Proc. of ICASSP, Las Vegas, NV, USA, Apr. 2008, pp. 1521–1524.
[5] G. Enzner and P. Vary, “Frequency-Domain Adaptive Kalman Filter for Acoustic Echo Control in Hands-Free Telephones,” Signal Processing (Elsevier), vol. 86, no. 6, pp. 1140–1156, June 2006.
[6] J. Franzen and T. Fingscheidt, “A Delay-Flexible Stereo Acoustic Echo Cancellation for DFT-Based In-Car Communication (ICC) Systems,” in Proc. of INTERSPEECH, Stockholm, Sweden, Aug. 2017, pp. 181–185.
[7] F. Kuech, E. Mabande, and G. Enzner, “State-Space Architecture of the Partitioned-Block-Based Acoustic Echo Controller,” in Proc. of ICASSP, Florence, Italy, May 2014, pp. 1295–1299.
[8] J. Franzen and T. Fingscheidt, “An Efficient Residual Echo Suppression for Multi-Channel Acoustic Echo Cancellation Based on the Frequency-Domain Adaptive Kalman Filter,” in Proc. of ICASSP, Calgary, AB, Canada, Apr. 2018, pp. 226– 230.
[9] M. Strake, B. Defraene, K. Fluyt, W. Tirry, and T. Fingscheidt, “Fully Convolutional Recurrent Networks for Speech Enhancement,” in Proc. of ICASSP, Barcelona, Spain, May 2020, pp. 6674–6678.
[10] A. Schwarz, C. Hofmann, and W. Kellermann, “Spectral Feature-Based Nonlinear Residual Echo Suppression,” in Proc. of WASPAA, New Paltz, NY, USA, Oct. 2013, pp. 1–4.
[11] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Multiple- ´ Input Neural Network-Based Residual Echo Suppression,” in Proc. of ICASSP, Calgary, AB, Canada, Apr. 2018, pp. 231– 235.
[12] H. Zhang and D.L. Wang, “Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios,” in Proc. of INTERSPEECH, Hyderabad, India, Sept. 2018, pp. 3239– 3243.
[13] H. Zhang, K. Tan, and D.L. Wang, “Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear Distortions,” in Proc. of INTERSPEECH, Graz, Austria, Sept. 2019, pp. 4255–4259.
[14] Z. Zhao, H. Liu, and T. Fingscheidt, “Convolutional Neural Networks to Enhance Coded Speech,” IEEE/ACM Trans. on Audio, Speech, and Language Processing, vol. 27, no. 4, pp. 663–678, Apr. 2019.
[15] A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier Nonlinearities Improve Neural Network Acoustic Models,” in Proc. of ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, Atlanta, GA, USA, June 2013, pp. 1–6.
[16] X. Shi, Z. Chen, H. Wang, D.-Y. Yeung, W. Wong, and W. Woo, “Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting,” in Proc. of NIPS, Montreal, QC, Canada, Dec. 2015, pp. 802–810.
[17] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, “TIMIT Acoustic-Phonetic Continous Speech Corpus,” Linguistic Data Consortium, Philadelphia, PA, USA, 1993.
[18] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, “The QUT-NOISE-TIMIT Corpus for the Evaluation of Voice Activity Detection Algorithms,” in Proc. of INTERSPEECH, Makuhari, Japan, Sept. 2010, p. 3110–3113.
[19] A. Varga and H. J. Steeneken, “Assessment for Automatic Speech Recognition: II. NOISEX-92: A Database and an Experiment to Study the Effect of Additive Noise on Speech Recognition Systems,” Speech Communication, vol. 12, no. 3, pp. 247–251, 1993.
[20] J. B. Allen and D. A. Berkley, “Image Method for Efficiently Simulating Small-Room Acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[21] J. Yamagishi, C. Veaux, and K. MacDonald, “CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit,” University of Edinburgh. The Centre for Speech Technology Research, 2017.
[22] D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” in Proc. of ICLR, San Diego, CA, USA, May 2015, pp. 1–15.
[23] “ITU-T Recommendation P.862.2, Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” ITU, Nov. 2007.
[24] “ITU-T Recommendation P.862.2 Corrigendum 1, Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” ITU, Oct. 2017.
[25] M.-A. Jung and T. Fingscheidt, “A Shadow Filter Approach to a Wideband FDAF-Based Automotive Handsfree System,” in 5th Biennial Workshop on DSP for In-Vehicle Systems, Kiel, Germany, Sept. 2011, pp. 60–67.
[26] “ITU-T Recommendation P.1110, Wideband Hands-Free Communication in Motor Vehicles,” ITU, Mar. 2017.
[27] T. Fingscheidt and S. Suhadi, “Quality Assessment of Speech Enhancement Systems by Separation of Enhanced Speech, Noise, and Echo,” in Proc. of INTERSPEECH, Antwerp, Belgium, Aug. 2007, pp. 818–821.
[28] T. Fingscheidt, S. Suhadi, and K. Steinert, “Towards Objective Quality Assessment of Speech Enhancement Systems in a Black Box Approach,” in Proc. of ICASSP, Las Vegas, NV, USA, Apr. 2008, pp. 273–276.
[29] K. Steinert, S. Suhadi, T. Fingscheidt, and M. Schonle, “Instru- ¨ mental Speech Distortion Assessment of Black Box Speech Enhancement Systems,” in Proc. of IWAENC, Seattle, WA, USA, Sept. 2008, pp. 1–4.
[30] S. Malik and J. Benesty, “Variationally Diagonalized Multichannel State-Space Frequency-Domain Adaptive Filtering for Acoustic Echo Cancellation,” in Proc. of ICASSP, Vancouver,BC, Canada, May 2013, pp. 595–599.
[31] M. A. Jung, S. Elshamy, and T. Fingscheidt, “An Automotive Wideband Stereo Acoustic Echo Canceler Using Frequency-Domain Adaptive Filtering,” in Proc. of EUSIPCO, Lisbon,Portugal, Sept. 2014, pp. 1452–1456.
[32] J. Franzen and T. Fingscheidt, “In Car Communication: From Single- to Four-Channel with the Frequency Domain Adaptive Kalman Filter,” in Vehicles, Drivers, and Safety, John H. L.Hansen et al., Eds., pp. 213–227. Walter de Gruyter GmbH Berlin/Boston, 2020.

論文翻譯：2021_AEC IN A NETSHELL: ON TARGET AND TOPOLOGY CHOICES FOR FCRN ACOUSTIC ECHO CANCELLATION