論文翻譯:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

微笑9349426發表於2022-01-01

論文地址:https://ieeexplore.ieee.org/abstract/document/9413510

基於雙訊號變換LSTM網路的回聲消除

摘要

  本文將雙訊號變換LSTM網路(DTLN)應用於實時聲學回聲消除(AEC)任務中。DTLN結合了短時傅立葉變換和堆疊網路方法中的學習特徵表示,這使得在時頻和時域(也包括相位資訊)中能夠進行魯棒的資訊處理。該模型僅在真實和合成回聲場景下訓練60小時。訓練設定包括多語言語音、資料增強、附加噪音和混響,以建立一個可以很好地適用於各種現實環境的模型。DTLN方法可在乾淨和嘈雜的回聲條件下產生最先進的效能,從而有效地減少了回聲和額外的噪聲。在平均意見得分(MOS)方面,該方法比AEC挑戰基準高出0.30。

關鍵字:AEC,實時,深度學習,音訊,語音通訊

1 引言

  在音訊/視訊通話中,如果揚聲器的聲音由近端揚聲器播放,並被近端麥克風接收,就會出現聲學回聲。聽到自己聲音的回聲的結果是非常惱人的,加大聆聽力度是語音研究中的緊迫話題,尤其是對於遠端情景而言,可靠的通訊解決方案越來越重要。消除回聲的一個標準方法是估計從揚聲器到麥克風的脈衝響應,通過一個自適應濾波器,如歸一化最小均方(NLMS)[1],並用估計的脈衝響應濾波遠端訊號。從近端傳聲器訊號中減去這個估計訊號。這種方法在只有遠端訊號存在且麥克風沒有錄下近端語音的情況下工作得最好。在遠端和近端語音的情況下,也稱為雙說話場景,濾波器將不能正確適應或發散[2]。在這種情況下,雙說話檢測器經常被用來暫停適應。

  近年來,深度學習和神經網路已被應用於聲學回聲消除,並取得了令人信服的結果[3,4,5,6]。有幾種方法將神經網路和自適應濾波器結合在混合系統中[4,5,6]。從深度學習的角度來看,AEC任務可以看作是一個語音或音訊源分離問題[3]。近年來,語音分離領域取得了快速的發展[7,8,9]。但是,說話人分離的模型通常專注於序列處理而不是因果實時處理。由於不希望有高延遲,並且會增加語音通訊的工作量,因此需要能夠在幀基礎上進行實時處理的系統。諸如門控迴圈單元(GRU)[10]或長期短期記憶(LSTM)[11]網路之類的迴圈神經網路(RNN)通常用於具有實時功能的模型。由於LSTM和GRU具有門和狀態的信元結構,因此可以根據語音訊號的要求,在幀的基礎上對時間序列進行建模。在[3,4,5]中,已經將RNN應用於AEC問題。Interspeech 2020 [12]的深度噪聲抑制挑戰表明,各種架構都可以應用於實時訊號增強[13,14,15]。為了解決AEC作為類似主題的問題,提出了AEC挑戰[16],其目的是基於ITU P.808框架[17]提供一套通用的訓練資料和客觀評估,以比較各種方法。

  在本文中,雙訊號變換LSTM網路[15]適用於實時回聲消除(DTLN-AEC)。原始的DTLN模型在消聲,混響和實時測試集的實時場景中顯示出了降低噪聲的有益和魯棒性[15]。它在堆疊網路方法中將短時傅立葉變換(STFT)與基於1D-Conv層的學習型特徵表示相結合。該模型基於時頻(TF)域和學習的特徵域中的比率掩蔽(ratio masking)。由於這種設計選擇,它可以利用STFT大小和學習到的特徵表示的資訊。由於尚不清楚這種方法是否有利於AEC,我們在此背景下應用該模型,旨在構建一個直接的基於RNN的端到端AEC系統,該系統可以很容易地整合到常見的訊號處理鏈中。對於這個新的應用程式,通過將遠端訊號作為附加資訊提供給每個模型塊來擴充套件原始模型。這種擴充套件類似於[3]中所追求的過程,重要的區別是我們使用的是因果LSTM而不是因果BLSTM。最近的出版物表明,精心選擇的訓練設定和資料增強[18,19]對於實現語音增強的高質量語音至關重要。因此,本研究的第二個目標是通過廣泛的資料增強來覆蓋混響和多語言語音,從而提高AEC的魯棒性。

2 方法

2.1 問題公式化

  對於回聲消除系統,通常有兩個輸入訊號,麥克風訊號y(n)和遠端麥克風訊號x(n)。近端麥克風訊號可以描述為以下訊號的組合:

\[y(n)=s(n)+v(n)+d(n)  (1) \]

其中s(n)為近端語音訊號,v(n)為可能的近端噪聲訊號,d(n)對應的回聲訊號是遠端麥克風訊號x(n)與傳輸路徑h(n)的脈衝響應的卷積。傳輸路徑是音訊裝置的緩衝所產生的系統延遲、揚聲器的特性與放大器的結合以及近端揚聲器與近端傳聲器之間的傳遞函式的組合。聲回聲場景如圖1所示。所需要的訊號是近端語音訊號s(n),其他訊號部分都應去掉。此任務為音訊源分離任務。如果只有遠端訊號和噪聲訊號存在,那麼需要的訊號是無聲的。

論文翻譯:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

圖1 帶有附加噪聲的回聲情況的圖示

2.2 適於AEC的DTLN模型

  在Interspeech 2020[12]的DNS挑戰背景下,開發了雙訊號變換LSTM網路(DTLN)[15],以減少嘈雜混合語音中的噪聲。DTLN方法適用於AEC任務(DTLN-AEC),如下所述。

  網路由兩個分離的核組成。每個分離核有兩個LSTM層和一個全連線層,使用sigmoid啟用來預測掩模。第一個分離核由近端傳聲器訊號和遠端傳聲器訊號的歸一化對數功率譜串聯饋電。每個麥克風訊號都通過即時層標準化(instant layer normalization,iLN)分別標準化,以解決電平變化問題。即時層標準化類似於標準層標準化[20],其中每一幀都被單獨標準化,但不會隨著時間累積統計資訊。這個概念是在[21]中作為通道層(channel-wise layer)規範化引入的。第一個核心預測了一個時頻掩模,該掩模應用於近端傳聲器訊號的非歸一化幅度STFT。利用原始近端傳聲器訊號的相位,用逆FFT將估計的幅度轉換回時域。

  第二個核心使用由1D - conv層建立的學習特徵表示。這種方法受到[9,22]的啟發。將先前預測的訊號的歸一化特徵表示和前邊傳聲器訊號的歸一化特徵表示饋入該核。為了將兩個訊號轉換到時域,應用了相同的權值,但是分別使用iLN進行歸一化以針對每個表示實現單獨的縮放和偏置。第二核的預測掩碼與第一個核輸出的未歸一化的特徵表示相乘。這個估計的特徵表示用一個1D - conv層轉換回時域。為了重建連續時間訊號,使用了重疊加過程。模型架構如圖2所示。

  對於回聲消除任務,選擇幀長為32 ms,幀移位為8 ms。FFT大小為512,學習到的特徵表示大小也是512。由於從語音中去除語音和噪聲是相當具有挑戰性的,因此與[15]中相當小的模型相比,我們選擇了每層512個LSTM單元。這導致當前模型總共有1030萬個引數。此外,我們還訓練了每層128和256個單元的模型,以探究模型效能是如何隨尺寸變化的。

論文翻譯:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

圖2 DTLN-AEC模型架構示意圖

左邊的處理鏈顯示利用STFT訊號變換

(用於近端和遠端麥克風訊號的分段和FFT分割) 的第一個分離核心;

右邊的構建塊代表具有學習功能轉換的第二個核心

基於1D-conv層應用於第一核心和分段遠端麥克風的輸出訊號。

2.3 資料集和資料集準備

  該挑戰提供了兩個訓練資料集,一個是合成資料,一個是真實記錄。合成資料集是從為[12]建立的資料集派生的。該資料集包括10,000個示例,包含單話音、雙話音、近端噪聲、遠端噪聲和各種非線性失真情況,其中每個示例包含遠端語音、回聲訊號、近端語音和近端麥克風訊號。前500個示例包含說話者的資料,這些資料不包含在任何其他測試資料集中。本資料集將用於儀器評估,稱為“雙語測試集”。更多細節,請參閱描述AEC挑戰[16]的論文。在訓練時,只使用遠端訊號和回聲訊號,並將其分割成4秒的大塊。真實資料集由不同的真實環境組成,其中包含人類說話人和用不同裝置捕獲的訊號。關於這一資料的詳細資訊在[16]中提供。與前面一樣,只有遠端訊號和回聲訊號在這個資料集中以4秒為單位使用。為了使用P.808框架進行評估,挑戰組織者提供了一個盲測試集。盲測集由大約800段錄音組成,這些錄音被分為一個乾淨的和有噪聲的子集。

  從[23]收集的多語言資料中選擇乾淨的語音作為近端訊號。該資料集包含法語、德語、義大利語、漢語、英語、俄語和西班牙語。在[23]中描述了原始資料的各種來源。德國的資料由於質量差而被排除在外。將語音訊號分割成持續時間為4s的樣本。RMS小於等於零的樣本將被丟棄,四捨五入誤差可能導致RMS小於零。作為排除噪聲訊號的附加機制,每個檔案都通過[15]中提出的語音增強模型進行處理,通過從噪聲訊號中減去估計的語音訊號來估計一個語音和一個噪聲訊號。當訊雜比低於5db時,語音檔案被丟棄。最後,從每種語言中提取20小時,建立一個120小時的多語言語音資料集。

  為了覆蓋回聲場景中具有高方差的噪聲型別,我們使用了[23]提供的噪聲語料庫。和之前一樣,噪聲檔案被切割成4秒的樣本,每個均方根值RMS小於或等於0的樣本都被丟棄。此外,還加入了來自MUSAN語料庫[24]的器樂(同樣經過4s分段)。這導致大約140小時的噪聲。

  最後,使用[25]收集的脈衝響應(IR)資料集,構建反映不同混響量影響的真實回聲場景。資料集包含來自各種源的真實脈衝響應,如[26,27,28],以及基於影像方法[29]的模擬脈衝響應。對於每個脈衝響應,直接路徑起點都已確定,並設定為位置0,正如[19]中建議的那樣。

預訓練模型DTLN-aec: https://github.com/breizhn/

2.4 訓練和資料增強

  所有訓練樣本在訓練過程中線上生成,不使用固定的近端語音、遠端語音、噪聲和IRs組合。總共使用了60小時的回聲場景,48小時用於訓練,剩餘的12小時用於訓練驗證。訓練時,使用挑戰賽組織者提供的所有遠端和回聲訊號(大約32小時的資料)。為了建立額外的回聲資料,使用了之前建立的多語言資料集中的28小時語音。每個語音檔案與隨機選擇的IR進行卷積,每個IR除以第一個樣本的絕對值。在下一步中,除第一個樣本外的所有樣本都乘以從-25到0之間的均勻分佈中隨機獲得的增益,以增加IRs。這個過程再次受到[19]的啟發。

  在50%的情況下,噪聲樣本中會新增一個從正態分佈中隨機抽取的SNR,其平均值為5 dB,標準偏差為10 dB,以解決嘈雜的遠端訊號。為了建立回聲訊號,先前建立的遠端訊號被延遲一個10到100毫秒之間的隨機值,以模擬處理和傳輸延遲。延遲訊號被一個帶通訊號濾波,這個帶通訊號隨機地具有較低的截止頻率 和較高的截止頻率 。這一步引入了額外的方差,並對裝置內揚聲器,特別是在低頻區域通常較差的聲傳輸特性進行了建模。最後,回波訊號以與近端訊號相同的IR進行卷積。由於原始質詢資料集已經涵蓋了此方面,因此不包括其他非線性。

  對於近端訊號,使用來自多語言資料集的60h。每個語音檔案由隨機選擇的IR訊號進行卷積,IR訊號按合成遠端訊號的比例進行隨機縮放。為了提高語音訊號的魯棒性,將[18]降噪建議的隨機譜整形方法應用於語音訊號,並對各種傳輸效果進行建模。

  在70%的情況下,噪聲被新增到近端語音,其訊雜比從均值為5和標準偏差為10的正態分佈中獲取,從而將焦點轉移到更具挑戰性的近端噪聲狀態。隨機頻譜整形也獨立應用於噪聲訊號。

  在5%的情況下,隨機持續時間的近端語音片段被丟棄,以考慮到只有遠端場景。在90%的情況下,回聲訊號被新增到近端語音,其語音-回聲比取自一個正態分佈,其均值為0dB,標準偏差為10dB。回聲訊號和遠端語音訊號都採用了隨機譜整形。如果沒有回聲,則將遠端訊號設定為零,或者設定為-70到-120dB RMS範圍內的低噪聲,並隨機進行頻譜整形。作為模型輸入的所有訊號都受到隨機增益的影響,增益從均勻分佈中選擇,範圍從-25到0dB。

  選取[30]中首次提出的時域訊雜比損失作為代價函式。訊雜比損失是尺度相關的,這對於實時應用是可取的,並且隱含地整合相位資訊,因為它是在時域計算的。使用Adam優化器[31]對模型進行100個epoch的訓練,初始學習率為2e-4對512個LSTM單元,5e-4對256個單元,1e-3對128個單元。學習速率每兩個epoch乘以0.98。應用值為3的梯度範數裁剪。批量設定為16個,樣本長度設定為4s。在連續LSTM層之間引入25%的dropout以減少過擬合。使用驗證集對模型的每個epoch進行評估,並使用驗證集上效能最好的模型進行測試。

2.5 基線系統

  挑戰賽組織者還提供了一個基於[32]的基線。基線包括兩個GRU層和一個完全連線的網路,通過sigmoid啟用來預測時頻掩模。該模型採用傳聲器和迴環訊號的串聯短時對數功率譜,預測了一種用於傳聲器訊號STFT幅度的譜抑制掩模。利用傳聲器訊號的相位,將預測的幅度譜用STFT逆變換回時域。由於基線模型在挑戰中無法訪問,一個額外的基線系統被訓練來量化堆疊網路的效能,與使用時頻遮蔽的連續LSTM層模型相比。該模型有四個連續的LSTM層,每個層有512個單元,然後是一個完全連線的部分,通過sigmoid啟用來預測TF-mask。模型的輸入等於DTLN-AEC模型的第一個分離核。掩模與近端傳聲器訊號的非規格化幅度相乘,然後轉換回時域。這種配置導致模型的引數為8.5M。該模型使用與DTLN-AEC模型相同的設定進行訓練。

2.6 客觀與主觀評價

  廣泛使用的PESQ[33]和ERLE[34]評價AEC系統的方法往往與主觀評級[16]相關性不強。然而,如果模型按預期執行,客觀的度量可以作為指示。因為用於儀器評估的資料集只包含雙對話場景,而且因為AEC問題被視為一個源分離問題,所以SI-SDR[35]被用來評估分離效能。此外,PESQ被用來表示語音質量。這些度量用於用於在雙向通話測試集上比較其他基準和大小不同的DTLN-aec模型。

  為了更好地瞭解AEC的真實表現,挑戰賽組織者在Amazon Mechanical Turk平臺上基於ITU P.808眾包框架[17]進行了一項研究。共有四種情況評估:單話近端(P.808),單話遠端(P.831[36]),雙話回聲(P.831)和雙話其他干擾(P.831)。有關評級過程的更多細節,請參閱[16]。

3 結果

  客觀評價和主觀評價結果分別見表1和表2。

表1 基於PESQ [MOS]和SI-SDR [dB]的雙通話測試集的淨噪聲遠端訊號、近端噪聲訊號和遠端和近端噪聲訊號子集的結果。

論文翻譯:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

表2 根據MOS對AEC-Challenge盲測集的主觀評分。對於無噪聲子集(ST =單端,DT =雙端,NE =近端,FE =遠端),置信區間為0.02。

論文翻譯:2020_ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

  客觀結果:對於所有的情況,所有的模型都比未處理的情況有改善。DTLN-aec的最大改進是512個單元,DTLN-aec的最小改進是128個單元。256個單元和512個單元的模型優於基線。在所有模型的所有噪聲條件下,PESQ和SI-SDR相對於未處理條件的改善相對穩定。對於512個單元的模型,在所有條件下SI-SDR的平均改善為14.24 dB, PESQ的平均改善為0.78 MOS。

  主觀結果: 在所有情況下,除了乾淨的單方通話近端情況外,DTLN-aec模型均優於AEC挑戰基線。對於乾淨子集和噪聲子集,MOS值的平均改善分別為0.34和0.26。

  執行時間的結果:為了遵守AEC 挑戰的規則,一個音訊幀的執行時間必須小於幀移,在我們的例子中是8毫秒。執行時間在兩個cpu上測量,使用DTLN-aec的TensorFlow lite模型,每層512個LSTM單元。我們測量的執行時間為3.06 ms(使用2.6 GHz CPU的雙核I5-3320M)和0.97 ms(使用3.5 GHz的I5-6600K四核CPU),兩者都符合aec挑戰規則。

4 討論

  當比較不同大小的模型時,DTLN-aec模型似乎可以很好地擴充套件引數的數量:128個單元的小模型在有噪聲的情況下已經達到了很好的改善,256個單元的模型在引數不到一半的情況下優於基線。這也顯示了使用堆疊模型與使用四個連續LSTM層的模型相比的優勢。對於AEC任務來說,使用具有更高建模能力的模型是一個優勢,因為它不僅可以將語音從噪聲中分離出來,還可以將語音從語音中分離出來,這可能是一個更具挑戰性的任務——特別是當聲音具有相似的特徵時。對於為特定硬體量身定製的應用程式,模型的大小可以根據計算資源和功耗等約束條件來選擇。

  包括四層基線在內的所有模型都顯示出對雙話測試集未處理訊號的持續改進。這表明訓練設定能夠代表四種測試的雙話條件的方差。在盲測試集上的結果也支援同樣的結論。該模型顯示,在所有包含回聲訊號或/和噪聲的條件下,aec挑戰基線都有改進。由於訓練集只包含英語語音樣本,所以我們的研究沒有評估多語言的泛化,這應該在以後的研究中解決。在純淨的ST-NE條件下的結果表明,基線和DTLN-aec模型對無噪聲和回聲的純淨近端語音影響相似,對最優訊號的不利影響非常有限。然而,在某些條件下,在收聽處理後的訊號時,仍然可以聽到一些殘餘噪聲。在未來對DTLN-aec模型的改進中,可以新增額外的降噪來進一步提高語音質量。為了減少僅在遠端條件下的殘留噪聲,可以增加語音活動檢測來檢測近端語音並在沒有近端語音的情況下對訊號進行門控。

5 結論

  研究表明,雙訊號變換LSTM網路(DTLN-aec)可以成功地應用於實時聲學回聲消除。DTLN-aec在aec挑戰的盲測試集和綜合雙語測試集上產生了最先進的效能,並在aec挑戰中名列前五名。該模型在公開可用的資料上進行了廣泛的資料增強訓練,從而為現實世界的應用產生了可重複和魯棒的模型。

6 參考文獻

[1] Gerald Enzner, Herbert Buchner, Alexis Favrot, and Fabian Kuech, “Chapter 30. acoustic echo control,” Academic Press Library in Signal Processing, vol. 4, 12 2014.
[2] Jacob Benesty, Tomas Gansler, Dennis R Morgan, M Mohan Sondhi, ¨ Steven L Gay, et al., Advances in network and acoustic echo cancellation, Springer, 2001.
[3] H. Zhang and D. Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” in INTERSPEECH, 2018.
[4] Amin Fazel, Mostafa El-Khamy, and Jungwon Lee, “Cad-aec: Context-aware deep acoustic echo cancellation,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6919–6923.
[5] Lu Ma, Hua Huang, Pei Zhao, and Tengrong Su, “Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network,” arXiv preprint arXiv:2005.09237, 2020.
[6] Guillaume Carbajal, Romain Serizel, Emmanuel Vincent, and Eric Humbert, “Joint nn-supported multichannel reduction of acoustic echo, reverberation and noise,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2158–2173, 2020.
[7] John R Hershey, Zhuo Chen, Jonathan Le Roux, and Shinji Watanabe, “Deep clustering: Discriminative embeddings for segmentation and separation,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 31–35.
[8] Morten Kolbæk, Dong Yu, Zheng-Hua Tan, and Jesper Jensen, “Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901– 1913, 2017.
[9] Yi Luo and Nima Mesgarani, “Tasnet: time-domain audio separation network for real-time, single-channel speech separation,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 696–700.
[10] Junyoung Chung, Caglar Gulcehre, Kyunghyun Cho, and Yoshua Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” in NIPS 2014 Workshop on Deep Learning, December 2014, 2014.
[11] Sepp Hochreiter and Jurgen Schmidhuber, “Long short-term memory,” ¨ Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[12] Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., “The interspeech 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,” arXiv preprint arXiv:2005.13981, 2020.
[13] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, “A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech,” arXiv preprint arXiv:2008.04259, 2020.
[14] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, “Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement,” arXiv preprint arXiv:2008.00264, 2020.
[15] Nils L Westhausen and Bernd T Meyer, “Dual-signal transformation lstm network for real-time noise suppression,” arXiv preprint arXiv:2005.07551, 2020.
[16] Kusha Sridhar, Ross Cutler, Ando Saabas, Tanel Parnamaa, Hannes Gamper, Sebastian Braun, Robert Aichner, and Sriram Srinivasan,“Icassp 2021 acoustic echo cancellation challenge: Datasets and testing framework,” arXiv preprint arXiv:2009.04972, 2020.
[17] Babak Naderi and Ross Cutler, “An open source implementation of itu-t recommendation p. 808 with validation,” arXiv preprint arXiv:2005.08138, 2020.
[18] Sebastian Braun and Ivan Tashev, “Data augmentation and loss normalization for deep noise suppression,” in International Conference on Speech and Computer. Springer, 2020, pp. 79–86.
[19] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, “Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss,” arXiv preprint arXiv:2008.04470,2020.
[20] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton, “Layer normalization,” arXiv preprint arXiv:1607.06450,2016.
[21] Yi Luo and Nima Mesgarani, “Conv-tasnet: Surpassing ideal timefrequency magnitude masking for speech separation,” arXiv preprint arXiv:1809.07454, 2018.
[22] Yi Luo and Nima Mesgarani, “Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation,” IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no.8, pp. 1256–1266, 2019.
[23] Chandan KA Reddy, Harishchandra Dubey, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, “Icassp 2021 deep noise suppression challenge,” arXiv preprint arXiv:2009.06122, 2020.
[24] David Snyder, Guoguo Chen, and Daniel Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.
[25] Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L Seltzer, and Sanjeev Khudanpur, “A study on data augmentation of reverberant speech for robust speech recognition,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 5220–5224.
[26] Keisuke Kinoshita, Marc Delcroix, Takuya Yoshioka, Tomohiro Nakatani, Emanuel Habets, Reinhold Haeb-Umbach, Volker Leutnant, Armin Sehr, Walter Kellermann, Roland Maas, et al., “The reverb challenge: A common evaluation framework for dereverberation and recognition of reverberant speech,” in 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. IEEE, 2013, pp. 1–4.
[27] Satoshi Nakamura, Kazuo Hiyane, Futoshi Asano, Takanobu Nishiura, and Takeshi Yamada, “Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition,” LREC, 2000.
[28] Marco Jeub, Magnus Schafer, and Peter Vary, “A binaural room impulse response database for the evaluation of dereverberation algorithms,” in 2009 16th International Conference on Digital Signal Processing. IEEE, 2009, pp. 1–5.
[29] Jont B Allen and David A Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[30] Ilya Kavalerov, Scott Wisdom, Hakan Erdogan, Brian Patton, Kevin Wilson, Jonathan Le Roux, and John R Hershey, “Universal sound separation,” in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 175–179.
[31] Diederik P. Kingma and Jimmy Ba, “Adam: A method for stochastic optimization,” CoRR, vol. abs/1412.6980, 2015.
[32] Yangyang Xia, Sebastian Braun, Chandan KA Reddy,Harishchandra Dubey, Ross Cutler, and Ivan Tashev “Weighted speech distortion losses for neural-network based real-time speech enhancement,”in ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE, 2020, pp.871–875.
[33] “ITU-T P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs.,2001.
[34] “ITU-T G.168: Digital network echo cancellers.,2012.
[35] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and
John R Hershey, “Sdr–half-baked or well done?,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2019, pp. 626–630.
[36] “ITU-T P.831: Subjective performance evaluation of network echo cancellers.,” 1998.

相關文章