論文地址:用於端到端語音增強的卷積遞迴神經網路
論文程式碼:https://github.com/aleXiehta/WaveCRN
引用格式:Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149-2153.
摘要
基於簡單的設計流程,端到端(E2E)語音增強(SE)神經模型受到了廣泛的關注。為了提高階到端模型的效能,建模時需要有效地考慮語音的局域性和序列性。然而,在目前大多數用於SE的端到端模型中,這些屬性要麼沒有得到充分考慮,要麼太複雜而無法實現。在這論文中,我們提出了一個有效的E2E模型,術語為WaveCRN。與基於卷積神經網路(CNN)或長短期記憶(LSTM)的模型相比,WaveCRN使用CNN模組和堆疊簡單遞迴單元(SRU)模組來捕獲語音位置特徵,並對位置特徵的時序特性進行建模。與傳統的遞迴神經網路和LSTM不同,SRU在計算中可以高效並行化,模型引數更少。為了更有效地抑制帶噪語音中的噪聲成分,我們提出了一種新的受限(restricted)特徵掩蔽方法,該方法對隱藏層中的特徵對映進行增強;這與語音分離方法中常用的將估計比率掩模應用於有噪譜特徵的方法不同。在語音去噪和壓縮語音恢復任務上的實驗結果證實,在SRU和受限特徵對映的情況下,WaveCRN的效能與其他最先進的方法相當,顯著降低了模型複雜度和推理時間。
1 引言
與語音相關的應用,如自動語音識別(ASR)、語音通訊和輔助聽力裝置,在現代社會中發揮著重要作用。然而,當涉及噪聲時,大多數應用都不魯棒。因此,語音增強(SE)以提高原始語音訊號的質量和清晰度為目標,在這些應用中得到了廣泛的應用。近年來,深度學習演算法被廣泛應用於SE系統的構建。
一類SE系統對頻域聲學特徵進行增強,一般稱為基於譜圖的SE方法。在這些方法中,語音訊號的分析和重建分別使用短時傅立葉變換(STFT)和短時傅立葉反變換([9][13])。然後,採用深度學習模型,如全連線深度去噪自動編碼器[3]、卷積神經網路(CNNs)[14]、遞迴神經網路(RNNs)和長短期記憶(LSTM)[15]、[16]作為變換函式,將噪聲譜特徵轉換為純淨頻譜特徵。同時,通過結合不同型別的深度學習模型(如CNN和RNN),推匯出了一些方法來更有效地捕獲區域性和序列相關性[17][20]。最近,基於堆疊樣本迴圈單元(SRU)[21],[22]構建的SE系統顯示出了與基於LSTM的SE系統相當的去噪效能,同時需要更少的訓練計算成本。雖然上述方法已經提供了出色的效能,但由於缺乏準確的相位資訊,增強後的語音訊號無法達到其完美的效能。為了解決這一問題,一些SE方法採用複數理想比率掩蔽(cIRM)和複數頻譜對映來增強失真語音。在[26]中,相位估計被描述為一個分類問題,並用於一個源分離任務。
另一類SE方法提出直接對原始波形[27][31]進行增強,一般稱為基於波形對映的方法。在深度學習模型中,全卷積網路(FCNs)被廣泛用於直接進行波形對映[28]、[32]、[34]。最初提出用於文字到語音任務的WaveNet模型也被用於基於波形對映的SE系統[35],[36]。與全連線架構相比,全卷積層更好地保留了區域性資訊,能夠更準確地模擬語音波形的頻率特性。最近,時間卷積神經網路(TCNN)[29]被提出,以準確建模時間特徵和執行時域SE。除了用於優化的點對點損失(如$l_1$和$l_2$規範)外,一些基於波形對映的SE方法[37]、[38]利用對抗損失或知覺損失來捕獲預測和它們的目標之間的高階區別。
對於上述基於波形對映的SE方法,有效表徵序列和區域性模式是最終SE效能的重要考慮因素。雖然CNN與RNN/LSTM的結合可能是可行的解決方案,但RNN/LSTM的計算成本和模型規模都很高,這可能會大大限制其適用性。在本研究中,我們提出了一種基於E2E waveform mapping的SE方法,使用CRN,稱為WaveCRN1,它結合了CNN和SRU的優勢,以提高效率。與基於頻譜對映的CRN[17][20]相比,提出的WaveCRN通過高度並行的迴圈單元直接從未經處理的波形中估計特徵掩模。兩個任務用於測試所提出的WaveCRN方法:(1)語音去噪(2)壓縮語音恢復。對於語音去噪,我們使用開源資料集[39]評估我們的方法,並獲得較高的語音質量感知評價(PESQ)評分[40],這與目前最先進的方法相媲美,同時使用相對簡單的架構和l1損失函式。對於壓縮語音恢復,與使用聲學特徵的[41]、[42]不同,我們簡單地將語音傳遞給符號函式進行壓縮。該任務在TIMIT資料庫[43]上評估。提出的WaveCRN模型恢復了極其壓縮的語音,與短時客觀清晰度(STOI)[44]相比,提高了75.51%(從0.49提高到0.86)。
2 方法
在本節中,我們將詳細描述基於WaveCRN的SE系統。該體系結構是一個完全可微分的端到端神經網路,不需要預處理和人工特徵。得益於CNN和SRU的優勢,它聯合建模區域性和序列資訊。WaveCRN的總體架構如圖1所示。
圖1 提出的wavecrn模型的體系結構。
與頻譜CRN不同,WaveCRN整合了一維CNN和雙向SRU
A 1維卷積輸入模組
如前一節所述,對於基於頻譜對映的SE方法,語音波形首先通過STFT轉換為頻譜域。為了實現波形對映SE,WaveCRN使用1D CNN輸入模組代替STFT處理。得益於神經網路的性質,CNN模組是完全可訓練的。對於每一個batch,輸入帶噪語音$X(X\in R^{N*1*L})$是與一個二維張量$W(W\in R^{C*K})$卷積,以提取特徵對映$F\in R^{N*C*T}$,其中batch size N、通道數C、核心大小K、time step T分別和音訊長度L。值得注意的是,為了減少序列長度以提高計算效率,我們將卷積stride 設定為核大小的一半大小,從而使$F$的長度從$L$減少到$T=\frac{2L}{K}+1$。
B 時序編碼
我們使用雙向SRU(Bi-SRU)來捕獲由輸入模組在兩個方向提取的特徵圖的時間相關性。對於每個batch,features map$F\in R^{N*C*T}$被傳遞給基於SRU的迴圈特徵提取器。從兩個方向提取的隱藏狀態被連線起來形成編碼特徵。
C 受限特徵mask
最優比率掩碼(ORM)已廣泛應用於SE和語音分離任務[45]。由於ORM是一個時頻掩模,不能直接應用於基於波形對映的SE方法。在本研究中,我們採用受限特徵掩模(RFM)對特徵對映F進行掩模,所有元素的範圍為-1 ~ 1
$$公式1:F'=M\circ F$$
其中M,是RFM,F'是通過將mask M和特徵圖F逐元素相乘估計出來的masked特徵圖。 需要注意的是ORM和RFM的主要區別在於前者應用於頻譜特徵 ,而後者用於變換後的 feature maps。
D 波形生成
如A所述,由於卷積過程中的步幅,序列長度從波形的$L$縮減到feature map的$T$。長度恢復對於生成與輸入長度相同的輸出波形至關重要。假設輸入長度$L_{in}$、輸出長度$L_{out}$、步幅$S$和填充$P$,則$L_{in}$和$L_{out}$的關係可表示為
$$公式2:L_{\text {out }}=\left(L_{\text {in }}-1\right) \times S-2 \times P+(K-1)+1$$
設$L_{in}=T$,$S=K/2$,$P=K/2$,則$L_{out}=L$即保證輸出波形與輸入波形具有相同的長度。
E 模型結構概述
如圖1所示,我們的模型利用了CNN和SRU的優勢。給定第$i$個帶噪語音$X_i\in R^{1*L},i=0,...,N-1$,在一個batch中,一維卷積首先將$X_i$對映到特徵對映$F_i$中進行區域性特徵提取。然後Bi-SRU計算一個RFM$M_i$,該$M_i$元素巧妙地將$F_i$相乘生成一個掩蔽特徵對映$F'$。最後,轉置的1D卷積層從掩蔽特徵$F'_i$恢復增強的語音波形$X_i$。
在[21]中,已經證明SRU的效能與LSTM相當,但具有更好的並行性。LSTM中各門之間的依賴性導致訓練和推理緩慢。相比之下,SRU中的所有門只依賴於當前時間的輸入,並且通過在迴圈層之間新增highway 連線來捕獲序列相關性。因此,SRU中的門是同時計算的。在正向傳遞時,SRU和LSTM的時間複雜度分別為$O(T·N·C)$和$O(T·N·C2)$。上述優點使得SRU將其與CNN相結合是合適的。一些研究[46],[47]將ResNet描述為其子網路中相對較淺路徑的集合。由於SRU具有highway連線和隨時間的重複,它可以被視為一個整合,用於對子序列中的依賴關係進行離散建模。
3 實驗
A 實驗步驟
1)、語音去噪:對於語音去噪任務,使用了開源資料集[39],它結合了語音庫語料庫[48]和需求語料庫[49]。與以前的工作[25]、[33]、[35]-[38]類似,我們將語音資料下采樣到16 kHz進行訓練和測試。在語音庫中,30名說話人中有28人用於訓練,2名說話人用於測試。對於訓練集,在4個訊雜比水平(0、5、10和15dB)下,乾淨的語音被10種型別的噪聲汙染。對於測試組,在其他4個訊雜比水平(2.5、7.5、12.5和17.5dB)下,乾淨的語音被5種看不見的噪聲所汙染。
2)、壓縮(2位)語音恢復:對於壓縮語音恢復任務,我們使用了Timit語料庫[43],原始語音樣本以16 kHz和16位格式記錄。在這組實驗中,每個樣本都被壓縮成2位元的格式(用−1、0或+1表示),節省了87.5%的位元,從而降低了資料傳輸和儲存需求,我們相信這種壓縮方案在現實世界的物聯網場景中具有潛在的應用前景。注意,在去噪和恢復任務中使用了相同的模型架構。每個壓縮樣本的+1、0或−1值首先被對映到浮點表示,因此可以容易地應用波形域SE系統來恢復原始的未壓縮語音。將原始語音表示為$\hat{y}$,壓縮語音表示為$sgn(\hat{y})$,其中$g_\theta$表示SE過程。
$$公式3:\arg \min _{\theta}\left\|\hat{y}-g_{\theta}(\operatorname{sgn}(\hat{y}))\right\|_{1}$$
3、模型架構:在輸入模組中,通道數設定為256,kernel size設定為0.006 s(96),stride size設定為0.003 s(48)。輸入音訊被填充,使其可被stride大小整除。將Bi-SRU hidden state的大小設定為通道的數量(有6個stacks)。接下來,所有hidden state被線性對映到半維,以形成一個mask,並巧妙地乘以特徵對映。最後,在波形生成步驟中,利用轉置卷積層將二維feature map對映為一維序列,該序列通過雙曲正切(hyperbolic tangent)啟用函式生成預測波形。$l1$範數作為訓練WaveCRN的目標函式。為了更公平地比較模型架構,我們主要將WaveCRN與其他使用$l1$norm訓練的SE系統進行比較。
B 實驗結果
1) 語音去噪:對於語音去噪任務,我們採用了文獻[50]中的五個評價指標:CSIG(訊號失真)、CBAK(背景干擾)、COVL(綜合質量)、PESQ(反映語音質量)和SSNR(分段訊雜比)。表I列出了結果。與Wiener濾波、SEGAN、使用相同L1損耗的兩個知名SE模型(即WaveNET和Wave-U-Net)、使用LPS特徵作為輸入的LPS-SRU以及結合CNN和BLSTM的Wave CBLSTM進行了比較。通過替換圖中的一維卷積輸入模組和轉置的一維卷積輸出模組,實現了LP-SRU。圖1具有STFT和反向STFT模組。WaveCBLSTM是通過用LSTM代替圖1中的SRU來實現的,CNN和LSTM相結合處理語音訊號已經得到了廣泛的研究[19],[20],[30]。在這項研究中,我們的目的是證明SRU在應用於基於波形的SE時,在去噪能力和計算效率方面優於LSTM。從表I可以清楚地看出,WaveCRN在所有感知和訊號級評估指標方面都優於其他模型。
表1 語音去噪任務的結果。分數越高,表現越好
粗體值表示特定度量的最佳效能。用*標記的模型不使用RFM直接生成增強語音
接下來,我們研究了RFM的影響。如表I所示,LPS-SRU、WaveCBLSTM和WaveCRN優於不使用RFM的對應物(LPS-SRU*、WaveCBLSTM*和WaveCRN*)。值得注意的是,與使用波形作為輸入的WaveCBLSTM和WaveCRN不同,LPS-SRU增強了頻譜域中的音訊。圖2展示了有噪聲的、乾淨的和增強的語音話語的幅度譜圖。從圖中可以畫出兩個觀測值。首先,RFM顯著消除了高頻區域(綠色塊)和靜音部分(白色塊)中的噪聲分量。這一觀察結果與表I中的結果一致:採用RFM的模型獲得了更高的SSNR分數和語音質量。其次,如圖2(E)所示,沒有RFM,高頻區域不能完全恢復。比較圖2(E)和圖2(G),在靜默部分,WaveCBLSTM*比WaveCRN*具有更清晰的估計,但是高頻區域的丟失會惡化音訊質量,這可以在表I中找到。與WaveCRN*相比,WaveCBLSTM*具有更高的CBAK分數,但PESQ和SSNR分數更低。其次,表II給出了WaveCRN和WaveCBLSTM的執行時間和引數的比較,在相同的超引數設定(層數、隱藏狀態維數、通道數等)下,WaveCRN的訓練過程比WaveCBLSTM快15.45倍((38.1+59.86)/(2.07+4.27)),引數個數僅為51%。正向傳遞快18.41倍,也就是推理速度快18.41倍。
圖2 LPS-SRU、LPS-SRU*、WaveCBLSTM、WaveCBLSTM*、WaveCRN和Wave-CRN*的噪聲、乾淨和增強語音的幅度譜圖,
其中標有*的模型不使用RFM直接生成增強語音。與其他方法相比,WaveCRN的改進用綠色(高頻部分)和白色塊(靜音)高亮顯示。
(A)Noisy。(B)clean。(C)LPS-SRU*。(D)LPS-SRU。(E)WaveCBLSTM*。(F)WaveCBLSTM。(G)WaveCRN*。(H)WaveCRN。
表2:比較了具有相同超引數的WaveCRN和WaveeCBLSTM的執行時間和引數個數。
這個實驗是在一個環境設定中執行的,使用了48核CPU 2.20 GHZ和一個Titan xp gpu與12gb vram。
第一行和第二行表示在一批16個波形輸入中1秒的正向和反向傳播傳遞的執行時間,第三行表示引數的數量
(2)壓縮語音恢復:在壓縮語音恢復任務中,分別使用WaveCRN和LPS-SRU將壓縮語音轉換為未壓縮語音;LPS-SRU採用與WaveCRN相同的SRU結構,但輸入為LPS,分別使用STFT和逆STFT進行語音分析和重構。根據PESQ值和STOI分值對效能進行評估。從表三可以看出,WaveCRN和LPS-SRU使PESQ評分從1.39分提高到2.41分和1.97分,STOI分從0.49分提高到0.86分和0.79分。這兩種方法都取得了顯著的改進,而WaveCRN的效能明顯優於LPS-SRU。
圖3 壓縮語音恢復任務的結果
我們可以從圖3(A)和3(B)中觀察到,語音質量在2位元格式中顯著降低,特別是在靜音部分和高頻區域。然而,由WaveCRN和LPS-SRU恢復的語音譜圖呈現出更清晰的結構,如圖3(C)和3(D)所示。另外,擋路白區實驗表明,WaveCRN比LPS-SRU能更有效地恢復語音模式。圖4顯示了瞬時頻率譜圖。正如預期的那樣,LPS-SRU使用壓縮的相位譜圖恢復波形;因此,WaveCRN通過直接使用波形作為輸入而不會丟失相位資訊,從而保留了相位頻譜的更多細節。
圖3所示。LPS SRU和WaveCRN生成的原始、壓縮和恢復語音的幅度譜圖。
(一)壓縮。(b)Ground Truth。(c) LPS-SRU。(d) WaveCRN。
圖4所示。用LPS SRU和WaveCRN分析未壓縮和恢復語音的瞬時頻譜圖。
(一)Ground Truth。(b) LPS-SRU。(c) WaveCRN。
4 結論
本文提出了WaveCRN E2E SE模型。WAVE-CRN採用雙向結構對提取的特徵的順序相關性進行建模。實驗結果表明,WaveCRN在去噪能力和計算效率上均優於相關工作。這項研究的貢獻有四個方面:(A)WaveCRN是第一個將SRU和CNN相結合來執行E2E SE的工作;(B)提出了一種新的RFM方法,將噪聲特徵直接轉換為增強特徵;(C)SRU模型相對簡單,但效能與其他使用相同L1損失的最新SE模型相當;(D)設計了一種新的實際應用(壓縮語音恢復),並對其效能進行了測試;WaveCRN在E2E SE上取得了令人滿意的結果本研究將SE模型架構與傳統的L1範數損失進行比較,未來的工作將探索在WaveCRN系統中採用替代的知覺損失和對抗性損失。
參考文獻
[1] P. C. Loizou, Speech Enhancement: Theory and Practice, 2nd ed. Boca Raton, FL, USA: CRC Press, 2013.
[2] M. Kolbk, Z.-H. Tan, and J. Jensen, Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 25, no. 1, pp. 153 167, Jan. 2017.
[3] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, Speech enhancement based on deep denoising autoencoder, in Proc. Interspeech, 2013, pp. 436 440.
[4] B. Xia and C. Bao, Wiener filtering based speech enhancement with weighted denoising auto-encoder and noise classification, Speech Com- mun. , vol. 60, pp. 13 29, 2014.
[5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 26, no. 10, pp. 1702 1726, Oct. 2018.
[6] Z. Meng, J. Li, and Y. Gong, Adversarial feature-mapping for speech enhancement, in Proc. Interspeech, 2017, pp. 3259 3263.
[7] M. H. Soni, N. Shah, and H. A. Patil, Time-frequency masking-based speech enhancement using generative adversarial network, in Proc. ICASSP, 2018, pp. 5039 5043.
[8] L. Chai, J. Du, Q.-F. Liu, and C.-H. Lee, Using generalized Gaussian distributions to improve regression error modeling for deep learning-based speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 27, no. 12, pp. 1919 1931, Dec. 2019.
[9] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 23, no. 1, pp. 7 19, Jan. 2015.
[10] F.XieandD. VanCompernolle, AfamilyofMLPbasednonlinearspectral estimators for noise reduction, in Proc. ICASSP, 1994, pp. 53 56.
[11] S. Wang, K. Li, Z. Huang, S. M. Siniscalchi, and C.-H. Lee, A transfer learning and progressive stacking approach to reducing deep model sizes with an application to speech enhancement, in Proc. ICASSP, 2017, pp. 5575 5579.
[12] D. Liu, P. Smaragdis, and M. Kim, Experiments on deep learning for speech denoising, in Proc. Interspeech, 2014, pp. 2685 2689.
[13] L. Sun, J. Du, L.-R. Dai, and C.-H. Lee, Multiple-target deep learning for lSTM-RNN based speech enhancement, in Proc. HSCMA, 2017, pp. 136 140.
[14] S.-W. Fu, Y. Tsao, and X. Lu, SNR-aware convolutional neural network modeling for speech enhancement, in Proc. Interspeech, 2016, pp. 3768 3772.
[15] F. Weninger et al., Speech enhancement with LSTM recurrent neural networksanditsapplicationtonoise-robustASR, inProc. LVA/ICA,2015, pp. 91 99.
[16] A. L. Maas, Q. V. Le, T. M. O Neil, O. Vinyals, P. Nguyen, and A. Y. Ng, Recurrent neural networks for noise reduction in robust ASR, in Proc. Interspeech, 2012, pp. 22 25.
[17] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutional-recurrent neural networks for speech enhancement, in Proc. ICASSP, 2018, pp. 2401 2405.
[18] K. Tan and D. Wang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 28, pp. 380 390, 2020.
[19] K. Tan and D. Wang, A convolutional recurrent neural network for real- time speech enhancement, in Proc. Interspeech, 2018.
[20] K. Tan, X. Zhang, and D. Wang, Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios, in Proc. ICASSP, 2019, pp. 5751 5755.
[21] T. Lei, Y. Zhang, S. I. Wang, H. Dai, and Y. Artzi, Simple recur- rent units for highly parallelizable recurrence, in Proc. EMNLP, 2018, pp. 4470 4781.
[22] X. Cui, Z. Chen, and F. Yin, Speech enhancement based on simple recurrent unit network, Appl. Acoust. , vol. 157, 2020, Art. no. 107019.
[23] S.-W. Fu, T.-y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhance- ment by convolutional neural network with multi-metrics learning, in Proc. MLSP, 2017, pp. 1 6.
[24] D. S. Williamson and D. Wang, Time-frequency masking in the complex domain for speech dereverberation and denoising, IEEE/ACM Trans. Audio, Speech, Lang.Process. , vol. 25, no. 7, pp. 1492 1501, Jul. 2017.
[25] J. Yao and A. Al-Dahle, Coarse-to-fine optimization for speech enhance- ment, in Proc. Interspeech, 2019, pp. 2743 2747.
[26] N. Takahashi, P. Agrawal, N. Goswami, and Y. Mitsufuji, PhaseNet: Discretized phase modeling with deep neural networks for audio source separation, in Proc. Interspeech, 2018, pp. 2713 2717.
[27] S.-W. Fu, Y. Tsao, X. Lu, and H. Kawai, Raw waveform-based speech enhancement by fully convolutional networks, in Proc. APSIPA ASC, 2017, pp. 6 12.
[28] T. N. Sainath, R. J. Weiss, A. Senior, K. W. Wilson, and O. Vinyals, Learning the speech front-end with raw waveform CLDNNs, in Proc. Interspeech, 2015, pp. 1 5.
[29] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. Inter- speech, 2019, pp. 6975 6879.
[30] J. Li, H. Zhang, X. Zhang, and C. Li, Single channel speech enhancement using temporal convolutional recurrent neural networks, in Proc. APSIPA ASC, 2019, pp. 896 900.
[31] M. Kolbæk, Z.-H. Tran, S. H. Jensen, and J. Jensen, On loss functions for supervised monaural time-domain speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 28, pp. 825 838, 2020.
[32] S. Fu, T. Wang, Y. Tsao, X. Lu, and H. Kawai, End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 26, no. 9, pp. 1570 1584, Sep. 2018.
[33] S. Pascual, A. Bonafonte, and J. Serra, SEGAN: Speech enhancement generative adversarial network, in Proc. Interspeech, 2017, pp. 3642 3646.
[34] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, and M. Hasegawa- Johnson, Speech enhancement using Bayesian wavenet, in Proc. Inter- speech, 2017, pp. 2013 2017.
[35] D. Rethage, J. Pons, and X. Serra, A wavenet for speech denoising, in Proc. Interspeech, 2017, pp. 5069 5073.
[36] R. Giri, U. Isik, and A. Krishnaswamy, Attention wave-U-Net for speech enhancement, in Proc. WASPAA, 2019, pp. 4049 4053.
[37] S. Pascual, J. Serra, and A. Bonafonte, Time-domain speech enhance- ment using generative adversarial networks, Speech Commun. , vol. 114, pp. 10 21, 2019.
[38] F. G. Germain, Q. Chen, and V. Koltun, Speech denoising with deep feature losses, in Proc. Interspeech, 2019, pp. 2723 2727.
[39] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, Investi- gating RNN-based speech enhancement methods for noise-robust text-to- speech, in Proc. SSW, 2016, pp. 146 152.
[40] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ) a new method for speech quality assessment of telephone networks and codecs, in Proc. ICASSP, 2001, pp. 749 752.
[41] M. Cernak, A. Lazaridis, A. Asaei, and P. N. Garner, Composition of deep and spiking neural networks for very low bit rate speech cod- ing, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 24, no. 12, pp. 2301 2312, Dec. 2016.
[42] L. Deng, M. L. Seltzer, D. Yu, A. Acero, A. Rahman Mohamed, and G. E. Hinton, Binary coding of speech spectrograms using a deep auto- encoder, in Proc. Interspeech, 2010, pp. 1692 1695.
[43] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren, DARPA TIMIT acoustic-phonetic continuous speech corpus CD-ROM. NIST speech disc 1-1.1, NASA STI/Recon Tech. Rep., vol. 93, p. 27043, 1993.
[44] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algo- rithm for intelligibility prediction of time frequency weighted noisy speech, IEEE/ACM Trans. Audio, Speech, Lang. Process. , vol. 19, no. 7, pp. 2125 2136, Sep. 2011.
[45] S. Liang, W. Liu, W. Jiang, and W. Xue, The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio, JASA, vol. 134, no. 5, pp. EL452 EL458, 2013.
[46] A. Veit, M. J. Wilber, and S. Belongie, Residual networks behave like ensembles of relatively shallow networks, in Proc. NeurIPS, 2016, pp. 550 558.
[47] S. De and S. L. Smith, Batch normalization biases deep residual networks towards shallow paths, CoRR, vol. abs/2002.10444, 2020.
[48] C. Veaux, J. Yamagishi, and S. King, The voice bank corpus: Design, collection and data analysis of a large regional accent speech database, in Proc. O-COCOSDA/CASLRE, 2013, pp. 1 4.
[49] J. Thiemann, N. Ito, and E. Vincent, The diverse environments multi channel acoustic noise database: A database of multichannel environmen- tal noise recordings, J. Acoust. Soc. Amer. , pp. 3591 3591, 2013.
[50] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. Process. , vol. 16, no. 1, pp. 229 238, Jan. 2008.