論文地址:DCCRN:用於相位感知語音增強的深度複雜卷積迴圈網路
論文程式碼:https://paperswithcode.com/paper/dccrn-deep-complex-convolution-recurrent-1
引用:Hu Y,Liu Y,Lv S,et al. DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement[J]. arXiv preprint arXiv:2008.00264,2020.
摘要
語音增強得益於深度學習在可理解性和感知質量方面的成功。傳統的時頻域方法主要是通過樸素卷積神經網路(CNN)或遞迴神經網路(RNN)預測TF掩碼或語音訊譜。最近的一些研究使用復值譜圖作為訓練目標,但在實值網路中訓練,分別預測幅值分量和相位分量或實部和虛部。特別是,卷積迴圈網路(CRN)整合了卷積編解碼(CED)結構和長短期記憶(LSTM),已被證明對複雜目標有幫助。為了更有效地訓練複雜目標,本文設計了一種新的模擬複雜值運算的網路結構——深度複雜卷積遞迴網路(Deep complex Convolution recurn,DCCRN),其中CNN和RNN結構都可以處理複雜值運算。提出的DCCRN模型在客觀或主觀度量上都比以前的其他網路具有很強的競爭力。在僅有3.7M引數的情況下,我們提交給Interspeech 2020深度噪聲抑制(DNS)挑戰的DCCRN模型在實時軌道中排名第一,在非實時軌道中排名第二。
關鍵詞:語音增強,去噪,深度學習,複雜網路
1 引言
噪聲干擾會嚴重降低言語交際中的感知質量和可理解性。同樣,自動語音識別(ASR)等相關任務也會受到噪聲干擾的嚴重影響。因此,語音增強是一項非常迫切的任務,它將噪聲語音作為輸入,產生增強的語音輸出,以提高語音質量和清晰度,有時還能在下游任務中提供更好的標準(例如ASR中的較低錯誤率)。近年來,深度學習(DL)方法在語音增強方面取得了很好的效果,尤其是在處理非平穩噪聲方面。DL可以受益於單通道(單耳)和多通道語音增強取決於具體的應用。在本文中,我們專注於基於dl的單通道語音增強,以獲得更好的感知質量和可理解性,特別是針對低模型複雜性的實時處理。Interspeech 2020深度噪聲抑制(DNS)挑戰為這一目的提供了一個通用的測試平臺[1]。
1.1 相關工作
作為一個有監督的學習問題,神經網路可以在時頻域或直接在時域增強噪聲語音。時域方法可以進一步分為直接回歸方法[2,3]和自適應前端方法[4 6]兩類。前者直接從語音-噪聲混合的波形學習到目標語音的迴歸函式,而不需要明確的訊號前端,通常是通過涉及某種形式的一維卷積神經網路(Conv1d)。後一種自適應前端方法將時域訊號輸入和輸出,通常採用卷積編解碼器(CED)或u-net框架,類似於短時傅立葉變換(STFT)及其反變換(iSTFT)。然後,在編碼器和解碼器之間插入增強網路,通常通過使用具有時間建模能力的網路,如時間卷積網路(TCN)[4,7]和長短期記憶(LSTM)[8]。
作為另一種主流,TF域方法[9 13]對聲譜圖進行研究,認為使用STFT後的TF表示可以更精確地分離語音和噪聲的精細結構。卷積遞迴網路(CRN)[14]是一種最新的方法,它也採用了與時域方法相似的CED結構,但它提取了高層次的特徵,以便通過二維CNN (Conv2d)更好地分離噪聲語音譜圖。具體來說,CED可以將複數譜圖或實值譜圖作為輸入。複數譜圖在極座標下可分解為幅值和相位,在笛卡爾座標下可分解為實部和虛部。很長一段時間以來,人們一直認為階段是難以估計的。因此,早期的研究只關注與幅度相關的訓練目標,而忽略相位[15 17],通過簡單地將估計的幅度與帶噪聲的語音相位結合來重新合成估計的語音。這就限制了效能的上限,而在嚴重干擾的情況下,估計的語音相位會顯著偏離。雖然最近有許多方法被提出用於相位重建來解決這個問題[18,19],但神經網路仍然具有實際價值。
通常情況下,TF域中定義的訓練目標主要分為兩類,一類是描述乾淨語音與背景噪聲時頻關係的掩模目標,另一類是對應於乾淨語音訊譜表示的對映目標。在掩碼族中,理想二進位制掩碼(IBM)[20]、理想比率掩碼(IRM)[10]和譜幅值掩碼(SMM)[21]只使用乾淨語音和混合語音之間的幅值,忽略了相位資訊。相敏掩模(PSM)[22]是第一個利用相位資訊顯示相位估計可行性的掩模。在此基礎上,提出了複合比掩碼[23](complex ratio mask,CRM)演算法,該演算法通過同時增強純語音和混合語音譜圖分割的實成分和虛成分,可以很好地重構語音。隨後,Tan等人提出了一種具有一個編碼器和兩個解碼器的複雜譜對映(CSM)的CRN,以同時估計混合語音的實和虛譜圖。值得注意的是,CRM和CSM包含了語音訊號的全部資訊,因此理論上它們可以獲得最佳的oracle語音增強效能。
上述方法是在一個重估網路下學習的,但也考慮了相位資訊。近年來,深度複雜u-net[25]結合了深度複雜網路[26]和u-net[27]的優點來處理復值譜圖。特別是,DCUNET經過訓練,估計CRM,並在iSTFT將輸出tf域譜圖轉換為時域波形後,優化尺度不變的源噪聲比(SI-SNR)損失[4]。在利用時間建模能力實現最先進效能的同時,採用多層卷積來提取重要的上下文資訊,導致模型規模大、複雜性高,限制了其在效率敏感應用中的實際應用。
1.2 貢獻
在本文中,我們在先前的網路架構的基礎上,設計了一個新的復值語音增強網路,稱為深度複雜卷積遞迴網路(DCCRN),以優化SI-SNR損耗。該網路有效地結合了DCUNET和CRN的優點,利用LSTM對時間上下文進行建模,顯著降低了可訓練引數和計算成本。在提出的DCCRN框架下,我們還比較了各種訓練目標,複雜網路與複雜目標可以獲得最佳的效能。在我們的實驗中,我們發現所提出的DCCRN比CRN[24]的效能要好很多。DCCRN的計算複雜度僅為DCUNET[25]的1/6,在相似的模型引數配置下,其效能與DCUNET[25]相當。而針對實時語音增強,我們的模型僅使用3.7M引數,根據DNS挑戰中的P.808主觀評價,在實時軌道上實現了最佳MOS,在非實時軌道上次之。
2 DCCRN模型
2.1 卷積迴圈網路結構
圖1 DCCRN 模型
卷積迴圈網路(CRN),最初在[14]中描述,本質上是因果CED架構,在編碼器和解碼器之間有兩個LSTM層。在這裡,LSTM專門用於建模時間依賴關係。該編碼器由5個Conv2d塊組成,旨在從輸入特徵中提取高階特徵,或降低解析度。隨後,解碼器將低解析度特徵重構為輸入的原始尺寸,使得編解碼器結構達到對稱設計。具體來說,編碼器/解碼器Conv2d塊由卷積/反摺積層、批處理歸一化和啟用函式組成。跳躍式連線通過集中編碼器和解碼器,有利於梯度的流動。
與原始的帶幅值對映的CRN不同,Tan等人最近提出了一種帶有一個編碼器和兩個解碼器的改進結構,從輸入混合到乾淨語音,對複雜STFT譜圖的實部和虛部進行建模。與傳統的僅震級目標相比,同時增強震級和相位得到了顯著的改善。但是,他們將實部和虛部作為兩個輸入通道,只使用一個共享的實值卷積濾波器進行實值卷積運算,不受復乘法規則的限制。因此,網路可以在沒有先驗知識的情況下學習實部和虛部。針對這一問題,本文提出的DCCRN在編解碼器中使用複雜的CNN和複雜的批處理歸一化層對CRN進行了大量的修改,並考慮用複雜的LSTM來替代傳統的LSTM。具體來說,複雜模組通過模擬複數乘法來模擬幅值和相位之間的相關關係。
2.2 帶複數網路的編碼和解碼結構
圖2 複數模組
復編碼器塊包括復Conv2d、復批歸一化[26]和實值PReLU[28]。複雜批處理歸一化和PReLU繼承了原論文的實現。我們根據DCUNET[25]中複雜的Conv2d塊進行設計。複雜的Conv2d包含四個傳統的Conv2d操作,它們控制整個編碼器的複雜資訊流。將復值卷積濾波器$W$定義為$W = W_r+j*W_i$,其中實值矩陣$W_r$和$W_i$分別表示復卷積核的實部和虛部。同時定義輸入復矩陣$X = X_r +j*X_i$。因此,我們可以通過$X\circledast W$的復卷積運算得到復輸出$Y$:
$$公式1:F_{\text {out }}=\left(X_{r} * W_{r}-X_{i} * W_{i}\right)+j\left(X_{r} * W_{i}+X_{i} * W_{r}\right)$$
其中$F_{out}$表示一個複雜層的輸出特徵。
與復卷積類似,給定復輸入$X_r$和$X_i$的實部和虛部,復LSTM輸出$F_{out}$可以定義為:
$$公式2:F_{r r}=\operatorname{LSTM}_{r}(X_{r}) ; \quad F_{i r}=\operatorname{LSTM}_{r}(X_{i})$$
$$公式3:F_{r i}=\operatorname{LSTM}_{i}(X_{r}) ; \quad F_{i i}=\operatorname{LSTM}_{i}(X_{i})$$
$$公式4:F_{\text {out }}=(F_{r r}-F_{i i})+j(F_{r i}+F_{i r})$$
其中$LSTM_r$和$LSTM_i$代表兩種傳統的實部和虛部LSTM,$F_{ri}$是通過輸入帶有$LSTM_i$的$X_r$計算的。
2.3 訓練目標
訓練時,DCCRN估計CRM,並通過訊號近似(SA)進行優化。給定乾淨語音S和有噪聲語音Y的復值STFT譜圖,可將CRM定義為
$$公式5:\mathrm{CRM}=\frac{Y_{r} S_{r}+Y_{i} S_{i}}{Y_{r}^{2}+Y_{i}^{2}}+j \frac{Y_{r} S_{i}-Y_{i} S_{r}}{Y_{r}^{2}+Y_{i}^{2}}$$
其中$Y_r$和$Y_i$分別表示帶噪語音複數譜的實部和虛部。清潔復譜圖的實部和虛部由$S_r$和$S_i$表示。量級目標SMM也可以用來比較:$SMM=\frac{|S|}{|Y|}$,其中$|S|$和$|Y|$分別表示乾淨語音和噪聲語音的量級。我們採用訊號近似的方法,直接將乾淨語音的幅值或複雜語譜圖與使用掩碼的噪聲語音的幅值或復譜圖之間的差異最小化。SA的損失函式變為$CSA=Loss(\tilde{M}*Y,S)$和$MSA=Loss(\tilde{M}*|Y|,|S|)$,其中CSA表示基於CRM的SA,MSA表示基於SMM的SA。或者,笛卡爾座標表示$\tilde{M}=\tilde{M}_r+j\tilde{M}_i$也可以用極座標表示。
$$公式6:\left\{\begin{array}{l}
\tilde{M}_{\text {mag }}=\sqrt{\tilde{M}_{r}{ }^{2}+\tilde{M}_{i}{ }^{2}} \\
\tilde{M}_{\text {phase }}=\arctan 2\left(\tilde{M}_{i},\tilde{M}_{r}\right)
\end{array}\right.$$
我們可以對DCCRN使用三種乘法模式,稍後將與實驗進行比較。具體來說,估計的純淨語音$\tilde{S}$可以計算如下:
DCCRN-R:
$$公式7:\tilde{S}=\left(Y_{r} \cdot \tilde{M}_{r}\right)+j\left(Y_{i} \cdot \tilde{M}_{i}\right)$$
DCCRN-C:
$$公式8:\tilde{S}=\left(Y_{r} \cdot \tilde{M}_{r}-Y_{i} \cdot \tilde{M}_{i}\right)+j\left(Y_{r} \cdot \tilde{M}_{i}+Y_{i} \cdot \tilde{M}_{r}\right)$$
DCCRN-E:
$$公式9:\tilde{S}=Y_{\text {mag }} \cdot \tilde{M}_{\text {mag }} \cdot e^{Y_{\text {phase }}+\tilde{M}_{\text {phase }}}$$
DCCRN-C採用CSA方法得到$\tilde{S}$,DCCRN-R分別估計$\tilde{Y}$的實部和虛部掩碼。此外,DCCRN-E在極座標下執行,它在數學上與DCCRN-C相似。不同之處在於DCCRN-E使用tanh啟用函式將掩模幅值限制在0到1之間。
2.4 損失函式
模型訓練的損失函式是SI-SNR,它已經被普遍用來代替均方誤差(MSE)作為評價指標。SI-SNR定義為
$$公式10:\begin{cases}s_{\text {target }} & :=(\langle\tilde{s},s\rangle \cdot s) /\|s\|_{2}^{2} \\ e_{\text {noise }} & :=\tilde{s}-s_{\text {target }} \\ \text { SI-SNR } & :=10 \log 10\left(\frac{\left\|s_{\text {target }}\right\|_{2}^{2}}{\left\|e_{\text {noise }}\right\|_{2}^{2}}\right)\end{cases}$$
其中$s$和$\tilde{s}$分別為乾淨的和估計的時域波形。$<·,·>$表示兩個向量之間的點積,$||·||_2$為歐幾里得範數(L2範數)。詳細地,我們使用STFT核心初始化卷積/反摺積模組對波形[29]進行分析/合成,然後傳送到網路並計算損耗函式。
3 實驗
3.1 資料集
在我們的實驗中,我們首先在WSJ0[30]上模擬的資料集上評估了提出的模型以及幾個基線,然後在Interspeech2020 DNS Challenge資料集[1]上進一步評估了表現最好的模型。對於第一個資料集,我們從WSJ0[30]中選擇24500個話語(大約50個小時),其中包括131位發言者(66位男性和65位女性)。我們將訓練集、驗證集和評估集分別分解為20000、3000和1500個話語集。噪聲資料集包含6.2小時的自由聲音噪聲和來自MUSAN[31]的42.6小時的音樂,其中41.8小時用於培訓和驗證,其餘7小時用於評估。訓練和驗證中的語音-噪聲混合是通過從語音集和噪聲集中隨機選擇話語,並在-5 ~ 20 dB的隨機訊雜比下混合而產生的。評估集在5個典型訊雜比(0 dB,5 dB,10 dB,15 dB,20 dB)下生成。
第二個大資料集是基於DNS挑戰提供的資料。180小時的DNS挑戰噪聲集包括150個類別和65,000個噪聲剪輯,乾淨的演講集包括來自2150個揚聲器的超過500小時的剪輯。為了充分利用資料集,我們在模型訓練過程中採用動態混合的方法模擬語音-噪聲混合。在細節,每個培訓時代,我們rst語音和噪聲的房間脈衝響應卷積(RIR)隨機選擇從一個模擬3000 - RIR形象設定的方法[32],然後是語言噪聲混合動態生成的隨機混合混響語音和噪聲訊雜比5至20分貝。經過10次訓練後,模型所看到的總資料超過5000小時。我們使用官方測試集進行客觀評分和最終的模型選擇。
3.2 訓練步驟和基線
所有模型的窗長和幀移分別為25 ms和6.25 ms,FFT長度為512。我們使用Pytorch來訓練模型,優化器是Adam。初始學習率設定為0.001,當驗證損失增加時,學習率將衰減0.5。所有的波形在16k Hz重新取樣。通過早期停止選擇模型。為了選擇DNS挑戰的模型,我們比較了WSJ0模擬資料集上的幾個模型,如下所述。
- LSTM:半因果模型包含兩個LSTM層,每層800個單元;我們新增了一個Conv1d層,其中krenel size=7在時間維度上卷積,look-ahead為6幀,以實現半因果關係。輸出層是一個257單元的全連線層。輸入和輸出分別是噪聲譜圖和MSA估計的乾淨譜圖。
- CRN:半因果模型包含一個編碼器和兩個解碼器,它們在[24]中具有最佳配置。輸入和輸出是噪聲和估計STFT復譜圖的實部和虛部。兩個解碼器分別處理實部和虛部。在頻率和時間維度上,kernel size也是(3,2),stride被設定為(2,1)。對於編碼器,我們在通道維度中連線實部和虛部,因此輸入特徵的形狀是[BatchSize,2,Frequency,Time]。編碼器中每一層的輸出通道為{16,32,64,128,256,256}。隱藏的LSTM單元為256個,在最後一個LSTM之後出現了1280個單元的密集層。由於跳躍連線,實解碼器或虛解碼器的輸入通道每一層為{512,512,256,128,64,32}。
- DCCRN:四種模型由DCCRN- r、DCCRN- c、DCCRN- e和DCCRN- cl(掩蔽像DCCRN- e)組成。所有這些型號的直流電元件都去掉了。前三個DCCRN的通道數為{32,64,128,128,256,256},而DCCRN- cl的通道數為{32,64,128,256,256,256}。kernel size和stride分別設定為(5,2)和(2,1)。前3個DCCRN的實LSTM為2層,256個單元,DCCRN- cl的實部和虛部分別使用128個單元的復LSTM。在最後一個LSTM之後是1024個單元的密集層。
- DCUNET:我們使用DCUNET-16進行比較,將時間維度stride設定為1,以適應DNS挑戰規則。另外,編碼器中的通道設定為[72,72,144,144,144,1600,1600,180]。
對於半因果卷積[33]的實現,與實踐中常用的因果卷積只有兩個不同之處。首先,我們在編碼器的每個Conv2ds的時間維度前填充0。其次,對於解碼器,我們在每個卷積層中向前看一幀。這最終導致了6幀的抬頭,總共66:25 = 37:5毫秒,限制在DNS挑戰限制40毫秒內。
3.3 實驗結果和討論
模型效能首先由PESQ1在模擬的WSJ0資料集上評估。表1給出了測試集上的PESQ分數。在每種情況下,最好的結果都用黑體數字突出顯示。
表1 在模擬WSJ0資料集上的PESQ
在模擬的 WSJ0 測試集上,我們可以看到四個 DCCRN 的效能優於基線 LSTM 和 CRN,這表明複雜卷積的有效性。 DCCRNCL 實現了比其他 DCCRN 更好的效能。 這進一步說明覆雜LSTM也有利於複雜目標的訓練。 此外,我們可以看到全復值網路 DCCRN 和 DCUNET 在 PESQ 中是相似的。 值得注意的是,根據我們的執行時測試,DCUNET 的計算複雜度幾乎是 DCCRN-CL 的 6 倍。
在DNS挑戰中,我們使用DNS資料集評估了兩個最好的DCCRN模型和DCUNET。表2顯示了測試集中的PESQ分數。類似地,一般來說,DCCRN-CL比DCCRN-E實現更好一點的PESQ。但在我們的內部主語聽力後,我們發現DCCRN-CL可能會對某些片段的語音訊號進行過度抑制,導致不愉快的聽力體驗。DCUNET在合成無混響裝置上得到了較好的PESQ,但在合成混響裝置上其PESQ會明顯下降。我們相信,當不同系統的客觀分數接近時,主觀聽力變得非常重要。基於這些原因,DCCRN-E最終被選擇用於實時軌道。為了提高混響集的效能,我們在訓練集中增加了更多的RIRs,得到了一個名為DCCRN-E-Aug的模型,它被選擇用於非實時跟蹤。從表3中最終盲測集的結果可以看出,DCCRN-E-Aug的MOS比混響集有小幅提高0.02。表3總結了競賽組織者提供的兩個軌道幾個頂級系統的最終P.808主觀評價結果。我們可以看到,我們提交的模型總體上表現良好。DCCRN-E實現了平均MOS 3.42在所有設定和4.00在無混響設定。我們的DCCRN-E的PyTorch實現(由ONNX匯出)的一幀處理時間是3.12毫秒,在Intel i5-8250U PC上進行了經驗測試。一些增強的音訊剪輯可以從https:// huyanxin.github.io/DeepComplexCRN找到。
表2:DNS挑戰測試集上的PESQ(僅模擬資料)。
T1和T2表示軌道1(實時軌道)和軌道2(非實時軌道)。
表3 MOS對DNS挑戰盲測試集
4 總結
在這項研究中,我們提出了一個深度複雜卷積迴圈網路語音增強。DCCRN模型利用複雜網路進行復值頻譜建模。由於具有複雜的乘法規則約束,在模型引數配置相似的情況下,DCCRN在PESQ和MOS方面的效能優於其他模型。在未來,我們將嘗試在邊緣裝置等低計算場景中部署DCCRN。我們還將啟用DCCRN,提高混響條件下的噪聲抑制能力。
參考文獻
[1] C. K. Reddy,V. Gopal,R. Cutler,E. Beyrami,R. Cheng,H. Dubey,S. Matusevych,R. Aichner,A. Aazami,S. Braun et al.,The interspeech 2020 deep noise suppression challenge: Datasets,subjective testing framework,and challenge results,arXiv preprint arXiv:2005.13981,2020.
[2] S.-W. Fu,T.-W. Wang,Y. Tsao,X. Lu,and H. Kawai,End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol. 26,no. 9,pp. 1570 1584,2018.
[3] D. Stoller,S. Ewert,and S. Dixon,Wave-u-net: A multi-scale neural network for end-to-end audio source separation,arXiv preprint arXiv:1806.03185,2018.
[4] Y. Luo and N. Mesgarani,Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation,IEEE/ACM transactions on audio,speech,and language processing,vol. 27,no. 8,pp. 1256 1266,2019. [5] Y. Luo,Z. Chen,and T. Yoshioka,Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation,arXiv preprint arXiv:1910.06379,2019.
[6] L. Zhang,Z. Shi,J. Han,A. Shi,and D. Ma,Furcanext: Endto- end monaural speech separation with dynamic gated dilated temporal convolutional networks,in International Conference on Multimedia Modeling. Springer,2020,pp. 653 665.
[7] S. Bai,J. Z. Kolter,and V. Koltun,An empirical evaluation of generic convolutional and recurrent networks for sequence modeling,arXiv preprint arXiv:1803.01271,2018.
[8] F. Weninger,H. Erdogan,S. Watanabe,E. Vincent,J. L. Roux,J. R. Hershey,and B. Schuller,Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr,Latent Variable Analysis and Signal Separation Lecture Notes in Computer Science,p. 9199,2015.
[9] S. Srinivasan,N. Roman,and D. Wang,Binary and ratio time-frequency masks for robust speech recognition,Speech Communication,vol. 48,no. 11,pp. 1486 1501,2006.
[10] A. Narayanan and D. Wang,Ideal ratio mask estimation using deep neural networks for robust speech recognition,in 2013 IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2013,pp. 7092 7096.
[11] Y. Zhao,D. Wang,I. Merks,and T. Zhang,DNN-based enhancement of noisy and reverberant speech,in 2016 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2016,pp. 6525 6529.
[12] Y. Xu,J. Du,L.-R. Dai,and C.-H. Lee,An experimental study on speech enhancement based on deep neural networks,IEEE Signal processing letters,vol. 21,no. 1,pp. 65 68,2013.
[13] D. Yin,C. Luo,Z. Xiong,and W. Zeng,Phasen: A phase-andharmonics- aware speech enhancement network,arXiv preprint arXiv:1911.04697,2019.
[14] K. Tan and D. Wang,A convolutional recurrent neural network for real-time speech enhancement. in Interspeech,vol. 2018,2018,pp. 3229 3233.
[15] P.-S. Huang,M. Kim,M. Hasegawa-Johnson,and P. Smaragdis,Deep learning for monaural speech separation,in 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2014,pp. 1562 1566.
[16] Y. Xu,J. Du,L.-R. Dai,and C.-H. Lee, A regression approach to speech enhancement based on deep neural networks,IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol. 23,no. 1,pp. 7 19,2014.
[17] N. Takahashi,N. Goswami,and Y. Mitsufuji,Mmdenselstm: An efficient combination of convolutional and recurrent neural networks for audio source separation,in 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE,2018,pp. 106 110.
[18] Y. Wang and D. Wang,A deep neural network for time-domain signal reconstruction,in 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2015,pp. 4390 4394.
[19] Y. Liu,H. Zhang,X. Zhang,and L. Yang,Supervised speech enhancement with real spectrum approximation,in ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2019,pp. 5746 5750.
[20] D. Wang,On ideal binary mask as the computational goal of auditory scene analysis,in Speech separation by humans and machines. Springer,2005,pp. 181 197.
[21] Y. Wang,A. Narayanan,and D. Wang,On training targets for supervised speech separation,IEEE/ACM transactions on audio,speech,and language processing,vol. 22,no. 12,pp. 1849 1858,2014.
[22] H. Erdogan,J. R. Hershey,S. Watanabe,and J. Le Roux,Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks,in 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2015,pp. 708 712.
[23] D. S. Williamson,Y. Wang,and D. Wang,Complex ratio masking for monaural speech separation,IEEE/ACM transactions on audio,speech,and language processing,vol. 24,no. 3,pp. 483 492,2015.
[24] K. Tan and D. Wang,Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement,in ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2019,pp. 6865 6869.
[25] H.-S. Choi,J.-H. Kim,J. Huh,A. Kim,J.-W. Ha,and K. Lee,Phase-aware speech enhancement with deep complex u-net,arXiv preprint arXiv:1903.03107,2019.
[26] C. Trabelsi,O. Bilaniuk,Y. Zhang,D. Serdyuk,S. Subramanian,J. F. Santos,S. Mehri,N. Rostamzadeh,Y. Bengio,and C. J. Pal,Deep complex networks,arXiv preprint arXiv:1705.09792,2017.
[27] O. Ronneberger,P. Fischer,and T. Brox,U-net: Convolutional networks for biomedical image segmentation,in International Conference on Medical image computing and computer-assisted intervention. Springer,2015,pp. 234 241.
[28] K. He,X. Zhang,S. Ren,and J. Sun,Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,in Proceedings of the IEEE international conference on computer vision,2015,pp. 1026 1034.
[29] R. Gu,J. Wu,S.-X. Zhang,L. Chen,Y. Xu,M. Yu,D. Su,Y. Zou,and D. Yu,End-to-end multi-channel speech separation,arXiv preprint arXiv:1905.06286,2019.
[30] J. Garofolo,D. Graff,D. Paul,and D. Pallett,Csr-i (wsj0) complete ldc93s6a,Web Download. Philadelphia: Linguistic Data Consortium,vol. 83,1993.
[31] D. Snyder,G. Chen,and D. Povey,MUSAN: A Music,Speech,and Noise Corpus,2015,arXiv:1510.08484v1.
[32] J. B. Allen and D. A. Berkley,Image method for efficiently simulating small-room acoustics,The Journal of the Acoustical Society of America,vol. 65,no. 4,pp. 943 950,1979.
[33] F. Bahmaninezhad,S.-X. Zhang,Y. Xu,M. Yu,J. H. Hansen,and D. Yu,A unified framework for speech separation,arXiv preprint arXiv:1912.07814,2019.
[34] Y. Xia,S. Braun,C. K. A. Reddy,H. Dubey,R. Cutler,and I. Tashev,Weighted speech distortion losses for neural-networkbased real-time speech enhancement,in ICASSP 2020 - 2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2020,pp. 871 875.