論文地址：兩階段深度網路的解耦幅度和相位優化

論文程式碼：

引用格式：Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6628-6632.

摘要

　　在真實聲學環境下恢復被各種噪聲汙染的語音訊號仍然是一項艱鉅的挑戰。為此，我們提出了一種新的複雜應用去噪系統，該系統主要由兩個管道組成，即兩級網路和一個後處理模組。提出第一個管道來解耦優化問題 w.r.t. 幅值和相位，即第一階段只估計幅值，第二階段進一步細化。第二個管道旨在進一步抑制剩餘的非自然失真噪聲，這被證明可以充分提高主觀質量。在 ICASSP 2021 深度噪聲抑制 (DNS) 挑戰賽中，我們提交的系統在使用 ITU-T P.808 框架的平均意見得分 (MOS) 方面在實時軌道 1 中排名第一。

1 引言

　　在實際場景中，環境噪聲和房間混響可能會對自動語音識別(ASR)系統、視訊/音訊通訊和助聽裝置的效能產生負面影響。針對撞擊中存在的這些問題，人們已經提出了許多語音增強(SE)演算法來有效地估計乾淨的語音，同時充分抑制噪聲分量[1]。近年來，深度神經網路(DNNs)向SE研究快速發展[2，3]。通過資料驅動的範例，SE任務可以表示為一個監督學習問題，網路試圖在時頻域中揭示噪聲特徵和清潔目標之間複雜的非線性關係。

　　在以往的研究中，只研究幅度的恢復，而直接結合噪聲相位進行語音波形重構[2，3]。究其原因，有兩方面的原因：其一，由於其結構不清晰，相態被認為是很難估計的。另一方面，以前的文獻報導，階段的恢復並沒有帶來言語知覺質量的顯著提高[4]。最近，相位在提高語音質量和清晰度方面的重要性不斷受到重視[5]。威廉姆森等人。[6]提出了複數比率掩模(CRM)，該掩模既適用於實分量，也適用於偽分量，在理論上可以很好地估計幅值和相位。然後，提出了復譜對映技術，並要求網路直接估計RI譜，據報導，這種方法比基於掩蔽的方法獲得了更好的語音質量[7]。最近，基於時域的方法開始蓬勃發展，其中原始波形既是輸入又是輸出[8]。這樣就有效地避免了顯式相位估計問題。雖然這兩類方法在客觀測試中都取得了令人印象深刻的效能，但我們求助於複數域方法，因為我們發現在INTERSPEECH2020深度噪聲抑制(DNS)挑戰1中，基於複數域的方法獲得了比時域方法更好的平均優化分數(MOS)。我們將其原因歸因於T-F DO-Main格式比原始波形格式更好地區分語音和噪聲。

　　為了應對ICASSP 2021DNS挑戰賽[9]中更具挑戰性的聲學環境中的降噪問題，我們提出了一種新的SE系統，稱為具有低複雜度後處理方案的兩級複雜網路(TSCN-PP)。它主要由兩條加工管道組成。首先，設計了一種新穎的兩級網路模型，它由兩個子網路組成，即粗星等估計網路(簡稱CME-網)和復譜精化網路(簡稱為CSR-網)。對於CME-Net，它對頻譜幅度進行粗略估計，然後將其與噪聲相位相耦合，得到粗略的複數譜。然後，CSR-Net試圖通過接收粗估計譜和噪聲譜作為輸入來細化復譜。值得注意的是，CSR-Net的作用是雙重的，首先，它不是直接估計乾淨目標的頻譜，而是隻捕獲剩餘的細節，即將估計的細節與輸入相加，得到最終的精化頻譜。其次，由於仍有部分噪聲成分存在，CSR-Net有助於進一步抑制殘留噪聲。對於第二條流水線，我們提出了低複雜度的後處理(PP)模組來進一步降低非自然殘餘噪聲，這被證明是提高主觀語音質量的重要步驟。

　　我們從兩個角度解釋了演算法的設計原理。首先，由於單級網路的對映能力有限，往往不能很好地完成相對困難的任務，最近的文獻[10，11，12]揭示了多級訓練在影像去影像和語音分離等許多工中比單級訓練方法的優勢。其次，由於DNN的非線性特性，當測試集與訓練條件不匹配時，可能會引入一些非線性失真。例如，由於SE模型的訓練往往帶有大範圍的合成噪聲-清潔對，當訓練好的模型應用於更復雜的實際環境時，可能會引入一些不可取的非線性失真，從而大大降低了主觀等價性。因此，若要避免可聽語音失真，有必要採用PP模組進一步抑制殘餘噪聲。在我們的主觀實驗中，我們確實發現，在使用PP後，整體主觀素質可以得到持續的提高

　　論文的其餘部分結構如下。在第二節中，給出了所提出的兩級網路模型和後處理模型。第三節給出了實驗設定，第四節給出了實驗結果，第五節給出了一些結論。

2 提出的TSCN-PP

2.1 記數法

　　我們給出了建議的方法的示意圖，如圖1所示。本文將$(X_\tau ,X_i)$表示為有噪聲的複數譜，而$\left(\tilde{S}_{r \mid i}^{c m}, S_{r \mid i}\right)$、$\left(\tilde{S}_{r \mid i}^{c s}, S_{r \mid i}\right)$和$\left(\bar{S}_{r \mid i}^{p p}, S_{r \mid i}\right)$分別表示估計的CME-Net、CSR-Net和PP-模組的實部和虛部。此外，還定義CME-Net、CSR-Net和PP-模組的對映函式為$F_{cm}$、$F_{cs}$和$F_{pp}$，引數集分別為$\Phi_{cm}$、$\Phi_{cs}$和$\Phi_{pp}$。

圖1：處理流程

(a) 擬議的帶有後處理的兩階段框架。(b) CME-Net的網路詳情。(c) CSR-Net的網路細節

2.2 兩階段網路

　　如圖1所示，所提出的兩級網路，即TSCN，由兩個主要部分組成，即CME-Net和CSR-Net，CME-Net以噪聲頻譜的幅值作為輸入特徵，以乾淨語音訊譜的幅值作為輸出，再與噪聲相位耦合得到粗糙的複數譜(CSS)，即$\left(\widetilde{S}_{r}^{c m}, \widetilde{S}_{i}^{c m}\right)$，在第二階段，將CCS和原始噪聲頻譜連線起來作為CSR-Net的輸入，然後網路估計殘差頻譜，將其直接新增到CCS中以獲得精煉的對應物。 具體來說，在第一階段，僅優化幅度並且可以去除大多數噪聲分量。在第二階段，網路只需要修改相位，同時進一步細化幅度。簡而言之，計算過程是：

$$公式1：\left|\tilde{S}^{c m}\right|=\mathcal{F}_{c m}\left(|X| ; \Phi_{c m}\right)$$

$$公式2：\left(\tilde{S}_{r}^{c s}, \tilde{S}_{i}^{c s}\right)=\left(\tilde{S}_{r}^{c m}, \tilde{S}_{i}^{c m}\right)+\mathcal{F}_{c s}\left(\tilde{S}_{r}^{c m}, \tilde{S}_{i}^{c m}, X_{r}, X_{i} ; \boldsymbol{\Phi}_{c s}\right)$$

其中，$\tilde{S}_{r}^{c m}=\Re\left(\left|\tilde{S}^{c m}\right| e^{j \theta_{X}}\right) \text { and } \tilde{S}_{i}^{c m}=\Im\left(\left|\tilde{S}^{c m}\right| e^{j \theta_{X}}\right)$。

　　CME-Net和CSR-Net都採用與[13]相似的網路拓撲，包括門控摺積編碼器、解碼器和堆疊的時域卷積模組(簡稱TCM)[14]。編碼器用來提取頻譜特徵，解碼器用來重構頻譜。注意，這裡不使用長短期記憶(LSTM)作為序列建模的基本單元，而是使用堆疊的TCM來更好地捕獲短期和長期序列依賴關係。

　　如圖2(A)所示，在先前的TCM設定中，給定大小為(256，T)的輸入，其中256和T分別表示通道數和時間步長，TCM首先使用1×1-Conv將輸入投影到較高的通道空間，即512，然後應用擴張深度卷積(DD-Conv)，輸出1×1-Conv重新變為256。為便於澄清，省略了所有norm layers和啟用函式。為了進一步降低引數負擔，我們在這裡提出了兩種型別的輕量級TCM，如圖2(B)-(C)所示。在圖2(B)中，1×1-Conv將通道數壓縮為64，然後是門控D-Conv，即將一個常規擴張卷積與另一個擴張分支相乘，其中應用Sigmoid函式將輸出值縮放為(0，1)。2(C)是DTCM的改進版本，它應用了兩個門D-Conv，並將來自兩個分支的輸出連線在一起。並不是說兩個分支之間的擴張率是互補的，即如果一個分支的擴張率是$2^r$，那麼另一個擴張率就變成$2^{M-r}$，這裡M=5。理論上，大的擴張率意味著可以捕獲長期相關性，而小的擴張率可以學習區域性序列相關性。因此，這兩個分支在訓練過程中既建立了短序列相關性，又建立了長序列相關性。在本研究中，我們採用圖2(B)中的TCM作為CME-Net的基本單元，而將圖2(C)中的DTCM作為CSR-Net的基本單元。

圖2所示。不同型別 TCM 之間的比較，為了說明方便，忽略了規範層和啟用層。

(a) 原始TCN。 (b) 提議的輕量級TCM。 (c) 提議的輕量級雙 TCM (DTCM)

2.3 損失函式

　　對於兩級網路，採用以下策略對網路進行訓練。首先，我們分別訓練具有以下損失的CME-Net：

$$公式3：\mathcal{L}_{c m}=\left\|\left|\bar{S}^{c m}\right|-|S|\right\|_{F}^{2}$$

然後，載入CME-Net的預訓練模型，並與CSR-Net進行聯合優化，給出如下結果：

$$公式4：\mathcal{L}=\mathcal{L}_{c s}^{R I}+\mathcal{L}_{c s}^{M a g}+\lambda \mathcal{L}_{c m}$$

$$公式5：\mathcal{L}_{c s}^{R I}=\left\|\tilde{S}_{r}^{c s}-S_{r}\right\|_{F}^{2}+\left\|\tilde{S}_{i}^{c s}-S_{i}\right\|_{F}^{2}$$

$$公式6：\mathcal{L}_{c s}^{M a g}=\left\|\sqrt{\left|\tilde{S}_{r}^{c s}\right|^{2}+\left|\tilde{S}_{i}^{c s}\right|^{2}}-\sqrt{\left|S_{r}\right|^{2}+\left|S_{i}\right|^{2}}\right\|_{F}^{2}$$

　　其中$L_{cm}$和$L^{*}_{cs}$分別表示CME-Net和CSR-Net的損失函式。$\lambda$指的是權重損失係數，本文將其設定為0.1。注意，這裡考慮了CSR-Net的兩種型別的損耗，即RI損失和基於幅值的損失。這種靈感可以從兩個方面來解釋。首先，當這些分量逐漸優化時，震級一致性不能保證，即估計的震級可能偏離其最優優化路徑[15]。其次，實驗表明，當設定幅值約束時，可以獲得一致的PESQ改善[16]，這有助於語音質量。

2.4 後處理模組

　　在MSE作為損失函式的情況下，儘管語音質量有了顯著的改善，但殘餘噪聲分量可能會變得非常不自然，這可能會降低主觀質量。為了通過深度學習方法提高增強語音的自然度，人們提出了許多函式，如尺度不變的訊雜比(SI-SDR)[17]、語音質量評價的感知度量(PMSQE)[18]和具有殘差噪聲控制的MSE[19]。這些損失函式可以使殘餘噪聲聽起來比MSE更自然，從而在一定程度上改善了語音質量。

　　本文受[20，21，22]的啟發，採用類似於[21]的極低複雜度的深度學習方法來進一步抑制管道1輸出中的殘留噪聲。而不是使用深度學習對映增益直接在管道 1 的估計純淨語音訊譜上，我們使用該增益作為語音存在概率 (SPP) 的估計來遞迴地估計噪聲功率譜密度 (NPSD)。使用估計的 NPSD，引入 MMSE-LSA 估計器來計算最終增益，然後應用於抑制殘餘噪聲。為了進一步提高所提出的 PP 方案的魯棒性，我們在估計 NPSD 之前使用基於倒譜的預處理方案來抑制諧波分量。通過這樣做，在大多數情況下可以避免 NPSD 的高估問題。

3 實驗

3.1 資料集

　　在這項研究中，我們首先探索了 WSJ0-SI84 資料集 [23] 上不同模型之間的效能，以驗證所提出的兩階段網路的效能優勢。然後該模型連同後處理一起使用 ICASSP 2021 DNS-Challenge 資料集進行訓練和評估，以評估其在更復雜和真實的聲學場景中的效能。對於 WSJ0-SI84、5428 和 957 個乾淨的話語，分別選擇了 77 個說話者來建立用於訓練和驗證的資料集。對於測試集，選擇了 150 個話語。請注意，測試集中的說話者資訊未經訓練。我們從 DNS-Challenge2 中隨機選擇 20,000 個噪聲，形成一個 55 小時的噪聲集用於訓練。為了測試，選擇了 4 個具有挑戰性的噪聲，即來自 NOISEX92 [24] 的 babble、cafe 和 white 以及來自 CHIME3dataset [25] 的 factory1。在這項研究中，我們分別建立了 50,000 和 4000 個噪聲清潔對用於訓練和驗證，SNR 範圍從 -5dB 到 0dB。培訓總時長約為100小時。模型評估選擇了5個SNR，分別為-5dB、0dB、5dB、10dB和15dB。

　　對於ICASSP 2021 DNS Challenge，考慮的聲學場景比INTERSPEECH 2020 DNS Challenge相對更復雜，包括混響效果、跨語言、情感和歌唱案例。然而，許多提供的話語相對嘈雜，這會嚴重影響網路的訓練收斂。結果，我們丟棄了質量明顯較差的話語。總的來說，我們生成了一個持續時間為 517 小時的大型噪聲清潔訓練集，其中使用了大約 65,000 個提供的噪聲，SNR 範圍從 -5dB 到 25dB。此外，考慮到真實環境中的混響效果，大約 30% 的話語在與不同的噪聲訊號混合之前與 100,000 個提供的合成和真實房間脈衝響應 (RIR) 進行卷積。在本研究中，混響時間 T60 的範圍為 0.3 到 1.3 秒。

3.2 超引數設定

　　所有的聲音取樣在16kHz。採用20ms Hanning視窗，連續幀之間重疊50%。利用320點FFT提取光譜特徵。兩個模型都由Adam[26]優化。當單獨訓練第一個模型時，初始化學習率(LR)設定為0.001。當兩個模型聯合訓練時，LRs分別設定為0.001和0.0001。批大小在語音級別設定為8。注意，為了減少DNS-Challenge資料集的訓練時間，我們直接對WSJ0-SI84上預訓練的模型進行微調，以幫助模型快速適應新的資料集。

3.3 對比模型

　　在本研究中，我們將提出的兩階段網路與另一個先進的5個基線，即CRN [27]， DARCN [12]， TCNN [28]， GCRN[7]和DCCRN[29]進行比較，分別給出如下：

CRN：它是T-F域中的因果卷積迴圈網路。編碼器和解碼器分別採用5個卷積塊和5個反摺積塊。序列建模採用2個LSTM層，1024個單元。在保持噪聲相位不變的情況下，只估計幅度。我們在[27]中保留了最好的配置，引數數量為17.58M。
DARCN：它是T-F域中的因果卷積網路，將遞迴學習和動態注意機制結合在一起。將當前的估計輸出反饋給輸入，然後再利用網路來細化下一階段的估計。我們將最佳配置儲存在[12]中，引數個數為1.23M。
TCNN：它是在時域定義的因果編碼-TCMs-解碼器拓撲。原始波形既是輸入波形，也是輸出波形。我們在[28]中保持相同的配置，引數的數量為5.06M。
GCRN；它是CRN的高階版本，可以估計震級和相位。除了使用兩個解碼器進行RI估計外，它與CRN具有類似的拓撲結構。我們保持[7]中的最佳配置，引數數為9.06M
DCCRN：在Interspeech 2020 DNS-Challenge實時跟蹤中排名第一，其中CNN和RNN採用複數運算，使用SI-SDR作為損失函式。我們保持了[29]中的最佳配置，引數數量為3.72M。
TSCN：編解碼器部分設定5個(解卷積)塊，每層中間通道數為64個，時頻軸上核大小和步長分別為(2，3)和(1，2)。對於CME-Net，18個輕質TCM用於序列學習，而12個DTCM用於CSR-Net3。CME-NET的引數個數為1.96M，TSCN的引數個數為4.99M。

4 結果與分析

4.1 客觀評價

　　我們使用兩個客觀度量來評估不同模型的效能，即PESQ[30]和Estoi[31]，它們與人類的感知質量和可理解性密切相關。結果見表1和表2，可以觀察到後續現象。首先，建議的TSCN在PESQ和Estoi上都明顯超過了其他基線。例如，與最先進的方法DCCRN相比，TSCN在PESQ和Estoi方面的平均表現分別為0.14和1.77%。這表明了該方法的優越效能。其次，對於相對較高的訊雜比，DCCRN似乎相對更有利。例如，在-5dB內，TSCN比DCCRN獲得了約0.23PESQ值的改善。然而，對於像15dB這樣的高訊雜比，PESQ分數是相似的。第三，當應用PP時，這兩個度量的效能都會降低。這是因為這裡設定PP是為了抑制一些令人不快的殘餘噪聲分量，也可能會取消一些能量較低的語音分量。儘管如此，我們也認為實現PP是有益的，因為在低訊雜比條件下，網路可能會產生一些“假”的頻譜分量，這聽起來並不令人愉快。我們期望PP能夠有效地抑制負面影響，提高主觀質量，這一點將在下一節得到驗證。總體而言，提出的TSCN在客觀指標上取得了令人印象深刻的效能，促使我們將其與PP一起用於DNS挑戰評估

表1 基於PESQ的WSJ0-SI84資料集的客觀結果。加粗表示每種情況下的最佳結果。“cau”表示系統是否是因果執行

表2 在WSJ0- SI84資料集上的ESTOI(in %)的客觀結果。加粗表示每種情況下的最佳結果

4.2 後處理的影響

　　為了驗證PP的影響，我們進行了AB主觀測試，程式類似於[19]。10名志願者參與了測試。我們從DNS盲測試集中隨機選取了10個語料，其中情感語料2個，英語語料3個，非英語語料3個，唱歌語料2個。提供兩種處理型別，即TSCN和TSCN-PP。要求志願者選擇主觀質量較好的首選專案。如果不能做出決定，還提供“平等”選項。測試結果如圖所示。3.與TSCN相比，PP應用後，獲得了一致的主觀偏好。這表明客觀計量學和主觀選擇之間存在差距，即儘管由於PP丟失了頻譜資訊而導致PESQ顯著下降，但由於抑制了最不自然的殘餘噪聲，仍然獲得了一致的主觀偏好。有趣的是，這一結論與[32]中的研究是一致的。

圖 3. TSCN 和 TSCN-PP 之間的主觀評價測試。如果不能做出決定，也提供平等的選擇。

4.3 在DNS-Challenge中的主觀評價

　　在表3中，我們給出了組織者提供的符合ITU-TP.808標準[9]的深淵翻滾主觀結果。Onecan發現，我們的方法總體上比基線模型高出0.17個MOS分數。此外，該方法在歌唱、聲調和情感等特殊場景中也取得了令人印象深刻的表現，這些場景比傳統的語音情況要難處理得多。

　　最後，我們對演算法的處理時延進行了評估。在本研究中，視窗大小T=20ms，連續幀之間重疊ts=10ms。結果表明，演算法時延td=T+ts=30ms，滿足時延要求。注意，這項研究沒有利用未來的資訊，也就是說，系統是嚴格的因果關係。計算了TSCN-PP的平均處理時間為4.80ms，在Inteli5-4300U PC機上測試的TSCN-PP的平均處理時間為3.84ms。值得注意的是，儘管採用了兩級網路，但由於我們將每個編碼器和解碼器的卷積通道數限制在64個，同時用可並行的TCM代替LSTM，所以推理效率仍然是有保證的

表3 基於P.808標準對DNS Challenge的主觀評價

5 結論

在這個挑戰中，我們提出了一種新穎的去噪系統，它由一個兩級網路和一個低複雜度的後處理模組組成。對於兩級網路，首先對幅值和相位進行解耦優化，即先粗略估計幅值，然後用第二級網路精化相位資訊；為了獲得更好的主觀質量，我們還提出了一種輕量級的後處理模組來進一步抑制測試集與訓練條件不匹配時產生的剩餘非自然殘餘噪聲。主觀結果表明，對於ICASSP2021 DNS挑戰賽的實時軌道1，所提出的演算法在MOS中排名第一

6 參考文獻

[1] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013. [2] Y. Xu, J. Du, L-R. Dai, and C-H. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 23, no. 1, pp. 7 19, 2014. [3] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Trans.Audio Speech Lang. Proc., vol. 26, no. 10, pp. 1702 1726, 2018. [4] D. Wang and J. Lim, The unimportance of phase in speech enhancement, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 30, no. 4, pp. 679 681, 1982. [5] K. Paliwal, K. W ojcicki, and B. Shannon, The importance of phase in speech enhancement, Speech Commun. , vol. 53, no. 4, pp. 465 494, 2011. [6] D. Williamson and D. Wang, Time-frequency masking in the complex domain for speech dereverberation and denoising, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 25, no. 7, pp. 1492 1501, 2017. [7] K. Tan and D. Wang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 28, pp. 380 390, 2020. [8] A. D efossez, G. Synnaeve, and Y. Adi, Real Time Speech Enhancement in the Waveform Domain, in Proc. Interspeech 2020, pp. 3291 3295, 2020. [9] C. Reddy, H. Dubey, V. Gopal, R. Cutler, S. Braun, H. Gamper, R. Aichner, and S. Srinivasan, ICASSP 2021 Deep Noise Suppression Challenge, arXiv preprint arXiv:2009.06122, 2020. [10] W. Yu, Z. Huang, W. Zhang, L. Feng, and N. Xiao, Gradual network for single image de-raining, in Proc. of ACMM, 2019, pp. 1795 1804. [11] A. Li, M. Yuan, C. Zheng, and X. Li, Speech enhancement using progressive learning-based convolutional recurrent neural network, Appl.Acoust. , vol. 166, pp. 107347, 2020. [12] A. Li, C. Zheng, C. Fan, R. Peng, and X. Li, A recursive network with dynamic attention for monaural speech enhancement, in Proc. of Interspeech 2020, 2020. [13] Y. Zhu, X. Xu, and Z. Ye, FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions, Appl. Acoust. , vol. 170, pp. 107511, 2020. [14] S. Bai, J. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018. [15] S. Wisdom, J. Hershey, K. Wilson, J. Thorpe, M. Chinen, B. Patton, and R. Saurous, Differentiable consistency constraints for improved deep speech enhancement, in Proc. of ICASSP.IEEE, 2019, pp. 900 904. [16] Z. Wang, P. Wang, and D. Wang, Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 28, pp. 1778 1787, 2020. [17] J. L. Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, SDR Half-baked or well done? , in Proc. of ICASSP, 2019, pp. 626 630.

[18] J. M. Martin-Do nas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, A deep learning loss function based on the perceptual evaluation of the speech quality, IEEE Signal Process. Lett. , vol. 25, no. 11, pp. 1680 1684, 2018. [19] A. Li, R. Peng, C. Zheng, and X. Li, A supervised speech enhancement approach with residual noise control for voice communication, Appl. Sci. , vol. 10, no. 8, pp. 2894, 2020. [20] M. Tammen, D. Fischer, B. T. Meyer, and S. Doclo, DNNbased speech presence probability estimation for multi-frame single-microphone speech enhancement, in Proc. of ICASSP, 2020, pp. 191 195. [21] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in Proc. of MMSP. IEEE, 2018, pp. 1 5. [22] X. Hu, S. Wang, C. Zheng, and X. Li, A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments, Appl. Acoust. , vol. 74, no. 12, pp. 1458 1462, 2013. [23] D. Paul and J. Baker, The design for the wall street journalbased CSR corpus, in Workshop on Speech and Natural Language, 1992, p. 357 362. [24] A. Varga and H. Steeneken, Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems, Speech Commun. , vol. 12, no. 3, pp. 247 251, 1993. [25] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, The third chime speech separation and recognition challenge: Dataset, task and baselines, in Proc. of ASRU. IEEE, 2015, pp. 504 511. [26] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [27] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement. , in Proc. of Interspeech, 2018, pp. 3229 3233. [28] A. Pandey and D.Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. of ICASSP. IEEE, 2019, pp. 6875 6879. [29] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in Proc. of Interspeech 2020, 2020, pp. 2472 2476. [30] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs, in Proc. of ICASSP. IEEE, 2001, vol. 2, pp. 749 752. [31] J. Jensen and C. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 24, no. 11, pp. 2009 2022, 2016. [32] J. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech, in Proc. of Interspeech 2020, 2020.

論文翻譯：2021_Decoupling magnitude and phase optimization with a two-stage deep network

摘要