論文翻譯:2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss

凌逆戰發表於2021-12-13

論文地址:使用感知動機目標和損失的低延遲語音增強

引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Interspeech 2021, 2021: 2826-2830.

摘要

  基於深度神經網路的語音增強方法優於傳統的訊號處理方法。我們提出了一種利用新的感知激勵訓練目標和損失函式的低延遲語音增強方法。該方法可以獲得與現有方法相似的語音增強效能,但顯著降低了延遲和計算複雜度。通過INTERSPEECH 2021深度噪聲抑制挑戰組織者進行的MOS測試,該方法在背景噪聲MOS中排名第二,在整體MOS中排名第六。

關鍵詞:語音增強、時頻掩蔽、深度神經網路、單通道

1  引言

  單通道語音增強的目的是將純淨語音從帶噪語音中分離出來。傳統的基於訊號處理的方法旨在對噪聲頻譜建模以執行譜減法[1]或維納濾波[2]。近年來,基於深度神經網路(DNNs)的方法效能優於傳統方法。這些方法通常以有監督的方式進行訓練,可以分為時域方法和時頻域方法。文獻[3]、[4]中提出的時域方法直接輸入帶噪語音波形來估計純淨語音。雖然時域方法可以實現端到端處理,但折衷是放棄了語音和噪聲訊號在時頻域中的稀疏性,如[5]中所述。文獻[6]、[7]和[8]、[9]中提出的時頻域方法分別採用DNN對純淨語音的幅值和復譜進行建模。雖然將訓練目標設定為複數譜可以達到比幅度譜更高的預測上界,但也帶來了複雜度的增加,這可能不適合實際的實時應用。此外,在去年的DNS挑戰賽[10]中,使用這兩個訓練目標的方法可以達到相對的感知質量[11]。本文以感知最優幅度譜為訓練目標,在時頻域內對低時延、低複雜度的單通道語音增強進行了研究

  本文提出了一種預處理方法,以產生感知上最優的幅度譜作為訓練目標當純淨語音的幅譜與輸入有噪訊號的相位相結合時,目標語音訊號的上界下降,特別是在低訊雜比(SNR)條件下。這是因為對於低訊雜比的時頻瞬時,噪聲相位與理想語音相位有很大的不同。在應用所提出的預處理方法之前,研究了常用的理想掩模產生的訓練目標的上界。類似的研究可以在文獻[12]中找到,其中比較了不同理想掩模產生的訓練目標的訊雜比(SAR),本文直接比較了經典維納掩模[14]、理想比掩模(IRM)[15]和理想幅度掩模(IAM)[12]得到的訓練目標的PESQ[13]。研究發現,IAM在不同的訊雜比條件下都能獲得最高的PESQ得分。使用所提出的預處理方法進一步壓縮IAM。在訊雜比為-10dB~25dB的情況下,對於可達到的訓練目標,所提出的預處理方案可以獲得平均0.11PESQ的改善。具體地說,對於5dB到15dB的條件,PESQ改善在0.15以上。

  在預處理方案的基礎上,提出了一種新的損失函式,將壓縮後的IAM與幅度譜損失計算相結合。所提出的損失函式引入IAM加權因子來均衡對數壓縮幅度的重要性。其目的是在低振幅和高振幅的時頻瞬間之間提供更好的平衡。

  使用PESQ[13]和STOI[16]對所提出的方法進行了評估。如第6節所示,與不使用預處理的相同配置相比,所提出的預處理方案可以獲得0.04 PESQ和0.11 STOI的改善。在損失函式中提出的IAM加權因子可以達到0.13的PESQ和0.02的STOI改善。當預處理和損失函式一起使用時,與現有方法相比,該方法可以獲得與現有方法相似的PESQ效能,並且具有更小的系統延遲和複雜度。

  所提出的方法還進入了2021年DNS挑戰賽[17]。在480點FFT(對應於16 kHz輸入訊號30ms)和160點幀移(對應於16 kHz輸入訊號對應10ms),系統總延遲為30ms+10ms=40ms,滿足本次挑戰的延遲要求。該模型具有3.393M個引數,756.868M個FLOP。在英特爾酷睿i7(2.6 GHz)CPU上的一幀推理時間為0.386毫秒。該方法在背景噪聲MOS方面排名第2位,在整體MOS方面排名第6位。

2  訊號模型

  噪聲混響混合訊號$y$在時域通過以下公式建模:

$$y(t)=h(t)*x(t)+n(t)$$

其中$x(t)$是語音訊號,$h(t)$是從說話者到麥克風的傳遞函式,*表示卷積,$n(t)$是噪聲。該系統的目的是從$y(t)$估計$x(t)$,包括從捕獲的訊號中去除噪聲和混響。

  訓練過程的概述如圖1所示。先對帶噪語音和純淨語音進行短時傅立葉變換(STFT),以獲得時頻域的幅值和相位訊號。對純淨語音的幅值進行預處理,得到感知上最優的訓練目標。輸入噪聲訊號的幅度譜饋送到基於DNN的編解碼器,以估計純淨語音的幅度譜。基於訊號處理的後處理也被用來產生最終的幅值估計,將估計幅值與噪聲相位相結合,使用短時傅立葉逆變換(ISTFT)形成時域輸出

圖1  擬議系統的架構

3  訓練目標

  將純淨語音複數譜圖作為訓練目標,可以實現完美的重構,而僅預測純淨語音的幅度譜被廣泛應用於實時通訊系統,以顯著降低其複雜度。在此工作中,我們直接比較了不同訓練目標在大訊雜比範圍內的PESQ分數。此外,還提出了一種預處理方法,以進一步提高訓練目標的感知質量。

  首先推匯出三種常用掩模生成的訓練目標

$$公式2:x_{\text { }_{irm}} =i \operatorname{STFT}(|Y| \cdot \frac{|X|}{|\mathrm{X}|+|\mathrm{N}|} \cdot \angle(Y))$$

$$公式3:x_{\text { }_{\text {Wiener }}} =\operatorname{iSTFT}(|Y| \cdot \frac{X^{2}}{X^{2}+N^{2}} \cdot \angle(Y))$$

$$公式4:x_{\text { }_{iam}} =\operatorname{iSTFT}(|Y| * \frac{|X|}{|Y|} * \angle(Y))$$

其中$|·|$和$\angle (·)$表示複數譜的幅值和相位計算。

  使用VCTK語音資料集[19]和穩定噪聲,包括while、pink、babble、street等,針對訊雜比(-10 ~ 25dB)和理想掩碼條件生成2000個訓練目標。PESQ結果如圖2所示,其中錯誤條表示95%置信區間。如圖所示,與IRM(藍色)和Wiener-like mask(灰色)相比,IAM(綠色)獲得了最高的PESQ分數。

圖2:不同訓練目標之間的比較

  此外,提出了一種掩碼壓縮方案,將IAM從標準設定中壓縮出來,以顯著提高IAM 訓練目標的感知質量

$$公式5:x_{\text { }_{\text {iam- } \gamma}}=\operatorname{iSTFT}\left(|Y| *\left(\frac{|X|}{|Y|}\right)^{\mid Y} * \angle(Y)\right)$$

其中,$\gamma $表示壓縮比,$\gamma=1$是IAM的標準設定。$\gamma $從0.2到1.4的不同選擇下的實驗結果如圖3所示。

圖3:不同壓縮比的比較($\gamma $)

  如圖 3 所示,為每個$\gamma $選項生成了 2000 個使用(5)的 訓練目標,以與使用 PESQ 的純淨參考進行比較。 誤差條表示 95% 的置信區間。 與 ($\gamma $= 1.0) IAM 訓練目標相比,$\gamma $= 0.8 實現了 0.116(平均)和超過 0.15(對於 5dB、10dB、15dB 和 20dB SNR 條件)的 PESQ 改進。

4  DNN模型

   如圖 1 所示,這項工作中的 DNN 模型基於卷積迴圈網路 (CRN) [20],該網路將迴圈神經網路 (RNN) 模組巢狀在基於卷積神經網路 (CNN) 的編碼器-解碼器結構中。在採用 480 點STFT(16kHz 輸入為 30ms)160 點幀移(16kHz 輸入為 10ms)後,STFT 域幅度表示$Y\in R^{F*T}$(F= 241,T= 2 幀)輸入訊號$L_c\in N(L_c=2)$輸入卷積編碼器以對時頻域區域性互連進行建模。最後一個卷積編碼器層 [batch, frame, frequency, channel] 的特徵圖在頻率軸上reshape,以形成$L_r\in N(L_r=2)$個迴圈層 [batch, frame, frequency channel] 的順序表示。迴圈層的輸出被reshape回 3 維張量,以形成$L_d\in N(L_d=2)$卷積解碼器的輸入。最終的輸出張量是通過具有 sigmoid 啟用函式的前饋層使用最後一個卷積解碼器層的輸出產生的。

  詳細地說,對於每個卷積層,採用了ReLU啟用函式和批量歸一化。在卷積層的末端還採用了Dropout機制,以進一步防止過擬合。dropout引數設定為0.3。在卷積層之後,輸出是一個張量$L\in R^{M*F'*T'}$,其中$M$是最後一個編碼器層的輸出特徵對映的數量,$F'$和$T'$是剩餘的頻率和時間索引的數量。該遞迴網路由門遞迴單元(GRU)實現,以模擬輸入訊號的序列性質。將輸出特徵對映疊加到頻率軸上後,GRU的輸入是一個張量$H\in R^{(M·F')*T'}$。迴圈層的輸出被重塑回$\tau \in R^{(M·F'')*T''}$,以形成卷積解碼器的輸入。超引數的詳細資訊如表1所示。

表1  卷積迴圈神經網路的設計

  針對低訊雜比和幅值時頻區域,設計了一種新的IAM加權損失。對於每個時頻瞬間,損失可以用:

$$L o s s=W_{I A M} *\left|\ln \left(X_{m a g}^{\prime}+1\right)-\ln \left(X_{m a g}+1\right)\right|$$

其中:

$$公式7:W_{I A M}=e^{\left(\frac{a}{b+I A M}\right)}$$

$$公式8:I A M=Y_{\text {mag }} *\left(\frac{X_{\text {mag }}}{Y_{\text {mag }}}\right)^{\gamma} * \angle(Y)$$

  在此工作中,$\gamma $被設定為1,$a$被設定為2,$b$被設定為1。所提出的IAM權值旨在平衡語音占主導地位和噪聲占主導地位時頻例項的重要性,其中值越小的IAM在總損失中的權重越高。對數壓縮部分的目的是減少低幅值和高幅值時頻瞬間之間的水平差。如評價部分所述,利用所提出的損失可以提高噪聲抑制效能。其中$X'_{mag}$為預測純淨振幅譜,$X_{mag}$為目標振幅譜,A為噪聲振幅譜。$\angle (·)$表示複雜時頻譜的幅值和相位計算。

5  後置濾波

  為了進一步提高主觀質量,採用包絡後置過濾[18]對DNN估計的IAM ($IAM_{dnn}$)進行細化,得到最終的IAM ($IAM_{pf}$):

$$公式9:I A M_{p f}=\frac{(1+\tau) \cdot I A M_{d n n}}{\left(1+\frac{\tau \cdot I A M_{d n n}}{I A M}\right)}$$

其中

$$公式10:I A M_{\sin }=I A M_{d n n} \cdot \sin \left(\frac{\pi \cdot I A M_{d n n}}{2}\right)$$

  $t$被設定為0.02。最後估計的振幅(magnitude)是

$$公式11:X_{p f}^{\prime}=Y \cdot I A M_{p f}$$

6  實驗和結果

6.1  資料集

  實驗的純淨語音資料集為DNS Challenge(INTERSPEECH 2021)純淨語音資料集,包含英語、中文、法語等多種語言。噪聲資料為DNS Challenge(INTERSPEECH 2021)噪聲集。 我們將訓練資料與從 {-5, 0, 5, 10, 15, 20, 25, 30} dB 中隨機選擇的 SNR 合成。 還包括沉默、純淨語音和純噪聲樣本。 為了進一步提高混響環境中的魯棒性,噪聲和目標訊號與測量或模擬的房間脈衝響應進行卷積。 Varies EQ 濾波器也用於模擬各種麥克風的頻率響應曲線。 為避免去混響引起的語音失真,採用 75ms 早期反射的語音作為訓練目標。 音訊訊號的取樣率為16kHz。

6.2  結果

  首先,為了評估所提出的預處理方法和損失函式,將不同配置的模型進行如下比較。

  • NoPP_MALE:未進行預處理的模型,具有平均絕對對數誤差(MALE)損失函式。
  • PP_MALE:帶有預處理和MALE loss函式的模型。
  • NoPP_WO-MALE:無預處理,且具有IAM加權優化MALE (WO-MALE)損失函式。
  • PP_WO-MALE:模型預處理和WOMALE損失函式。

  所有模型都用 500 小時的資料進行訓練,並且還對 PP_WO-MALE 模型用 2000 小時的資料進行訓練,以形成提交給 DNS 挑戰賽 (INTERSPEECH 2021) 的模型。 短期客觀清晰度(STOI)和語音質量感知評估(PESQ)被用作評估指標。 表 2 展示了 DNS Challenge (INTERSPEECH 2020) 綜合測試集的結果。

表2:在INTERSPEECH DNS挑戰綜合測試集上得到PESQ和STOI結果

  從表 2 可以看出,帶有預處理的模型比沒有預處理的模型可以獲得更高的 PESQ 和 STOI 分數。 應該注意的是,PESQ 的改進小於第 3 節中討論的 目標語音。這主要是由兩個原因造成的。 首先,網路可能無法充分利用有預處理和沒有預處理的 目標之間的差異。 其次,合成測試集的 SNR 分佈與第 3 節中進行的實驗不同。 還可以觀察到,WO-MALE 模型可以實現比 MALE 條件更高的 PESQ 和 STOI 分數。 最後,所提出的 PP_WO-MALE 模型獲得了最高的 PESQ 和 STOI 分數。 用 2000 小時資料集訓練的 PP_WOMALE 進一步提高了 PESQ 和 STOI 分數。

  圖 4 中語譜圖對比,其中純淨語音是在句子開頭存在背景競爭說話者並且背景噪聲恆定的情況下。 如圖所示,提出的 PP_WO-MALE 可以在去除非目標說話人聲音的同時抑制更穩定的背景噪聲。

圖4:語譜圖結果對比

  將此 2000 小時 PP_WO-MALE 模型與最先進的方法進行比較,包括使用相同測試集的去年 INTERSPEECH DNS 挑戰賽中排名靠前的方法。 NSNet [10] 是 INTERSPEECH DNS 2020 Challenge 的官方基線方法。 DTLN [21] 是一種具有單幀輸入、單幀輸出方式的低複雜度模型,而 DCCRN [22] 是 INTERSPEECH DNS 2020 挑戰賽主觀聽力測試中排名最高的方法。 FullSubNet [23] 是 ICASSP DNS 2021 挑戰賽的頂級方法。

  如表 3 中所列,與具有相同(40 毫秒)延遲的方法相比,所提出的方法可以實現 0.20 以上的 PESQ 改進。 並且比較 DCCRN 和 FullSubNet 都具有大約 50% 的延遲和更大的模型尺寸,所提出的低延遲和低複雜度方法仍然實現了具有競爭力的 PESQ 效能。

表3:DNS挑戰(INTERSPEECH 2020)綜合測試資料集上的PESQ和STOI結果

   DNS挑戰賽(INTERSPEECH2021)主辦方提供了官方主觀評價結果,如表4和表5所示。最後總結了P.808實時深噪聲抑制軌道主觀評價結果。表4(背景噪聲MOS)和V(總體MOS)的縮寫列出如下:靜止(Sta),情緒語言(Emo),非英語音調(NET),非英語(NE),音樂樂器(Mus),英語(Eng),總體(Ovr)。雖然顯著優於基線系統,但所提出的方法在背景噪聲MOS結果中排名第二,在Overall MOS結果中排名第六(微軟的排名在比賽中被忽略)。

表4  DNS挑戰(INTERSPEECH2021)背景噪聲MOS

表5  DNS挑戰(INTERSPEECH2021)整體MOS

7  複雜度

  採用480點FFT(對應16kHz輸入訊號30ms)和160點步幅(對應16kHz輸入訊號10ms),總系統延遲為30ms + 10ms = 40ms,滿足本次挑戰的時延要求。 所提出的模型有 3.393M 引數,756.868M FLOPs。 Intel Core i7 (2.6GHz) CPU 上的一幀推理時間為 0.386ms。

8  結論

  在這項研究中,提出了一種低延遲低複雜度的語音增強系統。 我們證明了帶有預處理和新設計的 WO_MALE 損失函式的模型可以達到最佳效能。 我們還將效能與 DNS2020 中的一些最先進的方法進行了比較,所提出的系統以更少的系統延遲和複雜性實現了類似的 PESQ 效能。 在挑戰組織者提供的 DNS 挑戰賽(INTERSPEECH 2021)結果中,所提出的系統在背景噪聲 MOS 成績中獲得第 2 名,在總體 MOS 成績中獲得第 6 名(本次比賽忽略了微軟的排名)。

參考文獻

[1] S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust. Speech Signal Process. , vol. 27, no. 2, pp. 113 120, Apr. 1979.

[2] N. Madhu, A. Spriet, S. Jansen, R. Koning, and J. Wouters, The Potential for Speech Intelligibility Improvement Using the Ideal Binary Mask and the Ideal Wiener Filter in Single Channel Noise Reduction Systems: Application to Auditory Prostheses, IEEE Trans. Audio Speech Lang. Process. , vol. 21, no. 1, pp. 63 72, Jan.

[3] Y. Luo and N. Mesgarani, Conv-TasNet: Surpassing Ideal Time Frequency Magnitude Masking for Speech Separation, IEEEACM Trans. Audio Speech Lang. Process. , vol. 27, no. 8, pp. 1256 1266, Aug. 2019

[4] R. Giri, U. Isik, and A. Krishnaswamy, Attention Wave-U-Net for Speech Enhancement, in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct. 2019, pp. 249 253

[5] O. Yilmaz and S. Rickard, Blind separation of speech mixtures via time-frequency masking, IEEE Trans. Signal Process. , vol. 52, no. 7, pp. 1830 1847, Jul. 2004

[6] Y. Wang, A. Narayanan, and D. Wang, On Training Targets for Supervised Speech Separation, IEEEACM Trans. Audio Speech Lang. Process. , vol. 22, no. 12, pp. 1849 1858, Dec. 2014

[7] T. Grzywalski and S. Drgas, Using Recurrences in Time and Frequency within U-net Architecture for Speech Enhancement, in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 6970 6974.

[8] D. S. Williamson and D. Wang, Time-Frequency Masking in the Complex Domain for Speech Dereverberation and Denoising, IEEEACM Trans. Audio Speech Lang. Process. , vol. 25, no. 7, pp. 1492 1501, Jul. 2017,

[9] D. Yin, C. Luo, Z. Xiong, and W. Zeng, PHASEN: A Phaseand- Harmonics-Aware Speech Enhancement Network, presented at the AAAI, Nov. 2019.

[10] C. K. A. Reddy et al., The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results, ArXiv200513981 Cs Eess, Oct. 2020, Accessed: Apr. 03, 2021.

[11] Deep Noise Suppression Challenge - INTERSPEECH 2020 - Microsoft Research. https://www.microsoft.com/enus/ research/academic-program/deep-noise-suppressionchallenge- interspeech-2020/#! results (accessed Mar. 26, 2021).

[12] H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Apr. 2015, pp. 708 712

[13] ITU, P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. 2001.

[14] M. Parviainen, P. Pertilä, T. Virtanen, and P. Grosche, Time- Frequency Masking Strategies for Single-Channel Low-Latency Speech Enhancement Using Neural Networks, in 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC), Sep. 2018, pp. 51 55

[15] A. Narayanan and D. Wang, Ideal ratio mask estimation using deep neural networks for robust speech recognition, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 2013, pp. 7092 7096

[16] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An Algorithm for Intelligibility Prediction of Time Frequency Weighted Noisy Speech, IEEE Trans. Audio Speech Lang. Process. , vol. 19, no. 7, pp. 2125 2136, Sep. 2011

[17] C. K. A. Reddy et al., Interspeech 2021 Deep Noise Suppression Challenge. 2021.

[18] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A Perceptually-Motivated Approach for Low- Complexity, Real-Time Enhancement of Fullband Speech, in Proc. Interspeech 2020, 2020, pp. 2482 2486

[19] J. Yamagishi, C. Veaux, and K. MacDonald, CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92), Nov. 2019,

[20] K. Tan and D. Wang, A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement, in Proc. Interspeech 2018, 2018, pp. 3229 3233

[21] N. L. Westhausen and B. T. Meyer, Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression, in Proc. Interspeech 2020, 2020 

[22] Y. Hu et al., DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement, in Proc. Interspeech 2020, 2020

[23] X. Hao, X. Su, R. Horaud, and X. Li, FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement, in Proc. ICASSP 2021, 2021

相關文章