論文地址:DeepFilterNet:基於深度濾波的全頻帶音訊低複雜度語音增強框架
論文程式碼:https://github.com/ Rikorose/DeepFilterNet
引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.
摘要
復值處理將基於深度學習的語音增強和訊號提取提升到一個新的水平。通常,該過程基於應用於噪聲頻譜圖的時頻 (TF) 掩膜,而複數掩模(CM)通常比實值掩模更受青睞,因為它們能夠修改相位。最近的工作提出用一個複數的濾波器代替帶掩碼的逐點乘法。這允許利用每個頻帶內的區域性相關性,合併來自以前和未來時間步長的資訊。
在這項工作中,我們提出了DeepFilterNet,一個利用深度過濾的兩階段語音增強框架。首先,我們使用模擬人類頻率感知的 ERB 縮放增益來增強頻譜包絡。第二階段採用Deep filtering 增強語音的週期性成分。除了利用語音的感知特性之外,我們還通過可分離的卷積和線性和迴圈層中的廣泛分組來強制網路稀疏性,以設計一個低複雜度的架構。
我們進一步表明,我們的兩階段深度過濾方法在各種頻率解析度和延遲上都優於複雜的掩碼,並且與其他最先進的模型相比,表現出令人信服的效能。
關鍵詞:複數域
2 DeepfilterNet
2.1 訊號模型
設$x(k)$為在嘈雜房間中錄製的混合訊號。
$$公式1:x(t)=s(t)*h(t)+z(t)$$
式中,$s(t)$為純語音訊號,$h(t)$為揚聲器對麥克風的室內脈衝響應,$z(t)$為已包含混響環境的加性噪聲訊號。通常,降噪是在頻域進行的
$$公式2:X(k,f)=S(k,f)·H(k,f)+Z(k,f)$$
其中$X(k,f)$是時域訊號$x(t)$的STFT結果,$t$和$f$分別是時間和頻率bin。
2.2 Deep Filtering
Deep Filtering被定義為 TF域的 複數濾波器:
$$公式3:Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i+l, f)$$
其中$C$為應用於輸入頻譜$X$的濾波器階$N$的複數係數,$Y$為增強頻譜。在我們的框架中,深度濾波器應用於增益增強頻譜$Y^G$。$l$是一個可選的lookahead(前瞻),如果$l\geq 1$,它允許將非因果抽頭合併到線性組合中。此外,還可以在頻率軸上進行過濾,允許合併相關性,例如 由於重疊頻帶。
為了進一步保證深度濾波隻影響週期部分,我們引入了一個學習的加權因子$\alpha$來生成最終輸出頻譜。
$$公式4:Y^{D F}(k, f)=\alpha(k) \cdot Y^{D F^{\prime}}(k, f)+(1-\alpha(k)) \cdot Y^{G}(k, f)$$
2.3 框架概述
圖1所示。DeepFilterNet演算法概述。第1階段用藍色表示,第2階段用黃色表示
DeepFilterNet 演算法的概述如圖 1 所示。給定一個嘈雜(noisy)的音訊訊號$x(t)$,我們使用短時傅立葉變換 (STFT) 將訊號轉換到頻域。 該框架設計用於高達 48 kHz 的取樣率,以支援高解析度 VoIP 應用程式和介於 4 ms 和 30 ms 之間的 STFT 視窗大小$N_FFT$。 預設情況下,我們使用$N_{ov} = 50%$的重疊,但也支援低延遲場景的更高重疊。 我們為深度神經網路 (DNN) 使用兩種輸入特徵。對於 ERB 編碼器/解碼器特徵$X_{ERB}(k,b)$,$b\in [0, N_{ERB}]$,我們計算對數功率譜,使用衰減為 1 s 的指數均值歸一化 [12] 對其進行歸一化,並應用一個可配置的頻段數$N_{ERB}的矩形 ERB 濾波器組 (FB)$。 對於深度濾波器網路特徵$X_{DF}(k,f'), f'\in [0, f_{DF}],我們使用復譜作為輸入,並使用具有相同衰減的指數單位歸一化 [9] 對其進行歸一化。
編碼器/解碼器體系結構用於預測ERBscale增益。利用逆ERB濾波器組將增益變換回頻域,然後與噪聲譜進行點向相乘。為了進一步增強週期分量,DeepFilterNet預測每頻帶濾波器係數CN的階數。我們只使用頻率$f_{DF}$的深度濾波,假設週期分量包含較低頻率的大部分能量。
再加上卷積層的DNN前向和深度濾波器前向,得到整體延遲為$l_{N_{FT}}+l_{N_{ov}}+max(l_{DNN}, l_{DF})$導致的最小延遲為5毫秒。
2.4 DNN模型
我們專注於設計一個只使用標準DNN層(如卷積、批處理歸一化、ReLU等)的高效DNN,這樣我們就可以利用層融合以及推理框架的良好支援。我們採用類似於[13,7]的UNet架構,如圖2所示。我們的卷積塊包含一個可分離的卷積(深度卷積後是1x1卷積),核大小為(3x2), C = 64個通道,然後是批歸一化和ReLU啟用。卷積層在時間上對齊,這樣第一層可以引入一個整體的lookkaahead $l_{DNN}$。我們線上性和GRU層中大量使用分組[14,13]。也就是說,將層輸入分成P = 8組,產生P個較小的GRUs/線性層,隱藏大小為512/P = 64。輸出被shuffle以恢復組間相關性,並再次concatenated到完全隱藏的大小。帶有addskip的卷積pathways(通路)[13,7]用於保持頻率解析度。我們為DF Net使用了一個全域性路徑跳過連線,以在輸出層提供原始噪聲相位的良好表示。
圖2所示。DeepFilterNet架構概述
我們使用1x1路徑卷積(PConv)作為add-skip連線和轉置卷積塊(TConv),類似於編碼器塊
利用分組線性和GRU (GLinear, GGRU)引入稀疏性
2.5 資料處理
DeepFilterNet框架利用了大量的動態增強。我們在訊雜比(SNR)為{5,0,5,10,20,40}dB的情況下,將一個純淨的語音訊號與多達5個噪聲訊號混合。為了進一步增加變數,我們使用[1]、EQs和{6,0,6}dB的二階濾波器增強語音和噪聲訊號。隨機重取樣增加了音高的變化,採用室內脈衝響應(RIR)模擬混響環境。如果語音訊號的取樣率低於當前模型的取樣率,則在混合前對噪聲訊號應用低通濾波器。例如,這也允許在全頻帶音訊(48 kHz)上訓練的模型在較低取樣率的輸入訊號上表現同樣良好。我們進一步支援訓練衰減有限模型。因此,我們生成一個噪聲目標訊號$s$,它的訊雜比 比 噪聲訊號$x$高6到20 dB。在訓練過程中,我們對預測增益G進行鉗子,並有一個噪聲目標$s$,DF Net將學會不去除比指定更多的噪聲。這對可穿戴裝置很有用,因為我們想讓使用者保持一定的環境意識(識別自己身處的環境)。
2.6 損失函式
提供理想的DF係數$C^N$並非易事,因為有無限多的可能性[8]。相反,我們使用壓縮譜損失來隱式學習ERB增益$G$和濾波器係數$C^N$[15,13]。相反,我們使用壓縮(compressed)頻譜損失來隱式學習ERB增益$G$和濾波器係數$C^N$[15,13]。
$$公式5:\mathcal{L}_{s p e c}=\sum_{k, f}\left\||Y|^{c}-|S|^{c}\right\|^{2}+\sum_{k, f}\left\||Y|^{c} e^{j \varphi_{Y}}-|S|^{c} e^{j \varphi_{S}}\right\|^{2}$$
其中,$c=0.6$是建模感知響度的壓縮因子[16]。由於具有幅值和相位感知項,使得該損失既適用於建模實值增益,也適用於複數DF係數預測。為了使幅值接近於零的TF bin的梯度變硬(例如,對於取樣率較低的輸入訊號),我們計算φX的向後角度方法,如下所示:
$$公式6:\frac{\delta \varphi}{\delta X}=\delta X \cdot\left(\frac{-\Im\{X\}}{\left|X_{h}\right|^{2}}, \frac{\Re\{X\}}{\left|X_{h}\right|^{2}}\right)$$
式中$\Re\{X\}$和$\Im\{X\}$表示頻譜X的實部和虛部,$|X_h|^2=max(\Re\{X\}^2+\Im\{X\}^2,1e^{-12})$平方數量級以避免被0除。
作為額外的損失項,我們強制DF分量只增強訊號的週期性部分。動機如下。對於只有噪音的部分,DF不提供任何優於ERB增益的好處。DF甚至可能通過對週期性噪聲(如發動機噪聲或巴布噪聲)進行建模而產生偽影,這在衰減受限模型中最為明顯。此外,對於只有隨機成分的語音,如摩擦音或爆破音,DF沒有任何好處。假設,這些部分包含大部分的高頻率能量,我們計算低於$f_{DF}$頻率的區域性SNR。因此,$L_{\alpha}$由下式給出:
$$公式7:\mathcal{L}_{\alpha}=\sum_{k}\left\|\alpha \cdot \mathbb{1}_{\mathrm{LSNR}<-10 \mathrm{~dB}}\right\|^{2}+\sum_{k}\left\|(1-\alpha) \cdot \mathbb{1}_{\mathrm{LSNR}>-5 \mathrm{~dB}}\right\|^{2},$$
其中,當區域性訊雜比(LSNR)小於10 dB時,$\mathbb{I}_{\text {LSNR }}<-10 \mathrm{~dB}$為值為1的特徵函式;當區域性訊雜比大於-5 dB時,$\mathbb{I}_{\text {LSNR }}>-5 \mathrm{~dB}$為1。在20ms視窗範圍內,在頻域中計算LSNR。綜合損失由
$$公式8:\mathcal{L}=\lambda_{\text {spec }} \cdot \mathcal{L}_{\text {spec }}(Y, S)+\lambda_{\alpha} \cdot \mathcal{L}_{\alpha}$$
3 實驗
3.1 訓練步驟
我們基於深度噪聲抑制(DNS)挑戰資料集[10]訓練我們的模型,該資料集包含超過750小時的全頻帶純淨語音和180小時的各種噪聲型別。除了提供的在16 kHz取樣的RIR外,我們使用image source模型[17]模擬了另外10 000個在48 kHz取樣的RIR。我們將資料集分為train/validation/test(70/15/15%)。根據驗證損失應用早期停止,結果在測試集中報告。Voice Bank/DEMAND測試集[18]用於比較DeepFilterNet與相關工作,如DCCRN(+)[11,7]和PercepNet[2]。
所有實驗都使用取樣率為48khz的全頻帶訊號。我們取$N_{NRB}$= 32,$f_{DF}$ = 5 kHz,DF階數N = 5,對DF和DNN卷積都取$l=1$幀。我們用一個初始學習率為$1*10^{-3}$的adam優化器,訓練我們的模型在3 s樣本和32個batch的30個epoch。學習率每3個epoch衰減0.9。損耗引數為$\lambda_{spec} = 1$和$\lambda_\alpha = 0.05$。框架的原始碼可以在 https://github.com/Rikorose/DeepFilterNet 獲得。
3.2 結果
我們評估了我們的框架在多種FFT大小上的效能,並基於尺度不變的訊號失真率(SI-SDR)比較了DF和CRM的效能[19]。CRM是DF的特例,階數$N=1$,look-ahead $l=0$。DNN前瞻對於CRM模型保持不變。
圖3顯示,在5 ms到30 ms的所有FFT大小中,DF都優於CRM。由於受到頻率解析度的限制,當FFT視窗大小為20 ms時,CRMs的效能會下降。另一方面,由於相鄰幀間的相關性較小,DF相對恆定的效能下降了約30 ms。對於低延遲場景,將FFT重疊提高到75%會使DF和CRM的效能略有提高(輸入SNR為0時,效能為+0.6 dB SI-SNR)。這種效能的提高可以解釋為更高的幀內相關性,以及DNN更新RNN隱藏狀態的步驟增加了一倍,但計算複雜度增加了一倍。圖4給出了一個定性的例子,說明了DF重構噪聲譜圖中難以區分的語音諧波的能力。
圖3所示。深度濾波(DF)和常規復比掩模(CRM)在5 ~ 30 ms的多個FFT尺寸上的比較
圖4所示 來自Voice Bank測試集的樣本。噪聲(a), CRM增強(b), DF增強(c) (CRM和DF的NFFT = 960)
我們比較了使用NFFT=960 (20 ms)的DeepFilterNet和相關的工作,如PercepNet[2],它使用類似的感知方法,以及DCRNN+[7],它也使用深度濾波器。我們使用WB-PESSQ[20]評估語音增強的質量,並比較每秒乘法和累積(MACS)的計算複雜度。表1顯示,DeepFilterNet優於PercepNet,效能與DCRNN+相當,同時具有更低的計算複雜度,使DeepFilterNet能夠用於實時使用。
表1 Voice Bank/REMAND測試集的客觀結果
4 結論
在這項工作中,我們提出了DeepFilterNet,一個低複雜度的語音增強框架。我們證明了深度過濾網的效能與其他演算法相當,而計算量要求要低得多。我們進一步提供了深度過濾優於CRM的證據,特別是在較小的STF視窗大小的情況下。
5 參考文獻
[1] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.
[2] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech, in INTERSPEECH 2020, 2020.
[3] Xu Zhang, Xinlei Ren, Xiguang Zheng, Lianwu Chen, Chen Zhang, Liang Guo, and Bing Yu, Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss, in Proc. Interspeech 2021, 2021, pp. 2826 2830.
[4] Donald S Williamson, Monaural speech separation using a phase-aware deep denoising auto encoder, in 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2018, pp. 1 6.
[5] Ke Tan and DeLiang Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6865 6869.
[6] Jonathan Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, and John R Hershey, Phasebook and friends: Leveraging discrete representations for source separation, IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 370 382, 2019.
[7] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement, in INTERSPEECH, 2021.
[8] Wolfgang Mack and Emanu el AP Habets, Deep Filtering: Signal Extraction and Reconstruction Using Complex Time-Frequency Filters, IEEE Signal Processing Letters, vol. 27, pp. 61 65, 2020.
[9] Hendrik Schr oter, Tobias Rosenkranz, Alberto Escalante Banuelos, Marc Aubreville, and Andreas Maier, CLCNet: Deep learning-based noise reduction for hearing aids using complex linear coding, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.
[10] Chandan KA Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, INTERSPEECH 2021 Deep Noise Suppression Challenge, in INTERSPEECH, 2021.
[11] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in INTERSPEECH, 2020.
[12] Hendrik Schr oter, Tobias Rosenkranz, Alberto N. Escalante-B. , Pascal Zobel, and Andreas Maier, Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks, in INTERSPEECH 2020, 2020.
[13] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, and Ivan Tashev, Towards efficient models for real-time deep noise suppression, in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 656 660.
[14] Ke Tan and DeLiangWang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380 390, 2019.
[15] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T Freeman, and Michael Rubinstein, Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation, ACM Transactions on Graphics (TOG), vol. 37, no. 4, pp. 1 11, 2018.
[16] Jean-Marc Valin, Srikanth Tenneti, Karim Helwani, Umut Isik, and Arvindh Krishnaswamy, Low- Complexity, Real-Time Joint Neural Echo Control and Speech Enhancement Based On PercepNet, in 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.
[17] Emanu el AP Habets and Sharon Gannot, Generating sensor signals in isotropic noise fields, The Journal of the Acoustical Society of America, vol. 122, no. 6, pp. 3464 3470, 2007.
[18] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, Investigating RNN-based speech enhancement methods for noise-robust Text-to- Speech, in SSW, 2016, pp. 146 152.
[19] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and John R Hershey, SDR half-baked or well done? , in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.
[20] ITU, Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Recommendation P.862.2, 2007.