論文地址：基於動態注意的遞迴網路單耳語音增強

論文程式碼：https://github.com/Andong-Li-speech/DARCN

引用格式：Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426

摘要

　　聽覺動態注意理論已經證明，對於連續語音加工，動態注意有助於優先加工。據此，我們提出了一種動態注意和遞迴學習相結合的單聲道語音增強框架DARCN。除了主幹降噪網路外，我們還設計了一個獨立的子網路，它自適應地產生衰減分佈來控制整個主幹網路中的資訊流。引入遞迴學習，通過多階段網路來動態減少可訓練引數的數量，其中每一階段的中間輸出用記憶機制進行精化。通過這樣做，可以獲得更靈活和更好的估計。我們在TIMIT語料庫上進行了實驗。實驗結果表明，提出的體系結構在PESQ和STOI得分方面都比目前最先進的模型獲得了一致更好的效能

關鍵詞：單聲道語音增強、遞迴學習、注意力U-Net、動態注意力

1 引言

　　在實際環境中，純淨語音經常受到背景干擾的汙染，這可能會顯著降低自動語音識別[1]、說話人驗證[2]和助聽器[3]的效能。單聲道語音增強的目的是在只有一個麥克風的情況下，從混合語音中提取目標語音[4]。近年來，由於深神經網路(DNNs)在建模複雜非線性方面的優越效能，即使在高度非平穩的噪聲環境中，DNNs也顯示出了良好的單耳語音增強效能[5]。典型的基於DNN的方法可以根據估計目標分為兩類，一類是基於掩蔽的方法[6]，另一類是基於譜對映的方法[7]

　　傳統的DNN通常採用全連線(FC)層來降低噪聲[6，7]。對於撞擊的說話人型別化問題，陳等人提出了自己的看法。提出利用堆疊式長短期記憶(SLSTM)[8]，它明顯優於DNN。最近，各種具有複雜拓撲結構的卷積神經網路(CNNs)被提出[9，10，11，12]，它們可以減少可訓練引數的數量。最近，Tan et al.將卷積自動編碼器(CAE)[13]和LSTM相結合，提出了卷積迴圈神經網路(CRN)[14]，其中CAE幫助學習時頻(T-F)模式，而LSTM有效地覆蓋了動態序列相關性

　　最近提出了各種拓撲結構比較複雜的模型[10，11，12，14]，這些模型的效能都得到了改善，但對於後面的兩個方面，它們仍有一定的侷限性。一方面，為了滿足低延遲的要求，引數的數量往往受到部分限制，這嚴重限制了網路的深度。另一方面，深度的增加更有可能導致梯度消失問題。最近提出了漸進式學習[15，16]，它將對映過程分解為多個階段，實驗結果表明，通過在不同階段之間共享序列建模模組，大大減少了可訓練引數的數量，並有效地保持了效能。基於這個概念，遞迴學習[17]是通過在多個階段重用網路而提出的，每個階段的輸出通過記憶機制聯絡起來。它在不引入額外引數的情況下，進一步減輕了引數負擔，加深了網路。

　　人類傾向於通過動態神經元電路產生適應性注意，以感知複雜的環境[18]，這也可以由聽覺動態參與連續語音處理的記憶[19，20，21]來描述。例如，當一個人聽到來自真實環境的話語時，占主導地位的噪聲成分越多，就需要越多的神經網路注意來弄清意思，反之亦然。這一現象揭示了聽覺知覺系統的動力機制。受生理現象的啟發，我們提出了一種將動態注意和遞迴學習相結合的新型網路DARCN，不同於以往的網路[10，11，12，14]為該任務設計的單一複雜網路，該框架由一個主子網路和一個輔助子網路並行組成，其中一個是降噪模組(NRM)，另一個是注意力生成模組(AGM)，該框架的工作流程如下：在每個中間階段，將噪聲特徵和上一階段的估計值結合到當前輸入中。採用AGM生成注意集，然後通過逐點卷積和Sigmoid函式將該注意集應用於NRM。這樣，AGM實際上是一種感知模組，可以靈活地調整NRM的權重分佈，從而獲得更好的噪聲抑制效能。據我們所知，這是第一次將動態注意機制引入到特定任務中。

　　論文的其餘部分結構如下。第2節闡述了這個問題。網路的體系結構在第3節中說明。第4節是資料集和實驗設定。第五節給出了研究結果和分析，第六節得出了一些結論。

2 公式與符號

　　在時域中，噪聲訊號可以建模為$x(n)=s(n)+d(n)$，其中$n$是離散時間索引。使用短時傅立葉變換(STFT)，可以進一步將其重寫為：

$$X_{k,l}=S_{k,l}+D_{k,l}$$

其中$X_(k,l)$，$S_{k,l}$，$D_{k,l}$分別代表帶噪語音、純淨語音和噪聲，$k$代表的是頻率bin的索引，$l$代表的是幀索引。在本研究中，網路用於估計頻譜的幅度(MS)，然後將其與噪聲相位相加以恢復估計的頻譜，並使用逆短時傅立葉變換(ISTFT)在時域中重建波形。

　　為簡單起見，我們定義了本文中使用的主要記號。$|X|\inR^{T*F}$，$|S|\inR^{T*F}$，$|\tilde{S}^l|\inR^{T*F}$，$|\tilde{S}|\inR^{T*F}$分別表示噪聲譜大小、純淨譜大小、第$l$級估計譜大小和最終估計純淨譜大小。T和F分別表示時間步長和特徵長度。當使用遞迴學習時，上標$l$表示階段索引，階段數記為$Q$。

3 結構說明

3.1 分段迴圈神經網路

　　分段遞迴神經網路(SRNN)在文獻[17]中首次提出，它是遞迴學習的核心組成部分。它可以利用記憶機制來聚合不同階段的資訊，記憶機制由兩部分組成，即2維 Conv block和Conv-RNN block。第一部分嘗試將輸入的特徵投影到一個潛在的表示中，然後用Conv-RNN更新當前階段的狀態。假設第$l$階段的 2-D Conv 和 Conv-RNN 的輸出分別表示為$\hat{h}^l$和$h^l$，則 SRNN 的推理公式為

$$公式2：\hat{\mathbf{h}}^{l}=f_{\text {conv }}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right|\right)$$
$$公式3：\mathbf{h}^{l}=f_{\text {conv_rnn }}\left(\hat{\mathbf{h}}^{l}, \mathbf{h}^{l-1}\right)$$

其中，$f_{conv}$和$f_{conv\_rnn}$分別指2-D Conv和Conv-RNN。在本研究中，採用ConvGRU[22]作為RNN的單元，其計算過程如下：

$$公式4：\mathbf{z}^{l}=\sigma\left(\mathbf{W}_{z}^{l} \circledast \hat{\mathbf{h}}^{l}+\mathbf{U}_{z}^{l} \circledast \mathbf{h}^{l-1}\right)$$

$$公式5：\mathbf{r}^{l}=\sigma\left(\mathbf{W}_{r}^{l} \circledast \hat{\mathbf{h}}^{l}+\mathbf{U}_{r}^{l} \circledast \mathbf{h}^{l-1}\right)$$

$$公式6：\mathbf{n}^{l}=\tanh \left(\mathbf{W}_{n}^{l} \circledast \hat{\mathbf{h}}^{l}+\mathbf{U}_{n}^{l} \circledast\left(\mathbf{r}^{l} \odot \mathbf{h}^{l-1}\right)\right) $$

$$公式7：\mathbf{h}^{l}=\left(\mathbf{1}-\mathbf{z}^{l}\right) \odot \hat{\mathbf{h}}^{l}+\mathbf{z}^{l} \odot \mathbf{n}^{l}$$

其中$W$和$U$表示單元格的權重矩陣。$\sigma (·)$和$tanh(·)$分別表示S型和tanh啟用函式。$\circledast $表示卷積運算子，$\odot $是元素乘法。請注意，為了記法方便，忽略了偏差。

3.2 注意力門

　　Attention U-Net(AU-Net)最早是在[23]中提出的，用於提高分割相關任務的精度，在卷積編碼器和解碼器之間插入注意門(AG)。與標準U-Net相比，AU-Net具有自動抑制無關區域和突出重要特徵的能力。由於頻譜中含有豐富的頻率成分，低頻區域常以共振峰為主，而高頻區域分佈稀疏，因此需要區分不同權重的頻譜區域，本文采用的AG示意圖如圖1所示。假設單元的輸入為$p$和$q$，其中$p$和$q$分別表示解碼層的特徵及其在編碼層中的對應特徵。輸出可以計算為：

$$公式8：\mathbf{y}=\mathbf{q} \odot \sigma\left(\mathbf{W}_{r} \circledast \operatorname{ReLU}\left(\mathbf{W}_{p} \circledast \mathbf{p}+\mathbf{W}_{q} \circledast \mathbf{q}\right)\right)$$

其中$W_p$、$W_q$和$W_r$是卷積核。請注意，該單元由兩個分支組成，其中一個分支合併兩個輸入的資訊並通過Sigmoid函式生成注意係數，另一個分支複製Q的資訊並將係數相乘。在獲得AG的輸出後，將其與相應解碼層沿通道維度的特徵級聯，作為下一解碼層的輸入。

圖1：NRM採用的注意門結構。P表示解碼層的特徵，q表示編碼層對應的特徵。

$W_p$、$W_q$和$W_r$是二維卷積層，其核心大小為$1*1$。$C_p$和$C_q$為$p$和$q$的通道號，每次卷積運算後都使用批歸一化

3.3 提出的架構

圖2：提出的架構的示意圖。(a)擬議的結構及其展開結構。該體系結構並行地包含兩個部分，即AGM和NRM

(b)NRM的詳細結構。(c) AGM和NRM之間的聯絡

　　圖2-(A)描述了提出的體系結構的概述。它有兩個模組，即AGM(Attention Generator Module)和NRM(Noise Reduction Module)，這兩個模組被設計成在整個過程中交錯執行。該體系結構採用遞迴過程操作，即整個前向流可以分成多個階段展開。在每一級中，將原始噪聲譜和最後一級的估計值連線起來，作為網路輸入。它被髮送到AGM，生成當前注意力集合，代表當前階段的注意力分佈。隨後將其應用於NRM，以控制整個網路中的資訊流。NRM也接收輸入來估計幅度譜(Magniude Spectrum, MS)。因此，AGM的輸出動態地影響了最後階段對MS的估計，即AGM能夠根據來自降噪系統的先前反饋來重新加權注意力分佈。

　　假設AGM和NRM的對映函式分別表示為$G_A$和$G_R$。模型的計算程式如下：

$$公式9：\mathbf{a}^{l}=G_{A}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right| ; \theta_{A}\right)$$

$$公式10：\left|\tilde{\mathbf{S}}^{l}\right|=G_{R}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right|, \mathbf{a}^{l} ; \theta_{R}\right)$$

其中，$a^l$是在階段$l$產生的注意力集合。$\theta_A$和$\theta_R$表示用於AGM和NRM的網路引數。

　　在本研究中，我們使用一種典型的U-Net[24]拓撲結構來實現AGM，它由卷積編碼器和解碼器組成。編碼器由五層連續的二維卷積組成，每個卷積層之後是批歸一化(BN)[25]和指數線性單元(ELU)[26]。通過編碼器的通道數為(16，32，32，64，64)。解碼器是編碼器的映象表示，除了所有的卷積都被反摺積[27]替換以有效地增大對映大小之外。類似地，通過解碼器的通道數是(64，64，32，32，16)。編碼器和解碼器的核大小、步長分別為(2，5)和(1，2)。類似於U-Net[24]，引入了從編碼器到解碼器部分的跳躍連線來補償編碼過程中的資訊丟失。

　　NRM的詳細資訊如圖2-(B)所示。該演算法由SRNN、AU-Net和一系列GLU[10]三部分組成，給定網路的輸入大小為T×F×2，161為特徵長度，2為輸入通道數，SRNN後的輸出大小為T×4×64，連續6個卷積塊的輸出大小為T×4×64。隨後將其重塑為T×256。文[10]提出的6個級聯GLU被設定為有效地探索上下文關聯。將GLU的輸出整形為T×4×64，然後送入解碼器進行特徵擴充套件和MS估計。AU-Net中編碼器和解碼器的通道數分別為(16，16，32，32，32，64，64)和(64，32，32，16，16，16，1)。NRM中的核大小和步長與AGM中的設定相同，除了最後一層，它採用逐點卷積，然後是Softplus作為非線性[28]來獲得MS。注意，與標準U-Net中的直接跳過連線不同，來自編碼器的特徵對映在與解碼特徵連線之前與來自AG的門控係數相乘，這有助於在多個編碼層中權衡特徵的重要性。

　　AGM和NRM之間的聯絡如圖2-(C)所示，其中AGM解碼器每層中的特徵通過逐點卷積和S型函式，並與NRM編碼器相應層中的特徵相乘。請注意，應用Sigmoid函式將值範圍調整為(0，1)。

3.4 損失函式

　　由於網路經過多級訓練，每一級都得到一箇中間估計，累積損耗可定義為$L=\sum_{l=1}^{Q}\lambda_lD^l(\tilde{S}^l,S)$，其中$\lambda_l$是每級的加權係數，$D^l(·)$是第$l$級的損耗函式。在本研究中，我們設定$\lambda_l=1$，其中$l=1,...,Q$，即對每個訓練階段給予同樣的重視。

4 實驗步驟

4.1 資料集

　　實驗是在TIMIT語料庫上進行的[29]。分別選取了4856、800和100個純淨話語進行訓練、驗證和測試。在訊雜比為-5dB~10dB，間隔為1dB的情況下建立訓練和驗證資料集，並在(-5dB，0dB，5dB，10dB)的訊雜比條件下對模型進行測試。[17]中使用的130種噪聲用於培訓和驗證。用NOISEX 92的另外5種噪聲(BABBLE、F16、F2、M109和白色)來考察網路的泛化能力。所有收集到的噪聲首先被串聯成一個長向量。在每個混合過程中產生一個隨機的切割點，然後在訊雜比水平下將其與發音混合，從而分別建立4萬、4000、800個噪聲-純淨對用於訓練、驗證和測試。

4.2 基線

　　在本研究中，選擇了四個網路作為基線，分別是SLSTM[8]、CRN[14]、GRN[10]和DCN[12]，它們最近都達到了最先進的效能。對於SLSTM，將1024個單元的四個LSTM層疊加在一起，然後是一個FC層，以獲得MS。SLSTM的輸入包括當前幀和前一幀的拼接。CRN是CNN和LSTM相結合的一種實時體系結構。GRN和DCN是典型的具有門控機制的全卷積網路

4.3 引數設定

　　所有的聲音都以16 kHz的頻率取樣。應用20ms漢明視窗，相鄰幀重疊10ms。採用320點短時傅立葉變換，得到每幀161維的特徵向量。所有模型均採用均方誤差(MSE)準則進行訓練，該準則由Adam[30]優化。學習率初始化為0.001，連續3次驗證損失增加時學習率減半，10次驗證損失增加時提前停止訓練。所有的模型都經過了50個時期的訓練。在發聲級別將小批量設定為4。在小批量內，時間步長小於最長時間步長的話語用零填充

5 結果和分析

本節使用感知評估語音質量(PESQ)[31]和短時目標清晰度(STOI)得分[32]來評估不同模型的效能

5.1 客觀評價

　　表1和表2分別總結了不同模型在可見和不可見噪聲情況下的結果。從這兩張表中，可以觀察到以下現象。首先，在可見和不可見噪聲情況下，CRN、GRN、DCN和所提出的模型始終優於SLSTM。這是因為SLSTM只考慮了序列相關性，而忽略了對頻譜恢復至關重要的隱式T-F模式，而且層疊LSTM容易由於梯度消失問題而產生衰減效應，從而限制了效能。其次，與基線相比，提出的體系結構在這兩個指標上都有顯著的改善。例如，當從CRN到所提出的模型時，對於所看到的案例，PESQ值平均提高了0.16，STOI平均提高了1.01%。在未知情況下也觀察到了類似的趨勢，表明所提出的模型具有良好的噪聲泛化能力。第三，我們觀察到GRN和DCN可以達到接近的效能。這可以解釋為兩個網路具有相似的拓撲，其中膨脹卷積與門控機制相結合用於序列建模。

表1：可見噪聲情況下的實驗結果。BOLD表示每種情況下的最佳結果。被提出的架構的階段Q = 3的數量

表2：不可見噪聲情況下的實驗結果。BOLD表示每種情況下的最佳結果。被提出的架構的階段Q = 3的數量

5.2 各階段的影響

　　我們研究了階段Q的影響，如圖3所示。當Q≤為3時，隨著Q的增加，PESQ值和STOI值都得到了一致的提高。這表明SRNN可以通過記憶機制有效地提高網路的效能。我們還發現，當Q從3增加到5時，PESQ值略有下降，而STOI仍有改善。這是因為使用了基於距離的有損MSE，損失函式和優化過程不能保證兩個指標的一致優化，這與[17]中以前的研究是一致的。

圖3:q級數的影響(a)不同q級下的PESQ改進(b)不同q級下的STOI改進。

所有的值都是針對未見噪聲情況進行評估，並在不同訊雜比下進行平均。

5.3 引數比較

　　表3總結了不同模型的可訓練引數數量。可以看出，與其他基線相比，提出的模型極大地減少了可訓練引數的數量。這證明了所提出的體系結構的卓越的引數效率。

表3:不同模型之間可訓練引數個數。單位是百萬。BOLD表示最低可訓練引數。

6 結論

　　在複雜的情景中，人們通常會動態地調整注意力以適應連續說話環境的變化。基於這種神經現象，我們提出了一種動態注意和遞迴學習相結合的框架。為了自適應地控制降噪網路的資訊流，設計了一個單獨的子網路來更新每個階段的注意力表示，並將其應用於主網路。由於採用遞迴正規化進行訓練，網路在多個階段被重用。因此，我們逐步實現了精細化的估算。實驗結果表明，與已有的強模型相比，該模型在進一步降低引數負擔的同時，取得了更好的效能。

7 參考文獻

[1] A. Graves, A.-r. Mohamed, and G. Hinton, Speech recognition with deep recurrent neural networks, in 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013, pp. 6645 6649. [2] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, Speaker verification using adapted gaussian mixture models, Digital signal processing, vol. 10, no. 1-3, pp. 19 41, 2000. [3] H. Dillon, Hearing aids. Hodder Arnold, 2008. [4] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013. [5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 10, pp. 1702 1726, 2018. [6] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 22, no. 12, pp. 1849 1858, 2014. [7] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7 19, 2014. [8] J. Chen, Y. Wang, S. E. Yoho, D. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearingimpaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016. [9] S.-W. Fu, T.-Y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhancement by convolutional neural network with multi-metrics learning, in 2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2017, pp. 1 6. [10] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no. 1, pp. 189 198, 2018. [11] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6875 6879. [12] S. Pirhosseinloo and J. S. Brumberg, Monaural speech enhancement with dilated convolutions, Proc. Interspeech 2019, pp. 3143 3147, 2019. [13] V. Badrinarayanan, A. Handa, and R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling, arXiv preprint arXiv:1505.07293, 2015. [14] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement. in Interspeech, 2018, pp. 3229 3233. [15] T. Gao, J. Du, L.-R. Dai, and C.-H. Lee, SNR-Based Progressive Learning of Deep Neural Network for Speech Enhancement. in INTERSPEECH, 2016, pp. 3713 3717. [16] A. Li, C. Zheng, and X. Li, Convolutional Recurrent Neural Network Based Progressive Learning for Monaural Speech Enhancement, arXiv preprint arXiv:1908.10768, 2019.[17] A. Li, C. Zheng, R. Peng, and X. Li, A Time-domain Monaural Speech Enhancement with Recursive Learning, arXiv preprint arXiv:2003.09815, 2020. [18] S. Anderson, T. White-Schwoch, A. Parbery-Clark, and N. Kraus, A dynamic auditory-cognitive system supports speech-in-noise perception in older adults, Hearing research, vol. 300, pp. 18 32, 2013. [19] M. R. Jones, Time, our lost dimension: toward a new theory of perception, attention, and memory. Psychological review, vol. 83, no. 5, p. 323, 1976.

[20] N. Ballas, L. Yao, C. Pal, and A. Courville, Delving deeper into convolutional networks for learning video representations, arXiv preprint arXiv:1511.06432, 2015. [21] O. Oktay, J. Schlemper, L. L. Folgoc, M. Lee, M. Heinrich, K. Misawa, K. Mori, S. McDonagh, N. Y. Hammerla, B. Kainz et al., Attention u-net: Learning where to look for the pancreas, arXiv preprint arXiv:1804.03999, 2018. [22] O. Ronneberger, P. Fischer, and T. Brox, U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234 241. [23] S. Ioffe and C. Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, in International Conference on Machine Learning, 2015, pp. 448 456. [24] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (elus), arXiv preprint arXiv:1511.07289, 2015. [25] H. Noh, S. Hong, and B. Han, Learning deconvolution network for semantic segmentation, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520 1528. [26] H. Zheng, Z. Yang, W. Liu, J. Liang, and Y. Li, Improving deep neural networks using softplus units, in 2015 International Joint Conference on Neural Networks (IJCNN). IEEE, 2015, pp. 1 4. [27] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1, NASA STI/Recon technical report n, vol. 93, 1993. [28] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [29] I.-T. Recommendation, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001. [30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A shorttime objective intelligibility measure for time-frequency weighted noisy speech, in 2010 IEEE international conference on acoustics, speech and signal processing. IEEE, 2010, pp. 4214 4217.

論文翻譯：2020_A Recursive Network with Dynamic Attention for Monaural Speech Enhancement

摘要