論文名稱:擴充套件卷積密集連線神經網路用於時域實時語音增強
論文程式碼:https://github.com/ashutosh620/DDAEC
引用:Pandey A, Wang D L. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 6629-6633.
摘要
在這項工作中,我們提出了一個全卷積神經網路在時域實時語音增強。提出的網路是一種基於編碼器-解碼器的結構,具有跳躍連線。編碼器和解碼器中的層後面是由擴張和因果卷積組成的緊密連線塊。擴張卷積有助於不同解析度的上下文聚合。因果卷積用於避免未來幀的資訊流,從而使網路適合於實時應用。我們還提出在解碼器中使用亞畫素(ub-pixel)卷積層進行上取樣。此外,使用具有兩個分量的損失函式來訓練模型;時域損失和頻域損失。提出的損失函式優於時域損失。實驗結果表明,該模型在客觀可理解性和質量得分方面明顯優於其他實時模型
關鍵詞:時域,全卷積,密集網路,時頻損失,說話人和噪聲無關
1 引言
語音增強涉及改善被附加噪聲汙染的語音訊號的智慧性和質量。它被用作許多應用的前處理器,例如自動語音識別、電信、助聽器和人工耳蝸植入物。
近年來,語音增強已經被定義為一個有監督的學習問題,深度神經網路也得到了廣泛的研究。有監督的語音增強方法通常是將語音訊號轉換為一個時頻(T-F)表示,並根據T-F表示構造一個目標訊號作為訓練目標。最常用的訓練目標是理想比率掩模(IRM)[2]、相位敏感掩模(PSM)[3]和短時傅立葉變換(STFT)幅度。這些訓練目標僅用於增強短時傅立葉變換幅度。混合語音相位被原封不動地用於時域訊號重構。
噪聲語音的相位沒有增強,主要是因為它沒有清晰的可學習結構[4],並且被認為對語音增強並不重要[5]。最近的一項研究表明,相位對語音的感知質量很重要,特別是在低訊雜比條件下[6]。這導致研究人員探索使用深度神經網路來增強相位和幅度的演算法。
利用深度學習同時增強相位和幅度的兩種流行方法是複數域增強和時域增強。在複數域增強中,通常將DNN訓練成將噪聲短時傅立葉變換對映到複數IRM(CIRM)或乾淨的短時傅立葉變換。在文獻[4,7,8,9,10]中對其進行了探索,取得了令人滿意的結果。時域方法不需要對模型進行頻域變換,直接從噪聲樣本中預測乾淨的原始樣本。此外,時域網路可以學習提取非常適合特定語音增強任務的特徵或表示。有代表性的時域方法包括[11,12,13]
在這項工作中,我們提出了一個全卷積神經網路在時域實時語音增強。提出的網路是一種基於編碼器-解碼器的結構,具有跳躍連線。我們的新貢獻是在編碼器和解碼器的每一層之後新增密集連線(densely connected)的塊[14],並進行擴充套件卷積。此外,我們採用亞畫素卷積層代替轉置卷積進行上取樣。擴張和密集連線的塊有助於在訊號的不同解析度上的長範圍上下文聚合。我們還建議使用時域損失和頻域損失的組合來訓練模型。
本文的其餘部分組織如下。我們將在第2節描述所建議的方法。實驗裝置和結果在第3節中給出。第四部分對本文進行總結。
2 模型描述
2.1 擴張(Dilated)卷積
擴張卷積被用來增加摺積神經網路的感受場,作為學習長短期記憶網路(LSTM)的一種有效選擇,它正變得越來越受歡迎。在擴張率為$r$的擴張卷積中,$r−1個零被插入在過濾的連續係數之間。在大小為$M$的濾波器中,$r$的擴張率將感受野從$M$增加到$(M−1)∗(r−1)+M$。通過在網路內使用指數增加的擴張率,可以將感受野設定為任意大小。一般做法是使用{1,2,4,8,16,...}形式的擴張率序列。在我們的模型中,dense block由擴張卷積和因果卷積組成。在各幀之間使用因果卷積,以確保不會有來自未來幀的資訊洩漏。請注意,我們在一個框架內不使用因果卷積。圖1中顯示了膨脹卷積和因果卷積的示意圖。
圖1 具有大小濾波器的擴張因果卷積的示例
2.2 密集連線的卷積神經網路
密集連線網路(Dense connected networks, DCN)是最近在文獻[14]中提出的。在DCN中,網路中給定層的輸入是所有先前層的輸出的級聯。這種方法有兩個主要優點。首先,對前面的所有層進行去連線,避免了消失的梯度問題。其次,發現較薄的密集網路的效能優於較寬的正常網路,從而提高了網路的引數效率。在我們的模型中,我們提出了一種在模型的編碼器和解碼器的每一層之後使用的擴張Dense塊。建議的dense塊的示意圖如圖2所示。
每個dense塊由五層二維卷積組成。幀之間的卷積是因果的,因果卷積保證了所提出的方法適合實時實現。每次卷積之後是層歸一化[15]和引數ReLU(PReLU)非線性[16]。每個dense塊的擴張率設定為1、2、4、8和16,如圖所示。
圖2:提出的膨脹密塊。擴張率從1成倍增加到16
2.3 sub-pixel卷積
在卷積神經網路中,sub-pixel卷積被用作可學習的上取樣層。文獻[17]提出了影像超解析度的概念。在這項工作中,我們使用sub-pixel卷積作為轉置卷積的一種更好的選擇,以避免棋盤狀偽影[18]。在轉置卷積中,輸入訊號首先通過在隨後的卷積層的連續取樣之間插入零來進行上取樣,以獲得具有非零條目的訊號。如果過濾的跨度不能被濾波器長度整除,這就導致了不對稱的配置,從而造成了棋盤狀的假象[18]。在亞畫素卷積中,對原始訊號進行卷積(不加零),輸出通道數增加上取樣率的倍數。對額外的通道進行整形以獲得所需的上取樣訊號。圖3中示出了使用子畫素卷積將1D訊號上取樣2倍的說明性圖
圖3:用於將1D訊號上取樣2倍的子畫素卷積的圖示
2.4 模型架構
模型體系結構示意圖如圖4左側所示。該模型由輸入層、編碼器、dilated和dense塊、解碼器和輸出層組成。除輸出層外的所有卷積都遵循層歸一化和PReLU nonlinearity(非線性特徵)。模型的輸入尺寸為[batch_size, 1, num_frames, frame_size]。輸入層使用大小為(1,1)的濾波器將通道數量增加到64個。輸入層後面跟著一個密集的塊。所有密集塊中的卷積使用大小為(2,3)的濾波器,具有64個輸出通道。編碼器中的每一層使用步長為(1,2)的卷積和大小為(1,3)的濾波器,沿幀軸(最後一個軸)將尺寸的前半部分(下采樣)。下采樣之後是一個dense塊。編碼器中每一層後的dense塊有助於不同解析度的上下文聚合。編碼器中有6個這樣的層,編碼器的最終輸出大小為[batch size, 64, num frames, frame size/64]。
解碼器使用亞畫素卷積和dense塊,依次將訊號重構到原始大小。解碼器中每一層的輸入是前一層輸出和編碼器中相應對稱層輸出的連線(沿通道軸)。亞畫素卷積使用尺寸為(1,3)的濾波器沿幀軸使輸入尺寸加倍。最後,輸出層使用大小為(1,1)的濾波器輸出帶有一個通道的增強幀。
圖4 提出了模型和損失函式
2.5 損失函式
我們使用兩個損失的組合來進行模型訓練。首先,使用重疊相加方法將資料幀轉換成波形。使用增強語音和純淨語音之間的均方誤差在時域中計算波形損失。時域損失定義為
$$公式1:L_{l}(x, \hat{x})=\frac{1}{M} \sum_{n=0}^{M-1}\left(x_{i}[n]-\hat{x}_{i}[n]\right)^{2}$$
其中$x[n]$和$\hat{x}[n]$分別表示純淨和增強語音的第n個樣本,而M是語音長度。
其次,我們採用語音的STFT,並且像在[20,11]中那樣在STFT係數的L1範數上使用L1 損失[19]。頻域損失由下式給出
$$公式2:\begin{array}{r}
L_{f}(\boldsymbol{x}, \hat{\boldsymbol{x}})=\frac{1}{T \cdot F} \sum_{t=1}^{T} \sum_{\delta=1}^{F} \mid\left(\left|X(t, f)_{r}\right|+\left|X(t, f)_{i}\right|\right)-
\left(\left|\hat{X}(t, f)_{r}\right|+\left|\hat{X}(t, f)_{i}\right|\right) \mid
\end{array}$$
其中$X(t,f)$和$\hat{X}(t,f)$分別是x和$\hat{x}$的STFT的T-F單位。T是幀數,F是頻段數。$X_r$和$X_i$分別表示復變數X的實部和虛部。
最後,將時域損失和頻域損失按以下方式組合:
$$公式3:L(\boldsymbol{x}, \hat{\boldsymbol{x}})=\alpha * L_{l}(\boldsymbol{x}, \hat{\boldsymbol{x}})+(1-\alpha) * L_{f}(\boldsymbol{x}, \hat{\boldsymbol{x}})$$
其中$\alpha$是在驗證集上調優的超引數。損失計算的示意圖如圖4的右側所示。
3 實驗
3.1 資料集
我們通過在大量的噪聲和揚聲器上訓練我們的系統,以一種與揚聲器和揚聲器無關的方式對我們的系統進行評估,我們使用了來自WSJ0SI-84資料集的7138個話語[21]。共83人(男42人,女41人),其中76人用於培訓,其餘6人(男3人,女3人)用於評估。
為了進行訓練,我們使用了音效庫(www.ound-ideas.com)[22]中的10000個非語音,在-5dB、-4dB、-3dB、-2dB、-1dB和0dB的訊雜比下生成了320000個語音。嘈雜的話語是通過以下方式產生的。首先,隨機選擇來自訓練說話者的發音、SNR和噪聲型別。然後,在所選SNR處將所選話語與所選噪聲型別的隨機分段混合。
對於測試集,我們使用AuditecCD(可在http://www.auditec.com),購買)的兩種噪聲(雜音和咖啡音),分別在-5dB、-2dB、0dB、2dB和5dB的訊雜比下生成150種混音。對於驗證集,我們使用訓練集(150個話語)中的6個說話者,並在-5dB的訊雜比下將其與工廠噪聲混合。
3.2 基線
對於基線,我們訓練了4個不同的模型。首先,我們訓練了文獻[8]中提出的基於複數譜對映的模型,為了便於比較,我們將該模型稱為CRN。其次,我們訓練時域模型,這是一個基於幀的系統,具有較大的幀大小(1.024秒),並使用STFT幅度的損失進行訓練[20]。我們稱這種模型為AECNN-SM。最後,我們訓練了文獻[13]中提出的TCNN模型。
3.3 實驗步驟
所有的聲音都被重新取樣到16 kHz。使用大小為32ms且重疊為16ms的矩形視窗來提取幀。在訓練的每個時期,如果話語大於4秒,我們就從話語中去除4秒的隨機片段。較短的語音是該batch中最長語音的大小的零填充匹配。AdamOptimizer用於基於隨機梯度下降(SGD)的優化。我們用表2給出的學習速率時間表和4個話語的批量對該模型進行了15個時期的訓練。在訓練時,我們觀察每次訓練後驗證集上的短時客觀資訊(STOI)[23]得分,並用STOI最大的模型進行評估。我們將等式3中的$\alpha$設定為0.8。
我們在https://github.com/ashutosh620/DDAEC。為我們的實現提供了程式碼
3.4 實驗結果
我們從STOI(典型的取值範圍為0到1)和感知語音質量評價(PESQ)(取值範圍為-0.5到4.5[24])對所有模型進行了比較。結果如表2所示。我們稱提出的模型為DDAEC,代表膨脹和密集的自動編碼器。我們報告了兩個關於DDAEC的結果,一個是隻使用時域損失(DDAEC-T)訓練的,另一個是使用建議的時頻損失(DDAEC-TF)訓練的。
首先,我們觀察到DDAEC-T模型在STOI方面優於所有的基線模型。對於PESQ,它的效能優於除AECNN-SM以外的所有基線模型,AECNN-SM是一種基於幀的模型,幀長較大,因此不適合實時實現。但是,當使用時頻損失時,DDAEC在得分和所有訊雜比條件下都優於所有基線模型。對於STOI,最好的基線是TCNN,對於胡言亂語和食堂噪聲分別獲得1.19%和1.24%的平均改善。對於PESQ,最好的基線是AECNN-SM,對於兩種噪聲,分別獲得了0.11和0.17的改善。DDAEC-T和DDAEC-TF的效能明顯優於CRN模型,CRN模型是復譜圖對映的主要頻率模型。這說明了時域模型比頻域模型的優越性。類似地,DDAEC-T和DDAEC-TF都優於另一個時域模型TCNN
接下來,我們根據表 3 中列出的引數數量來比較所提出的模型。所提出的模型具有最少的引數數量,其次是 TCNN。 儘管 CRN 使用組 LSTM 來減少引數數量,但它具有最大數量的引數
4 結論
我們提出了一種新穎的全卷積神經網路用於語音增強。該模型利用帶擴張卷積的去二次關聯進行遠端上下文聚合。該模型適用於實時實現,在客觀清晰度和質量得分方面優於其他先進的模型。未來的工作包括探索所提出的多通道語音增強模型和其他語音預處理任務,如說話人分離和語音去混響
5 參考文獻
[1] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, pp. 1702 1726, 2018.
[2] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22, no. 12, pp. 1849 1858, 2014.
[3] H. Erdogan, J. R. Hershey, S.Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in ICASSP, 2015, pp. 708 712.
[4] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 24, no. 3, pp. 483 492, 2016.
[5] D. Wang and J. Lim, The unimportance of phase in speech enhancement, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 30, no. 4, pp. 679 681, 1982.
[6] K. Paliwal, K. W ojcicki, and B. Shannon, The importance of phase in speech enhancement, speech communication, vol. 53, no. 4, pp. 465 494, 2011.
[7] S.-W. Fu, T.-y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhancement by convolutional neural network with multi-metrics learning, in International Workshop on Machine Learning for Signal Processing, 2017, pp. 1 6.
[8] K. Tan and D. Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in ICASSP, 2019, pp. 6865 6869.
[9] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee, Phase-aware speech enhancement with deep complex U-Net, arXiv preprint arXiv:1903.03107, 2019.
[10] A. Pandey and D. Wang, Exploring deep complex networks for complex spectrogram enhancement, in ICASSP, 2019, pp. 6885 6889.
[11] A new framework for supervised speech enhancement in the time domain, in INTERSPEECH, 2018, pp. 1136 1140.
[12] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 26, no. 9, pp. 1570 1584, 2018.
[13] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP, 2019, pp. 6875 6879.
[14] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, Densely connected convolutional networks, in IEEE conference on computer vision and pattern recognition, 2017, pp. 4700 4708.
[15] J. L. Ba, J. R. Kiros, and G. E. Hinton, Layer normalization, arXiv preprint arXiv:1607.06450, 2016.
[16] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in IEEE International Conference on Computer Vision, 2015, pp. 1026 1034.
[17] W. Shi, J. Caballero, F. Husz ar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z.Wang, Real-time single image and video super-resolution using an efficient subpixel convolutional neural network, in IEEE conference on computer vision and pattern recognition, 2016, pp. 1874 1883.
[18] A. Odena, V. Dumoulin, and C. Olah, Deconvolution and checkerboard artifacts, Distill, 2016. [Online]. Available: http://distill.pub/2016/deconv-checkerboard
[19] A. Pandey and D. Wang, On adversarial training and loss functions for speech enhancement, in ICASSP, 2018, pp. 5414 5418.
[20] , A new framework for cnn-based speech enhancement in the time domain, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 27, no. 7, pp. 1179 1188, 2019.
[21] D. B. Paul and J. M. Baker, The design for the wall street journal-based CSR corpus, in Workshop on Speech and Natural Language, 1992, pp. 357 362.
[22] J. Chen, Y. Wang, S. E. Yoho, D. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016.
[23] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.
[24] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ) - a new method for speech quality assessment of telephone networks and codecs, in ICASSP, 2001, pp. 749 752.