論文翻譯:2021_A Perceptually Motivated Approach for Low-complexity, Real-time Enhancement of Fullband Speech

凌逆戰發表於2021-12-12

論文地址:一種低複雜度實時增強全頻帶語音的感知激勵方法

論文程式碼:https://github.com/search?q=PercepNet

引用格式:Valin J M, Isik U, Phansalkar N, et al. A Perceptually Motivated Approach for Low-complexity, Real-time Enhancement of Fullband Speech[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 2482-2486.

摘要

  近幾年來,基於深度學習的語音增強方法大大超過了傳統的基於譜減法和譜估計的語音增強方法。許多新技術直接在頻域操作,導致了很高的計算複雜度。在這項工作中,我們提出了PercepNet,這是一種高效的方法,它依賴於人類對語音的感知,通過關注語音的譜包絡和語音的週期性,我們展示了高質量的實時增強全頻帶(48 KHz)語音的方法,使用了不到5%的CPU核。

關鍵詞:語音增強,基音濾波,後置濾波

1  引用

  在過去的幾年裡,基於深度學習的語音增強方法大大超過了傳統的基於譜減法和譜估計的方法[1]和[2]。其中許多技術直接作用於短時傅立葉變換(STFT),估計幅度[3,4,5]方向比掩碼(IRM)[6,7]。這通常需要大量的神經元和權重,導致很高的複雜性,這也部分解釋了為什麼許多這些方法被限制在8或16 kHz。STFT的使用還帶來了與視窗長度的權衡-長視窗會引起音樂噪聲和類似混響的效果,而短視窗不能提供足夠的頻率解析度來消除音調諧波之間的噪聲。這些問題可以通過使用複比掩碼[8]或時域處理[9,10,11]來緩解,但代價是複雜度進一步增加。

  我們提出了PercepNet,這是一種非常依賴於人類對語音訊號的感知並改進了RNNoise的有效方法[12]。更確切地說,我們依賴於關鍵頻段的音訊感知(第2節)和音調和噪音的感知(第3節),並使用了新的無因梳子過濾。我們使用的深度神經網路(DNN)模型是使用感知標準進行訓練的(第4節)。我們提出了一種新的包絡後置濾波器(第5節),進一步改善了增強後的訊號。

  PercepNet演算法在10ms的幀上執行,具有40ms的前瞻時間,僅使用x86CPU核心的4.1%就可以實時增強48 kHz的語音。我們發現它的質量大大超過了RNNoise(第6節)。

2  訊號模型

  設x(N)是純淨語音訊號,在嘈雜的房間中由擴音麥克風捕獲的訊號由下式給出

$$公式1:y(n)=x(n)*h(n)+\eta (n)$$

其中$\eta (n)$是來自房間的附加噪聲,$h(n)$是從講話者到麥克風的脈衝響應,$*$並表示卷積。 此外,純淨語音可以表示為$x (n) = p (n)+ \mu (n)$,其中$p(n)$是區域性週期分量,而$\mu(n)$是隨機分量(這裡考慮諸如停頓之類的瞬變作為隨機分量的一部分)。 在這項工作中,我們嘗試計算增強訊號$\hat{x}(n)=\hat{p}(n)+\hat{\mu}(n)$,它在感知上儘可能接近純淨語音$x(n)$。 從環境噪聲$\eta (n)$中分離隨機分量$\mu(n)$是一個非常困難的問題。 幸運的是,我們只需要$\hat{\mu}(n)$聽起來像$\mu(n)$,這可以通過過濾混合$\mu(n)*h(n)+\eta (n)$以具有與$\mu(n)$相同的頻譜包絡來實現。 由於$p(n)$是週期性的,並且假設噪聲不具有強週期性,因此$p(n)$應該更容易估計。 同樣,我們主要需要$\hat{p}(n)$具有與$\(n)$相同的頻譜包絡和相同的週期。

  我們試圖構建一個增強訊號,其具有相同的 1) 頻譜包絡和 2) 頻率相關的週期隨機比,作為純淨訊號。對於這兩個屬性,我們使用與人類感知相匹配的解析度。

  我們使用具有20 ms視窗和50%重疊的短時傅立葉變換(STFT)。我們使用滿足Princen-Bradley完全重構準則的Vorbis窗函式[13]進行分析和綜合,如圖1所示。演算法概述如圖2所示 。

圖1:當前合成的視窗顯示為固體紅色。我們使用三個前瞻視窗(如虛線所示),以便在t = 40ms之前的取樣用於計算t = 0之前的音訊輸出

圖2:PercepNet演算法概述

2.1  Bands

  絕大多數噪聲訊號具有較寬的頻寬和平滑的頻譜。類似地,語音的週期分量和隨機分量都具有平滑的譜包絡。這使得我們可以使用34個頻段來表示它們的包絡,範圍從0到20 kHz,間隔根據人類聽力等效矩形頻寬(ERB)[15]。為了避免僅使用一個DFT bin的頻帶,我們將最小頻頻寬度設定為100赫茲。

  為了使增強訊號的每個波段在感知上接近純淨語音,它們的總能量和週期內容都應該是相同的。在本文中,我們將第$l$幀第$b$bin的訊號x(n)的復值頻譜表示為$x_b(l)$。我們也將該波段的L2 norm表示為$X_b(l)$。

2.2  Gains

  根據頻帶$b$中noisy的語音訊號的大小,我們計算理想的比率掩碼(ideal ratio mask, IRM),即需要應用於$y_b$的增益,以使其具有與$x_b(l)$相同的能量:

$$公式2:g_b(l)=\frac{X_b(l)}{Y_b(l)}$$

  在語音僅具有隨機分量的情況下,將增益$g_b(l)$應用於頻帶$b$中的幅度譜將產生幾乎無法與純淨語音訊號區分的增強訊號。另一方面,當語音是完全週期性的時,應用增益$g_b(l)$會產生一個增強的訊號,聽起來比純淨語音更粗糙;即使能量是相同的,增強後的訊號也沒有純淨語音那麼刺耳。在這種情況下,由於音調對噪聲的影響相對較小,因此噪聲特別明顯[16]。在這種情況下,我們使用下一節中描述的梳狀濾波器來消除基音諧波之間的噪聲,並使訊號更具週期性。

3  Pitch濾波

  為了重建純淨語音的諧波特性,我們使用了基於基音訊率的梳狀濾波。梳狀濾波器可以獲得比STFT(使用20毫秒幀的50 Hz)更好的頻率解析度。我們使用基於相關性的方法結合動態規劃搜尋來估計基音週期[17]。

3.1  濾波器

  對於週期為$T$的濁音(voiced speech)訊號,簡單梳理過濾

$$公式3:C^{(0)}(z)=\frac{1+z^{-T}}{2}$$

在諧波之間以規則的間隔引入零,並將訊號的噪聲部分衰減約3dB。這在[12]中提供了一個很小但明顯的質量改進。在這項工作中,我們將梳狀過濾擴充套件到多個時段,包括使用以下過濾的非因果抽頭:

$$公式4:C_{M}(z)=\sum_{k=-M}^{M} w_{k} z^{-k T}$$

其中$M$是中心抽頭每側的週期數,$w_k$是滿足$\sum_kw_k=1$的窗函式。使用$C_M(z)$,訊號的噪聲部分由$\sigma_w^2=\sum_kw_k^2$衰減。雖然矩形視窗會使$\sigma_w^2$變得更小,但我們使用的是Hann視窗,它使剩餘的噪聲在諧波之間變得更低。由於音調掩蔽(tone masking)的行為[15],這導致了較低的感知噪聲。對於$M$=5,我們有$\sigma_w=9$dB,全部響應如圖3所示。在實踐中,由於最大先前看(look-ahead)是有限的,我們將視窗$w_k$截斷為允許的$kT$的值。

  濾波發生在時域中,輸出表示為$\hat{p}(n)$,因為它近似於來自純淨語音的“完美”週期分量$p(N)$。其短時傅立葉變換表示為$\hat{P}_b(l)$。

圖3:建議的梳狀濾波器(紅色)與[12](藍色)中使用的濾波器的頻率響應為200 Hz

3.2  濾波強度(Strength)

梳狀過濾量很重要:過濾不足會導致粗糙,而過濾過多則會產生機器人語音。文[12]中梳狀過濾的強度由啟發式控制。在這項工作中,我們取而代之的是讓神經網路學習最好地保持每個頻帶中週期能量與隨機能量之比的強度。下面的公式描述了理想強度應該是多少。因為它們依賴於純淨語音的特性,所以它們只在訓練時使用。

$$公式5:q_{x} \triangleq \frac{\Re\left[\mathbf{p}^{\mathrm{H}} \mathbf{x}\right]}{\|\mathbf{p}\| \cdot\|\mathbf{x}\|}$$

其中$·^H$表示Hermitian 轉置,$R[·]$表示real分量。類似地,我們將$q_y$定義為噪聲訊號的基音相干性。由於ground truth $P$不可用,因此需要估計相干值。考慮到$\hat{P}$中的噪聲被因子$\sigma _w^2$衰減,估計週期訊號$\hat{P}$本身的基音相干性可近似為

$$公式6:q_{\hat{p}}=\frac{q_{y}}{\sqrt{\left(1-\sigma_{w}^{2}\right) q_{y}^{2}+\sigma_{w}^{2}}}$$

  我們定義了基音過濾強$r\in[0,1]$,其中$r=0$不會導致發生濾波,$r=1$用$\hat{p}$替換訊號。設$z=(1-r)y+r\hat{p}$是基音增強訊號,我們希望$z$的基音相干性與純淨訊號匹配:

$$公式7:q_{z}=\frac{\mathbf{p} \cdot((1-r) \mathbf{y}+r \hat{\mathbf{p}})}{\|\mathbf{p}\| \cdot\|(1-r) \mathbf{y}+r \hat{\mathbf{p}}\|}=q_{x}$$

求解(7)$r$的結果為

$$公式8:r=\frac{\alpha}{1+\alpha}$$

$$公式9:\alpha=\frac{\sqrt{b^{2}+a\left(q_{x}^{2}-q_{y}^{2}\right)}-b}{a}$$

其中,$a=q_{\hat{p}}^{2}-q_{x}^{2}$和$b=q_{\tilde{p}} q_{y}\left(1-q_{x}^{2}\right)$。

  在非常嘈雜的條件下,週期估計$\hat{p}$可能比頻帶中的純淨語音具有更低的相干性$(q_\hat{p}<q_x)$。在這種情況下,我們設定$r=1$並計算增益衰減項,以確保增強語音的隨機成分與純淨語音的水平相匹配(代價是使週期成分過於安靜)

$$公式10:g^{(\mathrm{att})}=\sqrt{\frac{1+n_{0}-q_{x}^{2}}{1+n_{0}-q_{\hat{p}}^{2}}}$$

  其中,$n0=0.03$(或15 dB)將最大衰減限制為噪聲掩蔽音調閾值[18]。對於正常情況$(q_{\hat{p}}\geq q_x)$然後$g^{att}=1$。

4  DNN模型

  該模型同時使用卷積層(1x5 層,然後是 1x3 層)和 GRU [19] 層,如圖4所示。卷積層在時間上對齊,以便在未來使用多達 M 幀。 為了實現 40 毫秒的前瞻,包括 10 毫秒的重疊,我們使用$M = 3$。

圖4:從70維輸入特徵向量f計算34增益gb和34強度rb的DNN架構概述

每個層上的單元數在層型別的上面顯示

  模型使用的輸入要素繫結到34個ERB波段。對於每個頻帶,我們使用兩個特徵:帶look-ahead 的頻帶的幅度$Y_b(l+M)$和不帶look-ahead的基音相干性$q_{t,b}(l)$(相干估計本身使用完全前瞻)。除了這68個與頻帶相關的特徵之外,我們還使用基音週期$T(l)$,以及與前瞻的基音相關[20]的估計,用於總共70個輸入特徵。對於每個頻帶$b$,我們還具有2個輸出:增益$\hat{g}_b(l)$近似$g_b^{att}(l)g_b(l)$和強度(strength)$\hat{r}_b(l)$近似$r_b(l)$。

  模型的權重被強制設定為範圍$\pm \frac{1}{2}$,並量化為8位整數。這減少了記憶體需求(和頻寬),同時還利用向量化降低了推斷的計算複雜度。

4.1  訓練資料

   我們在純語音和噪聲的合成混合物上訓練模型,訊雜比從-5 dB到45 dB,包括一些無噪聲的例子。純淨語音資料包括來自不同公共和內部資料庫的120小時48kHz的語音,包括200多人和20多種不同的語言。噪音資料包括80小時的各種型別的噪音,取樣頻率也是48kHz。

  為了保證在混響條件下的魯棒性,噪聲訊號與模擬和測量的房間脈衝響應進行卷積。受到[21]的啟發,目標包括早期反射,因此只有晚期混響被衰減。

  我們通過對語音和噪聲應用不同的隨機二階極零濾波器來提高模型的泛化。我們還將相同的隨機頻譜傾斜應用於兩個訊號,以更好地推廣不同的麥克風頻率響應。為了實現頻寬無關,我們使用了一個低通濾波器,其隨機截止頻率在3 kHz至20 kHz之間。這使得在窄帶到全帶音訊上使用相同的模型成為可能。

4.2  損失函式

   我們使用不同的損失函式的增益和pitch濾波強度。對於增益,我們認為訊號的感知響度與其能量成正比,能量為$\frac{\gamma }{2}$次方,其中我們使用$\gamma =0.5$。因此,在計算指標之前,我們將增益提高到$\gamma $次方。除了平方誤差,我們還使用四次冪來過分強調產生較大誤差的損失例如,完全衰減語音)

$$公式11:\mathcal{L}_{g}=\sum_{b}\left(g_{b}^{\gamma}-\hat{g}_{b}^{\gamma}\right)^{2}+C_{4} \sum_{b}\left(g_{b}^{\gamma}-\hat{g}_{b}^{\gamma}\right)^{4}$$

其中我們使用$C_4=10$來平衡$L_2$和$L_4$項。

  雖然很簡單,(11)中的損失函式隱式地包含了[22]中提出的改進損失函式的許多特徵,包括尺度不變性、信噪不變性、冪律壓縮和非線性頻率解析度。

  對於音高濾波強度,我們使用與$L_g$相同的原理,但評估增強語音的噪聲成分的響度。由於強度為$r_b$的梳狀濾波器將噪聲衰減一個因子$(1-r_b)$,我們使用強度損失:

$$公式12:\mathcal{L}_{r}=\sum_{b}\left(\left(1-r_{b}\right)^{\gamma}-\left(1-\hat{r}_{b}\right)^{\gamma}\right)^{2}$$

由於增強對誤差值$r_b$不太敏感,所以我們不使用四次冪項。

5  包絡後置過濾

   為了進一步增強語音,我們稍微偏離了DNN產生的增益gb。這種偏差是受共振峰後濾子[23]的啟發,[23]常用於CELP編解碼器中。我們有意地去強調噪聲波段比它們在純淨訊號中稍微遠一點,同時過度強調純淨波段以進行補償。這是通過計算一個扭曲增益來實現的

$$公式13:\hat{g}_{b}^{(w)}=\hat{g}_{b} \sin \left(\frac{\pi}{2} \hat{g}_{b}\right)$$

這使得$\hat{g}_b$對於純淨頻段基本上不受影響,而對非常嘈雜的頻段進行平方(如維納濾波器的增益)。 為了避免整體上過度衰減增強訊號,我們還應用了全域性增益補償啟發式計算,如下所示

$$公式14:G=\sqrt{\frac{(1+\beta) \frac{E_{0}}{E_{1}}}{1+\beta\left(\frac{E_{0}}{E_{1}}\right)^{2}}}$$

其中$E_0$是使用原始增益$\hat{g}_b$的增強訊號的總能量,$E1$是使用扭曲增益$\hat{g}_b^{(w)}$時的總能量。 我們使用$\beta = 0.02$,這導致純淨頻段的最大理論增益為 5.5 dB。 將幀的最終訊號按$G$縮放會產生一個感知上更清晰的訊號,它與純淨訊號大致一樣響亮。 後置濾波器後的band能量由下式給出:

$$公式15:\hat{X}_{b}=G \hat{g}_{b}^{(w)} Y_{b}$$

  當通過房間裡的擴音器聽增強的語音訊號時,房間的脈衝響應被加回到訊號中,以便它與來自房間的任何語音混合在一起。然而,當通過耳機聽時,沒有任何混響會使增強的訊號聲音過於乾燥和不自然。這是通過執行能量的最小衰減來解決的,前提是永遠不超過噪聲語音的能量

$$公式16:\hat{X}_{b}^{(r)}(\ell)=\min \left(\max \left(\hat{X}_{b}(\ell), \delta \hat{X}_{b}^{(r)}(\ell-1)\right), \hat{Y}_{b}(\ell)\right)$$

其中,$\delta $被選擇為等效於混響時間T60 = 100ms。

  將頻域增強語音轉換回時域後,對輸出應用高通濾波器。 該濾波器有助於消除一些剩餘的低頻噪聲,其截止頻率由說話者的估計音調決定 [20],以避免衰減基頻。

6  實驗和結果

   我們通過使用眾包方法P.808[25]進行的兩個平均意見得分(MOS)[24]測試來評估增強語音的質量。首先,我們使用[26]中提供的48kHz Noise VCTK測試集來比較PercepNet和原始RNNoise[12],同時還進行了消融研究。這項測試包括824個樣本,每個樣本由8名聽眾評分,結果是95%的置信區間為0.04。我們還提供了PESQ-WB[27]的結果作為與其他方法(如SEGAN[9])比較的參考。表1中的結果不僅顯示了與RNNoise相比的基音改進,而且還顯示了基音過濾和包絡後置濾波器都有助於改善增強後的語音質量。此外,主觀測試清楚地表明瞭PESQ-WB在評價包絡後濾波時的侷限性--儘管主觀評價比後濾波有很大的提高,但PESQ-WB認為它是一種退化。請注意,MOS結果中異常高的離散值很可能是由於該測試中的全波段樣本所致。

表1 P.808 MOS結果基於在48 kHz VCTK測試集上的內部測試

  在第二次測試中,DNS挑戰[28]組織者評估了用PercepNet處理的盲測試樣本,並向我們提供了表2中的結果。該測試裝置包括150個無混響合成樣品,150個有混響合成樣品和300個真實錄音。每個樣本由10名聽眾打分,所有演算法的95%置信區間為0.02。由於PercepNet執行在48 kHz, 16 kHz的挑戰測試資料在STFT域中被內部上取樣(隨後下采樣),避免了任何額外的演算法延遲。同樣的模型引數用於挑戰性的16 khz評估和我們自己的48 khz VCTK評估,展示了在不同頻寬的語音上操作的能力。其質量也超過了基線的[29]演算法。 

表2:挑戰官方P.808 MOS結果。基線模型由挑戰組織者提供

  演算法的複雜度主要取決於神經網路,因此權值的個數。對於10ms和8M權重的幀大小,複雜度約為800 MMACS(每幀/秒每權重一次乘加)。通過對8位權值進行量化,使網路的高效執行成為可能。在預設的10毫秒的幀大小下,PercepNet需要5.2%的移動x86核心(1.8 GHz Intel i7-8565U CPU)來進行實時操作。以40毫秒的幀大小(4個內部幀,每個幀10毫秒,以提高快取效率)進行評估,在相同的CPU核心和相同的輸出上,複雜性降低到4.1%。儘管比DNS挑戰所允許的最大複雜度低得多,但PercepNet在實時跟蹤中排名第二。

  定性地說,使用ERB波段而不是直接在頻率箱上操作,使得演算法不能在輸出中產生音樂噪聲(又稱鳥偽訊號)。類似地,用於分析的短視窗避免了在時域中的類混響塗抹。相反,主要值得注意的偽跡是由一些殘留在音高諧波之間的噪聲引起的一定數量的粗糙度,特別是對於大的汽車噪聲。

7  結論

   我們展示了一種有效的語音增強演算法,該演算法關注語音譜包絡和週期性的主要感知特徵,以實時生成低複雜度的高質量全頻帶語音。所提出的PercepNet模型使用帶結構來表示頻譜,以及基音濾波和額外的包絡後濾波步驟。評估結果顯示,寬頻和全頻帶語音質量都有顯著改善,並證明了基音濾波和後濾波的有效性。我們相信結果證明了使用感知相關引數建模語音的好處。

8  參考文獻

[1] S. Boll. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on acoustics, speech, and signal processing, 27(2):113 120, 1979.

[2] Y. Ephraim and D. Malah. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, 33(2):443 445, 1985.

[3] D. Liu, P. Smaragdis, and M. Kim. Experiments on deep learning for speech denoising. In Proceedings of Fifteenth Annual Conference of the International Speech Communication Association, 2014.

[4] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee. A regression approach to speech enhancement based on deep neural networks. IEEE Transactions on Audio, Speech and Language Processing, 23(1):7 19, 2015.   

[5] K. Tan and D. Wang. A convolutional recurrent neural network for real-time speech enhancement. In Proceedings of INTERSPEECH, volume 2018, pages 3229 3233, 2018.

[6] A. Narayanan and D. Wang. Ideal ratio mask estimation using deep neural networks for robust speech recognition. In Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 7092 7096, 2013.

[7] Y. Zhao, D. Wang, I. Merks, and T. Zhang. Dnn-based enhancement of noisy and reverberant speech. In Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 6525 6529, 2016.

[8] D.S. Williamson, Y. Wang, and D. Wang. Complex ratio masking for monaural speech separation. IEEE/ACM transactions on audio, speech, and language processing, 24(3):483 492, 2016.

[9] S. Pascual, A. Bonafonte, and J. Serra. SEGAN: Speech enhancement generative adversarial network. arXiv:1703.09452, 2017.

[10] D. Rethage, J. Pons, and X. Serra. A wavenet for speech denoising. In Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5069 5073, 2018.

[11] C. Macartney and T. Weyde. Improved speech enhancement with the wave-u-net. arXiv:1811.11307, 2018.

[12] J.-M. Valin. A hybrid DSP/deep learning approach to real-time full-band speech enhancement. In Proceedings of IEEE Multimedia Signal Processing (MMSP) Workshop, 2018.

[13] C. Montgomery. Vorbis I specification, 2004.

[14] J. Princen and A. Bradley. Analysis/synthesis filter bank design based on time domain aliasing cancellation. IEEE Transactions on Acoustics, Speech, and Signal Processing, 34(5):1153 1161, 1986.

[15] B.C.J. Moore. An introduction to the psychology of hearing. Brill, 2012.

[16] H. Gockel, B.C.J. Moore, and R.D. Patterson. Asymmetry of masking between complex tones and noise: Partial loudness. The Journal of the Acoustical Society of America, 114(1):349 360, 2003.

[17] D. Talkin. A robust algorithm for pitch tracking (RAPT). In Speech Coding and Synthesis, chapter 14, pages 495 518. Elsevier Science, 1995.

[18] T. Painter and A. Spanias. Perceptual coding of digital audio. Proceedings of the IEEE, 88(4):451 515, 2000.

[19] K. Cho, B. Van Merriënboer, D. Bahdanau, and Y. Bengio. On the properties of neural machine translation: Encoder-decoder approaches. In Proceedings of Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation (SSST-8), 2014.

[20] K. Vos, K. V. Sorensen, S. S. Jensen, and J.-M. Valin. Voice coding with Opus. In Proceedings of the 135th AES Convention, 2013.

[21] Y. Zhao, D. Wang, B. Xu, and T. Zhang. Late reverberation suppression using recurrent neural networks with long short-term memory. In Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5434 5438. IEEE, 2018.

[22] H. Erdogan and T. Yoshioka. Investigations on data augmentation and loss functions for deep learning based speech-background separation. In Proceedings of INTERSPEECH, pages 3499 3503, 2018. 

[23] J.-H. Chen and A. Gersho. Adaptive postfiltering for quality enhancement of coded speech. IEEE Transactions on Speech and Audio Processing, 3(1):59 71, 1995.

[24] ITU-T. Recommendation P.800: Methods for subjective determination of transmission quality, 1996.

[25] ITU-T. Recommendation P.808: Subjective evaluation of speech quality with a crowdsourcing approach, 2018.

[26] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi. Investigating rnn-based speech enhancement methods for noiserobust text-to-speech. In Proceedings of ISCA Speech Synthesis Workshop (SSW), pages 146 152, 2016.

[27] ITU-T. P.862.2: Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs (PESQ-WB). 2005.

[28] C.K.A. Reddy, V. Gopal, R. Cutler, E. Beyrami, R. Cheng, H. Dubey, S. Matusevych, R. Aichner, A. Aazami, S. Braun, P. Rana, S. Srinivasan, and J. Gehrke. The INTERSPEECH 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results. arXiv preprint arXiv:2005.13981, 2020.

[29] Y. Xia, S. Braun, C.K.A. Reddy, H. Dubey, R. Cutler, and I. Tashev. Weighted speech distortion losses for neural-network-based real-time speech enhancement. arXiv:2001.10601, 2020. 

相關文章