論文翻譯:Fullsubnet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement

凌逆戰發表於2021-11-10

論文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li

翻譯作者:凌逆戰

論文地址:Fullsubnet:實時單通道語音增強的全頻帶和子頻帶融合模型

程式碼:https://github.com/haoxiangsnr/FullSubNet


摘要

  本文提出了一種用於單通道實時語音增強的全頻帶和子頻帶融合模型FullSubNet。全頻帶和子頻帶是指分別輸入全頻帶和子頻帶噪聲頻譜特徵,輸出全頻帶和子頻帶語音目標的模型。子帶模型獨立處理每個頻率。它的輸入由一個頻率和幾個上下文頻率組成。輸出是對相應頻率的乾淨語音目標的預測。這兩種模型有不同的特點。全頻帶模型可以捕獲全域性 上下文譜和長距離交叉頻帶依賴。但缺乏訊號平穩性建模和關注區域性譜模式的能力。子帶模型正好相反。在我們提出的FullSubNet中,我們將一個純全頻帶模型和一個純子頻帶模型依次連線起來,並利用實際的聯合訓練將這兩種模型的優點結合起來。我們在DNS挑戰(INTERSPEECH 2020)資料集上進行了實驗,對所提出的方法進行了評價。實驗結果表明,全頻帶資訊和子頻帶資訊是互補的,FullSubNet可以有效地整合它們。此外,FullSubNet的效能也超過了DNS Challenge (INTERSPEECH 2020)中排名第一的方法。

關鍵詞:全頻帶,子頻帶融合,子頻帶,語音增強

1  引言

  近年來,基於深度學習的單通道語音增強方法極大地提高了語音增強系統的語音質量和可懂度。這些方法通常在有監督的環境中進行訓練,可分為時域方法和頻域方法。時域方法[1-3]使用神經網路直接將帶噪語音對映純淨語音波形。頻域方法[4-7]通常使用噪聲頻譜特徵(例如複頻譜、幅度頻譜)作為神經模型的輸入。學習目標是乾淨語音的頻譜特徵或某個掩碼(例如,理想二進位制掩碼(Ideal Binary Mask, IBM)[8]、理想比率掩碼(Ideal Ratio Mask, IRM)[9]、復理想比率掩碼(complex Ideal Ratio Mask, cIRM)[10])。一般來說,由於時域訊號的維度較高並且缺乏明顯的幾何結構,頻域方法仍然佔據絕大多數語音增強方法的主導地位。在本文中,我們重點研究了頻域實時單通道語音增強。

  在我們之前的工作[11]中,提出了一種基於子帶的單通道語音增強方法。與傳統的基於全頻帶的方法不同,該方法以子頻帶方式執行:模型的輸入由一個頻率和多個上下文頻率組成。輸出是對應頻率的乾淨語音目標的預測。所有頻率都是獨立處理的。該方法的設計依據如下:

  1. 它學習訊號的頻率平穩性來區分語音和平穩噪聲。眾所周知,語音是非平穩的,而許多型別的噪聲是相對平穩的。隨頻率變化的STFT幅值的時間演化反映了平穩性,這是傳統噪聲功率估計器[12, 13]和語音增強方法[14, 15]的基礎。
  2. 它著重於當前和上下文頻率中呈現的區域性頻譜。區域性譜模式已被證明是區分語音和其他訊號的有用資訊。該方法在INTERSPEECH 2020中提交給DNS挑戰[16],並在16份實時音訊提交中排名第四。

  子帶模型滿足了DNS挑戰的實時性要求,效能也非常有競爭力。然而,由於它不能對全域性頻譜進行建模,也不能利用長距離跨頻帶依賴性。特別是對於訊雜比極低的子帶,子帶模型很難恢復乾淨的語音,而藉助於全頻帶相關性可以恢復乾淨語音。另一方面,全頻帶模型[4,5]的訓練是學習高維輸入和輸出之間的迴歸,缺乏專門用於子頻帶資訊(如訊號平穩性)的機制。

  針對上述問題,本文提出了一種全頻帶與子頻帶融合模型FullSubNet。通過大量的前期實驗,將FullSubNet設計成全頻帶模型和子頻帶模型的串聯。簡而言之,全頻帶模型的輸出是子頻帶模型的輸入。通過有效的聯合訓練,對兩種模型進行了聯合優化。FullSubNet可以捕獲全域性(全頻帶)上下文,同時保留對訊號平穩性進行建模和關注區域性頻譜模式的能力。像子帶模型一樣,FullSubNet仍然滿足實時需求,並且可以在合理的延遲內利用未來的資訊。我們在DNS挑戰(INTERSPEECH 2020)資料集上評估FullSubNet。實驗結果表明,FullSubNet顯著優於子帶模型[17]和引數量較大的純全帶模型,說明子帶資訊和全帶資訊是互補的。所提出的融合模型可以有效地整合它們。此外,我們還比較了在DNS挑戰中排名靠前的方法的效能,結果表明,我們的客觀效能指標優於它們。

2  方法

  我們用短時傅立葉變換(STFT)域表示語音訊號:

$$公式1:X(t, f)=S(t, f)+N(t, f)$$

  其中$X(t, f)$,$S(t, f)$,$N(t, f)$分別代表帶噪語音、純淨語音 和干擾噪聲 的 複數值。$t=1, ..., T$為時間幀,$f=0, ..., F-1$為頻點。

  本文只研究去噪任務,目標是抑制噪聲$N(t, f)$,並恢復語音訊號S(t, f)。我們提出了一個全頻帶和子頻帶融合模型來完成這一任務,包括一個純全頻帶模型$$和G_{full}一個純子頻帶模型$G_{sub}$。基本工作流程如圖1所示。接下來,我們將詳細介紹每個部分。

 

圖1所示。提出的的FullSubNet圖。矩形中的第二行描述了當前階段資料的維數,例如,1 (F)表示一個F維向量。F (2N + 1)表示F獨立(2N + 1)維向量

2.1  輸入

  先前的工作 [4, 5, 11, 17] 已經證明幅度譜特徵可以提供關於全頻段全域性頻譜、子帶區域性頻譜和訊號平穩性的關鍵線索。 因此,我們使用帶噪語音的全頻帶幅度譜特徵:

$$公式2:\mathbf{X}(t)=[|X(t, 0)|, \cdots,|X(t, f)|, \cdots,|X(t, F-1)|]^{T} \in \mathbb{R}^{F}$$

我們將其序列化為:

$$公式3:\tilde{\mathbf{X}}=(\mathbf{X}(1), \cdots, \mathbf{X}(t), \cdots, \mathbf{X}(T))$$

作為全頻帶模型$G_{full}$的輸入。 然後,$G_{full}$可以捕獲全域性上下文資訊並輸出一個大小與$\tilde{X}$相同的譜embedding,有望為後面的子帶模型$G_{sub}$提供補充資訊。

  子帶模型$G_{sub}$根據帶噪語音中子帶訊號的語音平穩性和編碼後的區域性譜 和 全帶模型的輸出 預測頻率方向的純淨語音目標。取時頻點$|X(t, f)|$及其相鄰的$2*N$個時頻點作為子帶單元。$N$是每測考慮的相鄰頻率數。對於邊界頻率,當$f-N<0$或$f+N>F-1$,使用圓形傅立葉頻率。我們將子帶單元和全帶模型的輸出連線起來,表示為$G_{full}(|X(t, f)|)$,作為子帶模型$G_{sub}$的輸入

$$公式4:\begin{aligned}
\mathrm{x}(t, f)=&[|X(t, f-N)|, \cdots,|X(t, f-1)|,|X(t, f)|\\
&|X(t, f+1)|, \cdots,|X(t, f+N)| \\
&\left.G_{\text {full }}(|X(t, f)|)\right]^{T} \in \mathbb{R}^{2 N+2}
\end{aligned}$$

對於頻率$f$, $G_{sub}$的輸入序列為

$$公式5:\widetilde{\mathrm{x}}(f)=(\mathrm{x}(1, f), \cdots, \mathrm{x}(t, f), \cdots, \mathrm{x}(T, f))$$

  在該序列中,訊號隨時間軸的時間變換反映了訊號的平穩性,這是一個區分語音和相關的平穩噪聲的有效線索。噪聲子帶譜(由2N + 1頻率組成)及其時間動態提供了區域性頻譜模式,可通過專門的子帶模型學習得到。雖然訊號平穩性線索和區域性模式實際上也存在於全頻帶模型$G_{full}$的輸入中,但是,它們沒有被全頻帶模型$G_{full}$專門的學習到。因此,子帶模型$G_{sub}$仍然學習與全帶模型$G_{full}$相關的一些額外且不同的資訊。同時,全頻帶模型$G_{full}$的輸出提供了子頻帶模型$G_{sub}$未看到的一些補充資訊。

  由於全頻帶頻譜特徵$X(f)$包含$F$個頻率,我們最終為$G_{sub}$生成$F$個獨立的輸入序列,每個序列的維數為$2N+2$。

2.2  學習目標

  毫無疑問,相位的精確估計可以提供更多的聽覺感知質量改善,特別是在低訊雜比(SNR)條件下。然而,相位被包裹在$-\pi~\pi$中,並且具有混亂的資料分佈,這使得不容易估計。與之前的工作[11,17]一樣,我們採用複數理想比率掩模(cIRM)作為模型的學習目標,而不是直接估計相位。按照[10],我們在訓練中使用雙曲正切來壓縮cIRM,在推理中使用逆函式來解壓縮掩碼(K=10,C=0.1)。對於一個時頻點,我們將cIRM表示為$y(t,f)\in R^2$。子帶模型將頻率$f$作為輸入序列$\tilde{x}(f)$,然後預測cIRM序列

$$公式6:\widetilde{\mathbf{y}}(f)=(\mathbf{y}(1, f), \cdots, \mathbf{y}(t, f), \cdots, \mathbf{y}(T, f))$$

2.3  模型框架

  圖1顯示了FullSubNet的架構。FullSuNet中的全頻帶和子頻帶模型具有相同的模型結構,包括兩個堆疊的單向LSTM層和一個線性(完全連線)層。全頻帶模型的LSTM每層包含512個隱藏單元,並使用ReLU作為輸出層的啟用函式。全頻帶模型在每個時間步長輸出一個$F$維向量,每個頻率對應一個元素。然後將子帶單元與該向量頻率逐次連線,形成F個獨立的輸入樣本(如式4所示)。根據我們之前的實驗,子帶模型不需要像全帶模型那樣大,因此LSTM每層使用384個隱藏單元。根據[10]的設定,子帶模型的輸出層不使用啟用函式。值得注意的是,所有的頻率共享一個唯一的子頻帶網路(及其引數)。在訓練過程中,考慮到LSTM記憶容量有限,採用等長序列生成輸入-目標序列對。

  為了使模型更易於優化,必須對輸入序列進行規範化,以使輸入振幅相等。對於全頻帶模型,我們根據經驗計算全頻帶序列$\tilde{X}$上的幅度譜特徵的平均值,並將輸入序列歸一化為$\frac{\bar{x}}{\mu_{full}}$。子帶模型獨立處理頻率。對於頻率$f$,我們計算輸入序列$\tilde{x}(f)$上的平均值$\mu_{sub}(f)$,並將輸入序列歸一化為$\frac{\bar{x}(f)}{\mu_{sub}(f)}$。

   在實時推理階段,我們通常使用累積歸一化方法[18,19],即每次使用所有可用幀計算用於歸一化的平均值。然而,在實際的實時語音增強系統中,語音訊號最初通常是無聲的,這意味著語音訊號的起始部分大部分是無效的。在這項工作中,為了更好地展示 FullSubNet 網的效能而不考慮規範化問題,我們直接使用在整個測試剪輯上計算的$\mu_{full}$和$\mu_{sub}(f)$來在推理過程中進行歸一化。

  與 [17] 中提到的方法相同,我們提出的方法支援輸出延遲,這使模型能夠在合理的小延遲內探索未來資訊。 如圖1所示,為了推斷$y(t-\tau )$,未來的時間步長,也就是說$x(t-\tau+1),...,x(t)$作為在輸入序列(就像圖1所示)。

3  實驗設定

3.1  資料集

  我們在DNS Challenge (INTERSPEECH 2020)資料集上評估了FullSubNet[16]。clean speech set包括2150名說話人的500多小時片段。噪聲資料集包含150個類別超過180個小時的片段。為了充分利用資料集,我們在模型訓練過程中通過動態混合來模擬語音-噪聲混合。具體地說,在每個訓練階段開始之前,75%的乾淨語音與

(1)多通道脈衝響應資料庫[20]中隨機選擇的室內脈衝響應(RIR)混合,混響時間(T60)為0.16秒、0.36秒和0.61秒。

(2) 混響挑戰資料集[21],具有三個混響時間0.3秒、0.6秒和0.7秒。

  然後,通過將乾淨語音(其中75%為混響)和隨機訊雜比在-5到20 dB之間的噪聲混合,動態生成語音-噪聲混合。經過十個epoch訓練後,該模型顯示的總資料超過5000小時。DNS挑戰提供了一個公開可用的測試資料集,包括兩類合成剪輯,即無混響和有混響。每個類別有150個噪聲片段,訊雜比分佈在0 ~ 20 dB之間。我們使用這個測試資料集進行評估。

3.2  實現

  訊號被轉換到STFT域使用漢寧窗,窗長為512(32 ms)和256幀移。我們使用PyTorch來實現FullSubNet。Adam優化器的使用學習率為0.001。訓練序列長度設定為T = 192幀(約3秒)。根據DNS Challenge (INTERSPEECH 2020)的實時性要求,我們設定$\tau$ = 2,利用兩個未來幀來增強當前幀,並使用16*2 = 32ms的前瞻性。如[17],我們在FullSubNet中為子帶模型的輸入頻率的每一側設定了15個相鄰頻率。

3.3  基線

  為了驗證全頻帶和子頻帶融合方法的有效性,我們使用與FullSubNet相同的實驗設定和學習目標(cIRM)與以下兩種模型進行了比較。

  • 子帶模型[17]:子帶模型在DNS-Challenge中取得了非常有競爭力的效能(實時跟蹤的第四名)。為了公平地比較效能,就像訓練FullSubNet一樣,我們在訓練期間使用動態混合。
  • 全頻帶模型:我們構建一個純全頻帶模型,它包含三個LSTM層,每層有512個隱藏單元。全頻帶模型的架構,即LSTM層的堆疊,實際上被廣泛應用於語音增強,如[6,26]。該模型比所提出的融合模型略大,因此比較是足夠公平的。

除了這兩種模型,我們還比較了在DNS挑戰(INTERSPEECH 2020)中排名第一的方法,包括NSNet[22]、DTLN[23]、convc - tasnet[24]、DCCRN[19]和PoCoNet[25]。

4  結果

4.1  與基線比較

  在表 1 的最後三行,我們比較了子帶模型、全帶模型和 FullSubNet 的效能。 #表中的Para和Look Ahead分別代表模型的引數量和使用的未來資訊的長度。 With Reverb 是指測試資料集中的帶噪語音不僅有噪聲,而且有一定程度的混響,這大大增加了語音增強的難度。沒有混響意味著測試資料集中的帶噪語音只有噪音。為了公平比較,這三個模型使用相同的訓練目標 (cIRM)、實驗設定和使用的未來資訊的長度。

  從表中我們可以發現,大部分全頻段模型的評估分數都優於子頻段模型,因為全頻段模型使用更大的網路來利用寬頻資訊。有趣的是,相對於全頻段模型,子頻段模型對於 With Reverb 資料似乎更有效,因為全頻段模型對於 With Reverb 的優勢小於無 Reverb 的優勢。這表明子帶模型通過關注窄帶頻譜的時間演化,有效地模擬了混響效應。這可能是由於混響效應的跨頻帶相關性實際上遠低於訊號頻譜的跨頻帶相關性。

  關於FullSubNet:(1)雖然子帶模型的效能已經非常有競爭力,但是在整合了全帶模型(由兩個LSTM層和一個線性層堆疊而成)之後,模型效能得到了極大的提升。這種改進表明全域性頻譜模式和長距離跨帶依賴性對於語音增強至關重要。 (2)FullSubNet的效能也明顯超過了全頻段模型。我們必須首先指出,這種改進並非來自使用更多引數。事實上,FullSubNet(兩層全帶LSTM加兩層子帶LSTM)的引數甚至比全帶模型(三層全帶LSTM)還要少。 FullSubNet 在整合子帶模型後,繼承了子帶模型的獨特能力,即利用訊號平穩性和區域性頻譜模式,以及對混響效果進行建模的能力。 FullSubNet 相對於全波段模型的明顯優勢表明,子波段模型所利用的資訊確實沒有被全波段模型學習到,這是對全波段模型的補充。總的來說,這些結果證明所提出的融合模型成功地整合了全頻帶和子頻帶技術的優點。

4.2  與最先進的方法進行比較

  在表1中,除了說明FullSubNet可以有效地整合兩種互補的模型外,我們還將其與DNS Challenge (INTERSPEECH 2020)中排名第一的方法進行了效能比較。表格中的“Rank”列表示是否支援實時處理和挑戰排名。例如,RT-8表示實時(RT)軌道的第8位。NRT-1是指非實時(NRT)軌道的第一個位置。

  在表1中,NSNet是DNS挑戰的官方基線方法,它使用一個緊湊的RNN以單幀輸入、單幀輸出的方式增強噪聲短時間語音訊譜。我們使用asteroid工具包中提供的DNS挑戰配方來實現和訓練NSNet。使用[17]中提到的方法生成訓練資料。在表中,無論哪種指標,我們提出的方法在所有指標上都大大超過了NSNet。

  在DNS挑戰的主觀聽力測試中,DTLN、convtasnet、DCCRN、PoCoNet排名第一。為了保證比較的公平性,我們直接引用他們的原始論文成績。表格中空白的位置表示在原論文中沒有報告相應的分數。DTLN[23]具有實時處理能力。它將STFT操作和學習的分析和合成基礎結合成一個不到100萬個引數的堆疊網路。[24]提出了一個低延遲的Conv-TasNet。 Conv-TasNet [18]是一種應用廣泛的時域音訊分離網路,具有較大的計算複雜度。因此,低延遲的Conv-TasNet 無法滿足實時性要求。DCCRN[19]模擬了卷積遞迴網路內部的複數運算。它贏得了實時賽道的第一名。PoCoNet[25]是一種採用頻率-位置嵌入的卷積神經網路。此外,採用半監督方法對帶噪資料集進行預增強,以增加會話訓練資料。它贏得了非實時賽道的第一名。這些方法涵蓋了大量基於深度學習的高階語音增強技術,在一定程度上代表了當前的先進水平。這些方法的原始論文提供了在本工作中使用的同一測試集上的評價結果,但並沒有提供本工作中使用的所有指標。可以看出,在這個有限的資料集上,所提出的融合模型取得了比所有這些模型都要好得多的客觀得分。PoCoNet的效能與我們的很接近,但它是非實時模型,具有更大的網路(約50m引數)。FullSubNet提供了一種新的全頻帶/子頻帶融合模型,這可能不會與這些最先進的模型中所採用的先進技術相沖突。因此,值得期待的是,適當地結合它們,可以進一步提高語音增強能力。

  在計算複雜度方面,在基於Intel Xeon E5-2680 v4的虛擬四核CPU (2.4 GHz)上測試,提出的模型(PyTorch實現)的1幀STFT (32 ms)處理時間為10.32 ms,明顯滿足實時性要求。稍後,我們將開放原始碼和預訓練模型,並在https: //github.com/haoxiangsnr/FullSubNet上顯示一些增強的音訊剪輯。

表1。DNS挑戰測試資料集上的WB-PESQ [MOS]、NB-PESQ [MOS]、STOI[%]和SI-SDR [dB]的效能

5  總結

  在本文中,我們提出了一個全頻帶和子頻帶融合模型,稱為FullSubNet,用於實時單通道語音增強。該模型融合了全頻帶模型和子頻帶模型的優點,既能捕獲全域性(全頻帶)光譜資訊,又能捕獲長距離跨頻帶依賴關係,同時保留了訊號平穩性建模和區域性光譜模式識別的能力。在DNS挑戰(INTERSPEECH 2020)測試資料集上,我們證明了子頻帶資訊和全頻帶資訊是互補的,FullSubNet可以有效地整合它們。在DNS挑戰中,我們還與一些排名前列的方法進行了效能比較,結果表明FullSubNet優於這些方法。

6  參考文獻

[1] Dario Rethage, Jordi Pons, and Xavier Serra, A wavenet for speech denoising, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5069 5073.

[2] A. Pandey and D. Wang, Tcnn: Temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6875 6879.

[3] Xiang Hao, Xiangdong Su, Zhiyu Wang, Hui Zhang, and Batushiren, UNetGAN: A Robust Speech Enhancement Approach in Time Domain for Extremely Low Signal-to-Noise Ratio Condition, in Proc. Interspeech 2019, 2019, pp. 1786 1790.

[4] Y. Xu, J. Du, L. Dai, and C. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7 19, 2015.

[5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 10, pp. 1702 1726, 2018.

[6] Jitong Chen and DeLiangWang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[7] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 708 712.

[8] DeLiang Wang, On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis, in Speech Separation by Humans and Machines, Pierre Divenyi, Ed., pp. 181 197.Kluwer Academic Publishers, Boston, 2005.

[9] Lei Sun, Jun Du, Li-Rong Dai, and Chin-Hui Lee, Multipletarget deep learning for lstm-rnn based speech enhancement, in 2017 Hands-free Speech Communications and Microphone Arrays (HSCMA). IEEE, 2017, pp. 136 140.

[10] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 3, pp. 483 492, 2016.

[11] Xiaofei Li and Radu Horaud, Narrow-band Deep Filtering for Multichannel Speech Enhancement, arXiv preprint arXiv:1911.10791, 2019.

[12] Timo Gerkmann and Richard C Hendriks, Unbiased mmsebased noise power estimation with low complexity and low tracking delay, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1383 1393, 2011.

[13] Xiaofei Li, Laurent Girin, Sharon Gannot, and Radu Horaud, Non-stationary noise power spectral density estimation based on regional statistics, in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 181 185.

[14] Yariv Ephraim and David Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[15] Israel Cohen and Baruch Berdugo, Speech enhancement for non-stationary noise environments, Signal processing, vol. 81, no. 11, pp. 2403 2418, 2001.

[16] Chandan KA Reddy, Ebrahim Beyrami, Harishchandra Dubey, Vishak Gopal, Roger Cheng, Ross Cutler, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., The interspeech 2020 deep noise suppression challenge: Datasets, subjective speech quality and testing framework, arXiv preprint arXiv:2001.08662, 2020.

[17] Xiaofei Li and Radu Horaud, Online monaural speech enhancement using delayed subband lstm, arXiv preprint arXiv:2005.05037, 2020.

[18] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[19] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement, arXiv preprint arXiv:2008.00264, 2020.

[20] Elior Hadad, Florian Heese, Peter Vary, and Sharon Gannot, Multichannel audio database in various acoustic environments, in 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE, 2014, pp. 313 317.

[21] Keisuke Kinoshita, Marc Delcroix, Sharon Gannot, Emanu el AP Habets, Reinhold Haeb-Umbach, Walter Kellermann, Volker Leutnant, Roland Maas, Tomohiro Nakatani, Bhiksha Raj, et al., A summary of the reverb challenge: state-of-the-art and remaining challenges in reverberant speech processing research, EURASIP Journal on Advances in Signal Processing, vol. 2016, no. 1, pp. 7, 2016.

[22] Y. Xia, S. Braun, C. K. A. Reddy, H. Dubey, R. Cutler, and I. Tashev, Weighted speech distortion losses for neuralnetwork- based real-time speech enhancement, in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 871 875.

[23] Nils L Westhausen and Bernd T Meyer, Dual-signal transformation lstm network for real-time noise suppression, arXiv preprint arXiv:2005.07551, 2020.

[24] Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, and Bhiksha Raj, Exploring the Best Loss Function for DNN-Based Lowlatency Speech Enhancement with Temporal Convolutional Networks, arXiv:2005.11611 [cs, eess], Aug. 2020, arXiv: 2005.11611.

[25] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss, arXiv preprint arXiv:2008.04470, 2020.

[26] Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R Hershey, and Bj orn Schuller, Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr, in International Conference on Latent Variable Analysis and Signal Separation. Springer, 2015, pp. 91 99.

 

相關文章