論文地址:PACDNN:一種用於語音增強的相位感知複合深度神經網路
相似程式碼:https://github.com/phpstorm1/SE-FCN
引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware composite deep neural network for speech enhancement[J]. Speech Communication,2022,136:1-13.
摘要
目前,利用深度神經網路(DNN)進行語音增強的大多數方法都面臨著一些限制:它們沒有利用相位譜中的資訊,同時它們的高計算複雜度和對記憶體的要求使得它們不適合實時應用。本文提出了一種新的相位感知複合深度神經網路(PACDNN)來解決這些問題。具體而言,該網路利用頻譜掩模進行幅度處理和利用相位derivative(導數)進行相位重構,從而實現幅度和相位同時增強。此外,DNN經過精心設計,充分利用了語音對時間和頻譜的強烈依賴性,而其各組成部分獨立並行執行,以加快計算速度。通過大量的對比實驗,證明了所提出的PACDNN模型相對於一些知名的基於DNN的SE方法的優勢。
關鍵詞:語音增強,深度神經網路,模型複雜度,頻譜掩模,相位derivative
1 引言
在真實世界環境中獲取的語音訊號往往會受到背景噪聲的干擾。這種干擾現象出現在語音識別、聽力修復、語音通訊、智慧家居裝置等許多應用中。語音增強(SE)的目的是抑制所採集的語音訊號中不需要的環境噪聲,以提高其質量或作為預處理程式,提高應用程式對各種噪聲的魯棒。SE方法可以是無監督的,也可以是有監督的。傳統的Wiener濾波(Abd ElFattah等人2008年;Wang和Chen,2018)和基於統計模型的方法(Martin 2002;Parchami等人2016)是兩類著名的無監督方法,它們依賴於語音和噪聲的統計特性,當這些特性已知或適當建模時,會產生良好的效能。然而,在統計特性未知或難以建模的真實場景中,特別是在非平穩噪聲條件下,這些方法的效能會下降。
近年來,隨著快速計算硬體的發展和大資料集的可用性,監督方法在許多領域受到了越來越多的關注。特別是,基於深度學習的方法在語音處理方面取得了革命性的進展,包括語音識別。DNN在模擬高度複雜的轉換方面的卓越能力極大地提高了在不利和可變的聲學情景中的SE。此外,訓練有素的DNN可以提供低延遲處理,這對許多實時應用非常重要,如助聽器(Agnew和Thornton,2000)。在過去的十年中,已經提出了各種基於DNN的SE方法,下面將進一步詳細介紹。
Xu等人(2014)利用多層感知器(MLP)將帶噪語音的對數功率譜對映到純淨語音。在本工作中,一些關鍵的MLP問題,如過擬合和全域性方差歸一化問題,也進行了研究。雖然MLP模型獲得了很好的SE結果,但由於其引數較多,複雜性較高。此外,MLP獨立處理語音樣本,即不考慮順序資訊,但語音卻表現出很強的時間依賴性。Chen和Wang(2017)採用了長短期記憶(Long-Short Term Memory,LSTM)網路,一種遞迴神經網路(RNN)的變體,對語音的資訊按時間順序進行建模,結果表明LSTM能夠在困難的嘈雜條件下跟蹤這種說話人依賴的資訊。他們還證明了LSTM網路在將模型推廣到多個說話人和噪聲方面優於MLP。最近,一個同時執行時間和頻率的LSTM網路被用於提取低位元率音訊恢復的時頻模式(Abbaszadeh,2016)。雖然LSTM具有很好的SE效能,但它被認為是一個高度複雜的模型。為了緩解LSTM的這一問題,SE最近採用了LSTM的兩種變體,即門控迴圈單位(GRU) (Dey和Salemt,2017)和簡單迴圈單位(SRU) (Cui等人,2020)。然而,GRU和SRU雖然提供了LSTM的高效實現,但在SE應用中,它們的效能不如LSTM。
Park和Lee(2016)研究了SE的卷積神經網路(CNN),並將其所需引數數與MLP和LSTM進行了比較。特別是,他們表明,這三種方法幾乎提供相同的SE效能,儘管CNN需要更少的引數。然而,本研究只考慮了引數的數量,而實際的複雜性和實現成本也取決於記憶體佔用,CNN的記憶體佔用會明顯大於LSTM和MLP。我們還注意到,CNN最初的設想是為了從影像中捕獲區域性資訊,而語音訊譜通常表現出非區域性相關性。此外,CNN網路的最大池化層只保留其輸入的粗資訊。因此,Oord等人(2016)引入了一個生成模型,該模型沒有最大池化層,而是包含了一個擴張因果卷積層堆疊。該模型在不增加模型複雜性的情況下擴充套件了CNN濾波器的感受野。受此工作的啟發,Ouyang等人(2019)在頻域引入了一個全卷積模型,顯示了有前景的SE結果。
與上述的獨立學習方法相比,最近的一些研究考慮將網路組合作為SE的學習引擎。Tan和Wang(2018)引入了卷積迴圈神經網路(CRN)作為SE的編碼器解碼器網路。他們還通過引入門控摺積迴圈網路擴充套件了CRN Tan和Wang(2019),並獲得了更好的SE結果。Zhao等人(2018)、Hsieh等人(2020)分別提出了其他一些基於頻域和時域的CRN網路。Hu等人(2020)引入了一種深度複數CRN,其中CNN和RNN被設計用來模擬複數值target。該模型的優點在客觀和主觀指標方面都得到了體現。雖然CRN模型產生了很好的SE結果,但Strake等(2020)認為,由於不同CRN元件之間的資料被重塑,CNN feature maps的內部關係和區域性結構被徹底破壞。因此,他們對SE採用卷積LSTM,將LSTM中的全連線對映替換為卷積對映。基於這一論點,最近Shifas等人(2020)在SE中使用了另一個名為gruCNN的模型塊,在特徵提取CNN層中加入了遞迴。這些組合網路取得了良好的SE效果;然而,它們都表現出非常高的複雜性模型,其中一些(由於它們的非因果形式)引入了額外的延遲。此外,當訓練和測試資料集相同但分解為不可見資料集時,基於CRN的方法表現良好(Pandey和Wang,2020)。
雖然上述方法在語音增強中取得了顯著的效果,但大多數方法只對語音的幅度增強進行了研究,而沒有對相位進行處理。這是因為相位譜的高度非結構化,使得DNN對其進行估計非常困難。然而,Krawczyk和Gerkmann(2014)指出了相位增強在語音增強環境中的作用和重要性,從而提出了不同的相位感知方法。Erdogan et al. (2015) 提出了將相位資訊納入DNN處理的最早嘗試之一,其中引入了相位敏感掩模(PSM)。然而,該方法主要利用PSM對語音的幅度進行處理,並在語音重構中使用噪聲相位。Williamson等人(2015)引入了一種複數理想比率掩模(cIRM),將掩模分為實部和虛部來增強複數譜。不幸的是,使用cIRM會在增強語音中引入失真,因為其虛部中缺乏可識別的模式(Yin等人,2020 Hasannezhad等人,2020a)。Fu等人(2017a)、Tan和Wang(2018)、Ouyang等人(2019)、Tan和Wang(2019)也提出了直接估計複數譜的方法,使用DNN從嘈雜語音中估計純淨語音複數譜的實部和虛部。然而,這些方法需要大量的資料集來學習精確的對映函式;此外,他們在未見資料上的表現可能比簡單的頻譜對映方法更差(Pandey和Wang,2020)。Yin等人(2020)引入了一種相位和諧波感知(harmonics aware)的降噪模型,其中提出了一種兩流DNN結構,在幅值和相位譜之間進行資訊交換,以恢復純淨語音的複數譜。由於相位譜本身具有不規則的結構,研究人員還研究了從相位匯出的其他量,這些量顯示出與語音重構的幅度相似的結構(Mowlaee和Saeidi,2014)。Takamichi等(2018)嘗試基於DNN估計重建相位。作者引入了一種von-Mises分佈的DNN進行相位重構,該DNN具有預測和實際分組延遲(group delay,GD)之間的損失函式。在他們隨後的工作中(Takamichi et al.,2020),他們在相同的框架中使用了一個方向統計DNN,並引入了正弦偏廣義心線分佈DNN來建模GD。Zheng和Zhang(2018)提出了一種相位感知模型,聯合處理幅度和相位譜,其中通過頻譜掩模獲得估計的幅度,通過相位導數(PD),即所謂的瞬時頻率偏差(IFD)重建相位。實驗結果表明,該相位感知模型比基於cIRM和僅幅度掩模的方法具有更好的效能。然而,它使用MLP和LSTM來估計目標,這限制了可達到的精度,並招致較高的計算成本。此外,雖然IFD在相位重構中得到了有效的應用,但GD等其他PD可能具有更好的效能。
在一項初步研究中(Hasannezhad et al.,2021),我們提出了一種融合CNN和LSTM的SE複合模型。具體而言,該模型採用改進的LSTM和CNN結構,利用包含語音訊譜和時態上下文資訊的互補特徵集,從而優於一些已知的基於DNN的SE方法。在本文中,我們通過引入新的思想和處理模組來進一步研究該模型的相位和幅度增強。受Zheng和Zhang(2018)的啟發,我們提出了一個名為相位感知複合深度神經網路(PACDNN)的新模型,該模型涉及兩個子任務:頻譜掩模的幅度處理和PD的相位重建,其中DNN同時估計兩個目標。我們研究了不同型別的掩膜和PD,以及它們可能的組合,以選擇DNN的最佳目標。我們的分析和實驗研究表明,與現有的幾種基於DNN的方法相比,本文提出的PACDNN模型具有更好的SE效能,同時顯著降低了計算複雜度和記憶體佔用。
本文的其餘部分組織如下:第2節描述了提出的PACDNN模型及其組成部分。然後,第三節給出了實驗,並對實驗結果進行了比較和討論。最後,本文在第4節進行總結。
2 提出PACDNN模型
本文提出的PACDNN模型的框圖如圖1所示。該複合模型將CNN和LSTM流相結合,提取一組互補的特徵,然後轉化為網路target。複合模型輸入由Noisy組成,輸出由頻譜掩模和PD組成。在測試階段,利用估計的掩模和PD 重構純淨語音。以下將討論PACDNN模型的各個組成部分。
圖1 高階PACDNN模型
2.1 複合模型
2.1.1 改善LSTM stream
語音訊譜表現出很強的時間相關性,這對SE很有用。LSTM可以對這些長期依賴關係進行建模,因為它將輸入幀視為一個序列。具體來說,它可以模擬語音隨時間的變化,並學習語音的時間動態(Wang和Chen,2018)。LSTM由一個儲存單元和三個控制門組成:遺忘門、輸入門和輸出門。$M$和$N$分別表示輸入向量和cell狀態的大小,LSTM可訓練引數的數量是$4*(N^2+NM+N)$(Dey和Salemt,2017)。
LSTM網路的一個關鍵問題是它的高複雜性,這源於權值和遞迴矩陣中的引數冗餘。前者轉換特徵表示,後者在連續步驟之間轉換隱藏狀態。為了規避這些冗餘,Gao等人(2018)引入了一種分組迴圈網路。考慮雙層LSTM網路,如圖2(a)所示。如所知,忽略偏置項的單門LSTM的引數為$(N²+N*M)$。通過將輸入層和隱藏層拆分為獨立執行的$K$組,引數的數量減少了一個因子$K$,如下所示
$$公式1:K \cdot\left(\left(\frac{N}{K}\right)^{2}+\frac{N}{K} \cdot \frac{M}{K}\right)=\frac{N^{2}+N \cdot M}{K}$$
這樣的分組網路圖2(b)所示其中K= 2。分組策略雖然降低了模型的複雜度,但降低了網路的效率。事實上,雖然捕獲了組內的時間依賴關係,但由於不同的組不能通訊,組間的依賴關係會丟失。為了解決這個問題,Gao等人(2018)提出了另一種重新安排,將不同的群體連線起來。該技術可以在不引入額外引數的情況下使用基本張量運算來實現,如圖2(c)所示。因此,我們使用這種分組和連線重排來降低模型的複雜性,同時保持效能幾乎相同。
圖2所示 2層分組LSTM:(a)未分組;(b) K =2分組;(c)分組和表示法重排
2.1.2 改善CNN stream
擴張頻率卷積:CNN最初是為影像分類而設計的。傳統的CNN由成對的卷積層和池化層以及一個完全連線的網路組成。前者的目的是提取特徵,後者的目的是完成分類。
將語音訊譜看作是一幅影像,CNN可以利用其頻譜上下文資訊。然而,由於CNN核的感受野有限(來自前一層的區域性區域),CNN只能捕獲輸入的區域性資訊,而語音訊譜沿著頻率軸顯示非區域性相關性。在影像處理應用中,引入了擴張卷積來增大CNN核的感受野(Yu and Koltun,2015)。根據我們最近的研究(Hasannezhad等人,2021年),我們使用了一個具有堆疊的擴張卷積來捕獲非區域性頻譜相關性,而不增加模型複雜性。此外,採用殘差學習和跳躍連線技術,以促進訓練和加速收斂。值得注意的是,這個全卷積CNN結構沒有池化層。
注意力驅動的CNN: CNN包含許多特徵圖,這些特徵圖可能具有不同的顯著性水平。因此,強調資訊特徵對映可以提高模型的效能。通過重新校準特徵對映,注意機制自適應地強調資訊對映,同時抑制其他資訊對映。Hu等人(2018)提出了一種成功的注意力機制,稱為擠壓與激勵(squeeze-and-excitation,SAE),專注於通道關係。在這種方法中,如圖3(a)所示,在squeeze階段,平均池化操作將每個特徵對映的全域性資訊在空間上聚合到一個通道描述符。然後,一個全連線的網路通過調整激勵階段的描述符來捕獲通道方面的依賴關係。最後,通過excitation值對原始特徵圖進行重新校準,並將結果傳遞給後續層。受SAE的啟發,但旨在利用畫素級空間資訊,Roy等人(2018)引入了空間SAE,如圖3(b)所示,其中擠壓操作沿通道進行,而激勵為空間激勵。Woo等(2018)引入了卷積塊注意模組,如圖3(c)所示,該模組結合了通道方向和空間方向的SAE。在這種方法中,平均池和最大池都被用作擠壓器。然後將壓縮模組的輸出連線起來,並通過一個S型啟用函式傳遞。最後,將得到的權值以元素方式應用於原始的特徵對映。在本文中,我們研究了這些注意力機制在PACDNN模型中的使用。
圖3所示 注意力機制:(a)採用平均池的通道方式;(b)具有max-pooling的空間;(c)具有Max和average-pooling的空間
2.1.3 迴歸(Regression)
如圖1所示,所提出的PACDNN複合模型中的兩個並行流利用互補的特徵集,然後轉換成頻譜掩模和PD值。這種轉換可以通過一個低複雜度的CNN或一個MLP網路來實現。這兩種DNN型別具有不同的屬性,儘管它們都可以完成所需的迴歸任務。如Fu et al. (2017b)所述,CNN可以模擬相鄰元素之間的快速波動,而MLP不能。此外,CNN需要的模型引數比MLP少得多,而後者需要的計算記憶體更少。我們將從不同的角度比較這兩個網路的迴歸任務,包括SE效能和計算複雜度。
2.2 頻譜掩模和相位導數計算
如上所述,PACDNN中複合模型的目標由頻譜掩模和PD兩部分組成。前者用於噪聲幅度譜的增強,後者用於相位譜的重建。選擇合適的target對最終的增強效能至關重要。
考慮帶噪語音$y(t)$為純淨語音$s(t)$與噪聲$n(t)$的相加,其中$t$為離散時間指標,利用短時傅立葉變換(STFT)將時域帶噪語音轉換為TF域,即
$$公式2:Y(k,l)=S(k,l)+N(k,l)$$
式中,$Y(k,l)$、$S(k,l)$和$N(k,l)$分別表示帶噪語音、純淨語音和噪音的STFT譜,$k$和$l$分別表示幀索引和頻率bin索引。複數譜可以用極座標表示,即幅度譜和相位譜。例如,純淨語音的聲譜可以分解如下
$$公式3:S(k,l)=|S(k,l)| e^{i \phi_{S}(k,l)}$$
其中$\phi$和$|·|$分別表示相位和幅度。在本文中,我們的目標是通過聯合重建幅度譜和相位譜,以獲得增強的語音。下面介紹幾種流行的掩膜和PD。在我們的研究中,通過考慮這些掩膜和PD的不同可能組合來評估增強效能。
2.2.1 頻譜掩碼
受人類聽覺系統掩蔽效應的啟發(Wang and Chen,2018),掩蔽演算法的目標是在TF域中保留帶噪語音中的純淨語音,同時抑制噪聲。為此,文獻中介紹了不同的mask,本研究總結如下
理想比率掩模(IRM) (Srinivasan et al.,2006)定義為在噪聲與純淨語音不相關的前提下,在TF單元內純淨語音與帶噪語音的能量之比。
$$公式4:\operatorname{IRM}(k,l)=\left(\frac{|S(k,l)|^{2}}{|S(k,l)|^{2}+|N(k,l)|^{2}}\right)^{\frac{1}{2}}$$
頻譜幅值掩模(Spectral amplitude Mask,SMM,也稱為IAM) (Wang et al.,2014)定義為純淨語音的頻譜幅值與帶噪語音的頻譜幅值的比值,其概念與IRM相似,即
$$公式5:\operatorname{SMM}(k,l)=\frac{|S(k,l)|}{|Y(k,l)|}$$
最優比率掩碼(ORM) (Liang et al.,2013)是基於最小化純淨語音和估計語音之間的均方誤差(MSE)而得到的。它由
$$公式6:\operatorname{ORM}(k,l)=\frac{|S(k,l)|^{2}+\Re\left(S(k,l) N^{*}(k,l)\right)}{|S(k,l)|^{2}+\left|N(k,l)^{2}\right|+2 \Re\left(S(k,l) N^{*}(k,l)\right)}$$
其中$*$和$R$分別表示共軛運算和實部。ORM和IRM的主要區別是前者中出現了$\Re(S(k,l)N*(k,l))$。因此,ORM可以看作是IRM的改進版本,它考慮了純淨語音與噪聲之間的相關性。
相位敏感掩模(PSM) (Erdogan et al.,2015)定義為純淨語音訊譜與帶噪語音訊譜比值的實部,如
$$公式7:\operatorname{PSM}(k,l)=\Re\left(\frac{S(k,l)}{Y(k,l)}\right)$$
由於我們在PACDNN中使用sigmoid作為輸出層的啟用函式,因此訓練輸出值必須限制在[0,1]。雖然IRM的值在期望的範圍內,但ORM、PSM和SMM的值並不侷限於此範圍。因此,這三個掩碼異常值被截斷為[0,1]。
2.2.2 phase derivative
在一些相位感知語音增強方法中,採用區域性相位處理代替相位本身。在這方面,瞬時頻率(IF,instantaneous frequency) (Stark and Paliwal,2008)和群延遲(GD,group delay) (Hegde et al.,2007)是最著名的兩個PD。
瞬時頻率(IF)定義為相位譜的一階時間導數。對於頻譜,IF可以用連續兩幀之間的相位差近似為
$$公式8:\operatorname{IF}(k,l)=\operatorname{princ}\{\phi(k+1,l)-\phi(k,l)\}$$
其中函式princ{·}表示主值運算元,將相位差投影到$[\pi,\pi)$上。由於IF受其主值的限制,繞包效應將沿頻率軸發生。為了緩解這個問題,Stark和Paliwal(2008)採用瞭如下的瞬時頻率偏差(IFD)
$$公式9:\operatorname{IFD}(k,l)=\operatorname{IF}(k,l)-\frac{2 \pi}{N} k L$$
其中$\frac{2\pi}{N}kL$為$IFD(k,l)$的中心頻率。
Stark和Paliwal(2008)證明,中頻值跟蹤基音諧波峰值的頻率,而IFD值捕獲基音和共振峰結構,如量級譜中所示。Zheng和Zhang(2018)也有類似的發現,他們從估計的IFD中重建了相位,用於語音增強。他們還表明,可以用DNN估計IFD,因為它顯示出與頻譜相似的模式,如圖4 (a,c)所示。
分組延遲(Group delay,GD)是頻譜相位相對於頻率的導數的負值,由
$$公式10:\mathrm{GD}(k,l)=-[\phi(k,l+1)-\phi(k,l)]$$
在Hegde等人(2007)的文章中,作者證明了 GD 函式在共振頻率下表現得像平方幅度響應。 它還表現出類似於幅度譜的結構模式,如圖4(a,d)所示。 此外,Prasad 等人 (2004) 討論的高解析度特性,揭示了 GD 比幅度譜具有更高的分辨能力。 具體而言,與幅度或線性預測譜相比,在GD譜中共振峰的解析更準確。 基於這一發現,我們推斷 GD 也可以用作基於 DNN 的 SE 的訓練目標,與廣泛採用的幅度目標或其變體相同。
圖4所示 在取樣頻率為8 kHz時的語音訊譜圖:(a)幅度(對數刻度);(b)相位;(c) IFD;(d) GD
由於mask和PD是用一個DNN聯合估計的,因此它們的值應該在相同的範圍內,以平衡訓練過程。我們採用Zheng和Zhang(2018)的歸一化方案,將頻譜掩模的範圍截斷為[0,1],將PD值歸一化如下
$$公式11:\mathrm{PD}_{\mathrm{n}}(k,l)=\frac{1}{2 \pi} \mathrm{PD}(k,l)+\frac{1}{2}$$
從圖5 (a,b)可以看出,歸一化GD值在範圍內呈U形分佈[0,1],這使得使用DNN對其進行精確估計更加困難(Zheng and Zhang,2018)。因此,我們建議使用以下轉換來正則化歸一化GD,即
$$公式12:\operatorname{RGD}(k,l)=\mu+\sqrt{2} \sigma \cdot \operatorname{erf}^{-1}\left(2 \mathrm{GD}_{n}(k,l)-1\right)$$
其中$erf^{-1}(·)$為逆誤差函式,$\sigma$和$\mu$分別設為0.1和0.5。RGD及其分佈如圖5 (c,d)所示,將其值拉到中心點(0.5)附近,使RGD成為更好的訓練目標。
圖 5 取樣頻率為 16 KHz 的群延遲正則化乾淨語音:(a) GD 頻譜圖; (b) GD 值的分佈; (c) RGD 頻譜圖; (d) RGD 值的分佈。
2.3 幅度和相位重建
在這個小節中,我們解釋如何從頻譜掩模和PD估計中恢復幅值和相位譜。
2.3.1 幅度重建
從訓練好的DNN中得到估計的頻譜掩碼$\hat{M}(k,l)$後,通過將頻譜掩碼應用於帶噪語音的幅度譜來完成幅度重建,即
$$公式13:|\hat{S}(k,l)|=\hat{M}(k,l)|Y(k,l)|$$
通常,如果一個TF單元是語音主導的,$\hat{M}(k,l)$將有一個很大的值,這有助於在該單元中儲存語音資訊。否則,$\hat{M}(k,l)$將很小,從而有助於抑制背景噪聲。如2.2.1節所述,本文研究了四種掩碼$M(k,l)$,即IRM、SMM、ORM和SMM。
2.3.2 相位重建
在通過訓練有素的 DNN 獲得估計的 PD 後執行相位重建。 由於 IF 和 GD 分別定義為頻譜圖的 TF 單元之間沿時間軸和頻率軸的相位差,因此需要對某些選定的 TF 單元進行適當的初始相位估計來恢復相位頻譜圖。 基於初始估計,可以通過(8)和(10)中的差分方程沿時間和頻率軸重構整個相位譜圖。
(1) 初始相位估計:當純淨語音功率遠大於噪聲功率時,噪聲相位近似等於純淨相位。因此,在具有較高訊雜比(SNR)的TF單元中,使用噪聲相位作為初始估計是合理的。正如Zheng和Zhang(2018)提出的,我們採用噪聲相位譜作為純淨相位的初始估計,即:
$$公式14:\hat{\phi}_{i n i t}(k,l)=\phi_{Y}(k,l),\forall k,l$$
然後我們使用每個TF單元的區域性訊雜比作為一個指標來確定初始估計的可靠性,其中區域性訊雜比近似於估計的掩碼$\hat{M}(k,l)$。
(2) 利用GD進行相位重構:首先將估計的RGD(記為$\hat{RGD}(k,l)$)通過下面的變換對映回$GD_n(k,l)$
$$公式15:\widehat{\mathrm{GD}}_{n}(k,l)=\frac{1}{2}\left(\operatorname{erf}\left(\frac{\widehat{\operatorname{RGD}}(k,l)-\mu}{\sqrt{2} \sigma}\right)+1\right)$$
其中$erf(·)$為誤差函式。然後通過對$\hat{GD}_n$進行去規格化得到估計的GD
$$公式16:\widehat{\mathrm{GD}}(k,l)=2 \pi\left(\widehat{\mathrm{GD}}_{n}(k,l)-\frac{1}{2}\right)$$
受Zheng和Zhang(2018)用IFD進行相位重構的啟發,我們使用初始相位估計和初始估計與目標相位之間的GD計算相位譜。對於每個TF單元,我們生成$2N_s+1$幀條件相位估計,由
$$公式17:\hat{\phi}^{i}(k,l)= \begin{cases}\hat{\phi}_{i n i t}(k,l+i)+\sum_{n=0}^{i-1} \widehat{\mathrm{GD}}(k,l+n),& i \neq 0 \\ \hat{\phi}_{i n i t}(k,l+i),& i=0\end{cases}$$
其中$-N_s\leq i\leq N_s$是初始化的TF單元與目標TF單元之間的幀距離。在這項工作中,我們的$N_S = 2$。然後將這些階段估計展開,即
$$公式18:\bar{\phi}^{i}(k,l)=\operatorname{unwrap}\left(\hat{\phi}^{i}(k,l) \mid \hat{\phi}^{i}(k,l-1)\right)$$
$(k,l)^{th}$單元的重構相位最終通過以下加權平均操作平滑幀條件估計$\bar{\phi ^i}(k,l)$得到
$$公式19:\hat{\phi}(k,l)=\frac{\sum_{i=-N_{s}}^{N_{s}}(s(i) \hat{M}(k,l+i)) \bar{\phi}_{i}(k,l)}{\sum_{i=-N_{s}}^{N_{s}} s(i) \hat{M}(k,l+i)}$$
其中$s(i)$表示$\bar{\phi^i}(k,l)$的鄰近權重,它與幀距離的絕對值成反比,即距離|i|較大的相位估計$\bar{\phi^i}(k,l)$被分配一個較小的鄰近權重$s(i)$,並減少其對$\hat{\phi}(k,l)$的影響。 在這項工作中,繼 (Zheng and Zhang,2018) 之後,我們選擇$s(i)$作為漢明窗。 此外,估計的掩碼$\hat{M}(k,l)$被用作初始估計可靠性的度量。 例如,$\hat{M}(k,l+i)$的值越大,表明第$i$個 TF 單元的本地 SNR 越高。 在這種情況下,相位估計$\bar{\phi^i}(k,l)$更可靠,並且對最終估計$\hat{\phi}(k,l)$的貢獻更大。
(3)使用 IFD 進行相位重建:Zheng 和 Zhang (2018) 介紹了使用 IFD 進行相位重建的過程。 首先,估計的$IFD_n$,表示為$\hat{IFD}_n(k,l)$,應該被非規範化並轉換為$\hat{IF}(k,l)$。 然後,在頻譜掩模$\hat{M}(k,l)$的幫助下,使用噪聲相位頻譜圖和$\hat{IF}(k,l)$重建相位頻譜圖。 請注意,使用 IFD 進行的相位重建類似於使用 GD 進行的重建。 唯一的區別是前者是沿時間軸重構的,而後者是沿頻率軸重構的。
除了僅用GD或僅用IFD對相位進行重構外,我們還提出了以下幾種重構組合方案,並在下一節中研究它們的效能。
- 兩步重構:在該方案中,我們首先以噪聲相位作為初始估計,利用GD/IFD得到初始重構相位。然後將後者作為初始估計,利用IFD/GD得到最終的重構相位。
- 平均重建:在該方案中,我們分別用IFD和GD對初始階段進行了重建。最後的重構相位是通過對初始相位平均得到的。
結合方案,最後階段估計$\hat{\phi_S}(k,l)$獲得在時間和頻率軸。
最後,將重構後的幅度譜和相位譜相結合,得到估計出的純淨語音訊譜。
2.4 詳細PACDNN架構
我們所提出的PACDNN模型的複合神經網路結構如圖6所示。上層由兩層LSTM網路組成,每層128個LSTM單元。我們使用Mel-frequency倒譜系數(MFCC)作為LSTM網路的輸入,因為就複雜度和效能而言,MFCC是LSTM網路的最佳輸入,如Hasannezhad等人(2020b)所示。更具體地說,將MFCC特性與它們的第一和第二差異連線起來,然後歸一化為零均值和單位方差。如2.1.1節所述,為了降低LSTM網路複雜度,採用分組策略,將輸入層和隱藏層分成K組。實證研究發現,僅對第二層進行K=2的分組,可獲得最佳的SE結果。
在圖6的底層流中,使用帶噪語音STFT幅度作為CNN網路的輸入,CNN網路由四個擴張卷積層組成,擴頻率分別為1、2、4、8。這些濾波器數分別為16、32、16和8個,具有ReLU啟用函式。因為我們想讓這個流捕獲頻譜上下文資訊,所以卷積是一維的,核大小隨時間為1,隨頻率維為7。這些層周圍的前饋線是殘差路徑,採用核心大小為 (1, 1) 的卷積層形式,用於改進訓練過程。如圖所示,將每一層的輸出相加(帶有跳過連線),得到CNN網路的輸出。然後輸出到一個注意塊,如2.1.2節所述。
然後將LSTM和CNN網路的輸出沿通道級聯,形成互補特徵集。隨後,另一個低複雜度的注意力驅動CNN將這個feature set轉換成期望的目標。這個CNN由三個卷積層組成,核大小為(1,3),其中通道數為32、16和2。前兩層後接ReLU,輸出層的啟用函式為sigmoid。如前所述,在兩個CNN通道中,網路分別估計了頻譜掩模和pd。由於這些估計量的結構相似,通過引數共享機制將它們作為同一網路的兩個子任務。由於該機制在兩個子任務之間引入了正則化效應,因此能夠更好地泛化並提高學習效果(Tan和Wang,2019)。在訊號重構塊中,利用這兩個通道的資訊重新合成幅值和相位,如第2.3節所述。最後,利用逆短時傅立葉變換和重疊相加運算在時域生成純淨的語音樣本。
圖6 複合模型架構
3 實驗評價
3.1 實驗步驟
為了評估提出的PACDNN模型的效能,我們使用了TIMIT資料庫(Garofolo et al.,1993)和IEEE語料庫(Rothauser,1969)。TIMIT資料集包含630名男性和女性說的6300個話語,代表了美國英語的8個主要方言區,每個都說10個語音豐富的句子。IEEE語料庫包含了單個男性說話者的720個話語。對於噪聲資料集,我們使用noise-92 (Varga和Steeneken,1993)中的20種噪聲(機場、babble、buccaneer1,、汽車、驅逐艦發動機、驅逐艦、演講、f16、工廠、hfchannel、leopard、m109、機槍、pink、餐館、街道、地鐵、火車、volvo和white)。所有的噪聲檔案被分成兩部分,其中第一部分的隨機部分用於訓練。在訓練階段,將語音與訊雜比分別為-5、0、5和10 dB的噪聲加性混合。在測試階段,從每個資料集中隨機選擇60個不匹配的語音,並與噪聲檔案的第二部分的隨機部分在不匹配的訊雜比級別-6,0,6,12 dB進行混合。此外,從Premium Beat中選取4種不可見的高度非平穩噪聲,即咖啡店、繁忙城市街道、汽車內景和街道交通,來評估所提出模型的泛化能力。
取樣率設定為 16 kHz,每個混合分為 20 ms 時間幀,幀偏移為 10 ms,即 50% 重疊。 對於每一幀,應用Hanning窗,然後計算 320 點離散傅立葉變換 (DFT); 因此,每幀由 160 個 STFT 係數或頻率Bin表示。 STFT 用於提取 26 MFCC,使用合適的梅爾尺度濾波器組。 MFCC 最終與它們的第一次和第二次時間差連線在一起。 因此,用作 LSTM 網路輸入的特徵向量的總長度為 78(即 26 * 3)。 選擇 MSE 作為代價函式,而使用 Adam 優化器(Kingma 和 Ba,2014),以最小化理想(ground truth)與期望掩碼和 PD 的估計值之間的誤差,如下
$$公式20:MSE=\frac{1}{LK}\sum_l\sum_k[(M(k,l)-\hat{M}(k,l))^2+(PD(k,l)-\hat{PD}(k,l)^2)]$$
其中$L$和$K$分別代表時間幀數和頻點數。
語音增強效能根據以下網路客觀指標進行評估:PESQ、短時客觀可懂度 (STOI) 和分段訊雜比 (SSNR) 指標。 PESQ 在質量方面比較增強和乾淨的語音;它產生 -0.5 到 4.5 之間的分數,其中較高的值對應於更好的質量。 STOI 通過使用清晰語音和增強語音的短時時間包絡之間的相關性來衡量語音清晰度;對應的範圍在 0 到 1 之間,數值越大對應的清晰度越好。 SSNR 通過計算和平均具有語音活動的片段的加權 SNR 來量化增強語音中的殘餘噪聲量。正如 Hu 和 Loizou (2007) 所述,這三個指標與主觀測量高度相關。比較是使用 GeForce RTX 2080 顯示卡和 2.2 GHz AMD 12 核處理器使用相同的資料集和配置完成的。
3.2 Phase-aware方法評價
提出的DNN旨在同時估計PD和頻譜掩模的值。我們將IFD、GD及其組合視為一般PD。此外,我們還研究了四種頻譜掩模,即IRM、ORM、PSM和SMM。
使用不同掩碼和pd組合的PACDNN模型的比較效能如表1所示。實驗使用TIMIT資料集和餐館、工廠、街道和嘈雜聲作為噪聲進行。表中的數字是所有噪音和訊雜比水平的平均值。這個表由六個部分組成,如下所述。
A. 這部分展示了在沒有PD的情況下,只考慮一個mask作為網路的訓練目標時的評價指標分數。可以看出,PSM獲得最好的PESQ分數,而SMM和IRM分別導致更好的STOI和SSNR分數。
B. 這部分比較了不同口罩和IFD的使用情況。結果表明,該方法具有相位與幅度同步增強的優點。在這種情況下,IFD+PSM在PESQ和SSNR方面表現較好,而IFD+SMM的STOI得分略好。
C. 這部分比較不同頻譜掩模與GD的使用。結果比前面兩個場景都好,說明了GD優於IFD。GD+PSM在PESQ和SSNR方面優於其他組合,但STOI不佳。
D. 這一部分研究了兩階段的相位重構,第一階段使用噪聲相位和GD估計對相位進行重構,第二階段使用重構後的相位和IFD估計得到最終的乾淨相位估計。
E. 這部分與前一部分相似,但順序相反,即先利用噪聲相位和IFD重構相位,重構後的相位再結合GD估計得到最終的相位估計。
F. 這部分展示了將IFD和GD估計的重構相位的平均值作為清潔相位時的結果。雖然這些組合效果較好,但GD+PSM組合獲得了最佳的PESQ和SSNR,GD+SMM組合獲得了最佳的STOI。
因此,我們可以得出結論,使用PSM+GD作為訓練目標的模型優於其他場景,因此我們在接下來的實驗中都採用了它。
表1 不同模型target的比較
3.3 分組LSTM的優點
在 PACDNN 模型中,LSTM 流利用輸入語音訊譜圖的時間上下文資訊。 LSTM 是最常見的 RNN 變體,在這項工作中使用它來避免梯度爆炸和消失問題(Chen 和 Wang,2017)。 還考慮了其他 RNN 變體,例如 GRU 和稱為 BLSTM 和 BGRU 的雙向形式。 此外,我們在 LSTM 流中採用分組策略來降低其複雜性,如第 2.1.1 節所述。 本節使用上述 RNN 變體在有和沒有分組策略的情況下評估 PACDNN 模型的效能。
除了第 3.1 節中提到的指標外,我們還比較了這些變化:引數的數量和儲存它們所需的記憶體; 處理一秒鐘的輸入嘈雜語音的計算時間; 和記憶體佔用,根據所需的浮點運算 (FLOP) 來衡量。 這些額外的測量對於表徵 SE 演算法的實現複雜性是必不可少的。 這些測量都是在測試階段進行的,因為經過訓練的模型引數將儲存在裝置硬體中。
圖7展示了使用 GRU、LSTM、BGRU、BLSTM 及其分組版本的 PACDNN 模型的效能結果。在該圖中,M 和 MB 分別表示百萬和兆位元組。請注意,資料集與第 3.2 節中的相同,PESQ、STOI 和 SSNR (dB) 的值顯示了所有噪聲和 SNR 水平的平均改進。如圖所示,使用 grouped-LSTM 產生最好的 STOI 和 SSNR 分數,而 LSTM 在 PESQ 分數方面優於其他分數。雖然客觀結果沒有顯示出相當大的差異,但複雜性測量的結果,特別是 FLOP 和引數數量,顯示出巨大的變化。就處理時間而言,GRU 顯然是最快的,而 BLSTM 是最慢的方法。分組變化導致模型的引數和 FLOP 數量較少,其中,grouped-GRU 需要的引數和 FLOP 數量最少,而 grouped-LSTM 排名第二。考慮到客觀語音質量和計算複雜度指標,分組 LSTM 在 PACDNN 模型中的 RNN 變體之間提供了最佳權衡。
圖7所示。使用不同RNN變數時PACDNN效能的比較
3.4 以注意力為導向的CNN的好處
CNN 生成許多特徵圖,每個特徵圖都包含一些頻譜圖特徵。這些特徵圖主要傳達噪聲或語音資訊。在 PACDNN 模型中,注意力技術嵌入在 CNN 中,以重新校準特徵圖權重並強調承載語音的權重。如第 2.1.2 節所述,我們考慮將三種注意力技術,即通道、空間和並行,嵌入到 PACDNN 模型中,並比較整體模型效能。不同案例的結果,使用與第 3.2 節中相同的資料集,如圖8所示,其中的值顯示了所有噪聲和 SNR 水平的平均改進。考慮到 PESQ 得分,沒有注意力的 PACDNN 模型得分最低,而嵌入並行注意力技術的得分最高。關於 STOI,具有並行注意力的模型再次優於其他模型,而沒有注意力的模型得分最低。這些結果證明了注意力技術在強調資訊特徵圖方面的有效性。由平均池和最大池組成的並行注意力技術還可以從不同的角度捕捉輸入特徵圖的重要資訊,進一步提高其表示能力。關於 SSNR,注意力模型的使用往往會降低可達到的值,儘管會略微降低。
圖8 嵌入不同注意方法時PACDNN的效能比較
3.5 迴歸模型的研究
本節針對 PACDNN 模型的最終迴歸部分的 MLP 評估第 2.4 節中的 CNN。 MLP 包含三層,每層有 512 個節點,具有 ReLU 啟用函式。 還應用了 0.3 的 dropout 以避免過度擬合。 輸出層由 322 個節點組成,具有 sigmoid 啟用函式來構建所需的掩碼和 PD。
兩種網路在客觀語音質量和計算複雜度指標方面的比較效能如圖 9 所示。如圖所示,MLP 在客觀測量方面產生稍好的結果。 MLP 的這種邊際優勢源於它的引數數量。在 PACDNN 中使用 MLP 所需的可訓練引數大約是使用 CNN 的五倍,這意味著使用 MLP 的模型可以學習訓練資料集的更具體模式。值得一提的是,從實現和泛化的角度來看,低複雜度的模型更可取。雖然具有少量引數的模型無法學習訓練資料集中有關噪聲和語音話語的特定模式或詳細資訊,但它可以在看不見的聲學條件下表現得非常好。除此之外,在模型中使用 CNN 和 MLP 分別需要 0.74 MB 和 3.82 MB 的記憶體來儲存固定的模型引數,這與引數的數量成正比。雖然 MLP 中的基本計算在概念上比 CNN 更簡單,但前者仍然需要比前者多 1.46 倍的 FLOP,這是由於模型引數數量較多。最後,執行大量矩陣乘法的 CNN 的計算時間略高於 MLP。
圖9所示。比較使用CNN或MPL進行最終迴歸時的PACDNN模型效能
3.6 與其他基於DNN的方法的比較
本節將提出的 PACDNN 模型與 SE 任務中一些著名的 DNN 模型進行比較。 所選模型具有中等複雜性。 所有選定的方法都考慮了 SE 的相位資訊以及幅度增強。 所有模型,包括 PACDNN,都在相同條件下使用相同的資料集進行訓練和測試,以確保公平比較。 選擇的方法總結如下
表2 不同方法與 TIMIT 資料集中未見男性話語的比較
1. IRM-MIFD-MLP(Zheng 和 Zhang,2018 年):在這種多目標 DNN 方法中採用了具有三層的 MLP。每個隱藏層包含 1024 個具有 ReLU 啟用函式的節點,而輸出層包含 512 個具有 sigmoid 啟用函式的節點。 IRM 和 IFD 被用作訓練目標。
2. cIRM-MLP (Williamson et al.,2015):在這種方法中,使用三層 MLP 來近似 cIRM。每層有 1024 個具有 ReLU 啟用功能的節點。具有線性啟用函式的輸出層估計 cIRM 的實部和虛部。網路的輸入是一組互補的聲學特徵。為了合併時間資訊,來自 5 幀的特徵被連線起來並立即饋送到網路。
3. MCIRM-CNNGRU (Hasannezhad et al.,2020a):在這種方法中,混合模型用於估計修改後的 cIRM 的實部和虛部。該網路由用於特徵提取的 CNN 和用於迴歸的 GRU 網路組成。複雜的頻譜圖用作輸入,具有線性啟用函式的 322 節點輸出層生成所需的掩碼值。
4. cIRM-CNNLSTM (Hasannezhad et al.,2020b):在這裡,一個 CNN、LSTM 和 MLP 被整合來估計 cIRM。特徵提取由 CNN 和 LSTM 網路執行,而回歸由 MLP 完成,MLP 將特徵對映到 cIRM 的實部和虛部。
5. CS-CNN (Ouyang et al.,2019):利用全卷積 CNN 來估計乾淨語音復譜圖的實部和虛部。輸入由呈現給網路的 13 幀噪聲語音複合頻譜圖組成。輸出的中間幀(第 7 幀)被認為是增強的輸出幀。
6. DCTCRN (Li et al.,2021):與之前的方法都在頻域執行不同,該方法在離散餘弦變換(DCT)域完成語音增強,從而同時增強幅度和相位。輸入是短時 DCT (STDCT),訓練目標是包含隱式相位資訊的比率掩碼。 CRN 用作學習機來執行輸入 STDCT 和比率掩碼之間的對映。
7. TCNN(Pandey 和 Wang,2019 年):該方法旨在在時域中執行,其中時間卷積神經網路 (TCNN) 以及具有時間卷積網路的嵌入式編碼器解碼器架構用於直接對映嘈雜的講話乾淨的。
圖 10 說明了每種方法的可訓練引數的數量以及使用 TIMIT 資料集評估的不同噪聲和 SNR 水平上處理語音的平均 PESQ 分數。如圖所示,TCNN 和 DCTCRN 具有大量的模型引數;因此,它們具有很高的計算複雜度。正如預期的那樣,基於 MLP 的模型,即 IRM-MIFD-MLP 和 cIRM-MLP,也包含大量模型引數,因此需要大記憶體來儲存它們。值得一提的是,TCNN 和 DCTCRN 的計算量遠高於基於 MLP 的模型,因為前者包含許多卷積操作。另外兩個混合模型,即 MCIRM-CNNGRU 和 cIRM-CNNLSTM,具有相當數量的引數,每個都在 100 萬左右。引數數量最少的是 CS-CNN 和所提出的模型,後者需要的引數略少。儘管 PACDNN 的模型引數數量僅為 TCNN 的 3% 和 DCTCRN 的 6%,但它在 SE 任務中的表現優於所有上述模型,如圖所示,下面將進一步討論。
圖10所示。比較不同方法的可訓練引數個數和平均PESQ得分
由於男性和女性之間的語音特徵不同,我們分別評估不同的模型以顯示所需模型對不同性別的泛化能力。來自 TIMIT 資料集的男性測試話語的比較結果如表 2 所示,其中 bble、ftry、rtrt 和 strt 分別表示 babble、工廠、餐廳和街道噪音。如圖所示,所提出的模型在各種客觀質量指標方面優於所有其他模型,除了少數情況,包括 SNR 水平為 -6 和 0 dB 的街道噪聲的 PESQ,其中 DCTCRN 給出略高的分數和 SNR 水平6 和 12 dB,其中 cIRM-CNNLSTM 的得分略高。此外,在 0 和 12 dB 的 SNR 水平下,TCNN 對街道和工廠噪聲產生的 STOI 略好一些。此外,TCNN 在 SNR 級別為 0 和 12 dB 時為 babble 和街道噪聲提供了更好的 SSNR 分數。表 3 說明了來自 TIMIT 資料集的女性話語的結果。同樣,我們可以看到,所提出的模型在幾乎所有情況下都優於其他模型,除了少數 SNR 級別為 -6 和 0 的 STOI 情況,其中 DCTCRN 和 TCNN 給出了更好的結果。
表3 不同方法對來自TIMIT資料集的女性話語的比較
在另一個實驗中,我們比較了 IEEE 語料庫上的不同方法,其中 20 種噪聲與選定的話語混合,在訓練和測試階段之間具有不匹配的 SNR 水平。 從表 4 中可以看出,表 4 顯示了 PESQ、STOI 和 SSNR 指標的平均分數,除了 SNR 水平為 -6 和 6 dB 的 SSNR 分數外,所提出的模型在所有情況下都明顯優於所有其他方法,其中 CS-CNN 和 DCTCRN 給出了稍微好一點的結果。 該實驗表明,儘管所提出的模型具有非常少的引數,但它在不同的噪聲條件下都能表現良好。
表4 不同方法對來自IEEE語料庫和20種不同噪聲的未見話語的比較
在與表 4 相同的訓練條件下,我們測試了不同的方法,將看不見的高度非平穩噪聲與來自 IEEE 語料庫的看不見的話語以無與倫比的 SNR 水平混合在一起,以評估它們在看不見的條件下的泛化能力。 比較結果如表 5 所示,其中 bscs、cair、cfsp 和 sttc 表示咖啡店、繁忙的城市街道、汽車內飾和街道交通。 可以看出,除了少數情況外,所提出的模型總體上優於所有其他方法。 該實驗表明,所提出的模型具有很好的泛化能力,這得益於其精心設計和少量引數,使其不學習訓練資料集的特定模式,而是依賴於語音和噪聲的一般資訊。
表5 不同方法對混合了不可見噪聲的IEEE語料庫中不可見話語在不匹配訊雜比水平下的比較
如 Pandey 和 Wang (2020) 所示,當訓練和測試資料集不同時,DNN 方法的效能可能會顯著下降,尤其是在低 SNR 水平下。 這項研究表明,一些眾所周知但高度複雜的 SE 方法在未經訓練的語料庫上表現不佳。 在最後一個實驗中,我們比較了不同方法的跨語料庫泛化能力。 為此,我們使用 TIMIT 資料集訓練了不同的模型,並使用 IEEE 語料庫對其進行了測試。 表 6 顯示了不同 SNR 水平的結果,表明當訓練和測試資料集不同時,所提出的模型優於其他模型,除了 SNR 6 dB 時,其他方法會產生更好的結果。 此外,圖 11 顯示了一個樣本頻譜圖,顯示了不同方法的差異。 因此,我們可以得出結論,所提出的 PACDNN 模型為看不見的資料集提供了非常好的泛化能力。
表6 跨語料庫評估,其中分別使用TIMIT資料集和IEEE語料庫完成訓練和測試
圖11所示。使用不同模型說明增強語音的短時傅立葉變換幅度(對數尺度)。用TIMIT資料集對模型進行訓練,用IEEE語料庫中的話語對模型進行測試。在0分貝的訊雜比水平下,聲音與街道噪音混合。
4 結論
本文提出了一種稱為 PACDNN 的相位感知複合深度神經網路,用於語音增強,其中語音幅度和相位都得到了增強。具體來說,我們設計了一種基於掩蔽的方法來增強幅度並使用相位導數來重建乾淨的語音相位。由於頻譜掩模和相位導數的結構相似性,使用單個神經網路通過同時引數共享來估計兩種資訊型別。所提出的網路整合了改進的 LSTM 和 CNN,它們並行執行以利用一組互補的特徵。在客觀語音質量和計算複雜性測量方面研究和比較了不同的潛在 DNN 解決方案,以優化特徵和所需目標之間的最終迴歸。通過一系列廣泛的實驗,對得到的 PACDNN 模型進行了評估,並與使用不同資料集和客觀測量的幾種已知的基於 DNN 的 SE 方法進行了比較。特別是,研究了所提出的模型在處理看不見的噪聲條件、跨語料庫泛化和測試和訓練中不匹配的 SNR 水平方面的能力,證明了 PACDNN 在 SE 應用中優於其他方法的優勢,儘管其複雜性較低.
參考文獻
Abbaszadeh,P.,2016. Improving hydrological process modeling using optimized threshold-based wavelet de-noising technique. Water Resour. Manag. 30 (5),1701 1721.
Abd El-Fattah,M.,Dessouky,M.I.,Diab,S.M.,Abd El-Samie,F.E.-S.,2008. Speech enhancement using an adaptive wiener filtering approach. Prog. Electromagn. Res. 4,167 184.
Agnew,J.,Thornton,J.M.,2000. Just noticeable and objectionable group delays in digital hearing aids. J. Am. Acad. Audiol. 11 (6),330 336.
Chen,J.,Wang,D.,2017. Long short-term memory for speaker generalization in supervised speech separation. J. Acoust. Soc. Am. 141 (6),4705 4714.
Cui,X.,Chen,Z.,Yin,F.,2020. Speech enhancement based on simple recurrent unit network. Appl. Acoust. 157,107019.
Dey,R.,Salemt,F.M.,2017. Gate-variants of gated recurrent unit (GRU) neural networks. In: Int. Midwest Symposium on Circuits and Systems. MWSCAS,IEEE,pp. 1597 1600.
Erdogan,H.,Hershey,J.R.,Watanabe,S.,Le Roux,J.,2015. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks. In: IEEE Int. Conf. on Acoustics,Speech and Signal Processing. ICASSP,pp. 708 712.
Fu,S.-W.,Hu,T.-y.,Tsao,Y.,Lu,X.,2017a. Complex spectrogram enhancement by convolutional neural network with multi-metrics learning. In: Int. Workshop on Machine Learning for Signal Processing. MLSP,IEEE,pp. 1 6.
Fu,S.-W.,Tsao,Y.,Lu,X.,Kawai,H.,2017. Raw waveform-based speech enhancement by fully convolutional networks. In: IEEE Asia-Pacific Signal and Information Processing Association Annual Summit and Conf. APSIPA ASC,pp. 006–012.
Gao,F.,Wu,L.,Zhao,L.,Qin,T.,Cheng,X.,Liu,T.-Y.,2018. Efficient sequence learning with group recurrent networks. In: Proc. of Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,Vol. 1. pp. 799–808,Long Papers.
Garofolo,J.S.,Lamel,L.F.,Fisher,W.M.,Fiscus,J.G.,Pallett,D.S.,1993. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus CD-ROM. NIST speech disc 1-1.1. NASA STI/Recon Technical Report,vol. 93.
Hasannezhad,M.,Ouyang,Z.,Zhu,W.-P.,Champagne,B.,2020a. An integrated CNNgru framework for complex ratio mask estimation in speech enhancement. In: IEEE Asia-Pacific Signal and Information Processing Association Annual Summit and Conf. APSIPA ASC,pp. 764–768.
Hasannezhad,M.,Ouyang,Z.,Zhu,W.-P.,Champagne,B.,2020b. Speech separation using a composite model for complex mask estimation. In: Int. Midwest Symposium on Circuits and Systems. MWSCAS,IEEE,pp. 578–581.
Hasannezhad,M.,Zhu,W.-P.,Champagne,B.,2021. A novel low-complexity attentiondriven composite model for speech enhancement. In: International Symposium on Circuits and Systems. ISCAS,IEEE,pp. 1–5.
Hegde,R.M.,Murthy,H.A.,Gadde,V.R.R.,2007. Significance of the modified group delay feature in speech recognition. IEEE Trans. Audio,Speech,Lang. Process. 15(1),190–202.
Hsieh,T.-A.,Wang,H.-M.,Lu,X.,Tsao,Y.,2020. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement. arXiv preprint arXiv: 2004.04098.
Hu,Y.,Liu,Y.,Lv,S.,Xing,M.,Zhang,S.,Fu,Y.,Wu,J.,Zhang,B.,Xie,L.,2020. DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement. arXiv preprint arXiv:2008.00264.
Hu,Y.,Loizou,P.C.,2007. Evaluation of objective quality measures for speech enhancement. IEEE/ACM Trans. Audio,Speech,Lang. Process. 16 (1),229–238.
Hu,J.,Shen,L.,Sun,G.,2018. Squeeze-and-excitation networks. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. pp. 7132–7141.
Kingma,D.P.,Ba,J.,2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
Krawczyk,M.,Gerkmann,T.,2014. STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement. IEEE/ACM Trans. Audio,Speech,Lang. Process. 22 (12),1931–1940.
Li,Q.,Gao,F.,Guan,H.,Ma,K.,2021. Real-time monaural speech enhancement with short-time discrete cosine transform. arXiv preprint arXiv:2102.04629.
Liang,S.,Liu,W.,Jiang,W.,Xue,W.,2013. The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio. J. Acoust. Soc. Am. 134 (5),EL452–EL458.
Martin,R.,May 2002. Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors. In: IEEE Int. Conf. on Acoustics,Speech,and Signal Processing,Vol. 1. pp. I–253.
Mowlaee,P.,Saeidi,R.,2014. Time-frequency constraints for phase estimation in singlechannel speech enhancement. In: Int. Workshop on Acoustic Signal Enhancement. IWAENC,IEEE,pp. 337–341.
Oord,A.v.d.,Dieleman,S.,Zen,H.,Simonyan,K.,Vinyals,O.,Graves,A.,Kalchbrenner,N.,Senior,A.,Kavukcuoglu,K.,2016. Wavenet: a generative model for raw audio. arXiv preprint arXiv:1609.03499.
Ouyang,Z.,Yu,H.,Zhu,W.-P.,Champagne,B.,2019. A fully convolutional neural network for complex spectrogram processing in speech enhancement. In: IEEE Int. Conf. on Acoustics,Speech and Signal Processing. ICASSP,pp. 5756–5760.
Pandey,A.,Wang,D.,2019. TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain. In: ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing. ICASSP,IEEE,pp. 6875–6879.
Pandey,A.,Wang,D.,2020. Learning complex spectral mapping for speech enhancement with improved cross-corpus generalization. Proc. Interspeech 2020 4511–4515.
Parchami,M.,Zhu,W.-P.,Champagne,B.,Plourde,E.,2016. Recent developments in speech enhancement in the short-time Fourier transform domain. IEEE Circuits Syst. Mag. 16 (3),45–77.
Park,S.R.,Lee,J.,2016. A fully convolutional neural network for speech enhancement. arXiv preprint arXiv:1609.07132.
Prasad,V.K.,Nagarajan,T.,Murthy,H.A.,2004. Automatic segmentation of continuous speech using minimum phase group delay functions. Speech Commun. 42 (3–4),429–446.
Premium Beat,www.premiumbeat.com.
Rothauser,E.,1969. IEEE Recommended practice for speech quality measurements. IEEE Trans. Audio Electroacoust. 17,225–246.
Roy,A.G.,Navab,N.,Wachinger,C.,2018. Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks. In: Int. Conf. on Medical Image Computing and Computer-Assisted Intervention,pp. 421–429.
Shifas,M.P.,Claudio,S.,Stylianou,Y.,et al.,2020. A fully recurrent feature extraction for single channel speech enhancement. arXiv preprint arXiv:2006.05233.
Srinivasan,S.,Roman,N.,Wang,D.,2006. Binary and ratio time-frequency masks for robust speech recognition. Speech Commun. 48 (11),1486–1501.
Stark,A.P.,Paliwal,K.K.,2008. Speech analysis using instantaneous frequency deviation. In: INTERSPEECH.
Strake,M.,Defraene,B.,Fluyt,K.,Tirry,W.,Fingscheidt,T.,2020. Fully convolutional recurrent networks for speech enhancement. In: IEEE Int. Conf. on Acoustics,Speech and Signal Processing. ICASSP,pp. 6674–6678.
Takamichi,S.,Saito,Y.,Takamune,N.,Kitamura,D.,Saruwatari,H.,2018. Phase reconstruction from amplitude spectrograms based on von-Mises-distribution deep neural network. In: 2018 16th International Workshop on Acoustic Signal Enhancement. IWAENC,IEEE,pp. 286–290.
Takamichi,S.,Saito,Y.,Takamune,N.,Kitamura,D.,Saruwatari,H.,2020. Phase reconstruction from amplitude spectrograms based on directional-statistics deep neural networks. Signal Process. 169,107368.
Tan,K.,Wang,D.,2018. A convolutional recurrent neural network for real-time speech enhancement.. In: INTERSPEECH. pp. 3229–3233.
Tan,K.,Wang,D.,2019. Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement. IEEE/ACM Trans. Audio,Speech,Lang. Process. 28,380–390.
Varga,A.,Steeneken,H.J.,1993. Assessment for automatic speech recognition: Ii. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems. Speech Commun. 12 (3),247–251.
Wang,D.,Chen,J.,2018. Supervised speech separation based on deep learning: An overview. IEEE/ACM Trans. Audio,Speech,Lang. Process. 26 (10),1702–1726.
Wang,Y.,Narayanan,A.,Wang,D.,2014. On training targets for supervised speech separation. IEEE/ACM Trans. Audio,Speech,Lang. Process. 22 (12),1849–1858.
Williamson,D.S.,Wang,Y.,Wang,D.,2015. Complex ratio masking for monaural speech separation. IEEE/ACM Trans. Audio,Speech,Lang. Process. 24 (3),483–492.
Woo,S.,Park,J.,Lee,J.-Y.,So Kweon,I.,2018. CBAM: Convolutional block attention module. In: Proc. of the European Conf. on Computer Vision. ECCV,pp. 3–19.
Xu,Y.,Du,J.,Dai,L.-R.,Lee,C.-H.,2014. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Trans. Audio,Speech,Lang. Process. 23 (1),7–19.
Yin,D.,Luo,C.,Xiong,Z.,Zeng,W.,2020. PHASEN: A phase-and-harmonics-aware speech enhancement network.. In: Association for the Advancement of Artificial Intelligence. AAAI,pp. 9458–9465.
Yu,F.,Koltun,V.,2015. Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122.
Zhao,H.,Zarar,S.,Tashev,I.,Lee,C.-H.,2018. Convolutional-recurrent neural networks for speech enhancement. In: IEEE Int. Conf. on Acoustics,Speech and Signal Processing. ICASSP,pp. 2401–2405.
Zheng,N.,Zhang,X.-L.,2018. Phase-aware speech enhancement based on deep neural networks. IEEE/ACM Trans. Audio,Speech,Lang. Process. 27 (1),63–76.