論文程式碼:https://github.com/GuillaumeVW/NSNet
引用:Xia Y, Braun S, Reddy C K A, et al. Weighted speech distortion losses for neural-network-based real-time speech enhancement[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 871-875.
摘要
本文研究了訓練RNN(遞迴神經網路)的幾個方面,影響客觀和主觀的增強語音質量的實時單通道語音增強。具體地說,我們重點研究了一種基於單幀輸入、單幀輸出的RNN,這是一種被大多數經典訊號處理方法所採用的框架。我們提出了兩個新穎的均方誤差學習target,能夠分別控制語音失真和降噪的重要性。提出的損失函式通過廣泛接受的客觀質量和可理解性度量進行評估,並與其他方法進行比較。此外,我們還研究了特徵歸一化和不同批量序列長度對增強語音客觀質量的影響。最後,我們對所提出的方法和一種先進的實時RNN方法進行了主觀評價。
關鍵詞:實時語音增強,遞迴神經網路,損失函式,語音失真,平均意見評分
1 引言
語音增強(Speech Enhance,SE)演算法旨在改善被加性噪聲降級的語音訊號的語音質量和可理解性[1],以改善人類或機器對語音的理解,典型的語音增強應用包括助聽器、自動語音識別和噪聲環境中的音視訊通訊。大多數SE方法將頻譜抑制增益或過濾應用於時頻域中的有噪語音訊號[2]。在最近使用深度神經網路(DNNs)的有監督學習方法中,DNN通常被設定為從來自噪聲語音的一組或多組特徵中估計這個時變增益函式[3]。
線上處理能力是SE演算法的一個吸引人的特徵,並且對於實時通訊應用是必需的。雖然大多數經典的SE方法必須適應它們的方法[4,5,6,7]來實現因果關係,但文獻[3,8,9]中的許多基於DNN的方法並沒有強制執行這一約束。幾種基於DNN的方法使用寬泛的前瞻[8,9]報告了高質量的增強,但是它們在降低前瞻方面的效能沒有得到很好的研究。然而,與經典方法相比,基於DNN的系統具有精確抑制瞬態噪聲的能力。在這項工作中,我們研究了基於遞迴神經網路(RNN)的實時語音增強。最近涉及RNNs的工作顯示出令人振奮的結果[10],即使在非常低訊雜比(SNR)的情況下也是如此[11,12]。
設計用於音訊/視訊通訊的SE演算法的關鍵挑戰是在抑制噪聲的同時最大限度地保持感知(主觀)語音質量。在經典文獻中,優化這樣一個複合全域性目標可以通過求解一個受約束的目標函式來完成[13]。或者,可以優化更簡單的目標,如(對數)均方誤差(MSE)[6,14],並採用後處理模組,如殘餘噪聲去除[7]和增益限制[15]。相比之下,深度學習框架的一個主要好處是相對容易納入複雜的學習目標,人們認為這將推動增強的語音朝著更好的質量和清晰度發展。沿著這條思路的方法包括從異質特徵中學習多個目標[16,17,18],聯合優化最終目標及其子目標(例如,語音存在概率)[10,12],以及直接針對語音質量或清晰度的客觀度量進行優化[19,20]。後者似乎是一種改進客觀質量的有前途的方法,儘管由於每個客觀測量的頻帶限制,這兩個模型都必須結合標準的MSE。[21]據報導,簡單的感知加權寬頻MSE本身並不能改善客觀語音質量或清晰度,這表明MSE仍然是寬頻語音增強的可靠學習目標。
本文提出了一種基於DNN的實時線上語音增強系統。首先,我們將討論使用RNN促進模式學習的特徵和歸一化技術。然後,我們描述了一種從單個噪聲幀產生增益函式的緊湊RNN。接下來,我們介紹了兩個簡單的基於均方誤差的損失函式,分別控制語音失真和去噪。在評估過程中,我們深入考察了錯誤加權對主客觀語音質量和清晰度的影響。此外,我們還討論了不同的特徵歸一化技術和訓練策略對客觀度量的影響。
2 問題表述
我們假設要在短時傅立葉變換(STFT)域中描述的麥克風訊號為:
$$公式1:X[t,k]=S[t,k]+N[t,k]$$
其中$X[t,k]$、$S[t,k]$和$N[t,k]$分別表示觀察到的帶噪語音、乾淨語音和噪聲在時間幀$t$和頻段bin$k$處的STFT。我們的系統在短時傅立葉變換幅度(STFTM)域$G[t,k]$中尋找一個時變增益函式,它可以最大限度地恢復$|S[t,k]|$。
$$公式2:|\hat{S}[t,k]|=G[t,k]|X[t,k]|$$
在實時處理中,$G[t,k]$僅取決於輸入的過去和現在資訊,並由下式給出
$$公式3:G[t, k]=n(g(f(|X[l, k]|)) ; \Theta), l \leq t$$
其中,$f$是應用於noisy訊號的STFTM上的變換函式,$g$是歸一化函式,以及$n$是其自適應引數一起由$\Theta $表示的DNN。最後,將$X[t,k]$noisy相位應用於$|\hat{S}[t,k]|$以獲得增強的訊號。
在接下來的幾節中,我們將回顧最先進的方法,然後討論我們對$f$和$g$的選擇,$n$的架構,$\Theta $的兩個學習目標,以及我們認為會影響增強語音質量的培訓方面的進一步考慮。
3 最先進的線上降噪技術
經典的線上SE方法通常通過優化一些統計意義上的目標函式來尋找最優增益函式,這類方法中最有效的方法之一是假設噪聲和噪聲的STFT是不相關的復高斯分佈,並通過最小化clean和增強的STFTM[6]或log-STFTM[14]之間的均方誤差來求解G[t,k]。雖然可以結合更先進的噪聲和語音存在概率模型來提高語音質量和防止音樂噪聲[4,5],但在去除高度非平穩噪聲的同時保持語音質量仍然是一項艱鉅的任務。
在最近的基於DNN的方法中,通常放棄了關於有噪聲的和乾淨的STFTM分佈的統計假設,而最小均方誤差(MMSE)目標變成了DNN通過隨機梯度下降來優化的損失函式。最流行的損耗函式之一是介於清潔和增強STFTM之間的MSE
$$公式4:L(\vec{G} ; \vec{S}, \vec{X})=\operatorname{mean}\left(\|\vec{S}-\vec{G} \odot \vec{X}\|_{2}^{2}\right)$$
其中$\vec{A}$表示向量形式的$|A[t,k]|$,$\odot $是元素形式的乘積。最近提出的一種方法[10]使用RNN估計平滑能量輪廓的最佳增益函式,並通過基音濾波內插頻譜細節。實驗[10,22]報告了該RNNoise系統產生的增強語音具有很強的客觀和主觀語音質量。
4 提出的方法
4.1 特徵表示
選擇合適的特徵和歸一化是成功訓練DNN的關鍵。我們考慮了STFTM和對數功率譜(LPS)的兩個基本特徵,並分別應用全域性、頻率依賴(Frequency Dependent,FD)和頻率獨立(Frequency Independent,FI)歸一化來訓練我們的網路。
在我們所有的系統中使用的STFTM是基於32 ms的漢明視窗(幀之間有75%的重疊)和512點離散傅立葉變換計算的。LPS採用自然對數,地板在-120 dB,即:
$$公式5:f_{L P S}(|X[t, k]|)=\log \left(\max \left(|X[t, k]|^{2}, 10^{-12}\right)\right)$$
我們探索了三種型別的歸一化,分別與上述STFTM或LPS單獨結合。首先,我們考慮全域性歸一化,在這種情況下,每個頻率bin通過其均值和從訓練集累積的標準差進行標準化
$$公式6:g_{G}(f(|X[t, k]|))=\left[f(|X[t, k]|)-\mu_{f(x)}[k]\right] / \sigma_{f(x)}[k]$$
其次,我們考慮線上(online) FD均值和方差標準化,在這種情況下,執行均值和方差被一個衰減指數平滑
$$公式7:\mu_{f(x)}[t, k]=c \mu_{f(x)}[t-1, k]+(1-c) f(|X[t, k]|)$$
$$公式8:\sigma_{f(x)}^{2}[t, k]=c \sigma_{f(x)}^{2}[t-1, k]+(1-c) f(|X[t, k]|)^{2}$$
$$公式9:g_{F D}(f(|X[t, k]|))=\frac{f(|X[t, k]|)-\mu_{f(x)}[t, k]}{\sqrt{\sigma_{f(x)}^{2}[t, k]-\mu_{f(x)}^{2}[t, k]}}$$
其中$c=exp(-\triangle t/\tau )$,$\triangle t$是以秒為單位的幀移位(在我們的設定中是8毫秒),$\tau $是一個時間常數,用來控制適應速度。其思想是,歸一化的頻譜將促進神經網路的長期迴圈學習模式。最後,我們還進行了FI線上歸一化,在這種情況下,平均每個頻率的均值和方差並應用於所有頻率。該方法保持了頻率箱之間的相對動態,但可能會給學習機帶來更大的學習挑戰。在我們所有的實驗中,除了特徵實驗,我們使用FD線上歸一化,$\tau = 3s$。
4.2 學習機制
我們的學習機器以門控迴圈單元(GRU)[23]為基礎,接收一幀帶噪語音譜,輸出一幀幅度增益函式。考慮到GRU的計算效率和實時SE任務的優越效能,它比長短期記憶體(LSTM)[24]更受青睞。我們將三個GRU層堆疊起來,然後是一個具有sigmoid啟用的全連線(FC)輸出層,以預測增益函式$G[t, k]$。
值得一提的是,我們沒有像在其他相關工作中經常做的那樣應用卷積層[11,25],因為在選擇頻率跨度和濾波器抽頭的數量時涉及到相對任意的過程。先前的研究[26]已經表明一個naive卷積層應用於過去和現在的輸入噪聲幀並沒有改善增強語音的客觀質量。相反,我們通過訓練不同長度、特徵和損失函式的序列來探索網路的時間建模能力。
4.3 損失函式
我們使用三個損失函式來訓練我們的系統。首先,我們在(4)中使用純淨STFTM和增強STFTM之間的regular MSE。為了更好地控制損失,我們建議將error分為語音失真和降噪項
$$公式10:L_{\text {speech }}=\operatorname{mean}\left(\left\|\vec{S}_{\mathrm{SA}}-(\vec{G} \odot \vec{S})_{\mathrm{SA}}\right\|_{2}^{2}\right)$$
$$公式11:L_{\text {noise }}=\operatorname{mean}\left(\|\vec{G} \odot \vec{N}\|_{2}^{2}\right)$$
其中下標SA表示語音處於活動狀態的框架子集。在我們的實驗中,我們採用了一個簡單的基於能量的幀級語音活動檢測器,它對純淨語音的功率譜進行操作。短時語音能量在300hz和5000 Hz之間積累,並通過移動平均濾波器平滑3幀。最後,決定在低於整個語音峰值能量30分貝的閾值上發聲一幀。
當估計增益接近all-pass時,語音失真誤差最小,噪聲誤差最大,反之亦然。因此,我們可以用一個固定的加權損失來控制語音失真對降噪的相對重要性
$$公式12:L\left(\vec{G} ; \vec{S}_{\mathrm{SA}}, \vec{N}\right)=\alpha L_{\text {speech }}+(1-\alpha) L_{\text {noise }}$$
式中$\alpha$為[0,1]範圍內的常數。我們注意到一個類似的損失是獨立發展的,被稱為雙組分損失(2CL)[27]。接下來,我們討論了這個固定權重的擴充套件。
在經典的語音增強文獻中,抑制規則通常是根據訊雜比來調整的[15,13]。具體來說,抑制應限制在高訊雜比,以避免偽影,並在低訊雜比是積極。基於這一原則,我們的第二個訊雜比加權損失在(12)中使用每個語音的全域性訊雜比進行調整
$$公式13:\alpha=\frac{SNR}{SNR+\beta }$$
其中,$SNR=\frac{||\vec{S}||_2^2}{||\vec{N}||_2^2}$和$\beta$為常數。請注意,當SNR=$\beta$時,$d\alpha/d[10log+{10}(SNR)]$最大化。$\beta$控制全域性 SNR,在該位置固定量的偏差會導致語音失真加權的最大漂移。 此外,還表示全域性 SNR,其中兩個損失項的權重相等。 我們在圖 1 中說明了這一點。
圖1 選擇訊雜比加權的語音失真加權。水平線表示$L_{speech}$和$L_{noise}$的權重相等
所提出的方法如圖2所示的流程圖所示。在訓練過程中,計算加權損失既需要純淨語音,也需要噪聲。訓練後的模型每次一幀增強帶噪聲的STFTM,利用帶噪聲的相位重構增強後的語音波形。
圖2 提出的系統流程圖
5 實驗結果與討論
5.1 語料庫與實驗設定
我們使用MS-SNSD資料集[22]和工具包1使用從公開可用的語音和噪聲語料庫合成的資料集來訓練和評估所有基於DNN的系統。14種不同的噪聲型別被選擇用於訓練,而來自9種不包括在訓練集中的噪聲型別的樣本被用於評估。我們的測試集包括挑戰性和高度非平穩的噪音型別,如咀嚼、多人交談、鍵盤打字等。所有音訊片段都被重新取樣到16 kHz。訓練集包括84小時的乾淨語音和噪聲,而18小時(5500個片段)的有噪語音構成評估集。所有語音片段在每個話語的基礎上被電平歸一化,而每個噪聲片段被縮放以具有來自f40、30、20、10、0gdB的五個全域性SNR中的一個。在下面描述的所有基於DNN的系統的訓練過程中,我們分別隨機選擇乾淨語音和噪聲的摘錄,然後將它們混合來建立有噪聲的話語。
我們基於幾個客觀的語音質量和清晰度指標和主觀測試,對所提出的方法進行了三個基線的比較研究。具體地說,我們包括語音質量感知評估(PESQ)[28]、短時客觀清晰度(STOI)[29]、倒譜距離(CD)和尺度不變訊雜比(SI-SDR)[30],用於在時間域、頻譜域和倒譜域對增強語音進行客觀評估。我們使用[22]中提出的基於網路的主觀框架進行了主觀聽力測試。每個剪輯都由20位眾包聽眾以1(非常差的語音質量)到5(極好的語音質量)之間的離散評級進行評級。在向這些聽眾展示測試剪輯之前,要確保培訓和資格認證。所有20個收視率的平均值是該剪輯的平均意見分數(MOS)。我們還刪除了在整個MOS測試中選擇相同評級的明顯垃圾郵件傳送者。我們的主觀測試與其他客觀評估相輔相成,從而為評估所研究的降噪演算法提供了一個平衡的基準。
我們將我們提出的方法與三種基線方法進行了比較。我們使用了經典的增強器,它是對[31]中描述的MMSE對數譜振幅(LSA)估計器[14]的略微優化的實現。基於DNN的基線包括改進的RNNoise(RNNoiseI)[22]和RNN(RNNoise257),該RNN複製RNNoise[10]的網路體系結構,但是在257點頻譜上操作,在(4)上進行訓練,並且不具有最初提出的後處理元件。RNNoise257實現了一個具有與所提出的方法相當數量的引數的系統。
在下一節中,我們討論了不同序列長度上的特徵歸一化和訓練對增強語音的客觀質量的影響。然後,我們探討了所提出的固定加權損失函式和訊雜比加權損失函式的最優加權。最後,我們將我們的系統生成的增強語音的主客觀質量與幾種好勝線上方法進行了比較。
5.2 結果和討論
我們想要評估用長序列或短序列訓練如何影響RNN中的時間建模。雖然長序列有望幫助處理長期噪聲模式,但它也可能潛在地降低只是短期靜止的語音。表1總結了序列長度對客觀語音質量的影響。對於每個設定,我們調整小批量中的序列數量,以便一批始終包含一分鐘的嘈雜語音。我們觀察到,隨著每個資料段增加到5秒,效能有了顯著的改善,超過5秒後,效能改善開始減弱。由於篇幅限制,我們沒有給出特徵測試的結果,但總的來說,STFTM和LPS特徵的所有歸一化變體之間幾乎沒有區別,而沒有歸一化會導致退化。一般來說,我們推薦FD線上歸一化,因為它對不同的訊號電平具有不變性。我們還建議在訓練期間使用每個不少於5秒的片段。
表1 一分鐘小批量中序列長度的影響
語音失真加權的效果如圖3所示,其中改變$\alpha$或$\beta $以搜尋每個客觀測量的最佳點。奇怪的是,在這兩種情況下,只有STOI和CD在相同的係數上達成一致,而PESQ和SI-SDR都表明語音失真的權重較小。所有指標的最佳訊雜比權重都集中在20dB左右,這意味著只有在噪聲訊號相對乾淨的情況下,語音失真權重才應該迅速增加。總體而言,在所有指標中,固定權重都略好於SNR權重。
圖3 固定加權和訊雜比加權對客觀語音質量和清晰度測量的影響。
黑色虛線垂直線表示每個度量的最佳係數。
注意,STOI和CD的最佳點在$\alpah = 0.65$和$\beta =18.2 $dB處重合。
在實驗中,我們注意到,即使我們的系統在MSE(例如,表1中的第4行)上訓練的系統可以達到與那些基於擬議的加權損失(12)訓練的系統類似的客觀度量,但基於加權損失訓練的系統的相應主觀質量要好得多。基於我們的損失函式訓練的系統,特別是在小的情況下,最顯著的改進是估計的增益函式比基於規則MSE訓練的系統具有更強的頻率選擇性,導致更高的噪聲抑制,特別是在高訊雜比的情況下。為了證明這一點,我們在表2中給出了線上主觀聽力測試的結果。我們選擇的所有系統不僅顯著優於[22]中提出的基於MSE的改進的RNNoise(RNNoiseI),而且令我們驚訝的是,聽力測試物件更喜歡相當低的語音失真權重設定。所有客觀指標以及作者的主觀偏好約$\alpha$=0.35都錯誤地預測了這一趨勢。當低於0.35時,我們觀察到明顯的語音失真,而噪聲變得更受抑制。顯然,在未來的工作中需要進行更詳細的調查,以更好地揭示不同聽眾群體的語音失真和降噪偏好。
表2 主觀MOS從5500個剪輯和20個評級的剪輯
最後,我們報告了從每個基線方法、帶噪參考和甲骨文維納過濾作為上界的客觀評估,如表3所示。從我們的方法中選擇的系統使用固定的語音失真加權(α=0.35時)進行訓練,我們認為該方法在語音失真和去噪之間取得了很好的平衡。雖然這種設定可能不是人類監聽器最喜歡的,但是可以很容易地調優到不同的應用程式。儘管如此,重要的是要證明它在所有客觀度量上都優於所有測試的經典或基於DNN的方法。
表3 比較客觀的度量與基線線上SE系統。有關每個設定的詳細資訊,請參閱文字
6 總結
本文提出並評估了一種基於緊湊遞迴神經網路的實時語音增強方法,該網路採用一種簡單的基於MSE的語音失真加權損失函式進行訓練,並展示了各種特徵歸一化技術和序列長度對增強語音客觀質量的影響。我們還演示瞭如何利用損失函式中的固定加權係數和訊雜比加權係數來控制語音失真量,客觀和主觀測試都表明,我們的方法比其他好勝線上方法具有更好的效能。在未來,我們將探索時變的語音失真權重及其對主客觀語音質量的影響。
7 參考文獻
[1] P. C. Loizou, Speech enhancement: theory and practice, CRC press, 2013.
[2] J. Benesty, S. Makino, and J. Chen, Eds., Speech Enhancement, Springer, 2005.
[3] Y.Wang, A. Narayanan, and D.Wang, On training targets for supervised speech separation, IEEE/ACM Trans. on audio, speech, and language processing, vol. 22, no. 12, pp. 1849 1858, 2014.
[4] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE signal processing letters, vol. 9, no. 1, pp. 12 15, 2002.
[5] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal processing, vol. 81, no. 11, pp. 2403 2418, 2001.
[6] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.
[7] S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113 120, 1979.
[8] A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation, ACM Trans. on Graphics (TOG), vol. 37, no. 4, pp. 112, 2018.
[9] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, in ISCA INTERSPEECH 2017, 2017, pp. 3642 3646.
[10] J.-M. Valin, A hybrid DSP/deep learning approach to realtime full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP), 2018, pp. 1 5.
[11] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement., in ISCA INTERSPEECH, 2018, pp. 3229 3233.
[12] Y. Xia and R. Stern, A priori SNR estimation based on a recurrent neural network for robust speech enhancement, in ISCA INTERSPEECH, 2018, pp. 3274 3278.
[13] S. Braun, K. Kowalczyk, and E. Habets, Residual noise control using a parametric multichannel wiener filter, in IEEE ICASSP, 2015, pp. 1 5.
[14] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 33, no. 2, pp. 443 445, 1985.
[15] T. Esch and P. Vary, Efficient musical noise suppression for speech enhancement system, in IEEE ICASSP, 2009, pp. 1 5.
[16] L. Sun, J. Du, L.-R. Dai, and C.-H. Lee, Multiple-target deep learning for LSTM-RNN based speech enhancement, in IEEE Hands-free Speech Communications and Microphone Arrays (HSCMA), 2017, pp. 136 140.
[17] Y. Xu, J. Du, Z. Huang, L.-R. Dai, and C.-H. Lee, Multiobjective learning and mask-based post-processing for deep neural network based speech enhancement, in ISCA INTERSPEECH 2015, pp. 1508 1512.
[18] F. G. Germain, Q. Chen, and V. Koltun, Speech Denoising with Deep Feature Losses, in Proc. Interspeech 2019, 2019, pp. 2723 2727.
[19] J. M. Mart ın-Do nas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, A deep learning loss function based on the perceptual evaluation of the speech quality, IEEE Signal processing letters, vol. 25, no. 11, pp. 1680 1684, 2018.
[20] Y. Zhao, B. Xu, R. Giri, and T. Zhang, Perceptually guided speech enhancement using deep neural networks, in IEEE ICASSP, 2018, pp. 5074 5078.
[21] A. Kumar and D. Florencio, Speech enhancement in multiplenoise conditions using deep neural networks, in ISCA INTERSPEECH 2016, 2016, pp. 3738 3742.
[22] C. K. Reddy, E. Beyrami, J. Pool, R. Cutler, S. Srinivasan, and J. Gehrke, A Scalable Noisy Speech Dataset and Online Subjective Test Framework, in ISCA INTERSPEECH 2019, 2019, pp. 1816 1820.
[23] K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724 1734.
[24] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.
[25] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutionalrecurrent neural networks for speech enhancement, in IEEE ICASSP, 2018, pp. 2401 2405.
[26] D. Liu, P. Smaragdis, and M. Kim, Experiments on deep learning for speech denoising, in ISCA INTERSPEECH, 2014.
[27] Z. Xu, S. Elshamy, Z. Zhao, and T. Fingscheidt, Components loss for neural networks in mask-based speech enhancement, arXiv preprint arXiv:1908.05087, 2019.
[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 01CH37221), 2001, vol. 2, pp. 749 752.
[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4214 4217.
[30] J. Le Roux, S.Wisdom, H. Erdogan, and J. R. Hershey, SDR half-baked or well done?, in IEEE ICASSP, 2019, pp. 626 630.
[31] I. J. Tashev, Sound capture and processing: practical approaches, John Wiley & Sons, 2009.