論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

微笑9349426發表於2021-12-31

論文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362

神經網路支援的回聲、混響和噪聲聯合多通道降噪

摘要

  我們考慮同時降低迴聲、混響和噪聲的問題。在真實場景中,這些失真源可能同時出現,減少它們意味著組合相應的失真特定濾波器。當這些過濾器互相接觸時,它們必須被聯合優化。我們建議使用多通道高斯建模框架對線性回聲消除和去混響後的目標和剩餘訊號進行建模,並通過神經網路聯合表示它們的頻譜。我們開發了一個迭代的塊座標上升演算法來更新所有的過濾器。我們根據智慧揚聲器在各種情況下獲得的聲學回聲、混響和噪聲的真實記錄來評估我們的系統。所提出的方法在整體失真方面優於單獨方法的級聯和不依賴於目標和剩餘訊號的頻譜模型的聯合縮減方法。

關鍵字:聲學回聲,背景噪聲,期望最大化,聯合失真減少,迴圈神經網路,混響。

1 引言

  在擴音通訊中,近端點的一個揚聲器與遠端點的另一個揚聲器相互作用。近端揚聲器可能距離麥克風幾米遠,相互作用可能會受到多種失真源的影響,例如背景噪聲、聲學回聲和近端混響。這些失真源中的每一個都會降低語音質量、可懂度和收聽舒適度,因此必須加以降低。

  單通道和多通道濾波器已被用來分別降低這些失真源。它們可以分為隨時間快速變化的短非線性濾波器和時不變(或緩慢時變)的長線性濾波器。短非線性濾波器通常用於降噪[1]。它們對真實訊號固有的波動和非線性具有魯棒性。去混響[2]和回聲減少[3]可能需要長線性濾波器。它們能夠在時不變條件下減少大多數失真源,而不會在近端訊號中引入任何偽像或音樂噪聲。

  當幾個失真源同時出現時,減少它們需要級聯失真特定的濾波器。然而,由於這些濾波器相互作用,單獨調整它們可能不是最佳的,甚至會導致額外的失真。已經提出了幾種處理兩個失真源的聯合方法,即聯合去混響和源分離/降噪[4]-[9],聯合回聲和降噪[10]-[15],以及聯合回聲降噪和去混響[16],[17]。

  Habetset等人提出了一種單通道回聲抑制、去混響和噪聲抑制的聯合方法。然而,在優化過程中忽略了線性回聲消除濾波器。據我們所知,只有Togami等人提出了一種優化兩個線性濾波器和非線性後置濾波器以減少回聲、混響和噪聲的解決方案[19]。他們通過在多通道高斯框架內對回聲消除和去混響後的目標和殘餘訊號進行建模來表示濾波器的相互作用。然而,沒有為這些訊號的短期頻譜提出模型。這導致線性濾波器和非線性後置濾波器的錯誤估計。

  最近,神經網路在估計語音和失真源的短期頻譜以聯合去混響和源分離/降噪[20],[21],以及聯合回聲和降噪[22],[23]方面顯示出有希望的結果。然而,這些方法只集中於減少兩個失真源。

  在這篇文章中,我們提出了一種神經網路支援的聯合多通道減少回聲,混響和噪聲的方法。我們在多通道高斯框架內同時對目標和殘餘訊號的空間和頻譜引數進行建模,並推匯出一種迭代的塊座標上升(BCA)演算法來更新回聲消除、去混響和噪聲/殘餘減少濾波器。我們根據智慧揚聲器在各種情況下獲得的聲學回聲、近端混響和背景噪聲的真實記錄來評估我們的系統。我們通過實驗證明了我們提出的方法與一系列單獨的方法和Togami等人的聯合歸約方法相比的有效性[19]。

  本文的其餘部分組織如下。在第二節中,我們描述了現有的增強方法,這些方法是為分別降低迴聲、混響或噪聲而設計的。在第三節中,我們使用BCA演算法中的神經網路譜模型來解釋我們的聯合方法。在第四節中,我們詳細介紹了我們基於神經網路的聯合譜模型。第五節描述了我們方法的訓練和評估的實驗設定。第六節顯示了我們的方法與單個方法的級聯和Togami等人的方法相比的結果。最後,第七節對文章進行了總結,並提出了未來的發展方向。

2 背景

  在本節中,我們首先描述用於分別降低迴聲、混響或噪聲的多通道方法。這些方法將被用作我們解決方案的構建模組,並作為我們實驗中進行比較的基礎。然後我們描述Togami等人的聯合方法。本文采用了以下符號:標量用普通字母表示,向量用粗體小寫字母表示,矩陣用粗體大寫字母表示。符號\((\cdot)^{*}\)指複共軛,\((\cdot)^{T}\)指矩陣轉置,\((\cdot)^{H}\)是Hermitian轉置,\(\operatorname{tr}(\cdot)\)指矩陣的跡,\(\|\cdot\|\)指歐幾里得範數,\(\otimes\)指克羅內克積。單位矩陣表示為I。維度要麼由上下文隱含,要麼由下標明確指定。

A 回聲減少

  回聲減少問題定義如下。用M表示通道(麥克風)的數量,t時刻在麥克風處觀察到的混合\(\mathbf{d}^{\text {echo }}(t) \in \mathbb{R}^{M \times 1}\)是近端訊號\(\mathbf{s}(t) \in \mathbb{R}^{M \times 1}\)和聲學回聲\(\mathbf{y}(t) \in \mathbb{R}^{M \times 1}\)的和:

\[\mathbf{d}^{\text {echo }}(t)=\mathbf{s}(t)+\mathbf{y}(t)  (1) \]

  聲學回聲\(\mathbf{y}(t)\)是由揚聲器顯示的觀察到的遠端訊號\(x(t) \in \mathbb{R}\)的非線性失真版本,假設為單通道。回聲訊號可以表示為:

\[\mathbf{y}(t)=\sum_{\tau=0}^{\infty} \mathbf{a}_{\mathbf{y}}(\tau) x(t-\tau)+\mathbf{y}_{\mathbf{n l}}(t)  (2) \]

  線性部分對應於x(t)和M維房間脈衝響應(RIR)\(\mathbf{a}_{\mathrm{y}}(\tau) \in\mathbb{R}^{M \times 1}\) (或回聲路徑)的線性卷積,模擬從揚聲器(包括揚聲器響應)到麥克風的聲學路徑。非線性部分用\(\mathbf{y}_{\mathrm{nl}}(t) \in \mathbb{R}^{M \times 1}\)表示。通過短時傅立葉變換(STFT),訊號被變換到時-頻域:

\[\mathbf{d}^{\text {echo }}(n, f)=\mathbf{s}(n, f)+\mathbf{y}(n, f)  (3) \]

  在時間幀索引\(n \in[0, N-1]\)和頻率點索引\(f \in[0, F-1]\)處,其中F是頻率點的數量,N是語音的時間幀的數量。由於遠端訊號\(x(n, f) \in \mathbb{C}\)是已知的,目標是通過識別回聲路徑\(\left\{\mathbf{a}_{\mathrm{y}}(n, f)\right\}_{n, f}\),從混合\(\mathrm{d}^{\text {echo }}(n, f) \in \mathbb{C}^{M \times 1}\)中恢復M維近端語音\(\mathbf{s}(n, f) \in \mathbb{C}^{M \times 1}\)。基本思想是用長的多幀線性回波消除濾波器\(\underline{\mathbf{H}}(f)=[\mathbf{h}(0, f) \ldots \mathbf{h}(K-1, f)] \in \mathbb{C}^{M \times K}\)疊加在遠端訊號\(x(n, f)\)的前K幀上,並減去來自\(\mathbf{d}^{\text {echo }}(n, f)\)的結果訊號\(\widehat{\mathbf{y}}(n, f)\):

\[\mathbf{e}^{\text {echo }}(n, f)=\mathbf{d}^{\text {echo }}(n, f)-\underbrace{\sum_{k=0}^{K-1} \mathbf{h}(k, f) x(n-k, f)}_{=\widehat{\mathbf{y}}(n, f)}  (4) \]

其中\(\mathbf{h}(k, f) \in \mathbb{C}^{M \times 1}\)是對應於\(\underline{\mathbf{H}}(f)\)的第k抽頭的M維向量。請注意,k抽頭是以幀為單位測量的,\(\underline{\mathbf{H}}(f)\)中的下劃線表示\(\mathbf{h}(k, f)\)的K個抽頭的連線。由於遠端訊號\(\mathbf{x}(n, f)\)是已知的,濾波器\(\underline{\mathbf{H}}(f)\)通常在最小均方誤差(MMSE)意義下自適應估計[3]。自適應MMSE優化通常依賴於自適應演算法,如最小均方(LMS),它通過具有時變步長的隨機梯度下降以線上方式調整濾波器\(\underline{\mathbf{H}}(f)\)[3]。這些演算法複雜度低,收斂速度快,特別適合時變條件。Yang等人提供了一份關於回聲消除最佳步長選擇的綜合綜述[24]。

  在實踐中,輸出訊號\(\mathrm{e}^{\text {echo }}(n, f)\)不等於近端語音\(\mathbf{s}(n, f)\),這不僅是因為估計誤差,也是因為與真實回聲路徑相比,\(\underline{\mathbf{H}}(f)\)的長度更小,並且非線性\(\mathbf{y}_{\mathrm{nl}}(n, f)\)不能由\(\underline{\mathbf{H}}(f)\)建模[18]。結果,剩餘的回聲\(\mathbf{z}(n, f)\)可以表示為[3]:

\[\mathbf{e}^{\text {echo }}(n, f)-\mathbf{s}(n, f)=\underbrace{\mathbf{y}(n, f)-\widehat{\mathbf{y}}(n, f)}_{=\mathbf{z}(n, f)}  (5) \]

  為了克服這一限制,通常採用(非線性)殘餘回聲抑制後置濾波器\(\mathbf{W}^{\text {echo }}(n, f) \in \mathbb{C}^{M \times M}\):

\[\widehat{\mathbf{s}}(n, f)=\mathbf{W}^{\text {echo }}(n, f) \mathbf{e}^{\text {echo }}(n, f)  (6) \]

  推導\(\mathbf{W}^{\text {echo }}(n, f)\)有多種方法[3]。最近,使用神經網路直接估計\(\mathbf{W}^{\text {echo }}(n, f)\)在單通道情況下顯示出良好的效能[25],[26]。然而,當\(\underline{\mathbf{H}}(f)\)改變時,\(\mathbf{z}(n, f)\)也改變,因此必須調整後置過濾器\(\mathbf{W}^{\text {echo }}(n, f)\)。因此,分別估計\(\underline{\mathbf{H}}(f)\)\(\mathbf{W}^{\text {echo }}(n, f)\)是次優的。在MMSE和最大似然意義下研究了\(\underline{\mathbf{H}}(f)\)\(\mathbf{W}^{\text {echo }}(n, f)\)的聯合優化[27],[28]。

  在第五節中,我們將使用自適應MMSE優化來估計回聲消除濾波器,作為我們比較聯合方法的單個方法級聯的一部分。

B 近端去混響

  近端去混響問題定義如下。t時間在麥克風上觀察到的訊號\(\mathbf{d}^{\mathrm{rev}}(t)\)只是混響近端訊號\(\mathbf{s}(t)\),它是由消聲近端訊號\(u(t) \in \mathbb{R}\)和M維RIR\(\mathbf{a}_{\mathrm{s}}(\tau) \in \mathbb{R}^{M \times 1}\)

\[\mathbf{d}^{\mathrm{rev}}(t)=\mathbf{s}(t)=\sum^{\infty} \mathbf{a}_{\mathrm{s}}(\tau) u(t-\tau)  (7) \]

  這個訊號可以分解為:

\[\mathbf{s}(t)=\underbrace{\sum_{0 \leq \tau \leq t_{\mathrm{e}}} \mathbf{a}_{\mathrm{s}}(\tau) u(t-\tau)}_{=\mathrm{s}_{\mathrm{e}}(t)}+\underbrace{\sum_{\tau>t_{\mathrm{e}}} \mathbf{a}_{s}(\tau) u(t-\tau)}_{=\mathrm{s}_{\mathrm{l}}(t)}  (8) \]

其中\(\mathbf{s}_{\mathrm{e}}(t)\)表示早期近端訊號分量,\(\mathbf{s}_{1}(t)\)表示晚期混響分量,\(t_{e}\)是混合時間。分量\(\mathbf{s}_{\mathrm{e}}(t)\)包括RIR主峰(直接路徑)和延遲\(t_{e}\)內的早期反射,這有助於語音質量和可懂度。分量\(\mathbf{s}_{1}(t)\)包括所有降低清晰度的後期反射。因此,在時頻域中,混響近端語音可以表示為

\[\mathbf{s}(n, f)=\mathbf{s}_{\mathrm{e}}(n, f)+\mathbf{s}_{1}(n, f)  (9) \]

  目標是從混響近端訊號\(\mathbf{s}(n, f)\)中恢復早期近端分量\(\mathbf{s}_{\mathrm{e}}(n, f)\)。Naylor等人對去混響方法進行了全面綜述[2]。其中,加權預測誤差(WPE)方法[29]通過對(7)中定義的混合訊號\(\mathbf{s}(n-\Delta, f)\)的L個先前幀,用長的多幀線性濾波器\(\underline{\mathbf{G}}(f)=[\mathbf{G}(\Delta, f) \ldots \mathbf{G}(\Delta+L-1, f)] \in \mathbb{C}^{M \times M L}\)進行逆濾波來估計\(\mathbf{s}_{1}(n, f)\)。引入延遲\(\Delta\)是為了避免近端語音的過白化。然後從(7)中定義的混合訊號\(\mathbf{s}(n, f)\)中減去\(\widehat{\mathbf{s}}_{1}(n, f)\):

\[\mathbf{r}^{\mathrm{rev}}(n, f)=\mathbf{s}(n, f)-\underbrace{\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{s}(n-l, f)}_{\widehat{\mathbf{s}}_{1}(n, f)}  (10) \]

其中\(\mathbf{G}(l, f)=\left[\mathbf{g}_{1}(l, f) \ldots \mathbf{g}_{M}(l, f)\right] \in \mathbb{C}^{M \times M}\)\(\underline{\mathbf{G}}(f)\)的第\(l\)個抽頭對應的\(M \times M\)維矩陣,\(\mathbf{g}_{m}(l, f) \in \mathbb{C}^{M \times 1}\)\(\mathbf{G}(l, f)\)的第M個通道向量。由於成分\(\mathbf{s}_{\mathrm{e}}(n, f)\)不是觀測訊號,Nakataniet等人通過將成分\(\mathbf{s}_{\mathrm{e}}(n, f)\)建模為方向源,估計了最大似然意義下的濾波器\(\underline{\mathbf{G}}(f)\)[29]。然而,他們沒有對其短期頻譜施加任何限制,這導致了有限的去混響[29],[30]。其他作者假設了一個短期光譜模型。Yoshioka等人使用了全極點模型[8],Kagami等人使用了非負矩陣分解(NMF) [9],Juki等人使用了稀疏先驗[31],Kinoshita等人使用了神經網路[32]。

  由於幾個原因,包括與真正的近端RIR和潛在的時變條件相比,濾波器的長度更小,殘留的晚期混響分量\(\mathbf{s}_{\mathrm{r}}(n, f)\)保留[33]–[35],可以表示為:

\[ \mathbf{r}^{\mathrm{rev}}(n, f)-\mathbf{s}_{\mathrm{e}}(n, f)=\underbrace{\mathbf{s}_{1}(n, f)-\widehat{\mathbf{s}}_{\mathbf{l}}(n, f)}_{=\mathbf{s}_{\mathrm{r}}(n, f)}   (11) \]

  為了克服這一限制,在訊號\(\mathbf{r}^{\mathrm{rev}}(n, f)\)上應用了一個(非線性)殘餘混響抑制後置濾波器\(\mathbf{W}^{\mathrm{rev}}(n, f) \in \mathbb{C}^{M \times M}\):

\[\widehat{\mathbf{s}}_{\mathrm{e}}(n, f)=\mathbf{W}^{\mathrm{rev}}(n, f) \mathbf{r}^{\mathrm{rev}}(n, f)  (12) \]

  推導\(\mathbf{W}^{\mathrm{rev}}(n, f)\)[33],[35]有多種方法。然而,當\(\underline{\mathbf{G}}(f)\)改變時,\(\mathbf{s}_{\mathrm{r}}(n, f)\)也改變,後置濾波器\(\mathbf{W}^{\mathrm{rev}}(n, f)\)必須隨之調整。因此,分別估計\(\underline{\mathbf{G}}(f)\)\(\mathbf{W}^{\mathrm{rev}}(n, f)\)是次優的。在最大似然意義下研究了\(\underline{\mathbf{G}}(f)\)\(\mathbf{W}^{\mathrm{rev}}(n, f)\)的聯合優化[34]。

  在第五節中,我們將使用WPE估計去混響濾波器\(\underline{\mathbf{G}}(f)\)作為我們比較聯合方法的各個方法級聯的一部分。

C 降噪

  降噪問題定義如下。在時間頻率域中,麥克風處觀察到的通道混合噪聲\(\mathbf{d}^{\text {noise }}(n, f)\)是近端訊號\(\mathbf{s}(n, f)\)和噪聲訊號\(\mathbf{b}(n, f) \in \mathbb{C}^{M \times 1}\):

\[\mathbf{d}^{\text {noise }}(n, f)=\mathbf{s}(n, f)+\mathbf{b}(n, f)  (13) \]

  請注意,噪聲訊號\(\mathbf{b}(n, f)\)可以是空間擴散的,也可以是區域性的。目標是從混合噪聲\(\mathbf{d}^{\text {noise }}(n, f)\)中恢復近端語音\(\mathbf{s}(n, f)\)。這通常通過應用短非線性濾波器\(\mathbf{W}_{s}^{\text {noise }}(n, f) \in \mathbb{C}^{M \times M}\)\(\mathbf{d}^{\text {noise }}(n, f)\)上來實現:

\[\widehat{\mathbf{s}}(n, f)=\mathbf{W}^{\text {noise }}(n, f) \mathbf{d}^{\text {noise }}(n, f)  (14) \]

  可以在MMSE或最大似然意義下估計濾波器。Gannot等人全面回顧空間過濾解決方案[36]。一類解決方案依賴於多通道時變維納濾波,其中濾波器來自目標和噪聲源的區域性高斯模型[37]。該模型的譜引數(短期功率譜)和空間引數(空間協方差矩陣)是在最大似然意義下估計的。因為沒有封閉形式的解,所以使用EM演算法來估計最大似然引數。

  當沒有對頻譜或空間引數施加約束時,EM演算法獨立地在每個頻率點f中操作,這在每個頻率點f的分離分量中導致排列模糊,並且需要額外的排列對齊。或者,可以用模型來估計光譜引數。Ozerov等人使用了NMF [38],Nugraha等人使用了神經網路[39],最近使用了變型自動編碼器[40]。

  在第五節中,我們將使用多通道時變維納濾波作為我們比較聯合方法的各個方法級聯的一部分。

D 回聲、混響和噪聲的聯合抑制

  在真實場景中,如上所述的所有失真可以同時出現,如圖1所示。因此,在麥克風處觀察到的混合\(\mathbf{d}(n, f)\)是聲學回聲\(\mathbf{y}(n, f)\)、混響近端訊號\(\mathbf{s}(n, f)\)和噪聲\(\mathbf{b}(n, f)\)的和:

\[\mathbf{d}(n, f)=\mathbf{s}(n, f)+\mathbf{y}(n, f)+\mathbf{b}(n, f)  (15) \]

\[=\mathbf{s}_{\mathrm{e}}(n, f)+\mathbf{s}_{1}(n, f)+\mathbf{y}(n, f)+\mathbf{b}(n, f)  (16) \]

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖1 聲學回聲、混響和噪聲問題

  目標是從混合語音\(\mathbf{d}(n, f)\)中回收早期近端組分\(\mathbf{s}_{\mathrm{e}}(n, f)\)。Togami等人提出了一種聯合方法,將回聲消除濾波器\(\underline{\mathbf{H}}(f)\)(見第二節-A)、去混響濾波器\(\underline{\mathbf{G}}(f)\)(見第二節-B)和非線性多通道維納後置濾波器\(\mathbf{W}_{s_{\mathrm{c}}}(n, f)\) (見第二節-C) [19]。該方法如圖2所示。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖2 Togami等人的方法聯合減少回聲,混響和噪聲[19]。粗綠色箭頭表示過濾步驟。虛線表示潛在訊號分量。細黑色箭頭表示用於過濾步驟和過濾點更新的訊號。白色箭頭表示過濾器更新

  在第一步中,他們像在(4)中一樣應用回聲消除濾波器\(\underline{\mathbf{H}}(f)\),並減去來自混合訊號\(\mathbf{d}(n, f)\)的得到的回聲估計\(\widehat{\mathbf{y}}(n, f)\)。與此同時,作者對混合訊號\(\mathbf{d}(n, f)\)應用去混響濾波器\(\underline{\mathbf{G}}(f)\),如(10)所示,並減去來自\(\mathbf{d}(n, f)\)得到的延遲混響估計\(\widehat{\mathbf{d}}_{1}(n, f)\)。回聲消除和去混響後得到的訊號\(\mathbf{r}(n, f)\)是:

\[\mathbf{r}(n, f)=\mathbf{d}(n, f)-\widehat{\mathbf{y}}(n, f)-\underbrace{\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{d}(n-l, f)}_{=\widehat{\mathrm{d}}_{1}(n, f)}  (17) \]

  由於第二節-A和第二節-B中提到的原因,以及噪聲訊號\(\mathbf{b}(n, f)\)的存在,不希望的殘留訊號仍然存在,可以表示為:

\[\mathbf{r}(n, f)-\mathbf{s}_{\mathrm{e}}(n, f)=\mathbf{z}_{\mathrm{e}}(n, f)+\widetilde{\mathbf{b}}_{\mathrm{r}}(n, f)+\mathbf{b}_{\mathrm{r}}(n, f)  (18) \]

  訊號\(\mathbf{z}_{\mathrm{e}}(n, f), \widetilde{\mathbf{b}}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)定義為:

\[\mathbf{z}_{\mathrm{e}}(n, f)=\mathbf{y}_{\mathrm{e}}(n, f)-\widehat{\mathbf{y}}(n, f)  (19) \]

\[\widetilde{\mathbf{b}}_{\mathrm{r}}(n, f)=\mathbf{s}_{1}(n, f)-\widehat{\mathbf{d}}_{1, s}(n, f)+\mathbf{y}_{1}(n, f)-\widehat{\mathbf{d}}_{1, y}(n, f)  (20) \]

\[\mathbf{b}_{\mathrm{r}}(n, f)=\mathbf{b}(n, f)-\widehat{\mathbf{d}}_{1, b}(n, f)  (21) \]

其中訊號\(\mathbf{y}_{\mathrm{e}}(n, f)\)\(\mathbf{y}_{\mathrm{l}}(n, f)\)分別表示回聲\(\mathbf{y}(n, f)\)的早期分量和晚期混響。\(\widehat{\mathbf{d}}_{1, s}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{s}(n-l, f)\)\(\widehat{\mathbf{d}}_{1, y}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{y}(n-l, f)\)\(\widehat{\mathbf{d}}_{1, b}(n, f)=\sum_{l=\Delta}^{\Delta+L-1}\mathbf{G}(l, f) \mathbf{b}(n-l, f)\)是由(17)得出的\(\widehat{\mathbf{d}_{1}(n, f)}\)潛在的組成部分,且\(\mathbf{b}_{\mathrm{r}}(n, f)\)是去混響噪聲訊號。術語“去混響”是指“在應用去混響過濾器之後”。

  為了從訊號\(\mathbf{r}(n, f)\)中恢復早期近端訊號分量\(\mathrm{s}_{\mathrm{e}}(n, f)\),作者應用了多通道維納後置濾波器\(\mathbf{W}_{s_{\mathrm{e}}}(n, f) \in \mathbb{C}^{M \times M}\)訊號\(\mathbf{r}(n, f)\):

\[\widehat{\mathbf{s}}_{\mathrm{e}}(n, f)=\mathbf{W}_{s_{\mathrm{e}}}(n, f) \mathbf{r}(n, f)  (22) \]

  作者通過將\(\mathbf{s}_{\mathrm{e}}(n, f)\)\(\mathbf{b}_{r}(n, f)\)建模為零均值多通道高斯變數,來估計\(\underline{\mathbf{H}}(f), \underline{\mathbf{G}}(f)\)\(\mathbf{W}_{s_{\mathrm{e}}}(n, f)\),且\(\mathbf{z}_{\mathrm{e}}(n, f)\)\(\widetilde{\mathbf{b}}_{r}(n, f)\)作為非零均值多通道高斯變數[19]。他們使用EM演算法來聯合優化該模型在最大似然意義下的光譜和空間引數。

  然而,他們的方法有幾個侷限性。首先,它們沒有對目標\(\mathbf{s}_{\mathrm{e}}(n, f)\)和去混響噪聲訊號\(\mathbf{b}_{\mathrm{r}}(n, f)\)的頻譜引數施加任何約束。其次,訊號分量\(\mathbf{s}_{1}(n, f)\)\(\mathbf{y}_{1}(n, f)\)\(\widetilde{\mathbf{b}}_{\mathrm{r}}(n, f)\)不是單獨建模的,即這些元件共享相同的空間引數,實際情況並非如此。這兩個限制導致對濾波器\(\underline{\mathbf{H}}(f), \underline{\mathbf{G}}(f)\) 和後置濾波器\(\mathbf{W}_{s_{\mathrm{e}}}(n, f)\)的錯誤估計。第三,因為濾波器\(\underline{\mathbf{H}}(f), \underline{\mathbf{G}}(f)\) 對混合訊號\(\mathbf{d}(n, f)\)獨立工作,從(19)和(20)中的回聲\(\mathbf{y}(n, f)\)中減去,它們各自的分量\(\widehat{\mathbf{y}}(n, f)\)\(\widehat{\mathbf{d}}_{1, y}(n, f)\)可能會相互干擾。最後,由於回聲\(\mathbf{y}(n, f)\)通常比近端語音\(\mathbf{s}(n, f)\)\(\mathbf{d}(n, f)\)中的噪聲訊號\(\mathbf{b}(n, f)\)大得多,這裡的去混響濾波器\(\underline{\mathbf{G}}(f)\)主要減少回聲\(\mathbf{y}_{\mathbf{l}}(n, f)\)的後期混響,而不是近端語音\(\mathbf{s}_{1}(n, f)\)的混響。

3 神經網路支援的聯合降低迴聲、混響和噪聲的BCA演算法

  在這一部分,我們提出了一個聯合神經網路支援的模型來估計目標和剩餘訊號的頻譜引數。我們匯出了一個神經網路支援的聯合減少回聲、混響和噪聲的BCA演算法,該演算法利用這些估計的頻譜引數來精確匯出回聲消除和去混響濾波器以及非線性後置濾波器。

A 模型

  該方法如圖3所示。在第一步中,我們像(4)一樣應用回聲消除濾波器\(\underline{\mathbf{H}}(f)\),並減去來自\(\mathbf{d}(n, f)\)得到的回聲估計\(\widehat{\mathbf{y}}(n, f)\):

\[\mathbf{e}(n, f)=\mathbf{d}(n, f)-\underbrace{\sum_{k=0}^{K-1} \mathbf{h}(k, f) x(n-k, f)}_{=\widehat{\mathbf{y}}(n, f)}  (23) \]

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖3 擬議的辦法。箭頭和線具有與圖2中相同的含義

  得到的訊號\(\mathbf{e}(n, f)\)包含近端訊號\(\mathbf{s}(n, f)\)、殘餘回聲\(\mathbf{z}(n, f)\)和噪聲訊號\(\mathbf{b}(n, f)\)。與Togami等人[19]不同,我們不對混合訊號\(\mathbf{d}(n, f)\)應用去混響濾波器\(\underline{\mathbf{G}}(f)\),而是對訊號\(\mathbf{e}(n, f)\)應用去混響濾波器\(\underline{\mathbf{G}}(f)\),並減去從\(\mathbf{e}(n, f)\)得到的延遲混響估計\(\widehat{\mathbf{e}}_{1}(n, f)\)。據我們所知,這是在回聲消除濾波器\(\underline{\mathbf{H}}(f)\)之後應用去混響濾波器\(\underline{\mathbf{G}}(f)\)的第一個工作,用於回聲、混響和噪聲的聯合回聲減少。由此得到的訊號\(\mathbf{r}(n, f)\)表示為:

\[\mathbf{r}(n, f)=\mathbf{e}(n, f)-\underbrace{\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{e}(n-l, f)}_{=\widehat{\mathrm{e}}_{1}(n, f)}  (24) \]

  由於線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)是因果的,我們假設對於n < 0,觀測訊號\(\mathbf{d}(n, f)\)\(x(n, f)\)等於零。由於\(\mathbf{e}(n, f)\)中的殘餘回聲\(\mathbf{z}(n, f)\)\(\mathbf{d}(n, f)\)中回聲\(\mathbf{y}(n, f)\)的簡化版本,因此去混響濾波器\(\underline{\mathbf{G}}(f)\)應該比Togami等人的方法[19]更能降低近端晚期混響\(\mathrm{s}_{\mathrm{l}}(n, f)\)。由於第二節A和B部分提到的原因,以及噪聲訊號\(\mathbf{b}(n, f)\)的存在,不需要的殘餘訊號仍然存在,可以表示為:

\[\mathbf{r}(n, f)-\mathbf{s}_{\mathrm{e}}(n, f)=\mathbf{s}_{\mathrm{r}}(n, f)+\mathbf{z}_{\mathrm{r}}(n, f)+\mathbf{b}_{\mathrm{r}}(n, f)  (25) \]

其中\(\mathbf{s}_{\mathrm{r}}(n, f)\)是殘餘的晚期混響近端分量(見第二節-B),\(\mathbf{z}_{\mathrm{r}}(n, f)\)是殘餘回聲,代表線性去混響減少其線性分量後剩餘的殘餘回聲(見第二節-A),\(\mathbf{b}_{\mathrm{r}}(n, f)\)是去混響噪聲,代表線性去混響減少其靜止分量後剩餘的殘餘噪聲。訊號\(\mathbf{s}_{\mathrm{r}}(n, f)\)\(\mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)定義如下:

\[\mathbf{s}_{\mathrm{r}}(n, f)=\mathbf{s}_{1}(n, f)-\widehat{\mathbf{e}_{1, s}}(n, f)  (26) \]

\[\mathbf{z}_{\mathbf{r}}(n, f)=\mathbf{z}(n, f)-\widehat{\mathbf{e}}_{\mathbf{1}, z}(n, f)  (27) \]

\[\mathbf{b}_{\mathrm{r}}(n, f)=\mathbf{b}(n, f)-\widehat{\mathbf{e}}_{\mathrm{l}, b}(n, f)  (28) \]

其中訊號\(\widehat{\mathbf{e}}_{\mathrm{l}, s}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{s}(n-l, f)\)\(\widehat{\mathbf{e}}_{1, z}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{z}(n-l, f)\)\(\widehat{\mathbf{e}}_{1, b}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{b}(n-l, f)\)是由(24)得到的\(\widehat{\mathbf{e}_{1}}(n, f)\)的潛在部分。為了從訊號\(\mathbf{r}(n, f)\)中恢復訊號\(\mathbf{s}_{\mathrm{e}}(n, f)\),我們在訊號\(\mathbf{r}(n, f)\)應用多通道維納後置濾波器\(\mathbf{W}_{s_{\mathrm{c}}}(n, f) \in \mathbb{C}^{M \times M}\)

\[\widehat{\mathbf{s}}_{\mathrm{e}}(n, f)=\mathbf{W}_{s_{\mathrm{e}}}(n, f) \mathbf{r}(n, f)  (29) \]

  受WPE去混響[29]的啟發,我們通過用多通道區域性高斯框架對目標\(\mathbf{s}_{\mathrm{e}}(n, f)\)和三個剩餘訊號\(\mathbf{s}_{\mathrm{r}}(n, f)\)\(\mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)進行建模,來估計\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)\(\mathbf{W}_{s_{\mathrm{e}}}(n, f)\)。在下文中,我們使用通用符號\(\mathbf{c}(n, f)\)來表示這四個訊號中的每一個,並將它們視為要分離的源。這四個源中的每一個都被建模為:

\[\mathbf{c}(n, f) \sim \mathcal{N}_{\mathbb{C}}\left(\mathbf{0}, v_{c}(n, f) \mathbf{R}_{c}(f)\right)  (30) \]

其中\(v_{c}(n, f) \in \mathbb{R}_{+}\)\(\mathbf{R}_{c}(f) \in \mathbb{C}^{M \times M}\)分別表示源的功率譜密度(PSD)和空間協方差矩陣(SCM)[37]。源\(\mathbf{c}(n, f)\)的多通道維納濾波器公式如下:

\[\mathbf{W}_{c}(n, f)=v_{c}(n, f) \mathbf{R}_{c}(f)\left(\sum_{c^{\prime} \in \mathcal{C}} v_{c^{\prime}}(n, f) \mathbf{R}_{c^{\prime}}(f)\right)^{-1}  (31) \]

其中,\(\mathcal{C}=\left\{\mathbf{s}_{\mathrm{e}}, \mathbf{s}_{\mathrm{r}}, \mathbf{z}_{\mathrm{r}}, \mathbf{b}_{\mathrm{r}}\right\}\)表示訊號\(\mathbf{r}(n, f)\)中的所有四個訊號源。後置濾波器是(31)的特例,其中\(\mathbf{c}(n, f)=\mathbf{s}_{\mathrm{e}}(n, f)\)

B 可能性

  為了估計這個模型的引數,首先要表達它的似然性。在(23)、(24)、(25)和(30)之後,觀測序列\(\mathcal{O}=\{\mathbf{d}(n, f), x(n, f)\}_{n, f}\)的對數似然由下式給出:

\[\begin{aligned} \mathcal{L} &\left(\mathcal{O} ; \Theta_{H}, \Theta_{G}, \Theta_{c}\right) \\ =& \sum_{f=0}^{F-1} \sum_{n=0}^{N-1} \log p(\mathbf{d}(n, f) \mid \mathbf{d}(n-1, f), \ldots, \mathbf{d}(0, f),\\ &x(n, f), \ldots, x(0, f)), \end{aligned}  (32) \]

\[=\sum_{f=0}^{F-1} \sum_{n=0}^{N-1} \log \mathcal{N}_{\mathbb{C}}\left(\mathbf{d}(n, f) ; \boldsymbol{\mu}_{\mathbf{d}}(n, f), \mathbf{R}_{\mathbf{d d}}(n, f)\right)  (33) \]

其中:

\[\begin{aligned} \boldsymbol{\mu}_{\mathrm{d}}(n, f)=& \sum_{k=0}^{K-1} \mathbf{h}(k, f) x(n-k, f) \\ &+\sum_{l=1}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{e}(n-l, f), \end{aligned}  (34) \]

\[\mathbf{R}_{\mathrm{dd}}(n, f)=\sum_{c^{\prime} \in \mathcal{C}} v_{c^{\prime}}(n, f) \mathbf{R}_{c^{\prime}}(f),  (35) \]

其中,\(\Theta_{H}=\{\underline{\mathbf{H}}(f)\}_{f}, \quad \Theta_{G}=\{\underline{\mathbf{G}}(f)\}_{f} \quad\)\(\quad \Theta_{c}=\left\{v_{c}(n, f), \mathbf{R}_{c}(f)\right\}_{c, n, f}\)是需要估計的引數。最終的最大似然優化問題沒有封閉形式的解,因此我們需要通過迭代過程來估計引數。

C 迭代優化演算法

  我們提出了一種似然優化的BCA演算法。每次迭代I包括以下三個最大化步驟:

\[\widehat{\Theta}_{H} \leftarrow \operatorname{argmax}_{\Theta_{H}} \mathcal{L}\left(\mathcal{O} ; \Theta_{H}, \widehat{\Theta}_{G}, \widehat{\Theta}_{c}\right)  (36) \]

\[\widehat{\Theta}_{G} \leftarrow \operatorname{argmax}_{\Theta_{G}} \mathcal{L}\left(\mathcal{O} ; \widehat{\Theta}_{H}, \Theta_{G}, \widehat{\Theta}_{c}\right)  (37) \]

\[\widehat{\Theta}_{c} \leftarrow \operatorname{argmax}_{\Theta_{c}} \mathcal{L}\left(\mathcal{O} ; \widehat{\Theta}_{H}, \widehat{\Theta}_{G}, \Theta_{c}\right)  (38) \]

  (36)和(37)的解是封閉形式的。由於(38)沒有封閉形式的解,我們建議使用Nugraha等人的NN-EM演算法的修改版本[39]。注意,通過在(25)[38]中新增一個討厭的項,也可以用EM演算法優化引數\(\Theta_{H}, \Theta_{G}\)\(\Theta_{c}\)。然而,這種方法在驗證濾波器引數\(\Theta_{H}, \Theta_{G}\) 時效率較低。在接下來的小節中,我們在迭代I中為我們提出的演算法的步驟(36)至(38)提供了初始化和更新規則。這些更新規則的推導在我們的配套技術報告[41,第3節]中有詳細說明。在每次迭代I中,我們使用去混響濾波器引數\(\Theta_{G}\)和源引數\(\Theta_{c}\)作為前面迭代I-1的引數。

  1)初始化:我們將線性濾波器(\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)分別初始化為\(\underline{\mathbf{H}}_{0}(f)\)\(\underline{\mathbf{G}}_{0}(f)\)。四個源的功率譜密度\(v_{c}(n, f)\)使用表示為\(\mathrm{NN}_{0}\)的預處理神經網路\(\mathrm{NN}\)和SCMs \(\mathbf{R}_{c}(f)\)作為身份矩陣\(\mathbf{I}_{M}\)的聯合初始化。\(\mathrm{NN}_{0}\)的輸入、目標和架構在下文第四節中描述。

  2)回聲消除濾波器引數\(\Theta_{H}\):回聲消除濾波器\(\underline{\mathbf{H}}(f)\)更新如下:

\[\underline{\mathbf{h}}(f)=\mathbf{P}(f)^{-1} \mathbf{p}(f)  (39) \]

其中:

\[\mathbf{P}(f)=\sum_{n=0}^{N-1} \underline{\mathbf{X}}_{\mathrm{r}}(n, f)^{H} \mathbf{R}_{\mathrm{dd}}(n, f)^{-1} \underline{\mathbf{X}}_{\mathrm{r}}(n, f)  (40) \]

\[\mathbf{p}(f)=\sum_{n=0}^{N-1} \underline{\mathbf{X}}_{\mathrm{r}}(n, f)^{H} \mathbf{R}_{\mathrm{dd}}(n, f)^{-1} \mathbf{r}_{d}(n, f)  (41) \]

\(\underline{\mathbf{h}}(f)=\left[\mathbf{h}(0, f)^{T} \ldots \mathbf{h}(K-1, f)^{T}\right]^{T} \in \mathbb{C}^{M K \times 1}\)\(\underline{\mathbf{H}}(f)\)的向量化版本,\(\underline{\mathbf{X}}_{\mathrm{r}}(n, f)=\left[\mathbf{X}_{\mathrm{r}}(n, f) \ldots \mathbf{X}_{\mathrm{r}}(n-K+1, f)\right] \in \mathbb{C}^{M \times M K}\)源於\(\mathbf{X}_{\mathrm{r}}(n-k, f) \in \mathbb{C}^{M \times M}\)的K抽頭。\(\mathbf{X}_{\mathrm{r}}(n-k, f)\)的K抽頭是通過對\(x(n-k, f)\)應用去混響濾波器\(\underline{\mathbf{G}}(f)\)獲得的\(x(n-k, f)\)的去混響版本:

\[\begin{aligned} \mathbf{X}_{\mathrm{r}}(n-k, f)=& x(n-k, f) \mathbf{I}_{M} \\ &-\sum_{l=1}^{\Delta+L-1} x(n-k-l, f) \mathbf{G}(l, f) \end{aligned}  (42) \]

\(\mathbf{r}_{d}(n, f)\)\(\mathbf{d}(n, f)\)的去混響版本,通過對\(\mathbf{d}(n, f)\)應用去混響濾波器\(\underline{\mathbf{G}}(f)\)而無需預先回聲消除獲得:

\[\mathbf{r}_{d}(n, f)=\mathbf{d}(n, f)-\sum_{k=\Delta}^{\Delta+L-1} \mathbf{G}(k, f) \mathbf{d}(n-k, f)  (43) \]

  注意,回聲消除濾波器\(\underline{\mathbf{H}}(f)\)的更新通過項\(\underline{\mathbf{X}}_{\mathrm{r}}(n, f)\)\(\mathbf{r}_{d}(n, f)\)受到去混響濾波器\(\underline{\mathbf{G}}(f)\)的影響。該更新防止回聲消除濾波\(\underline{\mathbf{H}}(f)\)減少已經由去混響濾波器\(\underline{\mathbf{G}}(f)\)減少的回聲\(\mathbf{y}(n, f)\)的分量。回聲消除濾波器\(\underline{\mathbf{H}}(f)\)的更新也取決於PSDs \(v_{c}(n, f)\)和SCMs \(\mathbf{R}_{c}(f)\),通過(35)中定義的\(\mathbf{R}_{\mathbf{d d}}(n, f)\)項。由於後置濾波器\(\mathbf{W}_{c}(n, f)\)用於更新PSDs\(v_{c}(n, f)\) (見下文第四節-B)和SCMs\(\mathbf{R}_{c}(f)\) (見下文第三節-C4),回聲消除濾波器\(\underline{\mathbf{H}}(f)\)的更新也受到後置濾波器\(\mathbf{W}_{c}(n, f)\)的影響。

  3)去混響濾波器引數\(\Theta_{G}\):類似於WPE去混響[30],去混響濾波器\(\underline{\mathbf{G}}(f)\)更新為:

\[\underline{\mathbf{g}}(f)=\mathbf{Q}(f)^{-1} \mathbf{q}(f)  (44) \]

其中:

\[\mathbf{Q}(f)=\sum_{n=0}^{N-1} \underline{\mathbf{E}}(n, f)^{H} \mathbf{R}_{\mathbf{d d}}(n, f)^{-1} \underline{\mathbf{E}}(n, f)  (45) \]

\[\mathbf{q}(f)=\sum_{n=0}^{N-1} \underline{\mathbf{E}}(n, f)^{H} \mathbf{R}_{\mathbf{d d}}(n, f)^{-1} \mathbf{e}(n, f)  (46) \]

\(\underline{\mathbf{g}}(f)=\left[\mathbf{g}_{1}(\Delta, f)^{T} \ldots \mathbf{g}_{M}(\Delta, f)^{T} \ldots \ldots \mathbf{g}_{1}(\Delta+L-1, f)^{T} \ldots \mathbf{g}_{M}(\Delta+L-1, f)^{T}\right]^{T} \in \mathbb{C}^{M^{2} L \times 1}\)\(\underline{\mathbf{G}}(f)\)的向量化版本,從L抽頭獲得的\(\underline{\mathbf{E}}(n, f)=[\mathbf{E}(n-\Delta, f) \ldots \mathbf{E}(n-\Delta-L+1, f)] \in \mathbb{C}^{M \times M^{2} L}\)作為\(\mathbf{E}(n-l, f) \in \mathbb{C}^{M \times M^{2}}\)

\[\mathbf{E}(n-l, f)=\mathbf{I}_{M} \otimes \mathbf{e}(n-l, f)^{T}  (47) \]

  去混響濾波器\(\underline{\mathbf{G}}(f)\)的更新受回聲消除濾波器\(\underline{\mathbf{H}}(f)\)通過項\(\mathbf{e}(n, f)\)的影響。與回聲消除濾波器\(\underline{\mathbf{H}}(f)\)類似,去混響濾波器\(\underline{\mathbf{G}}(f)\)的更新也受後置濾波器\(\mathbf{W}_{c}(n, f)\)的影響,後者通過(35)中定義的術語\(\mathbf{R}_{\mathbf{d d}}(n, f)\)中使用的PSDs\(v_{c}(n, f)\)和SCMs\(\mathbf{R}_{c}(f)\)實現:

  4)方差和空間協方差引數\(\Theta_{c}\):由於關於\(\Theta_{c}\)的對數似然優化沒有封閉形式的解,我們使用EM演算法來估計方差和空間協方差引數。給定混合訊號\(\mathbf{d}(n, f)\)的過去序列、遠端訊號\(x(n, f)\)及其過去序列以及線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\),剩餘混合訊號\(\mathbf{r}(n, f)\)有條件地分佈為:

\[\begin{array}{r} \mathbf{r}(n, f) \mid \mathbf{d}(n-1, f), \ldots, \mathbf{d}(0, f), x(n, f), \ldots, x(0, f), \\ \underline{\mathbf{H}}(f), \underline{\mathbf{G}}(f) \sim \mathcal{N}_{\mathbb{C}}\left(\mathbf{0}, \mathbf{R}_{\mathbf{d d}}(n, f)\right) . \end{array}  (48) \]

  訊號模型在條件上與源分離的區域性高斯建模框架相同[37]。然而,這一框架並不限制導致排列模糊的PSD或SCMs(見第二節)。相反,在每次更新線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)之後,我們建議使用Nugraha等人的NN-EM 演算法的一次迭代來更新目標和剩餘訊號\(\mathbf{s}_{\mathrm{e}}(n, f), \mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)[39]的功率譜密度和SCMs。在E-step中,這四個源\(\mathbf{c}(n, f)\)中的每一個被估計為:

\[\widehat{\mathbf{c}}(n, f)=\mathbf{W}_{c}(n, f) \mathbf{r}(n, f)  (49) \]

以及它的二階後驗矩\(\widehat{\mathbf{R}}_{c}(n, f)\)為:

\[\widehat{\mathbf{R}}_{c}(n, f)=\widehat{\mathbf{c}}(n, f) \widehat{\mathbf{c}}(n, f)^{H}+\left(\mathbf{I}-\mathbf{W}_{c}(n, f)\right) v_{c}(n, f) \mathbf{R}_{c}(f)  (50) \]

在M-step中,我們考慮SCMs \({\mathbf{R}}_{c}(f)\) [42]的加權更新形式:

\[\mathbf{R}_{c}(f)=\left(\sum_{n=0}^{N-1} w_{c}(n, f)\right)^{-1} \sum_{n=0}^{N-1} \frac{w_{c}(n, f)}{v_{c}(n, f)} \widehat{\mathbf{R}}_{c}(n, f)  (51) \]

其中\(w_{c}(n, f)\)表示源\(\mathbf{c}(n, f)\)的權重。當\(w_{c}(n, f)=1\)時,(51)簡化為精確的EM演算法[37]。這裡,我們使用\(w_{c}(n, f)=v_{c}(n, f)\)[42],[43]。經驗表明,這種加權技巧減輕了某些時間-頻率點中的不準確估計,並增加了\(v_{c}(n, f)\)較大的點的重要性。由於PSD受到約束,我們還需要約束\({\mathbf{R}}_{c}(f)\),以便只對源的空間資訊進行編碼。我們通過在每次更新後歸一化\({\mathbf{R}}_{c}(f)\)來修改(51)[42]:

\[\mathbf{R}_{c}(f) \leftarrow \frac{M}{\operatorname{tr}\left(\mathbf{R}_{c}(f)\right)} \mathbf{R}_{c}(f)  (52) \]

  四個源的功率譜密度\(v_{c}(n, f)\)使用一個表示為\(\mathrm{NN}_{i}\)的預處理神經網路聯合更新,\(i \geq 1\)為迭代指數。下文第四節介紹了\(\mathrm{NN}_{i}\)的輸入、目標和架構。

  5)最終早期近端分量\(\mathbf{s}_{e}(n, f)\)的估計:一旦所提出的迭代優化演算法在I次迭代後收斂,我們就有了PSDs\(v_{c}(n, f)\)、SCMs \({\mathbf{R}}_{c}(f)\)和去混響濾波器\(\underline{\mathbf{G}}(f)\)的估計。我們可以對神經網路支援的BCA演算法進行一次迭代,得到最終的濾波器\(\underline{\mathbf{H}}(f), \underline{\mathbf{G}}(f)\)\(\mathbf{W}_{s_{\mathrm{e}}}(n, f)\)。最終,我們獲得目標估計值\(\widehat{\mathbf{s}}_{\mathrm{e}}(n, f)\)使用(23)、(24)和(49)。關於演算法的詳細偽碼,請參考支援檔案[41,第3.5節]。

4 神經網路譜模型

  在本節中,我們定義了用於初始化和更新目標和剩餘功率譜密度的輸入、目標和神經網路體系結構。

A 目標

  估計\(\sqrt{v_{c}(n, f)}\)比估計功率譜\(v_{c}(n, f)\)提供更好的結果,因為平方根壓縮了訊號動態[39]。因此我們定義\(\left[\sqrt{v_{s_{\mathrm{e}}}(n, f)} \sqrt{v_{s_{\mathrm{r}}}(n, f)} \sqrt{v_{z_{\mathrm{r}}}(n, f)} \sqrt{v_{b_{\mathrm{r}}}(n, f)}\right]\)作為神經網路的目標。Nugraha等人把ground truth PSDs定義為\(v_{c}(n, f)=\frac{1}{M}\|\mathbf{c}(n, f)\|^{2}\) [39]。因此,我們需要知道\(v_{c}(n, f)=\frac{1}{M}\|\mathbf{c}(n, f)\|^{2}\) 源訊號\(\mathbf{c}(n, f)\)

  ground truth潛在訊號\(\mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)未知。然而,在訓練和驗證集合中,我們可以知道早期近端訊號\(\mathbf{s}_{\mathrm{e}}(n, f)\)\(\mathbf{s}_{1}(n, f), \mathbf{y}(n, f)\)\(\mathbf{b}(n, f)\)的ground truth (見第五節)。當線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)等於零時,後三個訊號分別對應於\(\mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)的值。為了匯出ground truth潛在訊號\(\mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\),我們建議使用類似於神經網路支援的BCA演算法(見圖      4)的迭代過程,其中線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)被初始化為零。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖4 提出的BCA演算法的流程圖

  在每次迭代中,我們分別在圖4的步驟2和3中匯出線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)。我們通過將線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)應用於訊號\(\mathbf{s}_{1}(n, f), \mathbf{y}(n, f)\)\(\mathbf{b}(n, f)\)中的每一個來更新\(\mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\),如(26)、(27)和(28)所示。為了獲得ground truth PSDs \(v_{c}(n, f)\),我們在圖4的步驟4用一個使用Duong等人的EM演算法[37]的預言估計來代替神經網路EM。關於迭代程式的詳細虛擬碼,請參考支援檔案[41,第4.1節].經過幾次迭代,我們觀察到潛變數\(\mathbf{s}_{\mathrm{r}}(n, f), \mathbf{z}_{\mathrm{r}}(n, f)\)\(\mathbf{b}_{\mathrm{r}}(n, f)\)的收斂。特別是,我們發現在迭代過程中,回聲損耗會降低。圖5示出了會聚後的功率譜圖的例子。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖5 訓練集中ground truth 目標和剩餘訊號功率譜密度的示例

B 輸入

  我們使用振幅譜作為\(\mathrm{NN}_{0}\)\(\mathrm{NN}_{i}\)的輸入,而不是功率譜,因為當目標是振幅譜時,它們被證明能提供更好的結果\(\sqrt{v_{c}(n, f)}\) [39]。我們連線這些光譜以獲得輸入。

  圖6總結了不同的輸入。我們首先考慮遠端訊號幅度\(|x(n, f)|\)和單通道訊號幅度\(|\widetilde{d}(n, f)|\)從相應的多通道混合訊號!\(\mathbf{d}(n, f)\)獲得,如[42]:

\[|\widetilde{d}(n, f)|=\sqrt{\frac{1}{M}\|\mathbf{d}(n, f)\|^{2}}  (53) \]

  另外,我們使用振幅譜\(|\widetilde{y}(n, f)|,|\widetilde{e}(n, f)|\)\(\left|\widetilde{e}_{1}(n, f)\right|\)\(|\widetilde{r}(n, f)|\)從每個線性濾波步驟後的相應多通道訊號中獲得\(\widehat{\mathbf{y}}(n, f), \mathbf{e}(n, f)\)\(\widehat{\mathbf{e}}_{1}(n, f), \mathbf{r}(n, f)\)

  事實上,在我們以前關於單通道回聲減少的工作中,使用估計的回聲幅度作為額外的輸入被證明可以改善估計[26]。我們將上述輸入稱為第一類輸入。我們考慮額外的輸入來改進估計。特別是,我們使用源無約束功率譜密度的幅值譜\(\sqrt{\left.v_{c}^{\text {unc }}(n, f)\right)}\)獲得如下:

\[v_{c}^{\mathrm{unc}}(n, f)=\frac{1}{M} \operatorname{tr}\left(\mathbf{R}_{c}(f)^{-1} \widehat{\mathbf{R}}_{c}(n, f)\right)  (54) \]

  事實上,這些輸入部分包含了源的空間資訊,並已被證明可以改善源分離的結果[39]。我們將從(54)獲得的輸入稱為第二類輸入。對於\(\mathrm{NN}_{0}\),我們只使用第一類輸入,因為第二類輸入在初始化時不可用。對於\(i \geq 1\)\(\mathrm{NN}_{i}\),我們使用I型和II型輸入。

C 代價函式

  讓\(|\widetilde{c}(n, f)|\)表示源\(\mathbf{c}(n, f)\)的NN輸出。如上所述,我們使用\(\mathrm{NN}_{0}\)\(\mathrm{NN}_{i}\)來聯合預測4個光譜引數\(\left[\left|\widetilde{s}_{\mathrm{e}}(n, f)\right|\left|\widetilde{s}_{\mathrm{r}}(n, f)\left\|\widetilde{z}_{\mathrm{r}}(n, f)\right\| \widetilde{b}_{\mathrm{r}}(n, f)\right|\right]\)(見圖6)。我們使用Kullback-Leibler散度作為訓練損失,這已被證明在其他幾種損失中為神經網路訓練提供了最佳結果[39]:

\[\begin{array}{r} \mathcal{D}_{K L}=\frac{1}{4 F N} \sum_{c, n, f}\left(\sqrt{v_{c}(n, f)} \log \frac{\sqrt{v_{c}(n, f)}}{|\widetilde{c}(n, f)|}\right. \\ \left.-\sqrt{v_{c}(n, f)}+|\widetilde{c}(n, f)|\right) \end{array}  (55) \]

D 結構

  神經網路遵循長短期記憶(LSTM)網路架構。我們考慮2個LSTM層(見圖6)。\(\mathrm{NN}_{0}\)的輸入數量為6F,\(\mathrm{NN}_{i}\)的輸入數量為10F。輸出數量為4F。這裡不考慮其他網路體系結構,因為不同體系結構之間的效能比較超出了本文的範圍。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖6 NNi的體系結構,序列長度為32個時間步長,F=513個頻率點

5 實驗協議

  在本節中,我們描述了用於評估所提出演算法的資料集、度量、基線和超引數設定。

A 概要

  我們考慮一個場景,在一個嘈雜的環境中,一個近端揚聲器和一個遠端揚聲器在1.5米的距離上使用擴音通訊系統進行互動。每個話語有8秒的持續時間,包含4秒的近端語音和4秒的遠端語音,重疊2秒。背景噪聲出現在整個話語期間。因此,每個話語由4個2秒的週期組成,如圖7所示:1)僅噪聲,2)噪聲和近端語音,3)噪聲,近端和遠端語音,4)噪聲和遠端語音。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖7 語音示例(僅顯示一個通道)

B 資料集

  1)總體描述:我們為訓練、驗證和測試建立了三個不相交的資料集,其特徵總結在表1中。我們考慮了M = 3個麥克風。對於每個資料集,我們使用純淨的語音和噪聲訊號作為基礎材料,分別記錄或模擬聲學回聲\(\mathbf{y}(t)\)、近端語音\(\mathbf{s}(t)\)和噪聲\(\mathbf{b}(t)\),並計算混合訊號\(\mathbf{d}(t)\),如(15)所示。該協議要求獲得地面真實目標和剩餘訊號,以便進行訓練和評估,而對於這些ground truth訊號未知的真實世界記錄,這是不可能的。訓練集和驗證集對應於時不變聲學條件,而測試集包括時不變子集和時變子集。記錄和模擬引數(例如模擬房間特徵、聲源位置)在我們的配套技術報告[41,第7.1節]中有詳細說明]。

表1 資料安全測試特徵

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

  a)純淨的語音和噪音訊號:純淨的語音訊號取自Librispeech 語料庫[44]的360個子集,其中包括921名平均每人閱讀書籍25分鐘的演講者。我們選擇了262名演講者,並將他們分成131對不相交的組進行訓練、驗證和測試。我們交替考慮每個說話者是近端還是遠端,併為每對選擇幾個不重疊的4-s語音樣本。每個4-s樣本在整個資料集中僅使用一次。關於噪音訊號,我們考慮了6種家庭噪音:牙牙學語、洗碗機、冰箱、微波爐、吸塵器和洗衣機。我們從1.7小時的YouTube視訊中隨機選擇78個不重疊的8秒噪聲樣本,並將它們分組為不相交的子集,用於訓練、驗證和測試。

  b)為了建立聲學回聲\(\mathbf{y}(t)\),Togami等人將遠端語音訊號\(x(t)\)與不包含任何非線性的模擬回聲路徑\(\mathbf{a}_{y}(\tau)\)進行卷積[19]。在真正的擴音系統中,聲學回聲包含由揚聲器的非線性響應、外殼振動和放大引起的硬限幅效應引起的非線性(參見第二章)。為了實現更真實的測試條件,我們通過記錄從揚聲器到真實擴音系統麥克風的聲學反饋來建立聲學回聲。遠端的語音是用Triby以16千赫的速率播放和錄製的,Triby是Invoxia開發的一種智慧揚聲器裝置。回聲記錄設定的配置在圖8中給出。在表2中列出的4個不同大小和混響時間(\(RT_{60}\))的房間中,用相同的Triby進行記錄。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖8 測試集的記錄設定

表2 房間特徵

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

  c)混響近端語音和噪聲:\(\mathbf{s}(t)\)\(\mathbf{b}(t)\)的建立過程因每個資料集而異,在以下小節中有所描述。

  2)訓練集:對於訓練集,回聲記錄在1號、2號和3號房間進行(見表2)。為了產生混響近端語音\(\mathbf{s}(t)\),我們將消聲近端語音\(u(t)\)與模擬的近端RIRs \(\mathbf{a}_{s}(\tau)\)進行卷積,以使用Roomsimove工具箱匹配回聲記錄屬性[45][41,7.1節]。在用於訓練的79對揚聲器中,54對用於1號和2號房間。我們播放並錄製了4536個遠端訊號,並在這兩個房間中的每個房間模擬了4536個近端RIR。剩下的25雙用在3號房間。我們播放並錄製了4500個遠端訊號,並在這個房間裡模擬了4500個近端RIRs。

  為了產生噪聲訊號\(\mathbf{b}(t)\),我們對用於訓練的36個噪聲樣本(每種噪聲型別6個)中隨機選擇的噪聲樣本與從42個測得的RIR中隨機選取的兩個不同RIR的尾部平均值進行卷積。這個過程近似於空間擴散噪聲訊號。為了獲得42個已測量的RIR,我們在1號、2號和3號房間各測量了14個RIR。

  記錄的遠端語音、近端語音和噪聲訊號的電平是隨機選擇的,使得SER從-45dB變化到+6dB,SNR從-21dB變化到+24 dB。這些條件非常具有挑戰性,尤其是當混響在混響近端語音s(t)中占主導地位時。我們總共獲得了13572個話語,相當於大約32小時的音訊。

  3) 驗證集:驗證集的生成方式與訓練集類似,使用27個說話人對和36個不在訓練集中的噪聲樣本。回聲記錄是在1號和2號房間完成的,近端RIRs的模擬類似於訓練集程式。我們播放並錄製了4536個遠端訊號,並在每個房間模擬了4536個近端RIRs。為了建立擴散噪聲,我們使用了與訓練集中相同的42個測量的RIRs。記錄的遠端語音、近端語音和噪聲訊號的水平被選擇在與訓練集相同的範圍內,導致相同的挑戰性的SER和SNR條件。我們總共獲得了4536個話語,大約相當於10個小時的音訊。

  4)時不變測試集:時不變測試集僅由真實記錄構建,使用25個說話人對和6個既不在訓練集也不在驗證集中的噪聲樣本。使用圖8所示的設定,回聲、近端語音和噪聲都被記錄在房間4中(見表2)。混響近端語音\(\mathbf{s}(t)\)是通過用Yamaha MSP5 Studio揚聲器以單個響度播放消聲語音獲得的。噪聲訊號\(\mathbf{b}(t)\)是通過選取一個隨機的原始噪聲訊號,並通過4個Triby揚聲器同時播放獲得的。該過程產生的噪聲訊號比訓練和驗證集中的噪聲訊號更不擴散。記錄的電平是這樣的,結果的SER從-45分貝變化到7分貝,SNR從-20分貝變化到+13分貝。這些具有挑戰性的條件包含在訓練和驗證集合中。我們播放並記錄了4500個遠端語音、近端語音和噪聲訊號,因此我們總共獲得了4500個8秒的話語,相當於10個小時的音訊。

  5)時變測試集:為了評估我們在時變聲學條件下的方法,我們還考慮了近端揚聲器發言4秒鐘、移動到不同位置並再次發言4秒鐘的場景。為了做到這一點,我們將來自時不變測試集的8-s近端和回聲記錄連線成對,這些記錄對應於相同的近端和遠端揚聲器和麥克風陣列位置,但是對應於播放近端語音的揚聲器的兩個不同位置。這兩個記錄加起來有一個16秒的記錄噪聲訊號。這導致了2250個16秒的話語或大約10小時的音訊。

C 評估指標

  1)早期近端元件:估計的早期近端訊號\(\widehat{\mathbf{s}}_{\mathrm{e}}(t)\)有5種成分:

\[\widehat{\mathbf{s}}_{\mathrm{e}}(t)=\mathbf{s}_{\mathrm{e}}^{\text {post }}(t)+\mathbf{s}_{1}^{\text {post }}(t)+\mathbf{y}^{\text {post }}(t)+\mathbf{b}^{\text {post }}(t)+\mathbf{s}_{\mathrm{e}}^{\text {art }}(t)  (56) \]

其中\(\mathbf{s}_{\mathrm{e}}^{\text {post }}(t)\)是潛在衰減的早期近端訊號,\(\mathrm{s}_{1}^{\text {post }}(t), \mathbf{y}^{\text {post }}(t)\)\(\mathbf{b}^{\text {post }}(t)\)是後殘餘失真源,理想情況下等於零向量,\(\mathbf{s}_{e}^{\operatorname{art}}(t)\)表示早期近端訊號\(\mathbf{s}_{e}(t)\)中引入的偽像。估計目標的5個組成部分的定義\(\widehat{\mathbf{s}}_{\mathrm{e}}(t)\)是Le Roux等人在降低噪聲中對多個失真源的分量定義的擴充套件[46]。有關元件的詳細推導,請參考支援文件[第41,7.2節]

  2)定義計量指標:在單通道情況下(M = 1),客觀指標總結在表3中。在多通道情況下(M>1),我們分別計算每個通道M上的每個度量,並對M個通道的結果進行平均。

表3 評估指標。公式是在單通道情況下給出的(M=1)

  為簡明起見,通道指數M被省略

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

  我們從整體失真的角度來評估所提出的聯合方法,整體失真是用比例不變的訊號失真比來測量的(SI-SDR)[46]。整體失真考慮了三個失真源和偽像。為了分析總失真在失真源和偽像上的分佈,我們使用了5個額外的度量。為了減少回聲,我們使用了SER和回聲損耗增強(ERLE)[3]。去混響是通過早期到晚期混響比(ELR)[2]來評估的。因為早期反射是要估計的目標訊號的一部分,所以我們使用這個度量來代替直接混響比(DRR)[2]。為了降低噪聲,我們使用SNR。偽像是用尺度不變的訊號偽像比來測量的(SI-SAR) [46]。

  3)評估週期:在單通話(僅近端語音)和雙通話(同時進行近端和遠端語音)期間,評估訊號SI-SDR, ELR, SNR 和 SI-SAR。僅在雙向通話期間評估SER,而在雙向通話和遠端通話(僅遠端通話)期間評估ERLE。

  由於效能可能因最大訊號回聲的存在而異,我們分別計算近端通話、雙端通話和遠端通話的指標。具體而言,每個指標取決於一個比例因子\(\gamma_{c}\) [41]。我們假設在每個近端通話、雙向通話或遠端通話期間,\(\gamma_{c}\) 是恆定的。然而,\(\gamma_{c}\) 可能在不同時期有所不同。最後,我們以分段訊雜比的方式對所有周期的每個度量進行平均[47]。

  4) Ground Truth訊號:上述所有指標均基於Ground Truth訊號\(\mathbf{s}_{\mathrm{e}}(t), \mathbf{s}_{\mathrm{l}}(t), \mathbf{y}(t)\) et \(\mathbf{b}(t)\)(見表3)。資料集生成過程很容易為回聲\(\mathbf{y}(t)\)和噪聲\(\mathbf{b}(t)\)提供Ground Truth訊號。為了定義目標\(\mathbf{s}_{\mathrm{e}}(t)\)和後期混響\(\mathbf{s}_{1}(t)\)的Ground Truth訊號,我們將混合時間設定為\(t_{\mathrm{e}}=64 \mathrm{~ms}\)。我們使用(8)計算這兩個分量,其中要求Ground Truth近端RIR\(\mathbf{a}_{s}(\tau)\)。在測試集中,由於Ground Truth近端RIR \(\mathbf{a}_{s}(\tau)\)是未知的,我們使用由Yoshioka等人提出的當\(\mathbf{a}_{s}(\tau)\)未知時對ELR的評估程式來匯出它[8,第七節.A] [30,第六節,A]。該評估程式通過在混響近端語音\(\mathbf{s}(t)\)(輸出訊號)和消聲近端語音\(u(t)\)(輸入訊號)之間執行MMSE優化來確定Ground Truth \(\mathbf{a}_{s}(\tau)\)

D 基線

  此後,我們將我們的聯合神經網路支援的方法稱為神經網路聯合。我們將其與四個基線進行比較:

  1) Togami:我們對 Togami等人的方法的實現[19],

  2)級聯:一種級聯方法,其中回聲消除濾波器\(\underline{\mathbf{H}}(f)\)、去混響濾波器\(\underline{\mathbf{G}}(f)\)和維納後置濾波器\(\mathbf{W}_{s_{\mathrm{e}}}(n, f)\)被相繼估計和應用。回聲消除依賴於SpeexDSP,它實現了Valin自適應方法,特別適用於時變條件48。去混響依賴於我們對WPE [29],[30]的實現(見第二節)。多通道維納後濾波器是使用我們的實現Nugraha等人的神經網路EM方法[39]計算的(見第二節)。

  3)神經網路並行:神經網路聯合的變體,其中回聲消除濾波器\(\underline{\mathbf{H}}(f)\)和去混響濾波器\(\underline{\mathbf{G}}(f)\)被並行應用,如Togami 等人的方法(見圖2),

  4)神經網路級聯:級聯的一種變體,其中回聲消除濾波器\(\underline{\mathbf{H}}(f)\)是使用類似於神經網路聯合的神經網路支援的方法而不是Valin自適應方法來估計的。由於在多通道情況下,WPE去混響與其神經網路支援的對應物類似[32],神經網路級聯對應於神經網路聯合的級聯變體,它使用神經網路支援的優化演算法分別估計每個濾波器。

  關於神經網路並行和神經網路級聯的模型和優化演算法的詳細描述,請參考支援檔案[41,第5和6節]。

E 超引數設定

  三種方法的超引數設定如下。

  1)線性濾波器的初始化:對於回聲消除,我們通過在\(\mathbf{d}(n, f)\)的每個通道上應用SpeexDSP來計算\(\underline{\mathbf{H}}_{0}(f)\)。由於SpeexDSP依賴於半重疊的矩形STFT視窗,我們使用長度為512和跳躍大小為256的視窗。我們將時域中的濾波器長度設定為0.208 s,即K=13幀。由於SpeexDSP是一種線上演算法,我們對每個話語應用兩次以確保收斂。對於去混響,我們通過對SpeexDSP輸出的訊號\(\mathbf{e}(t)\)進行3次WPE迭代來計算\(\underline{\mathbf{G}}_{0}(f)\)。我們使用漢寧窗長度為1024、跳躍大小為256的STFT。我們將時域中的濾波器長度設為0.208 s,即L=10幀,延遲設為\(\Delta=3\)幀。

  2)神經網路的超引數:我們考慮1026個單位作為LSTM結構的隱藏層。關於啟用函式,我們使用整流線性單位(ReLU)表示層的單元狀態,使用sigmoids表示門。神經網路訓練是通過反向傳播完成的,小批量大小為16個序列,固定序列長度為32幀,Adam引數更新演算法具有預設設定[49]。為了避免長序列的梯度爆炸,我們使用閾值為1.0的梯度裁剪。當驗證集的損失在5個epoch內停止減少時,停止訓練。

  3)神經網路的超引數聯合:STFT係數是用長度為1024和跳躍大小為256的漢寧窗計算的,得到F=513個頻率點。回聲消除濾波器的長度\(\underline{\mathbf{H}}(f)\) (時域中為0.208 s)現在對應於K=10幀。去混響濾波器\(\underline{\mathbf{G}}(f)\) 的超引數與WPE的相同。在訓練時,我們執行迭代程式的3次迭代,以獲得\(\underline{\mathbf{H}}(f)\) 功率譜密度(見第四章)。在測試時,我們對提出的神經網路支援的BCA演算法進行了I = 3次迭代,每次迭代1次空間和1次頻譜更新(見圖4)。

  4) Togami的超引數: Togami要求線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)的初始值,混響近端語音的PSDs\(v_{s}(n, f)=\frac{1}{M}\|\mathbf{s}(n, f)\|^{2}\)和噪聲訊號\(v_{b}(n, f)=\frac{1}{M}\|\mathbf{b}(n, f)\|^{2}\)。我們通過在\(\mathbf{d}(n, f)\)上分別應用SpeexDSP和WPE來初始化\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\),使用與上面相同的超引數。由於作者沒有說明如何初始化PSD[19],我們使用類似於\(\mathrm{NN}_{0}\)的神經網路來估計它們。\(\left|\widetilde{e}_{1}(n, f)\right|\)替換為\(\left|\widetilde{d}_{1}(n, f)\right|\)類似於(53)從相應的多通道訊號獲得\(\widehat{\mathbf{d}}_{1}(n, f)=\sum_{l=\Delta}^{\Delta+L-1} \mathbf{G}(l, f) \mathbf{d}(n-l, f)\)(見圖2)。所有SCMs都被初始化為\(\mathbf{I}_{M}\)。我們使用與我們的方法相同的STFT超引數和K、L和\(\Delta\)值,對Togami的EM演算法進行了I=3次迭代。

  5)級聯超引數:我們計算並固定線性濾波器為\(\underline{\mathbf{H}}(f)=\underline{\mathbf{H}}_{0}(f)\)\(\underline{\mathbf{G}}(f)=\underline{\mathbf{G}}_{0}(f)\),其超引數與神經網路聯合的超引數相同。用於回聲消除的\(\underline{\mathbf{H}}_{0}(f)\)在時變條件下特別有效(見第二章)。神經網路的結構和輸入與神經網路連線中的相同, ground truth 功率譜密度的計算使用相同的程式,其中線性濾波器固定為\(\underline{\mathbf{H}}(f)=\underline{\mathbf{H}}_{0}(f)\)\(\underline{\mathbf{G}}(f)=\underline{\mathbf{G}}_{0}(f)\)(見第四章)。請注意,由於固定的線性濾波器,\(|\widetilde{y}(n, f)|,|\widetilde{e}(n, f)|,\left|\widetilde{e}_{1}(n, f)\right|\)\(|\tilde{r}(n, f)|\)的I型輸入在EM迭代中保持固定。

  6)神經網路並行的超引數:我們用與神經網路聯合相同的超引數計算線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)。神經網路體系結構和輸入與神經網路連線中的相同,除了\(\left|\widetilde{e}_{1}(n, f)\right|\)的I型輸入被\(\left|\tilde{d}_{1}(n, f)\right|\)代替(見第五節-E4)。 ground truth 功率譜密度的計算方法與神經網路聯合法相同,但線性濾波器是並行應用的[41]。我們初始化\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)類似於Togami。

  7)神經網路級聯的超引數:所有的濾波器都是用與級聯相同的超引數計算的。對於回聲消除,我們通過應用神經網路聯合的僅回聲變數來計算\(\underline{\mathbf{H}}_{0}(f)\)。為了估計\(\underline{\mathbf{H}}_{0}(f)\),神經網路的結構和輸入與神經網路連線中的相同,沒有第一類輸入\(\left|\widetilde{e}_{1}(n, f)\right|\)\(|\tilde{r}(n, f)|\)與去混響有關。我們通過在\(\mathbf{d}(n, f)\)上應用SpeexDSP來初始化估計\(\underline{\mathbf{H}}_{0}(f)\)的僅回聲變數,其中\(\mathbf{d}(n, f)\)具有與上面相同的超引數。用於估計\(\underline{\mathbf{H}}_{0}(f)\)的純回聲變數的\(\mathbf{d}(n, f)\)功率譜密度是使用與無線性去混響的神經網路聯合相同的過程來計算的。在測試時,我們對僅回聲變數執行I = 3次迭代,以估計\(\underline{\mathbf{H}}_{0}(f)\),每次迭代I有1次空間和1次頻譜更新

  8)正則化:為了避免數值不穩定和病態矩陣,我們增加一個正則化標量\(\epsilon\) (51)中的分母和正則化矩陣\(\epsilon \mathbf{I}\)在(31)、(39)和(44)中的矩陣求逆。我們還將(55)中的訓練損失正規化,類似於Nugraha等人[39]。我們同樣規範了四種基線方法。正則化超引數固定為\(\epsilon=10^{-5}\)

6 結果和討論

  在這一節中,神經網路聯合是比較Togami,級聯,神經網路並行和神經網路級聯。首先,我們研究了神經網路輸入對NN-јoint效能的影響。然後,我們分析了五個近似不變條件的結果。最後,我們討論了它們在時變條件下的結果,並比較了它們的計算時間。線上提供音訊示例。

A 神經網路輸入分析

  圖9示出了NN-јoint的兩種神經網路輸入配置的平均訊雜比(SI-SDR):

  1)使用第一類和第二類輸入,2)僅使用第一類輸入。在時不變條件下,從神經網路支援的BCA演算法的2次迭代開始,配置1)在 SI-SDR方面優於配置2)。這證實了第二類輸入改善了源分離的效能[39]。注意,對於迭代\(i=0\),這兩種配置是相同的,因為第二類輸入在初始化時不可用(見圖6)。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖9 神經網路輸入的平均總失真結果(單位為分貝)

  在時變條件下,除迭代\(i=1\)外,這兩種配置在SI-SDR方面的表現相似。實際上,第二類輸入是用固定的SCMs \(\mathbf{R}_{c}(f)\)計算的,而目標訊號\(\mathbf{S}_{\mathrm{e}}\)的空間特性和近端殘餘混響隨時間變化。因此,第二類輸入不會提高配置1)中的神經網路估計。

B 時不變條件

  1)平均效能:表4顯示了與混合物d相關的指標。圖10顯示了時不變條件下的平均結果。所有的方法都有一個負的訊雜比,這是由具有挑戰性的測試集條件引起的。

表4 與測試裝置中的混合物訊號d相關的度量(單位為bB)。

  使用(15)中的分解來計算度量。ERLE=0分貝,因為沒有回聲減少。

  由於在未處理的目標se中沒有偽像,所以沒有計算 SI-SAR

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise
論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖10 時不變條件下的平均結果(分貝)

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖11 時變條件下的平均結果(分貝)

  NN-joint在SI-SDR方面優於Togami3.8dB。神經網路並行提供了關於這種效能差異的資訊,因為它以與Togami相同的順序應用線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\),但使用與神經網路聯合相似的訊號模型和優化演算法(見第二節-D)。神經網路並行在SI-SDR方面也比Togami高出3.8 dB。因此,我們提出的訊號模型和優化演算法解釋了SI-SDR與Togami的區別。雖然並行變體實現了比Togami更低的回聲、混響和噪聲降低,但它在目標\(\mathbf{S}_{\mathrm{e}}\)中引入了更低的退化。關於神經網路聯合和神經網路並行,一個接一個地應用線性濾波器\(\underline{\mathbf{H}}(f)\)\(\underline{\mathbf{G}}(f)\)僅修改總失真在回聲(更大的降低)、混響(更大的降低)和噪聲(更低的降低)上的分佈。

  NN-joint的效能優於級聯1.0分貝的SI-SDR。神經網路級聯提供了關於這種效能差異的資訊,因為它也使用了神經網路支援的回聲消除,如神經網路聯合,但分別估計每個濾波器。神經網路級聯在SI-SDR方面也優於微控制器1.0分貝。因此,在神經網路聯合中提出的神經網路支援的回聲消除解釋了與級聯的訊號干擾抑制的差異。關於濾波器的優化,聯合優化它們修改了總失真在回聲(更大的降低)、混響(較低的降低)和噪聲(較低的降低)上的分佈。

  從非正式的聽力測試中,我們可以看出,當\(\mathrm{SER} \leq-20\)時,在所有方法的雙向通話中,估計的目標語音\(\widehat{\mathbf{s}}_{\mathrm{e}}\)通常會高度衰減和失真。關於Togami,輕微的混響仍然存在,但噪音和回聲似乎完全消除了。但是,估計目標語音\(\widehat{\mathbf{s}}_{\mathrm{e}}\)比其他方法衰減和失真得多,尤其是在估計的目標語音\(\widehat{\mathbf{s}}_{\mathrm{e}}\)永遠聽不到的雙講期間。關於其他方法,後剩餘失真似乎比Togami更響亮,但這些方法之間的比較是困難的。

  2)系統元件的相互作用:雖然上述結果顯示了所有周期(近端通話、遠端通話和雙向通話)的平均效能,但我們需要進一步分析僅存在噪聲和混響時(即近端通話期間)以及回聲、混響和噪聲同時存在時(即雙向通話期間)的效能,以研究系統元件如何相互作用。我們放棄了對遠端談話的分析,因為在這種情況下目標\(\mathbf{S}_{\mathrm{e}}\)是不存在的。

  圖12示出了近端通話期間的結果。由於回聲不存在,SER和ERLE不被評估。所有的方法都有一個積極的SI-SDR。SI-SAR對所有方法也是積極的。神經網路聯合、神經網路並行和Togami之間的效能趨勢與所有時期的平均結果相似。神經網路級聯優於級聯+0.6分貝的SI-SDR。這是由於較大的去混響和噪聲降低,而目標\(\mathbf{S}_{\mathrm{e}}\)的退化程度相當。這可能是由於後過濾前的效能[41,8.1節]: NN-cascade中的線性去混響也比Cascade實現了更大的去混響和降噪。回聲消除的結果:由於去混響濾波器\(\underline{\mathbf{G}}(f)\)是時不變的,它在近端通話期間的效能也受到雙通話期間回聲消除的影響。在NN-cascade中,支援神經網路的回聲消除比級聯中的V alin回聲消除實現了更大的回聲減少。因此,神經網路級聯中的線性去混響能夠更大程度地降低其他失真訊號,即混響和噪聲。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖12 時不變條件下近端通話的結果(分貝)

  NN-cascade在近端通話時的SI-SDR方面也優於NN-joint。實際上,NN-joint中濾波器的聯合估計意味著在所有周期期間的效能折衷,以便減少所有失真訊號。在NN-cascade情況下,由於濾波器是單獨估計的,因此沒有效能上的折衷。因此,當一個失真源不存在時,NN-cascade可能表現更好。因此,在沒有回聲的近端通話中,NN-cascade具有更好的效能。總之,當只有混響和噪聲存在時,NN-joint不會提高效能,但與Cascade相比也不會降低效能。

  圖13顯示了雙向通話期間的結果。NN-joint、神經網路並聯和Togami之間的效能趨勢與所有時期的平均結果相似。NN-cascade優於Cascade 1.2分貝的SI-SDR。NN-joint優於NN-cascade 0.6分貝的SI-SDR。因此,在雙向通話過程中,濾波器的聯合優化和神經網路支援的NN-joint回聲消除解釋了SI-SDR的提升在NN-joint和Cascade之間。雖然NN-joint實現了比NN-cascade更低的去混響和降噪,但它實現了更大的回聲減少和更低的目標\(\mathbf{S}_{\mathrm{e}}\)退化。因此,當回聲、混響和噪聲同時存在時,NN-joint提高了效能

  從近端通話到雙向通話,NN-joint的SI-SDR降低了4.5分貝,NN-cascade為7分貝,Cascade為6.2分貝。我們得出結論,當回聲、混響和噪聲同時存在時,NN-joint提高了SI-SDR的魯棒性,而當僅存在混響和噪聲時,不會降低效能。

C 時變條件

  圖14顯示了時變條件下的平均結果。由於ELR, SNR 和 SAR類似於所有方法的時不變條件下的平均結果,我們從分析中丟棄這些指標,並在支援檔案中提供它們[41,第8.2節]。由於目標\(\mathbf{S}_{\mathrm{e}}\)和近端殘餘混響\(\mathbf{S}_{\mathrm{r}}\)的空間特性隨時間變化,而它們的SCMs \(\mathbf{R}_{c}(f)\)保持不變,因此對於所有方法,SI-SDR都低於時不變條件下的訊雜比(見圖10)。這也解釋了在時變條件下,兩種神經網路輸入配置的SI-SDR下降的原因(見圖9)。非正式聽力測試提供了與時不變條件下相同的觀察結果。

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

圖13 在時不變條件下的雙通話期間的結果(單位為分貝)

  NN-joint、神經網路並行和Togami之間的效能趨勢類似於時不變條件下的平均效能。NN-joint、NN-cascade和Cascade之間的趨勢也類似於時不變條件下的SI-SDR。然而,Cascade在這裡實現了最大的回聲減少。在回聲消除之後,以及在回聲消除和去激勵之後,Cascade也系統地實現了最大的回聲減少[41,8.1節]。這可以用Valin的回聲消除自適應方法來解釋,該方法是為時變條件而設計的48

D 計算時間

  我們放棄初始化,因為它對所有5種方法都是一樣的(見第五章)。我們計算目標\(\widehat{\mathbf{s}}_{\mathrm{e}}\)使用2.7 GHz Intel Core i5 CPU,發出8秒的聲音。表5顯示了這些方法與Cascade)方法相比的計算時間。NN-joint比NN-cascade快得多。因此,濾波器的聯合優化顯著減少了計算時間。另外,NN-parallel比NN-joint略快。由於Cascade是當今工業裝置中實現的方法之一,我們得出結論,NN-joint和NN-parallel都可以實時實現。

表5 與級聯相比的方法的計算時間(百分比)

論文翻譯:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise

7 總結

  提出了一種神經網路支援的BCA演算法,用於聯合多通道降低迴聲、混響和噪聲。該方法利用神經網路對回聲消除和去混響後的目標訊號和剩餘訊號的頻譜進行聯合建模。我們根據智慧揚聲器在各種情況下獲得的聲學回聲、混響和噪聲的真實記錄來評估我們的系統。當回聲、混響和噪聲同時存在時,所提出的方法在整體失真減少方面優於Cascade方法和Togami等人的聯合減少方法,同時在僅存在混響和噪聲時,不降低效能。未來的工作將集中在迴圈版本的方法,以便更好地處理時變條件。

8 參考文獻

[1] E. Vincent, T. Virtanen, and S. Gannot, Audio Source Separation and Speech Enhancement. Hoboken, NJ, USA: Wiley, 2018.
[2] P. A. Naylor and N. D. Gaubitch, Eds., Speech Dereverberation. Springer, 2010.
[3] E. Hänsler and G. Schmidt, Acoust. Echo and Noise Control: a Pract. Approach. Wiley-Interscience, 2004.
[4] J. S. Erkelens and R. Heusdens, “Correlation-based and model-based blind single-channel late-reverberation suppression in noisy time-varying acoustical environments,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1746–1765, Sep. 2010.
[5] I. Kodrasi and S. Doclo, “Joint dereverberation and noise reduction based on acoustic multi-channel equalization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 4, pp. 680–693, Apr. 2016.
[6] O. Schwartz, S. Gannot, and E. A. P. Habets, “Multi-microphone speech dereverberation and noise reduction using relative early transfer functions,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 2,pp. 240–251, Feb. 2015.
[7] T. Dietzen, S. Doclo, M. Moonen, and T. van Waterschoot, “Joint multimicrophone speech dereverberation and noise reduction using integrated sidelobe cancellation and linear prediction,” in Proc. IWAENC, 2018,pp. 221–225.
[8] T. Yoshioka, T. Nakatani, M. Miyoshi, and H. G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 69–84, Jan. 2011.
[9] H. Kagami, H. Kameoka, and M. Yukawa, “Joint separation and dereverberation of reverberant mixtures with determined multichannel nonnegative matrix factorization,” in Proc. ICASSP, 2018, pp. 31–35.
[10] R. Le Bouquin Jeanns, P. Scalart, G. Faucon, and C. Beaugeant, “Combined noise and echo reduction in hands-free systems: A survey,” IEEE Trans. Speech Audio Process., vol. 9, no. 8, pp. 808–820, Nov. 2001.
[11] S. Gustafsson, R. Martin, P. Jax, and P. Vary, “A psychoacoustic approach to combined acoustic echo cancellation and noise reduction,” IEEE Trans. Speech Audio Process., vol. 10, no. 5, pp. 245–256, Jul. 2002.
[12] W. Herbordt, S. Nakamura, and W. Kellermann, “Joint optimization of LCMV beamforming and acoustic echo cancellation for automatic speech recognition,” in Proc. ICASSP, 2005, pp. III–77–III–80.
[13] G. Reuven, S. Gannot, and I. Cohen, “Joint noise reduction and acoustic echo cancellation using the transfer-function generalized sidelobe canceller,” Speech Commun., vol. 49, no. 7–8, pp. 623–635, 2007.
[14] M. Togami, Y. Kawaguchi, and R. Takashima, “Frequency domain acoustic echo reduction based on Kalman smoother with time-varying noise covariance matrix,” in Proc. ICASSP, 2014, pp. 5909–5913.
[15] K. Nathwani, “Joint acoustic echo and noise cancellation using spectral domain Kalman filtering in double talk scenario,” in Proc. IWAENC, 2018, pp. 326–330.
[16] R. Takeda, K. Nakadai, T. Takahashi, K. Komatani, T. Ogata, and H. G. Okuno, “ICA-based efficient blind dereverberation and echo cancellation method for barge-in-able robot audition,” in Proc. ICASSP, 2009, pp. 3677–3680.
[17] M. Togami and Y. Kawaguchi, “Speech enhancement combined with dereverberation and acoustic echo reduction for time varying systems,” in Proc. SSP, 2012, pp. 357–360.
[18] E. A. P. Habets, S. Gannot, I. Cohen, and P. C. Sommen, “Joint dereverberation and residual echo suppression of speech signals in noisy environments,” IEEE Trans. Audio, Speech, Lang. Process., vol. 16, no. 8, pp. 1433–1451, Nov. 2008.
[19] M. Togami and Y. Kawaguchi, “Simultaneous optimization of acoustic echo reduction, speech dereverberation, and noise reduction against mutual interference,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 11, pp. 1612–1623, Nov. 2014.
[20] D. S. Williamson and D. Wang, “Speech dereverberation and denoising using complex ratio masks,” in Proc. ICASSP, 2017, pp. 5590–5594.
[21] Y. Zhao, Z.-Q. Wang, and D. Wang, “A two-stage algorithm for noisy and reverberant speech enhancement,” in Proc. ICASSP, 2017, pp. 5580–5584.
[22] H. Seo, M. Lee, and J.-H. Chang, “Integrated acoustic echo and background noise suppression based on stacked deep neural networks,” Appl. Acoust., vol. 133, pp. 194–201, 2018.
[23] H. Zhang and D. Wang, “Deep learning for acoustic echo cancellation innoisy and double-talk scenarios,” in Interspeech, 2018, pp. 3239–3243.
[24] F. Yang, G. Enzner, and J. Yang, “Statistical convergence analysis for optimal control of DFT-domain adaptive echo canceler,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 25, no. 5, pp. 1095–1106, May 2017.
[25] C. M. Lee, J. W. Shin, and N. S. Kim, “DNN-based residual echo suppression,” in Proc. Interspeech, 2015, pp. 316–320.
[26] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Multiple-input neural network-based residual echo suppression,” in Proc. ICASSP, 2018, pp. 231–235.
[27] G. Enzner and P. Vary, “Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones,” Signal Process., vol. 86, no. 6, pp. 1140–1156, 2006.
[28] M. Togami and K. Hori, “Multichannel semi-blind source separation via local Gaussian modeling for acoustic echo reduction,” in Proc. EUSIPCO, 2011, pp. 496–500.
[29] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B. H. Juang, “Speech dereverberation based on variance-normalized delayed linear prediction,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1717–1731, Sep. 2010.
[30] T. Yoshioka and T. Nakatani, “Generalization of multi-channel linear prediction methods for blind MIMO impulse response shortening,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 10, pp. 2707–2720, Dec. 2012.
[31] A. Jukic, T. van Waterschoot, T. Gerkmann, and S. Doclo, “Multichannel linear prediction-based speech dereverberation with sparse priors,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 9, pp. 1509–1520, 2015.
[32] K. Kinoshita, M. Delcroix, H. Kwon, T. Mori, and T. Nakatani, “Neural network-based spectrum estimation for online WPE dereverberation,” in Proc. Interspeech, 2017, pp. 384–388.
[33] K. Furuya and A. Kataoka, “Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction,” IEEE Trans. Audio, Speech Lang. Process., vol. 15, no. 5, pp. 1579–1591, Jul. 2007.
[34] M. Togami, Y. Kawaguchi, R. Takeda, Y. Obuchi, and N. Nukaga, “Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 7, pp. 1369–1380, 2013.
[35] A. Cohen, G. Stemmer, S. Ingalsuo, and S. Markovich-Golan, “Combined weighted prediction error and minimum variance distortionless response for dereverberation,” in Proc. ICASSP, 2017, pp. 446–450.
[36] S. Gannot, E. Vincent, S. Markovich-Golan, and A. Ozerov, “A consolidated perspective on multimicrophone speech enhancement and source separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 25,no. 4, pp. 692–730, Apr. 2017.
[37] N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,”IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840,2010.
[38] A. Ozerov and C. Fvotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio,Speech, Lang. Process., vol. 18, no. 3, pp. 550–563, Mar. 2010.
[39] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio, Speech,Lang. Process., vol. 24, no. 9, pp. 1652–1664, 2016.
[40] S. Leglaive, L. Girin, and R. Horaud, “Semi-supervised multichannel speech enhancement with variational autoencoders and non-negative matrix factorization,” in Proc. ICASSP, 2019, pp. 101–105.
[41] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Joint DNN-based multichannel reduction of echo, reverberation and noise: Supporting document,” Inria, Tech. Rep. RR-9284, 2019. [Online]. Available:https://hal.inria.fr/hal-02372431
[42] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel music separation with deep neural networks,” in Proc. EUSIPCO, 2016, pp. 1748–1752.
[43] A. Liutkus, D. Fitzgerald, and Z. Rafii, “Scalable audio separation with light kernel additive modelling,” in Proc. ICASSP, 2015, pp. 76–80.
[44] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in Proc. ICASSP, 2015,pp. 5206–5210.
[45] E. Vincent and D. R. Campbell, “Roomsimove,” 2008. [Online]. Available:http://homepages.loria.fr/evincent/software/Roomsimove_1.4.zip
[46] J. Le Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, “SDR — Halfbaked or well done?” in Proc. ICASSP, 2019, pp. 626–630.
[47] P. C. Loizou, Speech Enhancement: Theory and Pract.. CRC Press, 2007.
[48] J. M. Valin, “On adjusting the learning rate in frequency domain echo cancellation with double-talk,” IEEE Trans. Audio, Speech, and Lang.Process., vol. 15, no. 3, pp. 1030–1034, 2007.
[49] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,”in Proc. ICLR, 2015.

相關文章