論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

建人類命運共同體發表於2022-03-29

論文地址:https://graz.pure.elsevier.com/en/publications/acoustic-echo-cancellation-with-cross-domain-learning

具有跨域學習的聲學回聲消除

摘要:

  本文提出了跨域回聲控制器(CDEC),提交給 Interspeech 2021 AEC-Challenge。該演算法由三個構建塊組成:(i) 時延補償 (TDC) 模組,(ii) 基於頻域塊的聲學回聲消除器 (AEC),以及 (iii) 時域神經網路 (TD-NN)用作後處理器。我們的系統獲得了 3.80 的整體 MOS 分數,而在 32 毫秒的系統延遲下僅使用了 210 萬個引數。

關鍵字:聲學回聲消除、神經網路、殘餘回聲消除

1 引言

  回聲消除 (AEC) 在當今的 VoIP 語音通訊和視訊會議系統中發揮著重要作用。由於室內聲學,在揚聲器和耳機麥克風、聽筒或任何其他用於語音通訊的音訊硬體之間會出現回聲。根據房間的混響時間,聲學回聲可能會非常突出,甚至會顯著降低語音清晰度和語音質量 [1]。這在擴音場景中尤其是一個問題 [2]。因此,高效的 AEC 解決方案是可靠語音通訊的重要組成部分。典型的 AEC 將揚聲器和麥克風之間的回聲脈衝響應 (EIR) 建模為線性 FIR 濾波器,並使用歸一化最小均方 (NLMS) 演算法 [3, 4] 自適應地調整該濾波器。許多實現需要語音活動檢測器 (VAD) 在雙方通話期間停止適應,即當近端和遠端說話者同時說話時 [3,5]。更復雜的實現通過使用狀態空間模型 [6] 或卡爾曼濾波器 [7] 來解釋雙方對話。然而,線性回聲模型不能考慮回聲路徑中的非線性失真,或麥克風拾取的附加噪聲。 SpeexDSP [8]、WebRTC [9] 或 PjSIP [10] 等商業 AEC 框架依賴於傳統的非線性回聲和噪聲去除方法,例如 Wienerfilters [11]、Volterra 核心 [12] 或 Hammerstein 模型 [13]。

  最近,已經提出神經網路用於非線性殘餘回聲和噪聲去除[14-19]。從深度學習的角度來看,這些任務可以看作是語音或音訊源分離問題 [2,14,18-23]。儘管該研究領域近年來進展迅速 [24, 25],但大多數基於 NN 的說話人分離演算法對計算的要求很高,沒有因果關係,並且不能在實時應用中工作。能夠進行實時處理的系統在逐幀的基礎上執行。特別是,迴圈神經網路 (RNN),如門控迴圈單元 (GRU) [26] 或長短期記憶 (LSTM) [27] 網路用於模擬人類語音中的時間相關性,同時遵守實時典型 AEC 應用的約束 [2, 19, 28]。類似的架構 [29-31] 已應用於實時訊號增強,作為對 Interspeech 2020 [32] 的深度噪聲抑制挑戰和 ICASSP AEC 挑戰 [33] 的貢獻。

  本文介紹了我們對 Interspeech 2021 AEC-Challenge 的貢獻,該挑戰由三個級聯模組組成:(i) 基於 PHAse 變換的廣義互相關 (GCCPHAT) [4] 的時延補償 (TDC) 模組,其中補償近端揚聲器和麥克風訊號之間的延遲。 (ii) 一種頻域狀態空間塊分割槽 AEC 演算法 [6],它去除了線性回波分量。 (iii) 時域神經網路 (TD-NN),它可以同時去除非線性殘餘回聲和附加噪聲。我們將我們的系統稱為跨域回聲控制器 (CDEC),因為它同時在頻域和時域中執行。我們模型的評估基於使用 ITU P.808 框架 [33] 的感知語音質量指標,該框架報告平均意見分數 (MOS)。此外,我們報告了其他指標,例如 MOSnet [34] 和 ERLE [35]。最後,我們還報告了我們的 CDEC 系統在每幀音訊資料的 MAC 操作方面的計算複雜性。

2 提出的系統

2.1 問題表述

  在典型的 AEC 系統中,有兩個輸入訊號可用: (i) 遠端麥克風訊號 x(t),由本地揚聲器播放。 (ii) 近端麥克風訊號 d(t),可描述為以下分量的疊加:

\[ d(t)=x\left(t-\Delta_{t}\right) * h(t)+s(t)+n(t)+v(t)  (1) \]

其中 \(h(t)\) 表示近端揚聲器和近端麥克風之間的 EIR,\(s(t)\) 是所需的近端揚聲器,$n(t) $ 是近端麥克風位置處的一些附加噪聲, \(v(t)\) 是由揚聲器或放大器中的非線性失真引起的殘餘回聲。遠端訊號 \(x(t)\) 和 EIR \(h(t)\) 的卷積由\(*\)運算子表示。請注意,遠端訊號延遲了未知的時間延遲\(\Delta_{t}\),這是由相應通訊裝置的音訊前端的延遲引起的。音訊驅動程式可能會引入進一步的延遲,該驅動程式通常使用中斷驅動的音訊資料塊處理。在現代聲音伺服器上,此延遲可以調整並由核心控制。但是,由於多工作業系統中的高系統負載,它可能會發生變化。圖 1 顯示了遠端和近端所涉及的訊號,以及我們為近端提出的跨域回波控制器 (CDEC)。它由三個模組組成:(i)基於 GCC-PHAT 的時延補償(TDC),(ii) 頻域狀態空間塊分割槽 AEC,以及 (iii) 時域後處理神經網路 (TD-NN)。下面,我們將詳細介紹這三個模組。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

圖 1:跨域回聲控制器 (CDEC) 的結構。

2.2 TDC模組

  通常,AEC 能夠將遠端訊號 \(x(t)\) 和近端訊號 \(d(t)\) 之間的時間延遲\(\Delta_{t}\)建模為濾波器權重中的前導零。然而,更實際的做法是在 AEC 之前明確補償此延遲,以保持建模的 EIR 較短,從而節省計算資源。雖然這種延遲可能是未知的,但我們堅持通常在實時音訊處理框架中做出的假設 [8-10]。特別是,我們假設延遲不超過1s,並且至少穩定10s。

  我們採用 GCC-PHAT 演算法 [4] 在頻域中比較遠端訊號\(x(t)\)和近端訊號\(d(t)\),即我們將互相關\(\Phi(l, k)\)評估為

\[ \Phi(l, k)=\Phi(l, k) \alpha+(1-\alpha) X(l, k) D(l, k)^{*}  (2) \]

其中\(X(l, k)\)\(D(l, k)\)分別表示訊號\(x(t)\)\(d(t)\)的頻域表示。時間幀用 \(l\) 表示,頻率視窗用 \(k\) 表示。平滑常數\(\alpha\)決定了準確度和對時間延遲\(\Delta_{t}\)突然變化的反應時間之間的權衡。該時間滯後估計為

\[ \Delta_{t}=\underset{t}{\operatorname{argmax}} \mathcal{F}^{-1} \frac{\Phi(l)}{|\Phi(l)|}  (3) \]

其中\(\mathcal{F}^{-1}\)表示逆 FFT,\(\Phi(l)=[\Phi(l, 1), \ldots, \Phi(l, K)]^{T}\),並且 \(K\) 是頻率視窗的數量。在\(f_{s} = 16\)kHz 時,1s 的最大延遲補償相當於所需的 FFT 大小為 16384 點。

2.3 AEC模組

  對於時間對齊的訊號\(x\left(t-\Delta_{t}\right)\)\(d(t)\),我們採用頻域狀態空間塊分割槽 AEC 演算法 [6],它操作塊\(\boldsymbol{x}^{\prime}(l)\)\(d^{\prime}(l)\)分別為近端揚聲器和麥克風訊號。每個塊使用各自時域訊號的最新 \(2T\) 最新樣本,即

\[ \begin{aligned} &\boldsymbol{x}^{\prime}(l)=x(t+n-2 T) \\ &\boldsymbol{d}^{\prime}(l)=d(t+n-2 T)  (4) \end{aligned} \]

其中\(n=\{0 \ldots 2 T-1\}\)

  請注意,為了簡化符號,我們使用 \(t\) 作為離散時間索引。塊重疊 50%,或時域中的 \(T\)個樣本。 AEC 將一個可能很長的回波尾分成 \(P\) 個分割槽,即

\[ \begin{aligned} Y(l, k) &=\sum_{p=0}^{P-1} X(l-p, k) W(p, k) \\ e^{\prime}(l) &=\boldsymbol{d}^{\prime}(l)-\mathcal{F}^{-1}\{\boldsymbol{Y}(l)\} \end{aligned}  (5) \]

其中\(W(p, k)\)表示濾波器權重的第\(p\)個塊。時域塊\(e^{\prime}(l)\)表示第 \(l\) 個時間幀的殘差訊號。為了避免混疊偽影,使用了重疊儲存方法 [4]。特別是,只有最後的 \(T\) 個樣本(即最近的樣本)用於重建時域殘差訊號 \(e(t)\),即

\[ e(t+n-T)=e^{\prime}(l, n+T)  (6) \]

其中,\(n=\{0 \ldots T-1\}\),因此,AEC 的總體系統延遲為 \(T\) 個樣本,而與使用的分割槽 \(P\) 的數量無關。為了模擬長達 0.25 秒的回聲尾,我們在式5中使用 \(P = 16\) 個塊。為了避免濾波器權重中的混疊,時域權重的每個塊的最後 \(T\) 個樣本是零填充的,即

\[ \begin{aligned} \boldsymbol{w}(p) &=\mathcal{F}^{-1}\{\boldsymbol{W}(p)\}, \\ w(p, n+T) &=0 \\ \boldsymbol{W}(p) & \leftarrow \mathcal{F}\{\boldsymbol{w}(p)\} \end{aligned}  (7) \]

其中,\(n=\{0 \ldots T-1\}\)

  濾波器權重\(W(p, k)\)的更新規則可以在 [6] 中找到。為了解釋由自發音量變化或近端揚聲器突然移動引起的 EIR 突然變化,我們使用第二組濾波器權重\(\hat{W}(p, k)\)作為陰影權重。演算法 1 說明了這些權重是如何更新的。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

陰影權重基於 ERLE \(\mathcal{E}(l)\)更新,對前景權重\(W(p, k)\)和陰影權重\(\hat{W}(p, k)\)進行連續評估,即

\[ \begin{gathered} \mathcal{E}(l)=10 \log _{10} \frac{\sum_{k}|D(l, k)|^{2}}{\sum_{k}|E(l, k)|^{2}} \\ \hat{\mathcal{E}}(l)=10 \log _{10} \frac{\sum_{k}|D(l, k)|^{2}}{\sum_{k}|\hat{E}(l, k)|^{2}} \end{gathered}  (8) \]

其中\(D(l, k), E(l, k)\)\(\hat{E}(l, k)\) 分別是\(\boldsymbol{d}^{\prime}(l), \boldsymbol{e}^{\prime}(l)\)\(\hat{e}^{\prime}(l)\)的 FFT。塊\(\hat{e}^{\prime}(l)\)是通過將陰影權重\(\hat{W}(p, k)\)插入到等式5中獲得的。演算法1中的更新規則保證了每一幀都使用ERLE最高的權重。因此,AEC 能夠快速重新適應最後一個已知的好過濾器權重。

2.4 TD-NN模組

  考慮式1的系統模型中的非線性殘餘回波 v(t) 和附加噪聲 n(t)。我們在時域中使用一個小型神經網路。與 AEC 類似,它對 \(T\) 個樣本塊進行操作,重疊率為 50%。圖 2 說明了時域神經網路 (TDNN) 的結構。上面的分支在潛在空間中推匯出一個掩碼 $m(l) $。特別是,掩碼估計分支使用核心大小為 \(F = 1600\) 個樣本且步幅為 \(S = 128\) 個樣本的 Conv1D 層來轉換四個訊號 \(x(t)\)\(y(t)\)\(d(t)\) 和 $e (t) $ 轉化為每個訊號具有 \(H\) 個神經元的潛在表示。請注意,此 Conv1D 層使用過去 1600 個相應訊號的樣本,即它看到過去 100 毫秒音訊資料的上下文。每個訊號都通過即時層歸一化單獨歸一化,以解決各個級別的變化。即時層歸一化類似於標準層歸一化[36]。該分支中的最後一個前饋 (FF) 層使用 softplus 啟用函式,以提供不受約束的掩碼。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

  圖 2 中的下部分支說明了將掩碼應用於潛在空間中的殘差訊號 \(e(t)\)。在那裡,Conv1D 層使用 \(F = 256\) 個樣本的核心大小和 \(S = 128\) 個樣本的步幅來產生 \(H = 200\) 個神經元的潛在空間。掩碼 \(m(l)\) 與 GRU 層獲得的潛在表示相乘。最後,使用 Conv1D Transpose 層來預測增強的時域輸出 \(z(t)\)。它使用與 Conv1D 層相同的引數,即 \(F = 256\)\(S = 128\)。訊號重建是通過重疊相加方法 [4] 實現的,它佔 \(F + S\) 樣本的總前瞻。

3 實驗

3.1 資料集

  AEC 挑戰賽提供來自 2,500 多個音訊裝置和真實環境中的人類揚聲器的錄音。它涵蓋了以下三種場景:近端單講(NE)、遠端單講(FE)和雙講(DT)。對於訓練,提供了兩個資料集,真實記錄和合成示例 [33]。合成資料集提供了 10,000 個示例,分別代表單講、雙講、近端噪聲、遠端噪聲和各種非線性失真情況。真實資料集提供了超過 37,000 條單講和雙講記錄,包括和不包括回聲路徑變化、背景噪聲和非線性失真。為了使用 P. 808 框架進行評估,挑戰組織者提供了一個包含 800 條話語的測試集。測試集分為三個場景,即NE、FE和DT。

3.2 資料增強

  為了得到訓練的基本事實,我們只使用遠端單對話檔案,其中合成資料集中有 10,000 個,真實資料集中有 7,282 個。特別是,我們只使用遠端 \(x(t)\) 和近端 \(d(t)\) 訊號對,其中\(d(t)>-40 d B_{F S}\)的平均能量。否則訊號被拒絕。

  我們通過將乾淨的 WSJ0 資料 [37] 作為所需的近端語音 \(s(t)\) 混合到近端麥克風訊號 \(d(t)\) 中來生成雙向通話示例。我們從\(-6 \ldots 6 dB\)之間的均勻分佈中隨機選擇回聲和所需語音訊號 \(s(t)\) 之間的信幹比 (SIR)。為了考慮到訓練資料中不同麥克風的種類繁多,我們使用 20 波段均衡器執行隨機頻譜整形,其中\(-12 \ldots 12 dB\)之間均勻分佈的增益應用於每個單獨的頻段。

  為了模擬加性噪聲,我們使用來自 YouTube 的 20 種不同聲音類別的 20 小時作為噪聲訊號 \(n(t)\)。加性噪聲的 SNR 從\(12 \ldots 36 dB\)之間的均勻分佈中隨機選擇。噪聲僅新增到模擬資料集中。

  為了進一步提高魯棒性並模擬各種傳輸效果,我們在模擬資料集的每個遠端訊號 \(x(t)\) 中引入了單個人工延遲變化。延遲變化是從\(-20 \ldots 0 ms\)之間的均勻分佈中隨機選擇的。這會導致 AEC 在每個話語期間重新適應。此外,為了反映測試資料中的突然幅度變化,我們通過從\(-20 \ldots 0 dB\)範圍內的均勻分佈增益衰減隨機選擇的麥克風訊號 \(d(t)\) 的三分之一。最後,為了模擬削波偽影,我們以從\(-12 \ldots 0 dB\)範圍內隨機選擇的幅度對麥克風訊號進行削波。真實的資料集已經具有移動揚聲器、附加噪聲和一定量的非線性失真的特徵。

  通過這種設定,我們為三種場景(即 NE、FE 和 DT)中的每一種生成了 15,000 個訊號對 \(x(t)\)\(d(t)\)。我們將每個訊號截斷為 10 秒,以便能夠將它們堆疊成批次進行訓練。

3.3 CDEC訓練

  在訓練期間,我們首先使用式2中的 GCCPHAT 估計批量延遲。 每 10 秒一次,即每個訓練話語一次。接下來,我們從式5-8執行 AEC。輸出回波模型 \(y(t)\) 和殘餘訊號 \(e(t)\)。根據非線性失真和附加噪聲的數量,殘差已經接近所需的近端語音 \(s(t)\)。如圖 2 所示,我們使用四個訊號 \(x(t)\)\(y(t)\)\(d(t)\)\(e(t)\) 作為特徵向量,將期望訊號 \(s(t)\)作為目標向量。對於 NE 和 DT 場景,我們使用 SDR 作為成本函式,即

\[ \mathcal{L}_{\mathrm{SDR}}=10 \log _{10} \frac{\sum_{t} s(t)^{2}}{\sum_{t}[s(t)-z(t)]^{2}}  (9) \]

  而我們使用 ERLE 作為 FE 場景的損失函式,即

\[ \mathcal{L}_{\mathrm{ERLE}}=10 \log _{10} \frac{\sum_{t} d(t)^{2}}{\sum_{t} z(t)^{2}}  (10) \]

  我們將總損失函式定義為

\[ \mathcal{L}_{\mathrm{ERLE}}=-\mathcal{L}_{\mathrm{SDR}}-\lambda \mathcal{L}_{\mathrm{ERLE}}  (11) \]

我們設定\(\lambda=0.5\)。我們從三個場景 NE、FE 和 DT 中隨機選擇 40 個話語,概率為\(p_{N E}=0.25, p_{F E}=0.25\)以及 \(p_{D T}=0.5\)

3.4 客觀和主觀的音訊質量評估

  在存在混響、加性噪聲和非線性失真的情況下,諸如語音質量感知評估 (PESQ) 等傳統客觀指標與主觀語音質量測試的相關性並不好。因此,在 Amazon Mechanical Turk 平臺上進行了基於 ITU P.808 眾包框架 [33] 的研究。總共評估了四種場景:單講近端(P.808)、單講遠端(P.831)、雙方回聲(P.831)和雙方對話其他干擾(P.831)。我們評估了 ITU-T P.831 [38] 中定義的失真 MOS (DMOS) 和回聲 MOS (EMOS)。有關評級過程的更多詳細資訊,請參見 [33]。此外,為了更好地瞭解 CDEC 的效能,我們還採用了額外的指標,例如 MOSnet [34] 和 ERLE [35]。

4 結果

4.1 客觀和主觀質量得分

  表1顯示了使用挑戰組織者提供的評估指令碼獲得的結果 [33]。可以看出,CDEC 大大提高了 DT 和 FE 場景的 EMOS 分數。然而,在 DT 和 NE 場景中 DMOS 分數的提高並不顯著。

表 1:盲測集的 DMOS 和 EMOS 分數。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

表 2 顯示了 FE 場景的 ERLE,以及 DT 和 NE 場景的 MOSnet 分數。請注意,MOSnet 只需要增強波形即可獲得分數 [34]。對於 FE 場景,可以看出與僅使用 AEC 相比,CDEC 系統極大地改進了 ERLE。對於 NE 和 DT 場景,CDEC 系統達到與 AEC 相同的 MOS。這表明 CDEC 在去除殘餘回聲和其他干擾的同時保持了高精度的語音質量。

表 2:盲測集的 MOSnet 和 ERLE 分數。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

4.2 整體系統延遲

  為了遵守挑戰規則,CDEC 系統在大小為 \(T = 256\) 個樣本的幀上執行。 TDC 模組連線 64 幀以使用式3計算延遲\(\Delta_{t}\)。每 10 秒一次。因此,TDC 模組的延遲在\(f_{s}=16 \mathrm{kHz}\)時等於 16ms。 AEC 模組對 \(2T\) 樣本塊進行操作,這些樣本是通過連線 \(x(t)\)\(d(t)\) 的兩個最近幀獲得的,如式4所示。由於重疊儲存操作,它輸出殘差 \(e(t)\) 的最新幀,如第 2.3 節所述。因此,AEC 具有相同的 16 毫秒延遲。 TD-NN 模組對大小為 \(F = T = 256\) 個樣本的單幀進行操作,步幅為 \(S = 128\) 個樣本。反摺積層使用overlapadd方法,它需要兩個輸出幀存在,以便將它們移位並加在一起以獲得最終的輸出訊號\(z(t)\)。因此,TD-NN 的延遲是 \(2T\) 個樣本,相當於 32ms。由於所有三個模組都在相同的塊上執行,因此 CDEC 系統的總延遲為 32 毫秒。

4.3 計算複雜度

  CDEC 模型的計算複雜度在四核 i5 2.5Ghz 參考系統上進行了評估。特別是,我們使用矩陣/向量庫 Eigen 和 FFT 庫 FFTW [39] 使用 C++ 中的單精度參考實現測量了 CDEC 系統前向傳遞的單幀的執行時間。 TD-NN 系統使用 210 萬個引數,而 AEC 使用\(2 P \cdot 2 T=16384\)個復值濾波器權重,包括陰影權重。一個推理步驟每幀需要 228 us。特別是,TDC 模組需要 0.16 us,AEC 32.88 us 和 DNN 195 us 處理單幀。請注意,TDC 模組每 10 秒執行一次,因此它對單幀執行時間的貢獻相當小。 CDEC 系統的整體執行時間是使用單個 CPU 時每 1 秒音訊的 28.8 毫秒。在 XNNPACK的幫助下進行多執行緒執行的情況下,執行時間可以減少到 19.6 毫秒,處理一秒的音訊。該模型可以使用稀疏格式和剪枝進一步縮小。此外,定點表示的使用大大降低了記憶體消耗和計算複雜度,如 [40] 所示。表 3 顯示了 CDEC 模型的計算複雜度。

表 3:單精度 CDEC 模型的計算複雜度,在四核 i5 2.5GHz 參考系統上測量。

論文翻譯:2021_Acoustic Echo Cancellation with Cross-Domain Learning

5 結論

  我們展示了我們的跨域回聲控制器 (CDEC)——一種為 2021 年語音間 AEC 挑戰賽開發的實時 AEC 系統。該系統由三個模組組成,即延時補償 (TDC) 模組、基於頻域模組的聲學回聲消除器 ( AEC) 和時域神經網路 (TD-NN)。使用 ITU P.808 眾包框架對 CDEC 進行了單聲道和雙聲道回聲場景的評估。特別是,它使用具有 2.1M 引數的模型報告了 3.80 的平均 MOS 分數。整個系統的整體延遲為 32ms,在 2.5 Ghz 四核 i5 系統上實時係數為 0.0288。

6 參考文獻

[1] H. Kuttruff, Room Acoustics, 5th ed. London–New York: Spoon Press, 2009.
[2] L. Pfeifenberger and F. Pernkopf,“Nonlinear Residual Echo Suppression Using a Recurrent Neural Network,” in Proc. Interspeech 2020, 2020, pp. 3950–3954.
[3] S. Haykin, Adaptive Filter Theory, 4th ed. New Jersey: Prentice Hall, 2002.
[4] J. Benesty, M. M. Sondhi, and Y. Huang, Springer Handbook of Speech Processing. Berlin–Heidelberg–New York: Springer,2008.
[5] G. Enzner, H. Buchner, A. Favrot, and F. Kuech,“Chapter 30 acoustic echo control,” in Academic Press Library in Signal Processing: Volume 4, ser. Academic Press Library in Signal Processing, J. Trussell, A. Srivastava, A. K. Roy-Chowdhury, A. Srivastava, P. A. Naylor, R. Chellappa, and S. Theodoridis, Eds. Elsevier, 2014, vol. 4, pp. 807–877.
[6] F. Kuech, E. Mabande, and G. Enzner,“State-space architecture of the partitioned-block-based acoustic echo controller,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014, pp. 1295–1299.
[7] C. Wu, X. Wang, Y. Guo, Q. Fu, and Y. Yan,“Robust uncertainty control of the simplified kalmanfilter for acoustic echo cancelation,” Circuits, Systems, and Signal Processing, vol. 35, no. 12,pp. 4584–4595, 2016.
[8] “Speex-dsp,” Website, visited on February 19th 2020. [Online].Available: https://github.com/xiongyihui/speexdsp-python
[9] “Webrtc toolkit,” Website, 2011, visited on March 14th 2021.[Online]. Available: https://webrtc.org/
[10] “PjMedia– acoustic echo cancellation api.” Website, 2008, visited on March 13th 2021. [Online]. Available: https://www.pjsip.org/pjmedia/docs/html/group PJMEDIA Echo Cancel.htm
[11] H. Huang, C. Hofmann, W. Kellermann, J. Chen, and J. Benesty,“A multiframe parametric wienerfilter for acoustic echo suppression,” in IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), 2016, pp. 1–5.
[12] F. Kuech and W. Kellermann,“A novel multidelay adaptive algorithm for volterrafilters in diagonal coordinate representation [nonlinear acoustic echo cancellation example],” in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 2, 2004, pp. ii–869.
[13] S. Malik and G. Enzner,“Fourier expansion of hammerstein models for nonlinear acoustic system identification,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 85–88.
[14] C. M. Lee, J. W. Shin, and N. S. Kim,“Dnn-based residual echo suppression,” in Interspeech, 2015.
[15] T. V. Huynh,“A new method for a nonlinear acoustic echo cancellation system,” in International Research Journal of Engineering and Technology, vol. 4, 2017.
[16] H. Zhang and D. Wang,“Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” in Interspeech, 2018,pp. 3239–3243.
[17] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert,“Multiple-input neural network-based residual echo suppression,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 231–235.
[18] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert,“Joint dnn based multichannel reduction of acoustic echo, reverberation and noise,” CoRR, vol. abs/1911.08934, 2019.
[19] Q. Lei, H. Chen, J. Hou, L. Chen, and L. Dai,“Deep neural network based regression approach for acoustic echo cancellation,”in International Conference on Multimedia Systems and Signal Processing (ICMSSP). New York, NY, USA: Association for Computing Machinery, 2019, p. 94–98.
[20] L. Pfeifenberger, M. Zöhrer, and F. Pernkopf,“Eigenvector-based speech mask estimation for multi-channel speech enhancement,”IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 2162–2172, 2019.
[21] L. Pfeifenberger, M. Zöhrer, and F. Pernkopf,“Dnn-based speech mask estimation for eigenvector beamforming,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2017, Mar. 2017, pp. 66–70.
[22] H. Zhang, K. Tan, and D. Wang,“Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions,” Interspeech, pp. 4255–4259, 2019.
[23] A. Fazel, M. El-Khamy, and J. Lee,“CAD-AEC: context-aware deep acoustic echo cancellation,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2020, pp. 6919–6923.
[24] J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe,“Deep clustering: Discriminative embeddings for segmentation and separation,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 31–35.
[25] M. Kolbak, D. Yu, Z. Tan, and J. Jensen,“Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901–1913, 2017.
[26] J. Chung, C¸ . Gülc¸ehre, K. Cho, and Y. Bengio,“Empirical evaluation of gated recurrent neural networks on sequence modeling,”CoRR, vol. abs/1412.3555, 2014.
[27] S. Hochreiter and J. Schmidhuber,“Long short-term memory,”Neural Computation, vol. 9, no. 8, p. 1735–1780, 1997.
[28] L. Ma, H. Huang, P. Zhao, and T. Su,“Acoustic echo cancellation by combining adaptive digitalfilter and recurrent neural network,”CoRR, vol. 2005.09237, 2020.
[29] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy,“A perceptually-motivated approach for lowcomplexity, real-time enhancement of fullband speech,” CoRR,vol. 2008.04259, 2020.
[30] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang,and L. Xie,“Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement,” CoRR, vol. 2008.00264,2020.
[31] N. L. Westhausen and B. T. Meyer,“Dual-signal transformation lstm network for real-time noise suppression,” CoRR, vol.2005.07551, 2020.
[32] C. K. A. Reddy, V. Gopal, R. Cutler, E. Beyrami, R. Cheng,H. Dubey, S. Matusevych, R. Aichner, A. Aazami, S. Braun,P. Rana, S. Srinivasan, and J. Gehrke,“The interspeech 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,” 2020.
[33] K. Sridhar, R. Cutler, A. Saabas, T. Parnamaa, M. Loide, H. Gamper, S. Braun, R. Aichner, and S. Srinivasan,“Icassp 2021 acoustic echo cancellation challenge: Datasets, testing framework, and results,” CoRR, vol. 2009.04972, 2020.
[34] C.-C. Lo, S.-W. Fu, W.-C. Huang, X. Wang, J. Yamagishi,Y. Tsao, and H.-M. Wang,“Mosnet: Deep learning based objective assessment for voice conversion,” CoRR, vol. 1904.08352,2019.
[35] I. T. Union,“Itu-t g.168: Digital network echo cancellers.” 2012.[Online]. Available: https://www.itu.int/rec/T-REC-G.168/en
[36] J. L. Ba, J. R. Kiros, and G. E. Hinton,“Layer normalization,”CoRR, vol. 1607.06450, 2016.
[37] D. B. Paul and J. M. Baker,“The design for the Wall Street Journal-based CSR corpus,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Banff, 1992,pp. 899–902.
[38] I. T. Union,“Subjective performance evaluation of network echo cancellers,” 1998. [Online]. Available: https://www.itu.int/rec/T-REC-P.831/en
[39] M. Frigo and S. G. Johnson,“The design and implementation of FFTW3,” Proceedings of the IEEE, vol. 93, no. 2, pp. 216–231,2005, special issue on“Program Generation, Optimization, and Platform Adaptation”.
[40] J.-M. Valin, S. Tenneti, K. Helwani, U. Isik, and A. Krishnaswamy, “Low-complexity, real-time joint neural echo control and speech enhancement based on percepnet,” CoRR, vol.2102.05245, 2021.

相關文章