論文地址:https://arxiv.53yu.com/abs/2104.04325
聯合線上多通道聲學回聲消除、語音去混響和聲源分離
摘要:
本文提出了一種聯合聲源分離演算法,可同時減少聲學回聲、混響和干擾源。通過最大化相對於其他源的獨立性,將目標語音從混合中分離出來。結果表明,分離過程可以分解為級聯的子過程,分別與聲學回聲消除、語音去混響和源分離相關,所有這些都使用基於輔助函式的獨立分量/向量分析技術及其求解順序來求解是可交換的。級聯解決方案不僅導致較低的計算複雜度,而且比普通聯合演算法具有更好的分離效能。
關鍵字:回聲消除、去混響、源分離、獨立分量分析
1 引言
在全雙工語音互動模式下工作的智慧裝置需要同時處理回放回聲、房間混響和干擾源。文獻中對這三種失真進行了廣泛的研究,並且已經分別開發了許多經典演算法,例如用於聲學回聲消除 (AEC) 的歸一化最小均方 (NLMS) 演算法 [1, 2]、加權預測誤差 (WPE) ) 演算法 [3, 4] 用於語音去混響 (DR) 和基於輔助功能的獨立分量/向量分析 (Aux-ICA/IVA) 演算法 [5, 6] 用於盲源分離 (BSS)。考慮兩種或三種失真的聯合解決方案很有吸引力,特別是對於現實世界的應用,並且可以帶來優於單獨演算法的效能改進 [7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]。
Takeda等人[7, 8] 通過應用頻域 ICA 的分離模型來實現盲去混響和回聲消除,該模型使用在多個輸入/輸出逆濾波定理 (MINT) 條件下保持的觀察到的訊號獨立性。作者還開發了一些技術來降低他們的可駁接機器人應用程式的計算成本。
Yoshioka等人 [9] 提出了一種條件分離和去混響 (CSD) 方法,其中分離和預測矩陣交替優化,相互依賴。Boeddeker等人 [11] 提出了一種加權功率最小化無失真響應 (WPD) 波束形成器,可以同時執行去噪和去混響。該波束形成器在單一似然最大化標準下進行了優化,並顯示出優於傳統 WPE 級聯和最小功率無失真響應 (MPDR) 波束形成器的優勢。
已經提出了幾種聯合方法來同時執行 AEC、DR 和 BSS [16, 17]。 Togami 和 Kawaguchi [16] 通過假設麥克風輸入訊號的時變區域性高斯模型,將語音去混響、降噪和聲學回聲降低結合在一個統一的框架中。基於期望最大化方法迭代優化演算法引數以計算期望訊號的最小均方誤差估計。Carbajal等人 [17] 進一步引入了一個神經網路來模擬回聲消除和去混響後目標和殘餘訊號的短期頻譜。
我們之前的工作 [19, 20] 分別重新審視了 DR 和 AEC 的問題,並提出了基於 Aux-ICA 的源分離方法。本文進一步提出從統一的源分離角度聯合執行 AEC、DR 和 BSS,假設混合源相互獨立。首先提出了一種聯合源分離演算法,但其計算成本很高。然後我們啟發式地分解分離矩陣,並將聯合優化問題劃分為可以順序處理的子問題。由於放寬了聯合演算法中所做的假設,順序級聯解決方案不僅降低了計算複雜度,而且具有更好的分離效能。
本文的其餘部分安排如下。在第 2 節中,我們使用卷積訊號模型來表述問題。第 3 節介紹了聯合源分離演算法和級聯解決方案。第 4 節和第 5 節分別給出了實驗和結論。
2 問題表述
我們考慮短時傅立葉變換 (STFT) 域中的多通道卷積混合。 M 個感測器陣列捕獲來自 N 個近端源\(\mathbf{s}=\left[s_{1}, s_{2}, \ldots, s_{N}\right]^{T}\)和\(R\)個遠端源\(\mathbf{r}=\left[r_{1}, r_{2}, \ldots, r_{R}\right]^{T}\)的訊號,其中\((\cdot)^{T}\)表示轉置。感測器訊號\(\mathbf{x}=\left[x_{1}, x_{2}, \ldots, x_{M}\right]^{T}\)由下式給出:
其中,\(\mathbf{A}_{l} \in \mathbb{C}^{M \times N}\) 和 \(\mathbf{B}_{l} \in \mathbb{C}^{M \times R}\)是第 \(l\) 幀步驟的卷積傳遞函式 (CTF),\(t\) 是幀索引,\(f\) 是頻率視窗索引。由於所提出的演算法是頻率方面的,為簡潔起見,以下省略了\(f\)。
為了提取近端源的直接路徑和早期反射,訊號模型 (1) 可以近似轉換為自迴歸模型 [8, 16],如下所示:
其中延遲\(\Delta\)標誌著早期反射和晚期混響之間的邊界,並且
L1、L2 是傳遞函式的階數。 (2) 的矩陣符號由下式給出:
其中\(\mathbf{I}_{1}\)和\(\mathbf{I}_{2}\)是相應的適當大小的單位矩陣。如果\(\mathbf{A}_{0}\)(與近端源和感測器相關的直接路徑和早期反射傳遞函式矩陣)是可逆的,則 (4) 中的上三角塊混合矩陣是可逆的,這在確定的源分離中通常是正確的。因此,我們在下面假設 M = N,並將源分離過程表示為:
進一步假設源訊號的時間無關性,如 [4, 7, 8] 中所討論的,我們可以使用\(\{\mathbf{s}(t), \overline{\mathbf{r}}(t), \overline{\mathbf{x}}(t-\Delta)\}\)是相互獨立的條件。因此,可以通過最小化 Kullback-Leibler 散度 (KLD) 來半盲估計分離矩陣\(\mathbf{W}\)
其中\(p(\cdot)\)是聯合概率密度函式 (PDF),\(q(\cdot)\)是源的邊際 PDF。
3 提出的演算法
3.1 聯合源分離
最小化 (6) 是一個非凸優化問題,可以應用基於輔助函式的技術,而不是最標準的自然梯度方法 [5, 6]。以下聯合源分離演算法是先前僅針對 BSS 的工作的直接擴充套件,但之前未進行過研究。聯合演算法要求混合源遵循超高斯或廣義高斯 PDF,這是對語音源的有效假設,源 PDF 表示為:
其中\(\lambda>0\) 和 \(0<\gamma \leq 2\)分別表示縮放和形狀引數 [21, 22]。\(\gamma=1\)對應於拉普拉斯分佈,較小的值產生更稀疏的 PDF。
基於(7),輔助函式\(J(\mathbf{W}, \mathbf{V})\)設計為
這樣
\((\cdot)^{H}\)表示厄米特轉置。\(\mathbf{w}_{m}^{H}\)是\(\mathbf{W}\)的第\(m\)行向量,引入的輔助變數
\(\mathbb{E}\)是期望運算元,\(\mathbf{u}(t)=[\mathbf{s}(t), \overline{\mathbf{r}}(t), \overline{\mathbf{x}}(t-\Delta)]^{T}\),源 PDF 相關權重因子
以及分離源的估計
分離矩陣的更新規則由下式給出:
其中\(\mathbf{i}_{m}\)是 one-hot 單位向量。然後將該演算法總結為迭代地更新\(\mathbf{V}_{m}\)和\(\mathbf{W}\)。
3.2 級聯解決方案
聯合演算法的計算複雜性一直受到關注 [7, 12, 14]。 (13) 中的計算涉及矩陣乘法和 \(\mathcal{O}\left(L^{3}\right)\) 階矩陣求逆,其中 \(L=M+L_{1} R+L_{2} M\),這對於實際應用來說在計算上可能相當昂貴。一種直觀的方法是將大的分離矩陣\(\mathbf{W}\)分解為可以更有效地求解的較小部分。
\(\mathbf{W}\)的等價形式由下式給出:
其中\(\mathbf{E}=\mathbf{D} \overline{\mathbf{E}}\)且\(\mathbf{F}=\mathbf{D} \overline{\mathbf{F}}\)。 (14)可以理解為聯合執行AEC和DR,然後執行BSS。相應的演算法表示為 DRAEC-BSS。更進一步,我們有
表示為 DR-AEC-BSS,並且
記為 AEC-DR-BSS。
上述矩陣分解將(5)中的分離過程轉化為與AEC、DR和BSS自然相關的子過程,可以順序求解,而不是聯合求解。請注意,BSS 的求解順序不是放在第一位的,因為它會導致未確定的源分離子問題。
3.3 順序更新技術
著眼於AEC-DR-BSS演算法中的分離矩陣(16),我們首先將\(\mathbf{W}_{\text {AEC }}\)帶入(5),有
其中\(\mathbf{y}(t)\)表示未受回聲汙染的混響近端聲源。 (17) 定義了一個半盲源分離問題,我們之前的工作 [19, 20] 已經提供瞭解決方案。矩陣係數在這裡直接由下式給出:
其中,
其中
以及回聲消除源的估計
同樣,有
其中,\(\overline{\mathbf{y}}(t-\Delta)=\left[\mathbf{y}(t-\Delta), \ldots, \mathbf{y}\left(t-\Delta-L_{2}+1\right)\right]^{T}\),且\(\mathbf{z}(t)\)表示非混響近端源。矩陣係數由下式給出:
其中
其中
且去混響源的估計
最後,通過將 Aux-IVA 應用於以下問題,獲得\(\mathrm{D}\)的分離係數
並且有對所需來源的估計。
現在可以同樣推匯出 DRAEC-BSS 和 DR-AEC-BSS 演算法。請注意,當使用 (17) 求解 \(\overline{\mathbf{E}}\)、使用 (22) 求解\(\overline{\mathbf{F}}\)和使用 (27) 求解\(\mathrm{D}\)時,先前的聲學回聲、後期混響和乾淨聲源的相互獨立假設被放寬為成對獨立。
鑑於上述描述,我們的演算法線上實現涉及自相關矩陣\(\mathrm{V}\)、互相關矩陣\(\mathrm{Q}\)和加權因子\(\beta\)的遞迴估計,使用 0.999 的平滑係數\(\mathrm{C}\)。為了清楚起見,原始碼可在https://github.com/nay0648/unified2021獲得。
3.4 複雜性分析
與樸素的聯合源分離 (Joint-SS) 演算法相比,級聯解決方案明顯降低了總體計算成本。所提出演算法的複雜度順序比較如表1所示。
表 1 所提出演算法的計算複雜度順序。
4 實驗
4.1 設定
我們考慮一個使用者在客廳環境中與智慧揚聲器互動的場景。房間大小是隨機取樣的,長度為 [4.0, 8.0] 米,寬度為 [3.0, 6.0] 米,高度為 [2.5, 4.0] 米。將 M = 2 個麥克風間距為 10 釐米的麥克風陣列放置在房間內,同時與牆壁保持 50 釐米的最小距離。播放回聲的 R = 1 揚聲器放置在感測器陣列下方 15 釐米處。使用者和一個干擾源 (N = 2) 隨機位於房間內。使用影像方法 [23] 生成相應的房間脈衝響應。
測試話語是按照 [17] 中的設定準備的。具體來說,每個話語都有四個 5 秒的片段,使用者的語音、干擾和回聲重疊,如圖 1 所示。輸入訊號干擾比 (SIR) 設定為 0 dB,訊號回聲比設定為(SER) 設定為 {0,-10} dB。分離的使用者語音的整體質量通過第三段中的訊號失真比 (SDR) [24, 25] 來衡量。引入了兩個非指導性指標,即訊號加干擾加回波與干擾加回波比(SIER)和訊號加干擾加干擾比(SIIR)來衡量非目標降低效能。 SIER 粗略估計為段 III 中的訊號能量與段 IV 中的訊號能量之比。 SIIR 估計為段 II 中的訊號能量與段 I 中的訊號能量的比值。去混響效能沒有單獨評估。相反,在 0.3 秒、0.5 秒和 0.8 秒的不同混響時間 (RT60) 下重複實驗。在計算度量時,將使用者語音在第一通道中的直接路徑和早期反射(50 ms)用作期望目標。
圖 1:測試話語中的源重疊。
兩種經典方法,即 AEC的 NLMS 演算法 [2] 和 DR2 的 WPE 演算法 [9] 使用它們的公開實現,並與第 3.3 節中的 BSS 演算法級聯用於基準測試。它們被表示為 NLMS-WPE-BSS 和 WPE-NLMS-BSS。測試話語以 16 kHz 取樣。 STFT 幀大小為 1024,幀位移為 512。AEC 濾波器抽頭設定為\(L_{1}=5\)。DR 濾波器抽頭設定為\(L_{2}=5\),幀延遲\(\Delta=2\)。採用形狀引數為\(\lambda=0.2\)的稀疏源 PDF。
4.2 結果與分析
參考輸入混合的 SDR、SIER 和 SIIR 改進分別顯示在表 2、表 3 和表 4 中。分數是 20 次獨立實驗的平均值。
表 2:參考不同混響時間的輸入混合的 SDR (dB) 改進
表 3:不同混響時間下輸入混音的 SIER (dB) 改進
表 4:參考不同混響時間的輸入混合的 SIIR (dB) 改進
隨著混響時間變長,效能明顯下降,演算法需要更長的濾波器抽頭。與 SER= 0dB 相比,SER=-10 dB 的總體得分較高是由於輸入混合的基線得分,例如,平均輸入 SDR 為 -12.15 dB,而 RT60=0.3 s 為 -4.61 dB。
根據這裡的結果,先解決 AEC 比先解決 DR 要好。該結論適用於 AEC-DR-BSS 和 NLMS-WPE-BSS。從源分離的角度來看,回聲和近端源之間的訊號獨立性假設比早期反射和後期混響之間的訊號獨立性假設更好。 DRAEC-BSS 演算法的效能優於 AEC-DR-BSS 或 DR-AEC-BSS。可能有兩個原因。 DR 中使用的延遲觀察訊號有助於更多地減少回聲。並且與潛在目標源的光譜相關的比例因子\(\beta\)可以在 DRAEC 中得到更好的估計。在提出的演算法中,Joint-SS 得分最低,儘管它的複雜度最高。這可能是由於方程(10)中定義的大協方差矩陣的條件不佳。
鑑於此處使用的設定,與 Joint-SS 基線相比,DRAEC-BSS 的計算成本為 20%,AEC-DR-BSS 為 7%。
5 結論
本文從統一的源分離角度考慮了回聲消除、語音去混響和干擾抑制的任務。 Joint-SS 演算法自然地轉換為獨立的 AEC、DR 和 BSS 演算法的級聯,它們的求解順序會影響最終效能。所提出的 DRAEC-BSS 解決方案不僅大大降低了計算成本,而且顯示出比其他設定更好的能力。
6 參考文獻
[1] J. J. Shynk et al., “Frequency-domain and multirate adaptive filtering,” IEEE Signal processing magazine, vol. 9, no. 1, pp. 14–37,1992.
[2] J.-M. Valin, “On adjusting the learning rate in frequency domain echo cancellation with double-talk,” IEEE Transactions on Audio,Speech, and Language Processing, vol. 15, no. 3, pp. 1030–1034,2007.
[3] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B.-H.Juang, “Speech dereverberation based on variance-normalized delayed linear prediction,” IEEE Transactions on Audio, Speech,and Language Processing, vol. 18, no. 7, pp. 1717–1731, 2010.
[4] T. Yoshioka and T. Nakatani, “Generalization of multi-channel linear prediction methods for blind mimo impulse response shortening,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 10, pp. 2707–2720, 2012.
[5] N. Ono and S. Miyabe, “Auxiliary-function-based independent component analysis for super-gaussian sources,” in International Conference on Latent Variable Analysis and Signal Separation.Springer, 2010, pp. 165–172.
[6] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA). IEEE, 2011, pp. 189–192.
[7] R. Takeda, K. Nakadai, T. Takahashi, K. Komatani, T. Ogata, and H. G. Okuno, “Ica-based efficient blind dereverberation and echo cancellation method for barge-in-able robot audition,” in IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2009, pp. 3677–3680.
[8] ——, “Efficient blind dereverberation and echo cancellation based on independent component analysis for actual acoustic signals,” Neural computation, vol. 24, no. 1, pp. 234–272, 2012.
[9] T. Yoshioka, T. Nakatani, M. Miyoshi, and H. G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 69–84, 2010.
[10] H. Kagami, H. Kameoka, and M. Yukawa, “Joint separation and dereverberation of reverberant mixtures with determined multichannel non-negative matrix factorization,” in IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2018, pp. 31–35.
[11] C. Boeddeker, T. Nakatani, K. Kinoshita, and R. Haeb-Umbach,“Jointly optimal dereverberation and beamforming,” IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2020.
[12] T. Nakatani, R. Ikeshita, K. Kinoshita, H. Sawada, and S. Araki,“Computationally efficient and versatile framework for joint optimization of blind speech separation and dereverberation,” in Proc.Interspeech, 2020.
[13] T. Nakatani, C. Boeddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, and R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2267–2282,2020.
[14] R. Ikeshita and T. Nakatani, “Independent vector extraction for joint blind source separation and dereverberation,” arXiv preprint arXiv:2102.04696, 2021.
[15] A. Cohen, A. Barnov, S. Markovich-Golan, and P. Kroon, “Joint beamforming and echo cancellation combining qrd based multichannel aec and mvdr for reducing noise and non-linear echo,” in 26th European Signal Processing Conference (EUSIPCO).IEEE, 2018, pp. 6–10.
[16] M. Togami and Y. Kawaguchi, “Simultaneous optimization of acoustic echo reduction, speech dereverberation, and noise reduction against mutual interference,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 11, pp. 1612–1623, 2014.
[17] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Joint nnsupported multichannel reduction of acoustic echo, reverberation and noise,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2158–2173, 2020.
[18] J. Liu, M. Yu, Y. Xu, C. Weng, S.-X. Zhang, L. Chen, and D. Yu,“Neural mask based multi-channel convolutional beamforming for joint dereverberation, echo cancellation and denoising,” in IEEE Spoken Language Technology Workshop (SLT). IEEE,2021, pp. 766–770.
[19] Z. Wang, Y. Na, Z. Liu, Y. Li, B. Tian, and Q. Fu, “A semi-blind source separation approach for speech dereverberation,” INTERSPEECH, pp. 3925–3929, 2021.
[20] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu, “Weighted recursive least square filter and neural network based residual echo suppression for the aec-challenge,” ICASSP, 2021.
[21] N. Ono, “Auxiliary-function-based independent vector analysis with power of vector-norm type weighting functions,” in Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. IEEE, 2012, pp.1–4.
[22] T. Taniguchi, A. S. Subramanian, X. Wang, D. Tran, Y. Fujita, and S. Watanabe, “Generalized weighted-prediction-error dereverberation with varying source priors for reverberant speech recognition,” in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 293–297.
[23] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[24] E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462–1469, 2006.
[25] J. Le Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, “Sdrhalf-baked or well done?” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019,pp. 626–630.