論文地址:https://ieeexplore.ieee.org/abstract/document/9357975/
基於半盲源分離的非線性回聲消除
摘要:
當使用非線性自適應濾波器時,數值模型與實際非線性模型之間的不匹配是非線性聲回聲消除(NAEC)的一個挑戰。為了解決這一問題,我們提出了一種基於半盲源分離(SBSS)的有效方法,該方法對無記憶非線性進行基泛展開,然後將未知的非線性展開係數合併到回聲路徑中。將遠端輸入訊號的所有基函式視為已知的等效參考訊號,推導了一種基於約束比例自然梯度策略的SBSS更新演算法。與常用的自適應演算法不同,該演算法基於近端訊號與參考訊號之間的獨立性,對數值模型與實際模型之間的非線性不匹配不敏感。模擬和實際捕獲資料的實驗結果驗證了該方法在NAEC中的有效性。
關鍵字:約束尺度自然梯度,非線性聲學回聲消除,半盲源分離
1 引言
線性聲學回聲消除假設遠端輸入訊號與回聲路徑線性卷積得到回聲訊號,通常可以採用線性自適應濾波方法估計回聲路徑,消除回聲訊號[1]-[3]。然而,非線性在實際應用中總是不可避免的,特別是在使用微型揚聲器的智慧手機和膝上型電腦等行動式裝置中。因此,非線性聲學回聲消除(NAEC)具有更好的回聲消除效能。大量的模型被用來描述NAEC系統中的非線性,如WienerHammerstein[4]和Volterra[5]模型,多項式飽和[6]和神經網路[7]。
無記憶非線性可以很好地模擬揚聲器[8]的非線性失真,其中回聲路徑可以分解為非線性模型的級聯結構和線性回聲路徑[9]-[10]。在[9]中,採用RLS演算法學習有限脈衝響應濾波器的係數和前處理器中高達七階的多項式,學習率高。在[10]中提出了非線性級聯濾波器和雙線性濾波器等方法來補償非線性回聲。在[8]中提出了一種隱式聯合學習策略,將未知的多項式係數吸收到未知的回聲路徑中,形成了等效的時域多通道自適應結構,即功率濾波器。通過減小功率濾波器通道[8]、[11]之間的互相關,可以提高非線性回聲路徑的估計。在[12]中,採用Hammerstein模型來描述與線性房間脈衝響應連線的揚聲器的無記憶非線性,並提出了一種利用偽幅度平方相干函式來識別Hammerstein系統非線性的線上AEC演算法。通過考慮無記憶非線性[13]的基泛展開,並將非線性展開係數吸收到未知的回聲路徑中,可將級聯觀測模型轉化為等效的線性多通道結構[14]。在[14]中,進一步利用多通道一階馬爾可夫模型建立多通道狀態空間模型,並在[15]卡爾曼濾波器的基礎上得到多通道狀態空間頻域自適應濾波器(MCSSFDAF)。該濾波器自適應速度快,效能優於最小均方(LMS)和遞迴最小二乘(RLS)自適應濾波器[1]。將[14]中提出的方法作為最先進的解決方案,進一步擴充套件並實現在麥克風陣列[16]中。
自適應濾波在很大程度上取決於數值非線性模型的準確性,因為自適應濾波的本質是識別揚聲器激勵和麥克風捕獲訊號之間的傳遞函式。數值模型與實際非線性模型的不匹配將對系統產生不利影響,並可能導致系統效能惡化。半盲源分離(SBSS)源於盲源分離(BSS)[17],也可用於AEC的[18]-[20]。SBSS方法在[21]中首次提出,並在[18]中成功實現了多通道BSS和單通道AEC在頻域的結合。隨後在[19]和[20]中表明,BSS和多通道AEC可以有效地結合,從而產生沒有雙話檢測的SBSS。SBSS也被證明能夠估計雙說話[22]-[24]的回聲路徑。基於獨立半盲訊號源分離的非線性聲回聲消除演算法通常是基於獨立半盲訊號源分離的非線性聲回聲消除演算法。理論上對數值和實際傳遞函式之間的不匹配不太敏感。然而,現有的SBSS是用來解決線性AEC問題的,不能直接應用於NAEC系統。
在本文中,我們將SBSS與一個非線性模型相結合,旨在提高NAEC在實際應用中非線性模型偏離實際模型的效能。首先對參考訊號進行無記憶非線性[13]-[14]的基泛展開,並將擴充套件係數合併到回聲路徑中。將遠端輸入訊號的每個基函式視為已知的等效參考訊號,採用約束比例自然梯度策略[20],[25]設計更新過程。
2 NAEC的SBSS模型
圖1 在無記憶非線性存在的NAEC的SBSS模型
NAEC系統的SBSS模型如圖1所示。揚聲器的非線性模型為無記憶非線性函式\(f(·)\),它將時間指數為t的遠端輸入訊號\(x(t)\)轉換為非線性對映的輸入訊號\(f(x(t))\)。訊號\(f(x(t))\)與回聲路徑\(h(t)\)線性卷積,得到回聲訊號\(d(t)\)。將近端訊號\(s(t)\)疊加到回聲訊號\(d(t)\)上,得到麥克風訊號\(y(t)\)為
在實際應用中,實際的非線性模型是未知的,非線性對映輸入訊號\(f(x(t))\)的基泛展開通常被用作[13]-[14]
其中\(\phi_{i}(\cdot)\)為第i階基函式,\(a_{i}\)為對應係數,\(p\)為展開階。將(2)代入(1):
將膨脹係數\(a_{i}\)合併到回聲路徑\(h(t)\)中,(3)可以表示為
其中\(h_{i}^{\prime}(t)\)表示\(i\)階基函式對應的回聲路徑為:
利用短時傅立葉變換(STFT),可以得到(4)的頻域表示為:
其中\(Y(k, n), H_{i}(k, n), X_{i}(k, n)\), 和 \(S(k, n)\)分別是\(y(t), h_{i}^{\prime}(t), \phi_{1}(x(t))\), 和 \(s(t)\)的頻域表示,其頻率指標為\(k\),框架指標為\(n\)。將\(X_{i}(k, n)\) with \(Y(k, n)\) 和 \(S(k, n)\)分別組合成向量形式為:
則(6)的矩陣形式可以表示為
式中,\(\mathbf{H}(k, n)\)為大小為\((p+1) \times(p+1)\)的混合矩陣,分塊公式為
設\(\mathbf{0}_{p \times 1}\)為大小為\(p×1\)的零向量,\(\mathbf{I}_{p}\)為大小為\(p \times p\)的單位矩陣, \(\mathbf{h}(k, n)\)為大小為\(p \times 1\)的混合向量
由於\(x(t)\)是已知的輸入訊號,因此\(\phi_{1}(x(t))\) 和 \(X_{i}(k, n)\)也是已知的。以\(X_{i}(k, n)\)為參考訊號,利用SBSS方法提取未知近端訊號\(S(k, n)\)。分解過程描述為:
其中\(\mathrm{e}(k, n)\)為大小為\((p+1) \times 1\)的估計向量,\(\mathbf{W}(k,n)\)為大小為\((p+1) \times(p+1)\)的分解矩陣
其中\(E(k, n)\)為近端訊號\(S(k, n)\)的估計,\(\mathbf{w}(k, n)\)為大小為\(p \times 1\)的解混向量。
有人可能會說所有的\(X_{l}(k, n)\)都是從同一個參考訊號\(x(t)\)變換而來的;因此它們不滿足獨立假設,而獨立假設是BSS方法的基礎。然而,對於NAEC中使用的SBSS,近端訊號獨立於參考訊號,混合和分解矩陣都受到約束,因此近端訊號仍然可以有效地恢復。在多通道AEC[20]中,已經驗證了具有線性相關參考訊號的SBSS的可行性。
3 線上SBSS演算法
採用獨立分量分析(ICA)和獨立向量分析(IVA)[26]、[27]常用的自然梯度線上SBSS演算法對(12)中的分解矩陣進行優化。根據IVA中類似的推導,\(\mathbf{W}(k, n)\)的更新規則為:
其中,\(\eta\)為學習率,\((\cdot)^{H}\)為厄米特轉置,非線性函式\(\Phi(\cdot)\)為多元評分函式。該多元評分函式的典型形式來自於[26]中依賴的多元超高斯分佈:
其中\(e_{j}(k, n)\)表示向量\(\mathrm{e}(k, n)\)的第\(j\)個元素,\(k\)為頻率點的個數。為了在保持(14)分解矩陣約束結構的同時獲得穩定的演算法,我們進一步使用約束比例自然梯度策略[20],[25],更新方程表示為:
其中\(\Delta \mathbf{W}(k, n)\)是更新的\(\mathbf{W}(k, n)\), \(\mathbf{O}_{p \times(p+1)}\)代表一個零矩陣的大小\(p \times(p+1)\), \(\Delta \mathbf{W}_{2: p+1,:}(k, n)\)代表由矩陣\(\Delta \mathbf{W}(k, n)\)的第2到第\((p+1)\)行組成的矩陣, \(\mathbf{W}_{1,(k, n+1)}\)代表矩陣\(\mathbf{W}(k, n+1)\)的第一行, \(\mathbf{W}_{1,1}(k, n+1)\)代表矩陣\(\mathbf{W}(k, n+1)\)元素的第一行和第一列, \(\mathbf{W}_{2: p+1,2 \cdot p+1}(k, n+1)\)代表矩陣\(\mathbf{W}(k, n+1)\)右下角\(p \times p\)大小的一個方陣,\(d(k, n)\)和\(c(k, n)\)的縮放因子,計算在[25]。
該演算法基於近端訊號與參考訊號之間的獨立性。因此,它對數值模型與實際模型之間的非線性不匹配不敏感。
4 實驗和模擬
為了驗證該演算法的有效性,我們使用模擬資料和真實捕獲資料,比較了SBSS演算法和基於子矩陣對角MCSSFDAF (SD-MCSSFDAF)[14]的最先進NAEC演算法的效能。可在網上找到示例音訊樣本https://github.com/ChengGuoliang0/audio-samples
A 模擬
我們考慮兩種型別的非線性對映來模擬無記憶揚聲器的非線性:硬剪下[9]和軟飽和[6]。硬剪下模型表示為:
其中,\(x_{\max }\)是剪下閾值。軟飽和度模型表示為:
其中\(\rho\)是一個非自適應形狀引數。
演算法的實現考慮了匹配條件和不匹配條件。在匹配條件下,演算法採用了與實際模型和數值模型相同的非線性。在不匹配條件下,利用奇數冪級數[14]作為(2)中的基函式\(\phi_{i}(\cdot)\),描述為:
在所有的模擬和實驗中,兩種演算法的非線性展開階均設為\(p = 3\)。
(1)單講情況
將10秒長的語音訊號作為遠端輸入訊號\(x(t)\),利用這兩個非線性對映進行失真,生成麥克風訊號\(y(t)\),並利用高斯白噪聲\(s(t)\)表示單音情況下的背景噪聲。我們使用信失真比(SDR)來量化非線性程度,定義為\(10 \log _{10}\left\{\mathrm{E}\left[x^{2}(t)\right] / \mathrm{E}\left[(f(x(t))-x(t))^{2}\right]\right\}\) [14],並設定為5 dB。回聲近端訊號功率比(ESR)設為ESR = 60 dB,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[s^{2}(t)\right]\right\}\) [14]。回聲路徑為影像法[28]產生的房間脈衝響應,取樣率為16 kHz,混響時間為0.2 s。SBSS演算法的學習率\(\eta\)設為0.1。SD-MCSSFDAF演算法的引數設定為[14]。效能由回聲損耗增強(ERLE)來衡量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[y^{2}(t)\right] / \mathrm{E}\left[e^{2}(t)\right]\right\}\)[14]。兩種非線性情況下的ERLE結果如圖2所示。可以看出,在非線性完全匹配的情況下,SD-MCSSFDAF演算法收斂後的效能明顯優於SBSS演算法。然而,當利用(25)中的基函式時,由於非線性失配的影響,SDMCSSFDAF演算法的效能明顯下降,所提出的非線性SBSS方法的優勢顯而易見。
圖2 ERLE會產生匹配和不匹配的條件。(a)硬剪裁。(b)軟飽和。
(1)雙講情況
利用SDR = 5 dB的兩個非線性對映,對遠端語音訊號\(x(t)\)再次進行了失真處理。將近端訊號\(s(t)\)與回聲訊號\(d(t)\)疊加,得到ESR = 0 dB的麥克風訊號\(y(t)\)。近端訊號\(s(t)\)也是一個10 s長的語音訊號。雙講情況下只考慮更實際的不匹配條件,效能由真ERLE (tERLE)度量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[(e(t)-s(t))^{2}\right]\right\}\)[20]。此外,還採用感知語音質量評價(PESQ)[29]和短時客觀可理解性(STOI)[30]-[31]作為評價近端訊號語音質量的客觀指標。兩種非線性對映的tERLE結果如圖3所示,近端語音質量評價結果如表1所示,從中可以看出本文方法的有效性。
表1 近端語音質量評價結果
圖3 tERLE的結果是不匹配的條件。(1)硬剪裁。(b)飽和度較低
B 真實實驗
我們還評估了提出的SBSS演算法的效能使用真實捕獲的資料。微型揚聲器發出的語音訊號,不可避免地包含未知非線性,由一個訊雜比(SNR)約為20 dB的麥克風記錄下來。訊號長度為10 s,取樣率為16 kHz。圖4顯示了單對話情況下的ERLE結果。顯然,在這種不匹配條件下,SBSS演算法的ERLE效能優於SD-MCSSFDAF演算法。在雙講情況下,使用一個10秒長的語音訊號作為近端訊號,並調整音量,以達到0 dB的ESR。tERLE結果和近端語音質量評價結果分別如圖5和表2所示。由此可見,SBSS演算法不僅在雙講條件下實現了更多的回聲消除,而且具有更好的近端語音質量。
表2 使用真實資料的近端語音質量評價結果
圖4 ERLE結果的真實資料為單講的情況。
圖5 tERLE結果的真實資料的雙講情況。
5 結論
在本文中,我們提出了一種新的基於SBSS的NAEC演算法。我們將基函式的非線性展開係數合併到回聲路徑中。將遠端輸入訊號的所有基函式視為已知的等效參考訊號,利用約束比例自然梯度策略匯出了一種線上SBSS演算法。與基於自適應濾波的NAEC演算法相比,基於近端訊號和參考訊號之間的獨立性的SBSS演算法對數值模型和實際模型之間非線性不匹配的敏感性較低。兩類非線性對映的模擬和真實捕獲資料的實驗驗證了所提出的SBSS演算法在數值非線性模型與實際模型不匹配的情況下取得了更好的回聲消除效能。
6 參考文獻
[1] E. Hänsler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach. Hoboken, NJ, USA: Wiley, 2004.
[2] H. Zhao, Y. Yu, S. Gao, X. Zeng and Z. He, “Memory proportionate APA with individual activation factors for acoustic echo cancellation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 6, pp. 1047–1055, Jun. 2014.
[3] W. Fan, K. Chen, J. Lu and J. Tao, “Effective improvement of undermodeling frequency-domain Kalman filter,” IEEE Signal Process. Lett., vol. 26, no. 2, pp. 342–346, Feb. 2019.
[4] M. Zeller and W. Kellermann, “Coefficient pruning for higher-order diagonals of Volterra filters representing Wiener-Hammerstein models,” in Proc. Int. Workshop, Acoust. Echo, Noise Control, Seattle, WA, Sep. 2008.
[5] M. Zeller and W. Kellermann, “Fast and robust adaptation of DFTdomain Volterra filters in diagonal coordinates using iterated coefficient updates,” IEEE Trans. Signal Process., vol. 58, no. 3, pp. 1589–1604, Mar. 2010.
[6] B. S. Nollett and D. L. Jones, “Nonlinear echo cancellation for hands-free speakerphones,” in Proc. IEEE Workshop, Nonlinear Signal, Image Process., Mackinac Island, MI, Sep. 1997.
[7] A. N. Birkett and R. A. Goubran, “Acoustic echo cancellation using NLMS-neural network structures,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Detroit, MI, May 1995, vol. 5, pp. 3035–3038.
[8] F. Küch, A. Mitnacht, and W. Kellermann, “Nonlinear acoustic echo cancellation using adaptive orthogonalized power filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Philadelphia, PA, Mar. 2005, vol. 3, pp. 105–108.
[9] A. Stenger and W. Kellermann, “Adaptation of a memoryless preprocessor for nonlinear acoustic echo cancelling,” Signal Process., vol. 80, no. 9, pp. 1747–1760, Sep. 2000.
[10] J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Hong Kong, China, Apr. 2003, vol. 5, pp. 389–392.
[11] F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process., vol. 86, no. 6, pp. 1168–1181, Jun. 2006.
[12] K. Shi, X. Ma, and G. T. Zhou, “Acoustic echo cancellation using a pseudocoherence function in the presence of memoryless nonlinearity,” IEEE Trans. Circuits Syst. I, vol. 55, no. 9, pp. 2639–2649, Oct. 2008.
[13] S. Malik and G. Enzner, “Fourier expansion of Hammerstein models for nonlinear acoustic system identification,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Prague, CZ, May 2011, pp. 85–88.
[14] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 7, pp. 2065–2079, Sep. 2012.
[15] G. Enzner and P. Vary, “Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones,” Signal Process., vol. 86, no. 6, pp. 1140–1156, Jun. 2006.
[16] J. Park and J. Chang, “State-space microphone array nonlinear acoustic echo cancellation using multi-microphone near-end speech covariance,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 10, pp. 1520–1534, Oct. 2019.
[17] J. F. Cardoso, “Blind signal separation: statistical principles,” Proceedings of the IEEE, vol. 86, no. 10, pp. 2009–2025, Oct. 1998.
[18] S. Miyabe, T. Takatani, H. Saruwatari, K. Shikano, and Y. Tatekura, “Barge-in and noise-free spoken dialogue interface based on sound field control and semi-blind source separation,” in Proc. Eur. Signal Process. Conf., Florence, Italy, Sep. 2007, pp. 232–236.
[19] T. S. Wada, S. Miyabe, and B. H. Juang, “Use of decorrelation procedure for source and echo suppression,” in Proc. IWAENC, Seattle, WA, Sep. 2008.
[20] F. Nesta, T. S. Wada, and B. H. Juang, “Batch-online semi-blind sourceseparation applied to multi-channel acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 3, pp. 583–599, Mar. 2011.
[21] M. Joho, H. Mathis, and G. S. Moschytz, “Combined blind/nonblind source separation based on the natural gradient,” IEEE Signal Process. Lett., vol. 8, no. 8, pp. 236–238, Aug. 2001.
[22] J. Gunther, “Learning echo paths during continuous double-talk using semi-blind source separation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 646–660, Feb. 2012.
[23] Z. Koldovský, J. Málek, M. Müller, and P. Tichavský, “On semi-blind estimation of echo paths during double-talk based on nonstationarity,” in Proc. IWAENC, Juan-les-Pins, France, 2014, pp. 198–202.
[24] J. Gunther and T. Moon, “Blind acoustic echo cancellation without double-talk detection,” in Proc. IEEE Workshop Appl. Signal Process. Audio Acoust., New Paltz, NY, USA, Oct. 2015, pp. 1–5.
[25] S. Douglas and M. Gupta, “Scaled natural gradient algorithms for instantaneous and convolutive blind source separation,” in Proc. ICASSP, Apr. 2007, vol. II, pp. 637–640.
[26] T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, Jan. 2007.
[27] T. Kim, “Real-time independent vector analysis for convolutive blind source separation,” IEEE Trans. on Circuit and systems, vol. 57, no. 7, pp. 1431–1438, Jul. 2010.
[28] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Amer., vol. 65, no. 4, pp. 943–950, Apr. 1979.
[29] ITU-T, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. 862, International Telecommunications Union, 2000.
[30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in ICASSP, Dallas, TX, USA, Mar. 2010, pp. 4214–4217.
[31] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125–2136, Sep. 2011.