基於DNN的殘餘回聲抑制

微笑9349426發表於2021-12-25

摘要

由於功率放大器或揚聲器的限制,即使在回聲路徑完全線性的情況下,麥克風捕獲的回聲訊號與遠端訊號也不是線性關係。線性回聲消除器無法成功地消除回聲的非線性分量。RES是在AES後對剩餘回聲進行抑制的一種技術。傳統的方法是根據相關訊號的估計統計量,使用維納濾波或譜減法來計算RES增益。在本文中,我們提出了一種基於DNN的RES增益估計方法,該方法基於遠端和AES輸出訊號在各頻率點(frequency bins)的增益估計。採用一種適合於建立高維向量間複雜非線性對映模型的DNN結構,作為從這些訊號到最優RES增益的迴歸函式。該方法可以在不使用顯式雙端會話檢測器(double-talk detectors)的情況下抑制殘餘分量。實驗結果表明,該方法在單語音時段的迴音往返損耗增強(echo return loss enhancement, ERLE)和雙講時段的語音質量感知評價(PESQ)評分方面都優於傳統方法。

關鍵字:聲學回聲抑制,殘餘回聲抑制,非線性回聲,深度神經網路,最優增益迴歸

1 引言

回聲消除(AEC)或回聲抑制(AES)是一種減少揚聲器和麥克風之間的聲耦合所產生的回聲的技術。雖然已經有很多方法成功地抑制了回聲,但在這些方法的輸出端仍然存在一定的殘餘回聲。AEC或AES造成該現象的原因之一是,即使回聲路徑是完全線性的,回聲訊號也不是遠端數字訊號的線性函式。功率放大器和擴音器,尤其是那些廉價和小型的,可能是這種非線性的來源。

為了克服這個問題,一些殘餘回聲抑制(RES)濾波器已被應用到AEC或AES的輸出以抑制殘餘回聲。[5]和[6]的作者提出了RES方法來估計訊號-回聲比(SER),然後在頻域中應用維納濾波器或譜減法。在[7]中,將基於譜減法的子帶濾波與截斷的聲回聲路徑泰勒級數展開相結合來估計回聲的功率譜密度。在[8]中,基於遠端回聲訊號與回聲訊號的頻間相關性建模,提出了一種基於殘差回聲幅度迴歸模型的RES演算法。

最近,提出了一種利用人工神經網路(ANN)從遠端訊號估計殘餘回聲的方法。ANN的輸入為給定頻率區中的遠端訊號,該訊號的功率以及可能導致諧波失真的頻率分量之和,最終的頻譜增益為維納濾波增益。但這些方法沒有考慮殘差回聲與遠端訊號在各頻率區中的非線性特性。

在本文中,我們提出了一種利用DNNs的殘餘回聲抑制方法,該方法根據AES的遠端和各頻率區的輸出訊號估計最優RES增益。DNN結構可以學習高維向量之間的複雜對映,已成功應用於自動語音識別和語音增強領域。我們期望這些結構能夠適應,從這些訊號到基於多條件資料的DNN訓練的,最優RES增益的非線性迴歸函式建模,即使在訓練中使用的室內衝激響應(RIRs)與測試中的RIRs不匹配。在匹配和不匹配條件下,針對不同的RIRs、SER、剪下型別和非線性程度,我們採用兩種客觀指標來評估揚聲器的整體效能。這些度量標準是單語音週期的ERLE和雙講音週期的ITU-T建議P.862 PESQ。實驗結果表明,與傳統的基於ANN的殘餘回聲估計和增益函式的維納濾波演算法相比,該方法提高了語音質量,抑制了回聲。

2 帶有非線性RES濾波器的回聲抑制系統

AES提供了一個有吸引力的替代AEC技術,低複雜度系統中回聲抑制的遠端通訊。

img

圖1 具有非線性RES後濾波器的AES系統示意圖

圖1描述了一個單通道AES系統。時間指標img處的遠端訊號img是由源訊號在發射室內通過聲脈衝響應產生的。設img為接收室內包含近端語音img的輸入訊號,img為第img幀第img個頻率區y(t)的短時傅立葉變換img係數。通過對每個頻率區進行維納濾波或譜減,得到抑制回聲的譜增益函式img。然而,由於線性回聲建模的限制,回聲成分可能仍然保留在AES的輸出中,包括大量的非線性回聲,降低近端語音的質量。為了提高AES的輸出效能,可以對剩餘訊號進行附加的非線性RES濾波。使用RES增益img,最後在頻域估計語音, img計算如下所示:

img

當功率放大器和揚聲器引入嚴重的非線性時, 根據殘餘回聲的非線性特性計算img是極其重要的。

3****使用DNN的RES

各種各樣的RES方法被髮展來有效地抑制殘餘回聲。然而,由於構造高度複雜的函式的困難,這些可能不能準確地描述殘餘回聲訊號的非線性特性。近年來,在語音識別和增強領域,DNN結構被用作尋找複雜對映或函式的強大工具,表現出比其他傳統方法更好的效能。其主要原因可能是利用疊加受限玻爾茲曼機(RBMs)和貪婪的分層無監督學習初始化DNN引數在DNN方面取得了突破。在無監督的預訓練階段結束後,採用有監督的學習演算法,利用反向傳播和隨機梯度下降法對DNN的權值進行微調。關於預訓練和微調過程的詳細程式在[12,13]中描述。[9]中,ANN是利用從遠端訊號估計殘留回聲, 但由於人工神經網路的輸入特徵是根據諧波失真的知識構造的,而最終的增益函式是維納濾波器增益,因此該方法的結構不夠靈活。

本文提出了一種基於DNN的最優增益迴歸演算法,利用DNN結構成功地表示了RES過程中最優增益的複雜非線性迴歸函式。定義增益img為:

img

其中imgimg是乾淨近端語音和AES輸出訊號的STFT係數,img是為了減少計算量。

輸入端採用遠端回聲譜和殘差回聲譜。殘餘回聲與RES增益之間的關係可能比輸入傳聲器訊號與增益之間的關係更依賴於回聲路徑。因此,DNN可以通過多條件訓練來識別殘差回聲、遠端訊號和RES增益之間的非線性關係,儘管這一過程中的DB是通過使用少量回聲路徑得到的。

圖2展示了用於該方法的DNN系統。

img

圖2 提出的RES的DNN結構

該結構由一個高斯伯努利RBM和兩個伯努利-伯努利RBM組成。DNN中各隱含層節點和輸出層節點採用sigmoid函式建模。該模型的輸入端為短時傅立葉變換域內的殘差回聲和以幅度譜表示的遠端訊號對。在取N點的STFT時,考慮T個連續幀的殘差回聲和遠端訊號的輸入特徵向量維數為img,而DNN的輸出為img維的RES增益向量。這些標準化後,均值和單位方差都為零。由於相位資訊對人的聽覺系統不是至關重要的,因此估計的語音相位與AES輸出的相位保持一致。

在DNN訓練中,我們首先嚐試學習殘差回聲和遠端訊號光譜的深度生成模型,作為訓練前的一個階段。利用對比散度(CD),以無監督貪婪的方式逐層訓練RBMs。在此過程中更新每個RBM的引數。然後在微調階段,利用RES估計增益與最優增益之間的最小均方誤差(MMSE)函式的反向傳播演算法對DNN進行訓練。利用AES輸出和近端語音訊號,通過式(2)計算出RES的最優增益img

img

其中M和K分別為小批量大小和總頻率點數。然後,對權值和偏差的估計值進行迭代更新。一些傳統的方法是基於每個頻率點之間的獨立性假設或只有幾個相鄰區的依賴性。相比之下,建議的工作可以考慮從AES輸出中提取的最優RES增益和特徵,與遠端訊號在整個頻率範圍內的非線性對映。此外,由於訓練訊號中包含近端語音和回聲訊號,因此該方法不需要任何雙講音檢測器。因此,我們認為,與其他傳統方法相比,該方法可以提高回聲估計。

4 實驗結果

為了評估提出的基於DNN的RES的效能,我們在不同的條件下進行了幾次模擬。從TIMIT資料庫中,我們為每個RIR建立了450個(4036秒)的麥克風訊號檔案,從揚聲器的位置到如圖3所示的麥克風,以構建殘餘回聲DB。這些檔案以16kHz取樣。

img

圖3 1個麥克風和7個揚聲器在4m4m3m的模擬接收房間的位置,

用於構建回聲DB

為了模擬麥克風捕捉到的回聲訊號,依次經過功率放大器、揚聲器和聲波傳輸,我們對遠端訊號進行三種處理:裁剪、應用非線性揚聲器模擬模型和與RIRs卷積。人工剪裁是由

img

其中imgimg分別為硬裁剪和軟裁剪的輸出,img為輸出訊號的最大值。對於軟剪,將img值設為2。為模擬非線性揚聲器特性,採用無記憶sigmoidal函式。

img

引數img為sigmoid函式增益,設img。sigmoid函式斜率值img取為:如果img,則取img,否則取img。接收室設計為img的小型辦公空間。採用影像方法[17],生成圖3所示接收室7個揚聲器位置到麥克風的RIRs,混響時間為img。RIRs的長度設定為512。麥克風測得的回聲電平比近端語音平均低img。在效能評價方面,採用ERLE和PESQ作為客觀測度。ERLE度量被定義為:

img

首先,我們將傳統的AES應用於整個資料集,對[4]中的回聲進行了輕微的修改,消除了第二通道回聲估計,使其成為單通道聲回聲。AES的引數設定為[4]中所示的值。雖然在[4]中提出的AES被證明有效地減少了線性回聲,由於嚴重的非線性失真,測試資料的平均ERLE約為img

為了與傳統的RES技術進行比較,我們利用光譜特徵實現了基於ANN的RES。採用均勻的128點STFT分析-合成濾波器組,重疊率為75%。RES的離線估計器是一個具有兩個log-sigmoid隱藏節點的網路。遠端訊號的幅度譜和所有子頻帶的平均值直到當前頻帶的一半被用作輸入。將imgimgimg位置的RIRs應用到圖3中img位置的30個檔案(267s)上進行訓練。引數設定如下:對於雙話檢測,我們在該方法中應用了人工標記資訊。我們也嘗試過訓練更大的DB或採取256點STFT,但都不能帶來效能的改善。

為了訓練所提出的技術,在imgimgimg位置建立的總共1200個檔案(10774s)用於訓練DNN。幀長設定為256個樣本,重疊度50%。對每一幀應用一個256點的STFT。每個隱藏層和輸出層分別有2048和129個節點。最後的輸入向量由當前幀和前兩個幀組成,因此成為774維的向量。RBM預訓練每層epoch為20個。訓練前學習率為0.0005。在微調中,前10個epoch的學習率被設定為0.1,然後在每個epoch後降低10%。總迭代次數為50,小批量大小M設定為256。對於每個位置的測試,我們分別為單對話和雙對話測試使用兩組50個檔案(445s)。

接近結尾的語音也是從TIMIT資料庫中選擇的。

表1顯示了單話時段的ERLEs和雙話時段的PESQ評分的總體結果,其中測試資料是在輸入訊號最大音量的80%下,採用硬剪下法在揚聲器的所有7個位置獲得的。從整體結果來看,基於DNN的方法在匹配和不匹配條件下都比傳統的RES有更好的效能。

特別是,從PESQ評分的比較可以看出,本文提出的RES對近端語音的儲存效果要好得多。這些結果是在少數的RIR情況下通過訓練得到的,這可以支援我們的假設,即從遠端訊號和殘餘回聲到RES增益的對映不受聲環境的顯著影響。

img

img

為了研究擴音器的訊號-回聲比、剪下型別和非線性量等其他因素對RES演算法的影響,我們在img位置上另外測試了對應於其他不匹配條件的幾種情況。在這次測試中,我們使用了與上次測試相同的模型,這些模型在imgimgimg位置用DB進行訓練,每種方法都80%的硬剪下。表2比較了建議的RES和常規RES的效能。img 的SER意味著近端語音回聲比水平平均為imgimgimg分別以輸入訊號最大振幅的img表示硬剪下和軟剪下。將我們方法的輸出與未處理的訊號進行比較,發現PESQ得分至少提高了0.3個點。在4種情況下,該方法均優於常規RES,且不受各種不匹配因素的影響。圖4中給出了一個ERLE隨時間變化的例子,並給出了相應的未處理回聲波形。

該演算法對殘餘回聲分量的衰減比傳統的RES更有效。

img

5 結論

在本文中,我們提出了一種最優增益迴歸方法來抑制短時傅立葉變換域內的非線性殘餘回聲。結果表明,基於DNN的迴歸可以代表整個頻率區中最優增益、殘餘回聲和遠端訊號之間的複雜對映。此外,該方法可以在不使用顯式雙端會話檢測器的情況下抑制殘餘分量。在單話情況下的ERLE和雙話情況下的PESQ評分方面,提出的RES優於傳統的RES。

相關文章