AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務

微軟研究院AI頭條發表於2019-11-19

摘要

我們提出了關注相位和諧波的語音增強模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network),主要的貢獻在於兩點:

1. 考慮到相位預測對於語音增強的重要性,我們提出了雙流模型結構,分別處理相位和強度資訊,並設計了雙向資訊互動通道。實驗證實雙流之間的資訊互動對相位估計至關重要。

2. 我們提出了頻域變換模組 FTB (Frequency Transformation Block),用於在深度神經網路結構中高效整合全域性頻域相關性,尤其是諧波相關性。透過對於 FTB 引數的視覺化,我們可以發現 FTB 自發地學到了諧波相關性。

以上兩點使得我們的模型能夠同時意識到相位資訊以及諧波相關性,從而在 AVSpeech+Audioset 資料集上獲得 1.76dB 的 SDR 提升,超過了其他模型在該資料集上的表現,並且在 Voice Bank + DEMAND 資料集中,四個指標均大幅超過之前的方法,一個指標與之前方法持平。

下文中我們將詳細介紹問題提出的背景、實現細節以及實驗結果。

研究背景

用單通道的語音增強模型去除帶噪語音中的噪聲,其主流的方法有兩種,分別在時域上處理和在時-頻域上處理。前者直接用1維的語音波形作為輸入輸出,而後者以2維的時-頻表徵,如 STFT 譜,作為模型的輸入輸出。在第二種方法中,時-頻掩膜(T-F Masking)被廣泛使用,即預測一個乘性的時-頻掩膜,與輸入的時-頻表徵相乘,得到預測的時-頻表徵。STFT 譜是一個複數譜,包含相位和強度兩方面資訊。早期的時-頻掩膜方法僅僅關注強度資訊,如 Ideal Binary Mask(IBM),Ideal Ratio Mask(IRM)等。近年來,人們認識到相位預測的重要性,透過擴充套件掩膜的值域,提出了一些關注相位資訊的掩膜方法,如 Phase Sensitive Mask(PSM)將掩膜擴充套件至實數域,complex Ideal Ratio Mask(cIRM)將掩膜擴充套件至複數域。

從掩膜的潛力來講,理想的 cIRM 已經可以完全去除相位噪聲,然而模型預測出的 cIRM 卻並非如此。當我們在大資料集(AVSpeech)上訓練基於 DNN 的 cIRM 預測模型時,發現預測的 cIRM 的虛部幾乎為0,即相位資訊沒有被恢復。這說明 cIRM 的潛力沒有被現有的 DNN 模型充分利用。為此,我們設計了一種新的網路結構——雙流結構,來提升相位的預測質量。

雙流結構

雙流結構由強度流以及相位流構成。其中,強度流主要由卷積操作,頻域變換模組(FTB,後文介紹)以及雙向 LSTM 組成,而相位流為純卷積網路。強度流的預測結果為幅值掩膜 M,其取值為正的實數,相位流的預測結果是相位譜 ψ,其取值為複數,由實部和虛部組成。記輸入的時頻表徵為 S^in,則輸出 S^out=abs(S^in )∘M∘ψ,其中 ∘代表逐項相乘操作。為了充分利用雙流的資訊,我們採用 gating 的方式在強度流和相位流之間增加了資訊互動機制,從而讓強度或者相位處理過程中能利用另外一路的資訊作為參考。增加了資訊互動後,我們把網路的主體劃分為3個 Two Stream Block(TSB)。每一個 TSB 的結構相同,在 TSB 的最後,均有一步資訊互動操作。在後文中,我們的實驗表明,雙向的資訊互動對相位預測至關重要。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務

圖1:雙流結構

在設計強度流的過程中,我們發現影像處理中常用的小尺寸二維卷積操作無法處理語音訊號中的諧波相關性。不同於自然影像,語音訊號在轉化為時-頻表徵時的相關性不僅有鄰域成分,而且有諧波成分,而這些諧波相關性是一種分佈在頻域上的全域性相關性,例如:頻率 f_0 傾向於和 2f_0,1/2 f_0,3f_0,3/2 f_0,1/3 f_0,2/3 f_0… 這些諧波相關的頻率同時發生,這些頻率分佈在整個頻率軸上。之前的工作中使用的 U-net,空洞卷積等卷積結構都適用於處理鄰域相關性,但是無法高效地感受到這種全域性頻域相關性。為此,我們提出了頻域變換模組(Frequency Transformation Block, FTB)來處理包括諧波在內的全域性頻域相關性。

FTB 的結構如圖2所示,簡單來說,它利用注意力(attention)機制來挖掘非鄰域(non-local)相關性。在我們的整體架構中,每一個TSB中強度流的輸入和輸出端各有一個 FTB,確保每一個 TSB 中處理的資訊以及雙流互動的資訊都能關注到諧波相關性。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務

圖2:FTB 結構

網路訓練的損失函式 L 由兩部分組成:強度損失 L_a 以及關注相位的損失 L_p,如下所示,其中強度損失為預測強度譜和真實強度譜,分別按照 A^0.3 壓縮後的 MSE loss。關注相位的損失為預測頻譜和真實頻譜,分別按照 A^0.3 壓縮後的 MSE loss。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務

實驗結果

我們在最近 Google 提出的大資料集 AVSpeech + Audioset 和被廣泛使用的 Voice Bank + DEMAND 兩個資料集上進行實驗,總共用6種評價指標(SDR、PESQ、CSIG、CBAK、COVL、SSNR)進行評測,實驗結果如下:

表1為我們在 AVSpeech + Audioset 資料集上進行的消融實驗,透過對比 PHASEN-1strm 和 PHASEN,發現如果去掉相位流,則會造成 SDR 的下降,尤其是 PESQ 的大幅下降。為了驗證雙流結構中資訊互動的作用,我們嘗試去掉雙向資訊互動或者去掉相位流到強度流的資訊傳遞,分別得到 PHASEN-w/o-A2PP2A 和 PHASEN-w/o-P2A 兩組實驗結果。對比可知,強度流到相位流的資訊傳遞更加重要。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務表1:AVSpeech + Audioset資料集上的消融實驗結果

圖3中對相位預測的視覺化結果也表明,當沒有雙向的資訊互動時,預測的相位與含噪聲的相位差值幾乎為0,而我們完整的模型可以在噪聲比較強的區域對相位進行明顯的修正。此外,在表1中,透過對比 PHASEN-w/o-FTBs 和 PHASEN,可以發現如果將 FTB 換成普通卷積模組,也會造成 SDR 和 PESQ 的明顯下降。這說明 FTB 模組的重要性。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務圖3:對相位預測的視覺化結果為了驗證 FTB 真的學到了全域性的頻域相關性,我們將 FTB 中 Freq-FC 的權值視覺化,如圖4。其中,左側兩幅圖分別為考慮5次諧波和9次諧波情況下的理想諧波相關性;最右側為學習到的 Freq-FC 權值,可以發現學習到的 Freq-FC 權值與考慮高次諧波的理想相關性相近。這說明網路自發學到了諧波相關性。透過上述消融實驗,我們驗證了我們提出的雙流結構和頻域變換模組的有效性。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務圖4:將 FTB 中 Freq-FC 的權值視覺化結果

表2和表3分別在兩個資料集上對比 PHASEN 與其他最近提出的方法的效能。可以看出,我們在大資料集,如 AVSpeech +Audioset 上的表現超過了 Google 以及 Conv-TasNet,證明了我們的網路有能力勝任真實複雜環境下的情形。在比較常用的小資料集,如 Voice Bank + DEMAND 上,我們的模型在5個指標上均大幅超過近期的時域方法(SEGAN、Wavenet、DFL)以及時-頻域方法(MMSE-GAN)。此外,我們還在4個指標上超過了混合模型(MDPhD),並且在 SSNR 指標上僅有微小差距。以上橫向對比進一步驗證了我們模型的有效性。

AAAI 2020丨從嘈雜影片中提取超清人聲,語音增強模型PHASEN已加入微軟影片服務表2&3:兩個資料集上 PHASEN 與其他方法的效能對比

結語

綜上,我們在單通道語音增強任務中提出了含有雙向資訊互動的雙流結構,用於高效的相位預測。同時,也提出了用於捕捉全域性頻域相關性的頻域變換模組(FTB)。詳細的消融實驗驗證了我們提出的方法的有效性,並且在兩個資料集上,我們的模型均超過了當前最優的模型。雖然我們當前的模型不能做到低延遲,但是接下來的工作將會在延遲問題上進行最佳化,並降低模型引數量,以便應用到實時通訊等領域。此外,將來的工作也包括把我們的模型擴充應用在其他相關任務上,如語音分離等。

論文連結:

https://arxiv.org/abs/1911.04697

相關文章