近日,阿里雲視訊雲音訊技術團隊與新加坡國立大學李海洲教授團隊合作論文 《基於時頻感知域模型的單通道語音增強演算法 》(Time-Frequency Attention for Monaural Speech Enhancement ) 被 ICASSP 2022 接收, 並受邀於今年 5 月在會議上向學術和工業界做研究報告。ICASSP(International Conference on Acoustics, Speech and Signal Processing)是全世界最大的,也是最全面的融合訊號處理、統計學習、及無線通訊的語音領域頂級會議。
七琦|作者
本次合作論文提出了融合語音分佈特性的 T-F attention (TFA) 模組,可以在幾乎不額外增加引數量的情況下顯著提高語音增強的客觀指標。
arxiv 連結:https://arxiv.org/abs/2111.07518
往期研究成果回顧:
INTERSPEECH 2021:《Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement》
連結:
https://www.isca-speech.org/a...
1.背景
語音增強演算法旨在去除語音訊號中的背景噪聲等多餘訊號成分,它是許多語音處理應用的基本元件,例如線上視訊會議與通話,智慧短視訊剪輯,實時視訊直播,社交娛樂與線上教育等。
2.摘要
目前大多數關於語音增強的監督學習演算法的研究中,通常沒有在建模的過程中明確考慮時頻域(T-F)表示中語音的能量分佈,而其對於準確預測掩碼或頻譜至關重要。 在本文中,我們提出了一個簡單而有效的 T-F 注意力(TFA)模組,使得在建模過程中可以顯式引入對語音分佈特性的先驗思考。 為了驗證我們提出的 TFA 模組的有效性,我們使用殘差時序卷積神經網路(ResTCN)作為基礎模型,並使用語音增強領域中兩個常用的訓練目標 IRM [1](The ideal ratio mask)和 PSM [2] (The phase-sensitive mask)分別進行了探索實驗。 我們的實驗結果表明,應用所提的 TFA 模組可以在幾乎不額外增加引數量的情況下顯著提高常用的五個客觀評估指標,且 ResTCN+TFA 模型始終以較大的優勢優於其他 baseline 模型。
3.方法解析
圖 1 展示了所提 TFA 模組的網路結構,其中 TA 和 FA 模組分別以黑色和藍色虛線框標識。AvgPool 和 Conv1D 分別為 average pooling 和 1-D convolution operation 的縮寫。⊗ 和 ⊙ 分別表示矩陣乘法和元素級乘法。
圖 1
TFA 模組以變換後的時頻表示\( Y∈ \mathbb{R} ^{L×d_{model} } \)為輸入,利用兩個獨立的分支來分別進行 1-D time-frame attention map \(T_{A} \in \mathbb{R} ^{L\times 1} \) 和 1-D frequency-dimension attention map \( F_{A} \in \mathbb{R} ^{1\times d_{model} } \) 的生成,然後將其融合為最終需要的 2-D T-F attention map \( TF_{A} \in \mathbb{R} ^{L\times d_{model} } \),最終的結果可以重寫為:\( \widetilde{Y} =Y\odot TF_{A} \)。
4.實驗結果
訓練誤差曲線
圖 2-3 顯示了每個模型在 150 epoch 訓練中產生的訓練和驗證集誤差曲線。可以看出,與 ResTCN 相比,使用了所提出的 TFA(ResTCN+TFA)的 ResTCN 產生的訓練和驗證集誤差顯著降低,這證實了 TFA 模組的有效性。同時,與 ResTCN+SA 和 MHANet 相比,ResTCN+TFA 實現了最低的訓練和驗證集誤差,並顯示出明顯的優勢。在三個 baseline 模型中,MHANet 表現最好,ResTCN+SA 優於 ResTCN。此外,ResTCN、ResTCN+FA 和 ResTCN+TA 之間的比較證明了 TA 和 FA 模組的功效。
圖 2 IRM 訓練目標下的訓練誤差曲線
圖 3 PSM 訓練目標下的訓練誤差曲線
語音增強客觀指標評估
我們使用了五個指標用於對增強效能的評估,包括 wideband perceptual evaluation of speech quality (PESQ) [3], extended short-time objective intelligibility (ESTOI) [4], 以及三個綜合指標 [5], mean opinion score (MOS) predictors of the signal distortion (CSIG), background-noise intrusiveness (CBAK), overall signal quality (COVL)。
表 1 和表 2 分別顯示了每個訊雜比等級下(含四個噪聲源)的平均 PESQ 和 ESTOI 分數。評估結果表明,我們提出的 ResTCN+TFA 在 IRM 和 PSM 上的 PESQ 和 ESTOI 方面始終比 ResTCN 取得顯著改進,且引數增量可以忽略不計,這證明了 TFA 模組的有效性。具體而言,在 5 dB 條件下,IRM 訓練目標下的 ResTCN+TFA 相比baseline ResTCN來說,在 PESQ 指標上提高了 0.18,在 ESTOI 指標上提高了 4.94%。與 MHANet 和 ResTCN+SA 相比,ResTCN+TFA 在所有情況下都表現最好,並且表現出明顯的效能優勢。在三個 baseline 模型中,整體看下來效果排名是 MHANet > ResTCN+SA > ResTCN。同時,ResTCN+FA 和 ResTCN+TA 相比 ResTCN 也有了可觀的改進,這進一步證實了 FA 和 TA 模組的有效性。
表 3 列出了所有測試條件下的平均 CSIG、CBAK 和 COVL 分數。與在表 1和表 2中觀察到的趨勢一致,所提的 ResTCN+TFA 在三個指標上顯著優於 ResTCN,並且在所有模型中表現最好。具體而言,與 ResTCN 相比,PSM 訓練目標下 ResTCN+TFA 的 CSIG 提高了 0.21,CBAK 提高了 0.12,COVL 提高了 0.18。
關於阿里雲視訊雲音訊技術團隊
阿里雲視訊雲音訊技術團隊,專注於採集播放-分析-處理-傳輸等全面的音訊技術,服務於實時通訊、直播、點播、媒體生產、媒體處理,長短視訊等業務。通過神經網路與傳統訊號處理的結合,持續打磨業界領先的 3A 技術,深耕裝置管理與適配、qos 技術,持續提升各場景下的直播、實時音訊通訊體驗。
參考文獻
[1] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 22, no. 12, pp. 1849–1858, 2014.
[2] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in Proc. ICASSP, 2015, pp. 708–712.
[3] R. I.-T. P. ITU, “862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunicatio.
[4] J. Jensen and C. H. Taal, “An algorithm for predicting the intelligibility of speech masked by modulated noise maskers,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 24, no. 11, pp. 2009–2022, 2016.
[5] Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. Audio, Speech, Lang. process., vol. 16, no. 1, pp. 229–238, 2007.
「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。