AliSSR 語音超分演算法:讓線上會議語音更明亮更自然

阿里雲視訊雲發表於2022-03-29

超分讓線上會議語音更明亮,線上會議已成為日常工作中較為普遍的溝通交流方式,接入會議的方式也呈現多樣化,比如電腦入會、手機入會又或是電話入會。

雪雅、曜辰|作者

眾所周知,高取樣率且高頻寬的音訊訊號富含豐富的頻率成分,能夠帶給人們更身臨其境的聽覺體驗。但線上會議中,電話入會又或是因裝置等原因導致原始採集頻寬過低的場景中,帶給人們的直觀感受表現為聽對方說話比較悶,嚴重影響會議體驗。在訊號處理中,語音超分技術可以用來處理這類情況,它可以最大限度地從低頻寬的音訊訊號中重建出其高頻成分,讓語音訊號聽起來更“明亮、逼真”,從而為客戶提供更出色更高音質的通話體驗。

下面是一個簡單的效果演示:
https://www.youku.com/video/X...

作者注:視訊中前半部分是窄帶訊號,後半部分是超分後的寬頻訊號。

語音超分技術的早期研究多圍繞傳統訊號處理理論展開,如源濾波器模型,通過 codebook 對映或者線性對映的方法來預測高頻帶頻譜包絡 [1, 2]。近些年隨著深度學習技術在訊號處理領域的應用,語音超分技術在深度學習的加持下,效果獲得了明顯的提升。

最開始,延續了傳統訊號處理框架,神經網路替換原有框架的一部分,用來預測高頻帶的譜包絡或者幅度譜 [3, 4],相位擴充套件沿用傳統的方法,保持計算複雜度低的優勢 [1],然而相位資訊對於人耳主觀聽感有著不可忽略的影響。

隨後,受影像超解析度演算法的啟發,基於端到端的神經網路模型應用到了語音超分任務 [5, 6],它直接在時域上對訊號完成了預測,避免了相位問題,這些方法都是通過最小化某個損失函式(如 L2 loss) 來訓練的,後來,引入了 GAN 的訓練方式,結合原有的損失函式和對抗損失,達到了更好的效果 [7, 8]。

當前,我們主要針對取樣率從 8KHz 提高到 16KHz 的情況(頻譜頻寬從 4KHz 擴充套件到 8KHz)。

語音超分演算法:AliSSR

基於神經網路的語音超分演算法近幾年來取得了不錯的超分效果,但其中很多演算法都是雙非演算法(非實時非因果),同時往往涉及較大的引數量和計算量,難以在實際應用場景中部署。阿里雲視訊雲音訊技術團隊基於上述實際問題,研發了兩種實時因果的語音超分演算法:AliSSR(e2e 版本)和 AliSSR(lightweight 版本),在擁有較少引數量和較低延時的同時,保持其高質量的語音超分效果。

1. 演算法原理簡介

A. AliSSR(e2e 版本):是基於端到端的 encoder-decoder 模型。該模型結合實際應用場景,充分考慮了編解碼、下采樣所帶來的損失,並結合 GAN 相關的訓練技巧,提升頻寬擴充的效果;

B. AliSSR(lightweight 版本):傳統訊號處理與深度學習結合的演算法模型。該模型簡單易擴充,資源消耗較小。

音訊技術團隊研發的基於神經網路的語音超分演算法無需額外資料傳輸, 可以實時流式地對窄帶語音訊號進行高質量地頻寬擴充。

2. 演算法效能

3. 應用場景

在某些低頻寬的場景中 , 例如在 PSTN 場景中,往往感覺對方聲音很 “悶”,這主要是由於傳送端傳輸的語音訊號取樣率低,沒有高頻成分的語音資訊。語音超分技術通過重建語音的高頻成分,為客戶提供更高音質、更出色的通話聽覺體驗。語音超分常用的使用場景如下表所示。

4. 超分效果顯示

AliSSR 實時超分演算法支援多語種、多性別。下面分別對男生英文和女生中文測試語料的超分前後效果進行展示,主觀聽感層面,超分之後的語音明顯比窄帶音訊要更 “明亮”,其中 AliSSR(e2e 版本)超分後明亮度要比 AliSSR(lightweight 版本)更好。

樣本 1:英文

https://www.youku.com/video/X...
視訊中的三段音訊分別是:窄帶語音、AliSSR 實時處理後的 e2e 版本和 lightweight 版本

樣本 2:中文

https://www.youku.com/video/X...
視訊中的三段音訊分別是:窄帶語音、AliSSR 實時處理後的 e2e 版本和 lightweight 版本

語音超分技術在 PSTN、線上會議、老舊音訊修復以及媒體生產等領域,有著較為廣泛的落地場景。AliSSR 語音超分演算法在神經網路的助力下,僅需極少的資源消耗,即可實時地給使用者帶來更“明亮、逼真”的音質體驗。未來,音訊技術將會繼續鑄造更強的超分能力,探索從窄帶到全頻帶、從語音到音樂再到全類音訊的全場景覆蓋的超分技術。

阿里雲視訊雲音訊技術團隊將繼續探索基於深度學習 + 訊號處理的的音訊技術,為線上會議等場景提供更清晰更極致的音訊體驗。

參考文獻

[1] J.Makhoul, M.Berouti, “High-frequency regen-eration in speech coding systems”, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.
[2] B. Iser, G. Schmidt, “Neural networks versus codebooks inan application for bandwidth extension of speech signals,” in Proc. of Interspeech, 2003.
[3] Kehuang Li, Chin-Hui Lee, “A deep neural networkapproach to speech bandwidth expansion”, in Proceedings of ICASSP, 2015, pp. 4395–4399.
[4] J. Abel, T. Fingscheidt, “Artificial speech band-width extension using deep neural networks for wide-band spectral envelope estimation”, IEEE Transactionson Acoustics, Speech, and Signal Processing, vol. 26,no. 1, pp. 71–83, 2017.
[5] V. Kuleshov, S.Z. Enam, and S. Ermon, “Audio super resolution using neural nets”, in Workshop of ICLR, 2017.
[6] Heming Wang, Deliang Wang, "Time-frequency loss for CNN based speech super-resolution", in Proceedings of ICASSP, 2020.
[7] Eskimez, Sefik Emre et al. “Adversarial Training for Speech Super-Resolution.” IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.
[8] Li, Y., Tagliasacchi, M., Rybakov, "Real-Time Speech Frequency Bandwidth Extension", ICASSP, 2021.

「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章