AliIAC 智慧音訊編解碼器:在有限頻寬條件下帶來更高質量的音訊通話體驗

阿里雲視訊雲發表於2022-05-05

隨著資訊科技的發展,人們對實時通訊的需求不斷增加,並逐漸成為工作生活中不可或缺的一部分。每年海量的音視訊通話分鐘數對網際網路基礎設施提出了巨大的挑戰。儘管目前全球的網際網路使用者絕大多數均處於良好的網路狀況,但仍有不少地區處於極差的網路條件下,除此之外,即使在網路良好區域,也仍會存在弱網現象。那麼如何在有限的頻寬下提供高質量的音訊體驗就成為了一個非常重要的研究方向。

在過去的幾十年間,語音或音訊的編碼技術都涉及大量特定領域的知識,例如語音生成模型。近些年,隨著深度學習類演算法的快速發展,逐漸湧現出了多種基於神經網路的音訊處理演算法。阿里雲視訊雲技術團隊在綜合分析了實際業務場景存在的共性問題的基礎上,開始探索藉助資料驅動的方式提高音訊的編碼效率,並提出了智慧音訊編解碼器 AliIAC (Ali Intelligent Audio Codec),可以在有限的頻寬條件下提供更高質量的音訊通話體驗。

什麼是音訊編解碼器?

即使沒有聽說過音訊編解碼器這個概念,在日常生活中,也一定有使用到這項技術,從收看電視節目到使用移動手機打電話,從刷短視訊到觀看直播,都會涉及到音訊編解碼技術。

音訊編碼的目標是將輸入音訊訊號壓縮成位元流,其所佔儲存空間遠小於輸入的原始音訊訊號,然後在解碼端通過接收到的位元流恢復出原始音訊訊號,同時希望重建的訊號在主觀聽感上與原始訊號儘可能相近,編碼過程如下公式所示:

$$ \boldsymbol{h} \leftarrow \mathcal{F}_{\mathrm{enc}}(\boldsymbol{x}) $$

其中,\({x} \in \mathbb{R}^{T}\) 代表時域語音訊號,長度為 \(T\),\(h\) 會進一步被轉換為位元流 \( \tilde{\boldsymbol{h}} \in \mathbb{R}^{N} \),\( N \) 遠小於 \(T\),解碼過程如下公式所示:

$$ \boldsymbol{x} \approx \hat{\boldsymbol{x}} \leftarrow \mathcal{F}_{\mathrm{dec}}(\tilde{\boldsymbol{h}}) $$

傳統的音訊編解碼器可以分為兩大類:波形編解碼器和引數編解碼器(waveform codecs and parametric codecs)

波形編解碼器

波形編解碼器的重點是在解碼器端產生輸入音訊樣本的重建。

在大多數情況下,波形編解碼器較依賴於變換編碼技術,可以將輸入的時域波形對映到時頻域。然後,通過量化技術對變換系數進行量化,最後經過熵編碼模組將其轉化成可用於傳輸的位元流。在解碼器端,通過相應的反變換來重建時域波形。

一般情況下,波形編解碼器對待編碼的音訊的型別(如:語音、音樂等)做很少或不做任何假設,所以可以處理的音訊範圍很廣泛。在中高位元率時這種方法可以產生非常高質量的音訊,但在低位元率下往往會引入一些由編碼引起的 artifacts,導致聽感變差。

引數編解碼器

引數編解碼器的核心思想是通過對待編碼的音訊(如:語音)進行特定假設,並通過引數模型的形式將先驗知識融合進編碼的過程中。

編碼器首先會估計模型的引數,然後經過量化模型進行進一步壓縮,解碼器則使用量化後的引數來驅動合成模式進行時域波形的重建。與波形編解碼器不同的是,引數編解碼器的目標不是在逐個樣本的基礎上獲得高相似度的波形重建,而是生成在感知上與原始音訊相近的音訊。

傳統音訊編解碼器面臨的挑戰

得益於 WebRTC 生態的蓬勃發展,opus 音訊編解碼器在業界被廣泛使用,它著重於處理廣泛的互動式音訊應用場景,包括 VOIP (Voice over Internet Protocol)、視訊會議、遊戲內聊天,甚至遠端現場音樂表演。

它由兩種不同的編解碼器構成,一個是用於語音的 SILK,另一個是用於音樂的 CELT。儘管 opus 及其他傳統音訊編解碼器(如:EVS、AMR-WB、speex、MELP 等)都擁有著優異的效果,但在有限頻寬條件下、訊雜比低條件下和混響混音嚴重條件下均表現出了不同程度的侷限性,無法應對當前複雜多變的應用場景,帶來流暢清晰的音訊通話體驗。

AliIAC 智慧音訊編解碼器

考慮到傳統音訊編解碼在高位元速率下的優異表現及業內的主流地位,阿里雲視訊雲音訊技術團隊提出了兩款智慧音訊編解碼器,E2E 版本和 Ex 版本。

其中,E2E 版本,可直接替換 opus 等傳統編解碼器模組,支援在 6kbps ~ 18kbps 下工作,對 16khz 音訊進行編解碼;Ex 版本則可在沿用傳統編解碼器的基礎上,通過後處理的方式對 6kbps~8kbps 解碼後的 16khz 音訊進行修復增強,提升可懂度和音質。

演算法原理

1、E2E 版本:是基於端到端的 encoder-decoder 模型,同時考慮了實際應用場景中會遇到的語音訊譜損傷、存在混響及殘留噪聲等問題,結合 GAN 網路的訓練策略,進一步提升解碼後的音訊質量;為了方便部署與使用,採用殘差量化模組,支援單一模型可變位元率,範圍在 6kbps ~ 18kbps。

2、Ex 版本:是針對被傳統編解碼器如:Opus, 在 6kbps ~ 8kbps 條件下解碼後的音訊,進行頻率域修復 / 增強的深度模型。對 0 4kHz 頻域進行幅度譜的損失補償,在 48kHz 頻域進行頻譜的預測補償,修復 / 增強後的音訊在主觀聽感上(可懂度和音質)有明顯提升。

演算法效能

演算法效果

場景一:真實場景有損頻譜+混響情況

原始音訊音訊

opus 6kbps 效果音訊

opus+Ex 增強效果音訊

E2E 6kbps 效果音訊

E2E 18kbps 效果音訊

不同方法的頻譜圖對比:

從主觀聽感和頻譜圖均可看出,opus 6k Ex、E2E 6k、E2E 18k 版本較opus 6k版本在效果上均有明顯提升,其中 opus 6k Ex 和 E2E 6k 在前半段頻譜明顯有損傷的情況下解碼後有些許雜音殘留,E2E 18k 版本則基本接近原始音訊。

場景二:真實場景帶噪情況

原始音訊音訊

opus 6kbps 效果音訊

opus+Ex 增強效果音訊

E2E 6kbps 效果音訊

E2E 18kbps 效果音訊

不同方法的頻譜圖對比:

從主觀聽感和頻譜圖均可看出,opus 6k Ex、E2E 6k、E2E 18k 版本較 opus 6k 版本在效果上均有明顯提升,且音色音調均與原始音訊接近。

AliIAC智慧音訊編解碼器將繼續演進

AliIAC 作為阿里雲視訊雲音訊解決方案的一部分,旨在充分利用資料驅動的思想來提高音訊的編碼效率,使得可以在更低頻寬代價的前提下獲得更好的音訊通話體驗。

目前,AliIAC 還處於算力、位元速率與效果的平衡階段,需要進一步去解決實時性與音訊生成效果穩定性等問題,但在頻寬受限條件下,AliIAC 相較傳統音訊編解碼器已經表現出了優異的效果。其中,在大多數實際場景中,E2E 18kbps 的效果與 opus 24kbps 的效果持平,E2E 6kbps 的效果與 opus 12kbps 的效果持平,平均可以節省 25% ~ 50% 的頻寬消耗;而 Ex 版本則可以在不額外消耗頻寬資源的前提下,主觀 MOS 分平均提升 0.2 ~0.4。在未來,阿里雲視訊雲音訊技術團隊將繼續探索基於深度學習 + 訊號處理的音訊技術,創造極致的音訊體驗。

「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章