音訊 3A 處理實踐,讓你的應用更「動聽」

融雲RongCloud發表於2022-06-16


五月底,我們在週末刷屏中輪番感受了一次羅大佑和孫燕姿的“聯合”演唱會,集體追憶青春,一整個 DNA 動了。關注【融雲全球網際網路通訊雲】瞭解更多

疫情影響下,在人頭湧動的體育館相會變得遙遙無期,用線上的方式和大家見面,促成了多場引起大家強烈共鳴的線上演唱會。

事實上,我們在把很多線下的場景搬到線上,演唱會只是其中之一。語聊房、KTV、教學……在 RTC 實時音視訊技術的支援下,線上玩法愈加豐富,也給技術實現帶來新的挑戰。

尤其是在有音樂參與的場景玩法中,對音質呈現的高要求就需要引入 3A 演算法,並根據不同場景做針對性方案設計。


3A 演算法

3A 音訊處理技術,是聲學回聲消除(AEC)、背景噪聲抑制(ANS)、自動增益控制(AGC)三種音訊演算法的合稱。

在音訊資料的處理過程中,在音訊資料採集完成之後需要進行預處理,3A 是預處理的關鍵。

(音訊處理流程圖)

AEC 回聲消除演算法原理及詳解

回聲消除(AEC)是指在二線傳輸的兩個方向上同時間、同頻譜地佔用線路,線上路兩個方向傳輸的訊號完全混在一起,本端發訊號的回波就成為了本端訊號的干擾訊號,利用自適濾波器可抵消回波以達到較好的接收訊號質量,即為回聲消除。

回聲消除的原理就是利用接收到的音訊與本地採集的音訊做對比,新增反向的人造回聲,將遠端的聲音消除。

在容易產生回聲的通訊場合,自適應回聲消除演算法是一項不可缺少的技術,其主要應用領域有視訊會議系統、擴音電話、可視電話終端、行動通訊或聲控系統及會議麥克風等。

尤其在視訊會議系統和擴音語音通話中,回聲的存在嚴重影響會議質量,特別是在企業遠端會議中,由於傳輸延時加大,回聲的影響更加惡劣明顯。

ANS 背景噪聲抑制方法和作用

背景噪聲抑制(ANS)指的是將聲音中的背景噪聲識別並進行消除的處理。

背景噪聲分平衡噪聲瞬時噪聲,平穩噪聲頻譜穩定,瞬時噪聲頻譜能量方差小,利用噪聲的特點,對音訊資料新增反向波形處理即可消除。

目前,對於平穩的噪聲已經有很多種簡單方法能夠成功抑制,但是生活中常見的一些瞬態噪聲卻依然缺乏好辦法。

瞬態噪聲的共同特點就是突發性極強,在時域上呈振盪衰弱的形式,持續時間在十幾毫秒至上百毫秒不等;在頻域上分佈很寬,瞬態噪聲的頻譜基本上是和正常語音的頻譜混疊在一起,很難進行抑制。

AGC 自動增益演算法實現與影響

自動增益控制(AGC)主要用於調整音量幅值,提高語音通訊系統在帶噪聲環境中的效能。

人們正常交談的音量在 40-60dB 之間,低於 25dB 的聲音聽起來很吃力,而超過 100dB 的聲音會讓人感到不適,AGC 的作用就是將音量調整到人接受的範圍

音訊響度及麥克風拾音控制是保證音視訊溝通質量的重要技術手段,一般來說,音訊標準、傳輸條件、人為失誤等因素都可能導致音訊訊號之間出現聲音突變或者響度不一致的情況,這時候就需要對音訊訊號放大或縮小以得到自然清晰的語音通訊。


3A 處理在不同場景的應用

每個場景對於音質的要求和處理方式都是不一樣的。為了提供更優質的服務,融雲在不同場景下實施針對性的 3A 策略適配,力爭給客戶帶來最好的音質體驗。

音視訊通話 人聲為先 動態調整

通話場景以清晰人聲為優先要求,無論使用者身處嘈雜的戶外還是在地下車庫的弱網情況,對於清晰穩定的人聲接收,都是通話場景的最核心訴求。

在通話場景中,融雲如何針對性設定 3A 處理呢?

首先是 ANS 抑制背景噪聲,將使用者所在環境中的背景噪聲最大程度地抑制掉。

平衡噪聲是背景噪聲的主要因素,該部分抑制起來並不困難。難點在瞬時噪聲,瞬時噪聲一般是突然出現在通話過程中的,比如飛機呼嘯而過,學校的下課鈴,汽車的鳴笛等等,這就需要通過 AI 演算法智慧降噪。

AI 降噪可以通過模型訓練的方式,識別出需要過濾掉的瞬時噪聲,隨著語料庫的逐漸擴大,AI 降噪的效果也會越來越好。

其次是 AEC 回聲消除,回聲消除是否開啟也取決於使用者是否使用了外接裝置。比如,使用者若使用耳機來進行通話,是不會產生回聲的,自然也就不需要開啟回聲消除。

若直接使用手機麥克風和揚聲器進行通話,就需要開啟回聲消除功能了。回聲消除功能會對本地的人聲產生一定的抑制作用,所以對於不同的音量範圍和聲音清晰度要求,回聲消除的強度也會不同。

例如,在通話過程中,使用揚聲器外放,並且把音量開啟到最大,回聲抑制就可以開到最大,儘可能地將回聲全部消除掉。相應地,本地人聲也會受到最大程度的抑制,需要在保證對方可以聽清楚的前提下進行抑制程度的調整。

最後是 AGC 自動增益,它和回聲消除抑制人聲有一定先後邏輯,人聲抑制後,通過自動增益來放大聲音,讓聲音達到對端聽清楚的程度。有一些手機的揚聲器本身音量增益很小,也可以針對不同的機型做聲音的增益,讓本端的播放音量更清晰。

語聊房音樂與人聲 微妙平衡

語聊房場景中,人聲依然很重要。但是語聊房的一個重要特點是,需要在房間內播放音樂來烘托氣氛,達到業務場景中的娛樂作用。

主播唱歌展示才藝,也是提升使用者活躍度和營收的重要抓手。

那如何保證主播唱的歌傳到觀眾端依然優美動聽呢?這就與 3A 有很大關係。

首先是 ANS 抑制背景噪聲,這裡的需求和通話過程中是一樣的,要將背景中的噪音全部去掉。

其次是 AEC 回聲消除,絕大部分主播會使用外接耳機裝置來進行直播,不需要考慮回聲情況。

在主播使用手機麥克風和揚聲器的情況下,回聲消除程度不能太大,否則會影響麥克風採集到的主播說話聲。這就需要達到的一個微妙的平衡,既要讓音樂高音質地釋出,又要保證麥克風採集到的主播人聲不會因為回聲消除而被抑制太多。

最後是 AGC 自動增益,需要對麥克風採集到的主播聲音和音樂的聲音根據原始採集設定的音量分別進行增益控制,不能讓音樂聲過大而遮蓋住人聲,也不能讓音樂聲太小而達不到烘托氣氛的效果。

音樂教學樂器還原 音樂保真

音樂教學場景對於人聲的要求依然是清晰穩定,對於音樂的要求比語聊房更高。因為不同的樂器需要採集的聲調範圍會大很多,為了在遠端還原出樂器的原始聲音,就需要 3A 做特殊的處理了。

首先是 ANS 抑制背景噪聲,在音樂教學場景中,背景噪聲抑制的程度相對低一些,以保證樂器採集的聲音不會在波峰位置被削弱,導致音高出現損失的情況。

與通話場景、語聊房場景不同的是,在音樂教學場景,降噪的顆粒度並不是第一位的。音樂教學老師一般在相對安靜的室內環境,隔音水平比較高,所以首要目的是保證音樂不失真。

其次是 AEC 回聲消除,在音樂教學場景中,老師們一般有相對規範的裝置,對於回聲消除的要求相對較低,可以通過外接麥克風進行採音,通過耳機進行播放,這樣就不會出現回聲。

最後是 AGC 自動增益,音樂教學場景中老師的彈奏和說話基本上不會同時出現,說明和演示交叉進行。此時,對於自動增益的要求是讓麥克風採集到的人聲和樂器聲清晰地傳達到遠端。

遊戲開黑語音為先 順暢商討

在遊戲開黑場景中,最重要的就是語音交流,幾乎沒有背景音樂需求,3A 處理的重點在於雙講效果是否優秀,回聲消除是否達標。

首先是 ANS 抑制背景噪聲,手遊的場景發生在隨時隨地,即使是在擁擠的地鐵或者飛馳的班車中或是小區附近的菜市場,都可以成為手遊愛好者開黑的場所。

所以手遊的背景噪音也就異常複雜,對於背景噪聲的抑制需求尤為突出,與通話時的背景噪聲抑制標準幾乎一致。

其次是 AEC 回聲消除,對手遊場景來說,佩戴耳機和不佩戴耳機的玩家數量相差無幾,都是需要重視的場景。

在佩戴耳機的情況下,回聲消除基本上不需要處理。但是在外放情況下,若身處嘈雜環境,回聲消除需要開到更大,並需要保證雙講的清晰和穩定,對技術提出更高挑戰。融雲已經投入了大量資源,開發調整了該場景下的回聲消除演算法,保證開黑玩家的通訊效果。

最後是 AGC 自動增益,在開黑場景下,因為背景更為嘈雜,對原始採集聲音的抑制程度更大,也就需要增益更大一些,以保證其他隊友能聽清楚本端聲音,讓對戰時的對策商討更加順暢。


音訊 3A 能用到的場景非常豐富,本文僅對主流場景進行介紹。

時下流行的狼人殺、劇本殺、視訊相親等場景中如果想達到好的音視訊效果,也離不開 3A 處理。

相信隨著應用的不斷深入,3A 技術也會有更大進步,達到將所有目標噪音全部清除的程度。融雲也將持續精進技術,致力於讓每一個使用者在實時音視訊場景獲得身臨其境的感受。

相關文章