聲網 MetaKTV 技術揭祕之“聲臨其境”:3D 空間音效+空氣衰減+人聲模糊

聲網Agora發表於2022-02-24

聲網近期釋出了“MetaChat 元語聊”“MetaKTV”解決方案,致力於提供一種全新的元宇宙互動社交、K 歌方式,其中都提到了“3D 空間音訊”這項核心技術,對提升玩家沉浸感與聽覺體驗發揮了關鍵作用。我們也收到了很多開發者的諮詢,今天將為大家帶來聲網 3D 空間音訊的技術揭祕,揭曉這項技術的核心功能點以及背後的技術原理。

在現實生活中,由於雙耳效應的原理,我們聽到來自上下、左右等不同方位聲音的感覺是不同的,並且可以快速辨別對方的位置。而在元宇宙虛擬空間中,如何通過聽覺增加沉浸感是很多廠商迫切解決的關鍵要素,想象一下,在 3D 的虛擬聊天室中,你操控著虛擬形象與網友們聊天,耳朵裡還傳來正前方主持人的聲音以及房間各個角落的聊天聲,優雅的 BGM 在你的上方環繞,彷彿置身線上下真實的 Party 中。這其中一些關鍵細節的擬真度是構建臨場感、沉浸感的關鍵要素,關鍵細節的缺乏會造成使用者的感知度很低,而聲網的音訊技術團隊通過對技術的持續鑽研,力求對每一個細節完美處理,最大程度為使用者帶來更逼真的聽覺體驗。

3D 空間音效、空氣衰減模擬、人聲模糊 三大黑科技完美模擬現實聽覺

聲網 3D 空間音訊通過純軟體演算法方案,模擬頭部球面區域立體聲場,使使用者在音訊聽感上具有空間感。當使用者操作虛擬人物在虛擬場景裡移動,可以實現根據虛擬人物的面部朝向、音源朝向、遠近距離與上下高度,呈現不同聲音效果,完美模擬現實聽覺感受,這其中“3D 空間音效”、空氣衰減模擬、人聲模糊三大黑科技發揮了關鍵作用。

01 3D 空間音效:模擬音源的位置與朝向 實現音色差異

文章開頭有說過,我們在現實生活可以感知到聲音是從不同的方向傳來的。我們先來大致介紹下這裡的“方向感”是怎麼產生的。

圖片

■圖1:耳廓收音示意圖

我們可以通過圖1 看到人耳的耳廓在接收不同方向的音源時,會讓聲波以不同的路徑傳導至內耳。這樣,不同方向的聲波傳輸到內耳的時候,音色就會由於耳廓的形狀而產生各向異性。除此之外,由於我們有兩個耳朵,所以音源在不同方向時聲波到達耳朵的時間也會不同,這一點我們可以結合圖2 來理解一下。

圖片

■圖2:雙耳效應示意圖

結合圖2 我們可以發現,如果音源在你的右側,右耳會先接收到聲波,相反如果音源在左側,左耳會先收到聲音,同時由於人的頭部也會對聲音的傳播產生影響,如果音源在右側,那麼聲波需要越過頭部這個“障礙”才能傳遞到左耳,那麼相對於右耳,左耳聽到的音色和頻率會有所衰減。最終我們依靠雙耳間的音量差、時間差和音色差來判別聲音的方位。

介紹完雙耳效應的原理,再來看聲網是如何在虛擬空間中模擬真實的“雙耳效應”,在虛擬世界中,我們需要把音訊根據聲源+使用者的相對位置以及聲源+使用者的朝向來渲染一個雙聲道的音訊,這樣就可以帶上耳機來體驗不同空間位置的聲音實現“聽音辨位”,目前一些傳統的解決方案是通過調節左右耳音量的方法來實現左右方向的渲染,但這種方法只能渲染左右的方向。對更復雜的前後、上下這些方向的渲染還需要細緻調節左右耳音色、延遲等細節差異才能準確模擬音源的位置。

在空間聽覺的研究和實現中,頭部相關聯的傳遞函式(HRTF)(Head Related Transfer Functions)與頭部相關聯的衝激響應(HRIR)佔有十分重要的地位。而聲網基於 HRTF 頭相關傳遞函式、心理感知聲學、聲源指向模擬等演算法自研了一整套 3D 聲場渲染引擎。可以動態模擬空間中任意角度、朝向的聲音在傳遞到左右耳時聲音發生的變化從而實現了高精度的聲音方位渲染。並且為了追求極致的聽感與極致的可用性,渲染引擎以極小的算力要求,支援 48kHz 全頻帶、多路音訊渲染,讓你在移動端不多費流量、不用擔心算力也能暢享多人高清音質互動。

在 HRIR 的採集中,聲網通過在全消實驗室針對每個角度都有一對採集的 HRIR,最終形成了一個球形的資料集,以實現角度的精準模擬。下方圖3 就是一個球形 HRIR 的座標示意圖。我們可以看到圖3 中央是人頭部所在的位置,周圍的紅點就是 HRIR 採集時音源的方位。

圖片
■圖3:HRIR 採集點的空間分佈

音源的朝向對我們的聽覺也會有直接的影響,例如一個人背對著你說話相比正對著你說話聲音會顯得比較“悶”,因為背對著你說話時聲音需要繞過身體這個障礙,不同頻率的聲波繞過障礙物時的能量衰減程度不同。聲網 3D 空間音效還提供音源朝向功能,通過聲學建模的方式可以模擬任意角度的音源方向帶來的音色差異,最終通過模擬不同音源的位置與朝向,實現音量、音色的差異,從而完美模擬現實聽覺的感受。

此外,人在真實環境中對上下、前後這兩個方向的感知是比較模糊。這是因為人的耳朵基本上是對稱的,相比水平方向,在垂直方向上左右耳聲音的音量、延遲基本相同就不足以用來區分方向了。所以在虛擬空間中,聲網還對這些方向的聽感區分做了增強,讓使用者在“虛擬空間”中可以擁有超越現實的聽音辨位能力。

02 空氣衰減模擬:模擬實現聲學現象 讓聲音更逼真

模擬不同音源位置與朝向進行“聽音辨位”只是聲網 3D 空間音訊模擬現實聽覺感受的第一步,我們還實現了對空氣衰減的模擬。在現實中由於空氣的存在,聲波在空氣傳播中會產生衰減,其中高頻的聲音衰減快,低頻的衰減慢,那麼同一個音量的聲音,如果高頻多一些,我們就會覺得它離你更近。

由於聲波在空氣傳播中會產生衰減。而其中高頻的聲音衰減快,如蚊子的嗡嗡聲、鳥叫聲,低頻的衰減慢,如男生粗獷的聲音,風聲、水泵聲。那麼同一個音量的聲音,如果高頻比較多,我們會覺得它離你更近一些。空氣衰減功能就是模擬這種現實環境中的聲學現象讓聲音聽起來更逼真。我們用 2 張圖來更直觀的展示,如下方圖4 頻譜圖所示,低頻的聲音可以傳播更遠,而 8Khz 以上的聲音如果超過 1千米 以上就很難聽到。

圖片
■圖4:不同頻率的聲波空氣衰減曲線

圖5 的時頻圖所示,上方為空氣衰減的模擬,下方是隻有音量的衰減,對比可以看出在空氣衰減的情況下,在距離逐漸增加後,8KHz 以上的音訊聲音衰減更為迅速。

圖片
■圖5:空氣衰減效果頻譜對比

在生活中很多人對“空氣衰減”的存在感知並不明顯,但在虛擬空間中,通過 3D 空間音效與空氣衰減模擬的強強結合,可以進一步還原現實聽覺感受,在元宇宙中創造更逼真的“聲臨其境”感。

03 人聲模糊:熱鬧的氛圍與“安靜”的聊天也可兼得

我們在嘈雜的酒吧、LiveHouse 中經常會遇到這種情況,你只想聽到朋友的聲音,但其他人嘈雜的聲音不想完全消除,因為這樣就沒有了酒吧的氛圍。線上下,你可能沒法實現,但在虛擬空間中完全可以做到。聲網 3D 空間音訊的人聲模糊功能就能將虛擬空間中你不想聽到的聲音進行模糊化處理,這樣你能聽到空間中周圍的人聲,但聽不清他們在說什麼,從而既保持了環境氛圍,又不會干擾你與朋友的互動。

除了以上三個核心功能外,聲網 3D 空間音訊還支援本地音原始檔播放,可以自定義場景中的背景音、伴奏、音效等。對於開發者而言,也支援靈活、多模式接入使用:

  • API 模式:直接整合Agora SDK,呼叫 API 即可自定義空間音訊 (客戶(需要center server)根據自己虛擬世界的音源、聽音者位置,朝向資訊等,輸入引數,即可實現)。
  • Server 模式:Agora Server 實現座標同步與空間音訊所需的引數計算,並在客戶端進行音訊渲染。
  • 本地渲染模式:客戶端可以把上傳的音訊進行空間音訊的渲染,從而可以實現背景音樂、環境音效渲染等功能。

介紹完聲網 3D 空間音訊的核心功能點與技術原理,我們再來看看它的應用場景,被視為下一個網際網路新形態的元宇宙已經融入各個行業的多個場景,如遊戲、語聊房、線上 K 歌、虛擬演唱會、VR、AR等,但對於語聊房、線上會議、虛擬活動、線上教育等場景而言,3D 空間音訊可以有效的增強使用者線上上的互動、聽覺體驗。而對於 Metaverse、VR、AR、虛擬演唱會、線上遊戲而言,3D 空間音訊則有望重構使用者在虛擬世界的沉浸感與聽覺體驗。

圖片
■圖6:3D 空間音訊部分應用場景

我們將通過幾個應用場景的案例來更直觀的展示 3D 空間音訊所帶來的效果。

1、語音聊天室:在語音聊天室中,通過 3D 空間音訊你可以聽到來自房間前後、左右各處的 360° 音訊,當你感受到來自周圍的笑聲時,感覺就像在參加一場真實的線下聚會,對於聽眾與發言者來說都不會感到平淡。再結合人聲模糊功能,語音聊天室中還能激發“雞尾酒會效應”,在多種聲音混雜的環境中,你注意傾聽某一種聲音,並仍然能夠聽清他在說什麼,這就是“雞尾酒會效應”,而使用者可以減少疲勞感,更加沉浸在聊天的環境中,並大幅提升聊天時長。

2、線上遊戲:遊戲語音是很多線上遊戲的標配功能,通過在遊戲內加入實時的語音功能,可以方便玩家之間溝通、協作,更好的取得遊戲勝利。但單純的遊戲語音方案更多是構建玩家之間溝通的橋樑,對於提升遊戲體驗沒有實質的作用,而通過將實時互動與 3D 空間音訊結合,將重構遊戲中玩家之間並肩作戰的全新體驗。例如在 FPS 遊戲中,當隊友通過具備 3D 空間音訊的遊戲語音與你實時溝通作戰情況時,你能感覺到他就站在你的右邊向你發出進攻指令,彷彿真的線上下一起參加真人 CS,這樣的遊戲體驗幾乎顛覆了傳統的遊戲語音溝通體驗,將原本單純的遊戲語音互動功能變成了增強遊戲沉浸感與協同感的核心功能。

3、虛擬演唱會:虛擬演唱會/音樂會是當下新興的一種線上演唱會形式,演唱者可通過動作捕捉技術化身虛擬的形象投影到虛擬舞臺中,使用者也會變身虛擬人在虛擬舞臺下喝彩,在加入 3D空間音訊後,有望顛覆虛擬演唱會的聽覺體驗。當觀眾化身虛擬人坐在舞臺下觀看演唱者表演,他能“聲臨其境”的聽到來自各個角落的聲音,從舞臺的左右兩側到中央的歌唱者再到周圍觀眾的各個位置,猶如置身在真實的演唱會環境中,對於演唱者而言同樣如此。

相比語音聊天室、線上會議,虛擬演唱會是否成功的關鍵在於演唱者的歌聲與聽眾聽到的歌聲是否好聽,3D 空間音訊則從本質上改變了歌聲傳遞到聽眾耳朵中的聽覺體驗,並彌補了虛擬演唱會一直缺失的“現場氛圍感”,未來觀眾在虛擬演唱會的沉浸感與聽覺體驗有望不輸線下演唱會。

不論是當下的各類線上活動還是未來的元宇宙虛擬世界,玩家之間的交流、互動都離不開 RTE 實時互動,因此 RTE 也被視為元宇宙底層基礎設施之一。而插入 3D 空間音訊,新的空間資訊被引入到虛擬體驗中,使觀眾能夠完全獨立於他們的眼睛感知自己身後或虛擬環境中其他地方發生的事情,在建立使用者之間實時互動的同時,RTE 也將成為幫助元宇宙場景增加臨場感與沉浸感的基礎設施,構建更逼真、更前沿的音訊元宇宙。

相關文章