2021 技術展望丨實時互動場景下，音訊的技術變遷與機遇

線上會議、線上教育、電商直播等多個場景的興起，也使得實時互動技術從幕後走到臺前，得到了更多人的關注。編解碼、網路傳輸、計算機視覺等 RTE 相關的一系列技術也正煥發出更強的生命力。2021 年，在深度學習、5G 等技術的加持下，RTE 會進一步催生哪些可能？

聲網Agora 開發者社群聯合 InfoQ 共同策劃，邀請了聲網Agora 開發者社群中的多位技術專家，從視訊傳輸、計算機視覺、編解碼標準發展、WebRTC、機器學習、音訊技術等角度，共同撰寫「2021 實時互動技術展望系列」，一窺技術新趨勢。本文源於對聲網Agora 音訊體驗與工程總監陳若非的採訪。本系列內容由聲網 Agora 開發者社群與 InfoQ 聯合策劃，並由 InfoQ 審校，首發於 InfoQ。

音訊技術中有很多細節會影響到實時互動的體驗。隨著技術和應用場景的變化，音訊也正在與更多的學科、技術結合。在實時互動場景下，哪些因素會影響音訊的體驗？相比於視訊技術，音訊技術是否發展較慢？面向 RTC 場景，音訊技術又需要作出哪些改變？......為了解答這些問題，我們採訪了聲網 Agora 音訊體驗與工程總監陳若非，請他來聊一聊在實時互動場景下音訊技術的變遷與機遇。

Q：相對於研究網路架構、大前端等方面的工程師來講，研究音訊的工程師比較少。具體來講，音訊工程師都會研究哪些相關技術？

陳若非：聲音是資訊和情感傳遞的載體，所以音訊相關的研究基本會圍繞如何讓資訊和情感更好的被傳遞和感知理解展開的。音訊領域相對專業細分，但是我們細挖一下就會發現音訊相關的研究方向其實很多，涉及到的交叉學科也很廣。從互動物件來說我們可以分為兩類：人機互動的音訊和人人互動的音訊。從互動的實時性來分，又可以分成實時的互動和非實時的互動。人機互動主要研究如何讓機器更好的理解聲音和生成聲音，通過 ASR、MIR、TTS 等技術來實現人類希望機器完成的任務。人人互動的部分更多和人的感知系統關聯，其優化目標會圍繞如何讓人更好的感知音訊來展開。實時的人人音訊互動又在此基礎上提出了更多的約束條件，優化需要用更低的延時、更小的計算量和因果系統下展開。我所在的聲網就主要聚焦於實時互動音訊領域的研究，所以我們會從採集播放、編解碼、前後處理、傳輸的全鏈路去研究如何在儘可能低的延時和計算量下提供更好的音訊互動體驗。

Q：聊技術變遷之前，首先梳理一下概念，在實時互動的場景下，哪些因素會影響音訊的體驗？

陳若非：實時互動音訊是端到端，嘴到耳的體驗，所以全鏈路上所有的組成部分都有可能影響音訊體驗。我們可以從採、播、濾、壓、傳五個方面去分解技術對音訊體驗的影響。首先說採集，不同麥克風的聲學屬性差異就對音訊體驗有決定性的影響，從拾音的距離，方向性到精度。被拾取的聲音訊號經過模數轉換，訊號取樣也會造成聲音的損失，取樣率越高聲音的細節就會保留的更好。所以一個高質量的麥克風會從源頭上提供更好的音訊源。類似的，一個高質量的播放裝置可以更好的保留更多聲音細節。然後前後處理是音訊鏈路上非常重要的一環，大家常聽到的 3A 技術都屬於這個範疇，前後處理對原始採集的訊號或者即將要播放的訊號做二次處理，來濾除其中的干擾訊號，比如回聲、噪音、雜音、嘯叫等，同時對目標的音訊做音量和聽感上的增強。另外在一些音效玩法裡，我們也會通過對訊號的處理實現變聲、美聲等特定聲音效果。再說下編解碼和傳輸，這兩者是強耦合的。原理上編碼的取樣率和位元速率越高，聲音的保真度就更好，聽端的體驗也更好。但現實中網路的頻寬是有限制的，還會經常出現丟包抖動等不利情況。好的編解碼演算法可以通過對聲學模型和資訊冗餘的深入理解，在相對低的位元速率下實現高品質的聲音保留，從而保證在各種弱網情況下的穩定表現。同時我們也需要通過開發信源通道的弱網對抗技術，在保證低延時的基礎上，減少丟包抖動帶來的聽感影響。

Q：行業中有種看法，認為音訊技術相對於視訊技術，似乎發展會稍慢一些？你怎麼看待目前音訊技術的發展？

陳若非：技術的進步都是需求推動的。電話時代的音訊技術曾經經歷火熱的發展，一些經典理論如線性預測、自適應濾波，很好的解決了一些基礎可用的問題，很多技術到今天還在被沿用。近幾十年 VoIP 的技術也得到了長足的發展，我們今天看到 VoIP 的分鐘數能在通訊領域佔據越來越大的份額，背後也離不開音訊研究人員長期的紮實工作和持續進步。音訊需要較高的技術門檻，全鏈路的木桶效應明顯，裝置耦合重碎片化嚴重，改進主觀不易被感知，這些因素都決定了音訊想要出成果需要坐的住冷板凳，需要長期主義的堅持。

近些年 AI 技術的興起給音訊注入了新的活力，也給很多長時間不好解決的問題提供了新的思路。人機語音互動成為了一個音訊領域新的熱點，相關的技術也蓬勃發展，目前在識別、合成等領域都取得了長足的進步。而在最近的幾年，也看到了不少 AI 技術和 RTC 領域結合的實踐成果，讓人看到了進一步提升音訊體驗的巨大空間。從外部環境來看，在看膩了千人一面的直播後，越來越多的人開始喜歡心理包袱更小，想象空間更大的音訊社交，近期的行業裡也開始出現新的浪潮。相信在這種內外因的結合下，會有更多的人開始研究實時互動音訊的體驗，也非常期待這個行業會給大家帶來不一樣的新體驗。

Q：從實際來看，目前音訊在實時領域還存在哪些技術挑戰？

陳若非：實時互動音訊領域還有很多技術挑戰需要我們的攻克。我這裡提兩個大點。第一，碎片化。傳統的手機廠商是一臺臺除錯演算法和逐一通過聲學測試出廠的。如果我們要在不同裝置、環境、網路條件下提供一致性的高質量音訊體驗，我們就需要尋找新的突破。在接下來萬物互聯的時代，這種需求會愈加強烈，而這方面技術的突破會帶來巨大的價值。第二，主觀性。音訊體驗是一個非常主觀的存在，每個人的感知差異和喜好也迥異。我們需要找到更好的方法來匹配這種個性化的喜好和提供更好的量化評價體系。

Q：基於你對業界、學界的觀察，你認為音訊技術面向 RTC 場景，接下來需要作出哪些改變？（如演算法、技術的結合等）

陳若非：我認為實時互動音訊的未來應該有下面三個部分。第一，AI 和訊號處理的深度融合。經典的訊號處理和聲學模型已經能幫我們解決很多問題，當然也不少解決不好的問題。在 AI 的有效融合下，可以有效的補充傳統演算法的不足，在合理的代價下更好的解決我們的問題，而非簡單視 AI 為靈丹妙藥包治百病。第二，符合時代的評價標準。目前很多音訊標準是給通訊設計的，真正如聚一堂的互動體驗需要對應的評價標準，如何更好的評價互動性，沉浸感是我們需要去探索的地方。第三，真正的沉浸感和伴隨感。人們開始不滿足於單純的資訊互動，進一步的追求面對面的互動體驗和情感伴隨，而隨著網路和裝置條件的進一步成熟，這種未來也成為可能。音訊全鏈路都需要升級，從聲場的採集到還原，甚至擴增實境，來創造出真正沉浸式伴隨的體驗，這也會將會是一條漫長的探索之路。我們在聲網一直致力於探索這些長年存在的行業難題，也歡迎各路有想法有追求的朋友聯絡我，共同交流探索，共同敲開未來音訊之門。

本系列相關閱讀

2021 技術展望 | 走向未來的實時生成技術

2021 技術展望 | 弱網下的極限實時視訊通訊

2021 技術展望 | 5G 將會倒逼傳輸協議、演算法做出更多改進

2021 技術展望 |AV1 在 RTC 應用實踐中的現狀與展望

2021 技術展望丨實時互動場景下，音訊的技術變遷與機遇

相關文章