語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

在人工智慧快速發展的今天，語音互動技術正經歷一場革命性的變革。從語音識別到語音合成，再到端到端的語音對話系統，這一領域的創新正以前所未有的速度推進。這些進步不僅提升了技術指標，更為實時翻譯、虛擬數字人、智慧客服等實時互動場景帶來了新的可能。

本屆 RTE2024 大會上，來自學界和業界的多位專家深入探討了語音 AI 的最新進展。阿里巴巴通義實驗室語音演算法專家呂翔、聲網音訊演算法工程師李嵩、香港中文大學（深圳）教授武執政、標貝科技聯合創始人兼 CTO 李秀林、SpeechGPT 的作者張棟等行業專家分享了他們的研究成果和洞見。

聲網音訊技術負責人陳若非和海外獨角獸的 AI Research Lead 鍾凱祺分別主持了主題分享和圓桌討論環節。

呂翔：CosyVoice 語音生成大模型的突破與挑戰

阿里巴巴通義實驗室的語音演算法專家呂翔介紹了 CosyVoice 的三大核心模組：自迴歸 Transformer、Flow Matching 和聲碼器。「自迴歸 Transformer 主要用於預測 Next Token，Flow Matching 則負責從噪聲分佈到目標分佈的轉換，」他說：「而聲碼器也做了一些改進，比如結合了 Filter 和 Vocal 技術。」

CosyVoice 的應用場景令人印象深刻。呂翔舉例說：「零樣本語音克隆是大家特別感興趣的功能，最短只需 3 秒的音訊就能模仿說話人的音色與風格。」CosyVoice 甚至能讓一個不會說英語和日語的人「說出」流利的外語。
CosyVoice 的開源也為更多開發者提供了機會。「程式碼庫結構非常簡單，一個指令就可以自行訓練。」

李嵩：低延遲流式語音識別系統的突破與應用

「在人與人的交流過程中，我在說話的時候你們已經聽到我在說什麼了，但現在的系統都是我說以後你們才開始理解我說的是什麼，然後再進行反饋，」聲網音訊演算法工程師李嵩如此描述當前技術的侷限性。

為了應對這一挑戰，李嵩和他的團隊開發了一套低延遲流式語音識別系統。這個系統能夠支援各種實時性要求高的任務。李嵩舉例說明：「實時字幕、實時翻譯、實時人機互動，這些場景對 ASR 實時性的要求都非常高。」

在技術層面，李嵩介紹了他們的創新方案，包括前處理、ASR 和後處理三個關鍵環節。其中，前處理階段使用了鳳鳴 AI 引擎，包括 AINS（噪聲抑制）、AIAEC（回聲消除）和 AIVAD（低延遲人聲檢測）等技術，顯著提升了識別效能。

「適配線上真實音訊環境，資料永遠是最重要的，尤其是開源框架或者模型效果都差不多時。我們在做訓練資料增加了 RTE 環境適配，包括噪聲 + 混響環境，配置不同等級的 3A 處理，讓 ASR 識別引擎瞭解 RTE 真實環境，讓適配率更好。」李嵩聲網音訊演算法工程師

武執政：語音生成大模型研究進展與未來趨勢

以電影《Her》為引子，香港中文大學（深圳）的武執政教授指出當前語音互動技術與理想狀態仍有差距，特別是在理解和表達複雜情感方面。

武教授強調，真正的語音互動不僅涉及語義內容，還包括情感、語氣、口音等多維度資訊。他舉例說明同樣的文字在不同情境下可能表達截然不同的含義，這對 AI 系統是巨大挑戰。

李秀林：語音合成大模型與高質量資料的融合之路

標貝科技聯合創始人兼 CTO 李秀林強調：「Transformer 之後，大家可能會在這種框架下做更精緻、更巧妙的設計，資料的需求量也是非常大的，資料佔比或者對整個效果的影響非常大。」

為了滿足大模型對資料的需求，標貝科技開發了一整套資料處理 Pipeline 工具鏈，包括資料獲取、降噪、片段切分、質量篩選、ASR 轉寫等步驟。李秀林指出，高質量資料的定義會因應不同任務和環節而有所不同，可能是大規模但質量一般的資料，也可能是中等規模但音質和風格把控更好的資料。

標貝科技在過去八年積累了大量合成方向的資料庫，涵蓋各種年齡、性別、風格和情緒的語音資料。最近，他們還製作了數千小時的對話資料庫，以滿足自然聊天風格的需求。

張棟：通向端到端擬人化語音對話的智慧體探索

SpeechGPT 作者、復旦大學的張棟分享了團隊在端到端語音對話方面的最新研究成果，重點介紹了 SpeechGPT 系列的發展歷程。張棟描繪了一個理想的語音對話 chatbot 應具備的特點：Human-like、Conversational Toolbox 和 Real-time。

在 SpeechGPT 的開發過程中，團隊發現了一些侷限性。「SpeechGPT 不能支援和副語言學習相關的任務，包括情緒、環境、年齡、口音，這些任務基本上都不能產生。」為了解決這個問題，他們開發了自己的 Speech Tokenizer 和 SpeechGPT2。

張棟還介紹了 SpeechGPT2 的訓練資料特點：「我們採用 10 萬小時的語音文字配置資料集，但區別就是會給所有語音加上 Caption 或者 Description，就是用一段文字描述語音特性，副語言也用文字形式描述起來。」

圓桌討論：VoiceAI ，下一代人機互動介面？

在主題是「Voice AI，下一代人機互動介面？」的圓桌討論中，來自「海外獨角獸」的鐘凱祺擔任主持人，參與討論的嘉賓包括張棟、李秀林、武執政和王芷，他們分別來自學界和業界的不同領域。

語音 AI 領域中被低估的方向

討論伊始，張棟就指出了語音 AI 領域中被低估的兩個重要方向：合成資料和強化學習。他強調了預訓練資料的重要性，指出即使有 1000 萬小時的預訓練資料，與文字大模型相比仍有數百倍的差距。張棟還提到了雙通道對話資料的稀缺性，以及如何利用人類反饋來提升語音大模型的質量。

李秀林則從資料建設的角度補充道，中英混合的資料或者中粵混合的資料在真實資料中的佔比是非常低的，但這種資料在一些場合下又需要，包括方言和口音等等。他呼籲業界合作，共同建設超大規模、低成本的資料資源。
在語音 AI 模型評估的問題上，武執政指出了現有評估方法的侷限性。他說：「我們內部做產品的時候希望定義一個比較客觀的指標，但這個客觀指標很難定下來。」他舉例說明，即使在準確率達到 100% 的情況下，情感和語氣等細微差別仍難以評估。

語音能否成為下一代人機互動介面？

王芷則分享了微軟在 Voice AI 方面的洞察，她認為教育和泛娛樂是 Voice AI 的下一個爆發點。「不管是重互動場景還是重內容場景，都是現在我們可以看到各行各業快速迭代的場景。」

張棟認為最大的難點在於模型能力。他解釋道：「語音到語音的模型幾乎完美，但不需要任何調整地適配到所有的 Agent 框架或者是文字技術相結合是比較難的。」

李秀林則指出了語音互動效率的侷限性：「我們看到一頁紙可以一目十行地看過去，要是聽和說的話，位元速率資訊含量密度是不夠的。」

王芷還表達了對聲音復刻技術的期待：「我很期待聲音特徵能夠讓數字分身更加智慧化，也會維繫家庭關係，就是把氣都撒在老公的智慧分身上面，可以很好地維繫自己的夫妻關係。」

加入 RTE 開發者社群，一同探索人和 AI 的實時互動新正規化

在語音 AI 技術的快速發展下，一個更加智慧、自然的人機互動時代正在加速到來。我們期待與各領域的研究者和開發者一起，攜手迎接這個更具表現力的語音 AI 新紀元，為更多實時互動應場景開啟無限可能。

RTE 開發者社群持續關注 Voice AI 和語音驅動的下一代人機互動介面。如果你對此也有濃厚興趣，也期待和更多開發者交流（每個月都有線上/線下 meetup），歡迎加入我們的社群（加微信 bob_fu），一同探索人和 AI 的實時互動新正規化。

「重塑語音互動：音訊技術和 Voice AI」技術專場由 RTE 開發者社群和海外獨角獸聯合出品。

RTE 開發者社群是聚焦實時互動領域的開發者社群。希望透過社群連結領域內的開發者和生態力量，萌芽更多新技術、新場景，探索實時互動領域的更多可能。這裡你將遇見一群致力於改變人和人、人和世界，以及人和 AI 連線方式的開發者。

「海外獨角獸」是拾象旗下的開源研究平臺，專注於研究全球範圍最優秀的創新公司，致力於用開源精神重塑投資資訊分發網路。創立以來拾象團隊積極輸出高質量的行業與公司認知，已經輸出了近 300 篇針對全球頭部科技公司和前沿科技趨勢的文章。在全球 AI 社群中積累了行業影響力，全網擁有 20 萬 + 訂閱，覆蓋頭部網際網路企業界、矽谷 AI 科學家、以及全球科技公司一線從業者等。