市場規模超 60 億美元,語音如何改變對話式 AI?

RTE开发者社区發表於2024-12-10

Lightspeed 投資了 Character.ai(AI 角色對話)、Cartesia(語音 AI 模型)、Volley(語音 AI 遊戲)等語音 AI 公司。不同於此前分享的 BVP 報告側重企業應用場景分析,Lightspeed 此篇報告更關注語音 AI 底層技術模型的演進趨勢。

核心要點:

語音技術的演變:語音技術從 1970 年代的「互動式語音應答」(IVR)系統發展到現代智慧語音電話樹,再到如今的 LLM 系統,使用者體驗不斷提升。

市場機遇:目前 IVR 系統市場價值 60 億美元,未來語音應用市場有望增長四倍,特別是在醫療和酒店等垂直行業。

語音 AI 的現狀:語音 AI 依賴於語音轉文字(STT)、文字到文字(TTT)和文字到語音(TTS)三種基本架構;兩類主要模型:擴散模型(適用於非同步編輯和有聲書等)和自迴歸模型(適用於實時對話和翻譯)。

下一代語音 AI 模型:潛在聲學表示(LAR)、tokenized 語音模型、無文字語音模型、流式傳輸模型。

文章認為語音 AI 初創公司在確定市場定位之前,需要先克服三個關鍵挑戰:

1. 無縫人機協同: 智慧識別 AI 侷限性,並在必要時無縫切換至人工客服,確保流暢的使用者體驗。

2. 效能與成本平衡: 實現低延遲、高效能的語音 AI 互動,同時控制計算和資料成本。自主搭建應用通常比全棧式解決方案更具成本效益。

3. 垂直領域優先: 專注於醫療或金融等垂直領域的應用,解決實際業務問題,比構建通用模型更易獲得早期成功。

語音的未來:語音如何改變對話式

AI The Future of Voice: Our Thoughts On How It Will Transform Conversational AI

作者:Lisa Han

十多年前,電影《Her》向我們展示了一個名為 Samantha 的 AI 作業系統,她的聲音讓她的人類伴侶深深愛上了她。在 2013 年,這樣的情節還只能算是科幻小說中的幻想。但今天,它更像是產品路線圖。自從 ChatGPT 推出以來,我們在多個領域見證了技術的飛速發展,語音技術尤為突出,它可能成為未來發展的關鍵。不久前,Open AI 推出了 ChatGPT 的高階語音模式,這一功能能夠實現接近人類自然對話的音訊交流。因此,我們正站在語音革命的邊緣,與電影《Her》中所描繪的那種體驗越來越近。

大語言模型(LLM)和多模態聊天機器人正在徹底革新企業與客戶之間的溝通方式。在 Lightspeed,我們與眾多研究人員和創業者進行了數十次深入的交流,他們正致力於開發下一代的語音應用。以下是我們對當前語音市場的狀況和未來發展趨勢的一些看法。

商業語音應用的演變

過去 50 年間,商業語音應用領域經歷了翻天覆地的變化。1970 年代,首個互動式語音響應(IVR)系統問世,那時使用者只能透過鍵盤輸入來響應語音提示進行操作。然而,在過去的二十年間,這種傳統的按鍵導航逐漸被更先進的智慧語音電話樹取代,客戶現在可以用自然語言下達指令,而不再侷限於按鍵選擇。

如今,我們正邁入一個全新的時代——基於大規模語言模型(LLM)的系統,它們讓使用者與軟體的互動不再是單向的對話,而是雙向的交流。這些系統能夠像人類一樣理解語言的微妙之處和對話的上下文。

語音 AI 的機遇

目前,僅互動式語音響應(IVR)系統的市場價值就高達 60 億美元,這還不包括更廣泛的語音應用領域,如音訊書籍、播客、翻譯、配音、遊戲和陪伴應用等。我們相信,隨著人工智慧技術在延遲、音調和響應能力上的不斷進步,語音應用市場的規模有望增長至四倍。

在短期內,最成功的語音技術公司將專注於醫療、酒店等垂直行業的應用,以及那些設計用於處理簡單任務(比如日程安排)的應用。然而,這些新興的語音應用最終將融入更廣泛的 SaaS 平臺,從而顯著擴大可服務的市場範圍。

像 ChatGPT 4o 這樣的多模態聊天機器人,不僅能幫助組織與使用者建立更緊密、更個性化的聯絡,還能收集語氣、意圖和情緒狀態等資訊。利用這些資料,企業可以改進服務並推動新產品的開發。

語音 AI 的現狀

目前,AI 驅動的語音應用依賴於三種基本的參考架構來處理自然語言、解釋並生成智慧響應:

1、語音轉文字(STT)輸入: 捕捉口語並將其轉為文字。

2、文字到文字(TTT)推理: 利用 LLM 對文字轉錄進行 tokenized 並形成書面響應。

3、文字到語音(TTS)生成: 將書面響應轉為口語。

文字到文字推理可能涉及兩類模型,每類模型都有其優缺點和理想的使用場景:

類別 1:擴散模型(Diffusion Models)

  • 擴散模型 是一種生成建模方法,可以利用 Transformer 或狀態空間模型(SSM)作為模型架構。它們透過逐步向神經網路的訓練資料集引入噪聲,然後教會模型如何逆轉這一過程。雖然擴散模型有時可以利用 Transformer 元件來解釋文字輸入並生成影像、音訊或影片等輸出,但其生成過程本質上還是基於擴散機制。這些模型生成速度快,但功能相對有限,它們最適合非同步編輯(例如 Descript)和有聲書、播客等應用。由於擴散模型缺乏推理能力,通常被視為「點綴」,需要與其他模型結合使用才能發揮更大的作用。

類別 2:自迴歸模型(Autoregressive Models),如 Transformer 和狀態空間模型(State Space Model,簡稱 SSM)

  • Transformer 模型 透過記住一系列輸入並將其轉換為所需輸出來工作。它們最適合需要細微對話能力的場景,如一對一對話或語言翻譯。這些模型提供更高質量的輸出,但需要更多的記憶體和系統資源。

  • 狀態空間模型(SSM) 則根據對話中的當前狀態和最近的歷史來做出響應。這使得它們比記憶體密集型的 Transformer 模型執行更快、成本更低。SSM 還具有更低的延遲和更自然的語音再現能力,並且能夠處理比 Transformer
    更長的上下文序列(儘管目前還不確定它們是否能夠充分利用整個序列以高質量方式輸出)。雖然 SSM 需要的記憶體比 Transformer
    少,但真正的挑戰在於如何利用其擴充套件的序列處理能力來實現高質量的輸出。

在文字到文字、文字到語音和語音到語音技術方面,已經取得了顯著的進展。像 Cartesia 和 Kyutai 這樣的公司在狀態空間模型和開源解決方案方面取得了重大突破。同時,Meta 的 Voicebox 和 OpenAI 的 ChatGPT 4o 等行業巨頭也在不斷推動文字到語音模型的創新。

下一代語音 AI

在音訊 AI 的下一個浪潮中,有四種頂級候選模型,它們各自處於不同的發展階段。

1、潛在聲學表示(Latent Acoustic Representation ,LAR)

LAR 是 GPT-4o 模型的基礎,它不僅將音訊轉換為文字詞元,還能捕捉聲學特徵、語調和說話者意圖等後設資料,從而增強了聲學資訊的豐富度,並提供更高質量的輸出結果。LAR 模型的訓練更為便捷,能夠更快地投入市場,但同時也存在一些限制。

由於 LAR 並非採用端到端訓練方式,因此它僅適用於高度特定的應用場景。此外,LAR 需要等待錄音結束後才能處理資料,這可能會引發延遲問題。我們認為,它是通往 tokenized 語音模型道路上一個不可或缺的過渡階段。

1、Tokenized 語音模型(Tokenized Speech Model)

tokenized 語音模型 代表了語音 AI 技術的重大進步。這些模型已經被整合到 GPT 4.0 和 Llama 的下一版本中,它們使用文字和音訊編碼器來產生更準確的輸出。但是,訓練這些大型模型成本很高,並且在生物識別語音處理方面存在重大的版權問題。我們預計這種技術在未來兩到三年內將準備就緒,進入市場。

3、無文字語音模型(Textless Speech Model)

無文字模型跳過了將語音轉換為文字的步驟,直接將口語輸入到基於音訊 token 訓練的大規模語言模型中。其目標是減少延遲並創造更自然的互動體驗。然而,目前的科研結果顯示,相比於 tokenized 語音模型或潛在聲音表示(LAR)模型,無文字模型更加消耗資源,效能表現和準確率都相對較低。

4、流式模型(Streaming Model)

流式模型直接處理原始音訊流,無需進行 tokenization。這使得開發者可以將應用配置為始終線上,無需對話輪換。雖然這可能加快語音處理速度,但始終線上的特性也意味著其執行成本可能會顯著增加。

語音 AI 市場的未來及其挑戰

在投資了包括 Cartesia 和 Character AI 等幾家領先的語音 AI 公司後,我們發現語音 AI 初創公司在確立市場定位之前,需要解決三個關鍵挑戰:

1、以大規模語言模型為核心,並巧妙融合人工干預: 對於任何語音 AI 互動,準確識別 AI 無法有效處理的場景至關重要。應用必須能夠在使用者體驗受損之前,無縫且高效地將對話轉交給人工客服。此外,公司需要深入瞭解技術架構的每一層,以便追蹤語音應用錯誤或資訊不準確的根本原因。

2、在提升效能的同時,降低延遲和成本: 新興架構面臨的一個主要挑戰是如何提供近乎實時的效能。雖然根據客戶需求定製通用模型至關重要,但這在大規模應用中可能會耗時且成本高昂。為了提高質量和智慧水平,基於 Transformer 模型的應用需要進行大規模的音訊資料標註。將延遲降低到 250 毫秒以下對於打造自然的對話體驗至關重要,而這通常透過自主搭建應用而非依賴全棧式架構更容易實現。成本始終是一個關鍵因素:對於大規模部署的語音代理而言,即使每分鐘成本的細微差異也會對最終收益產生顯著影響。

3、制定精準的市場進入策略: 在現階段,專注於特定垂直領域的應用比通用的多模態 AI 模型更具競爭優勢。聚焦醫療、金融等大型垂直領域的企業級應用能夠更快地獲得市場份額,儘管隨著新架構的成熟和價值的驗證,這種情況可能會有所改變。早期成功的關鍵在於解決「最後一公里」問題,降低技術門檻,使其更易於被消費者和企業使用者所接受。

我們認為,目前最有效的語音 AI 方案是將語音先轉換為文字再進行標記化,同時還能整合其他音訊資訊,從而提供更豐富、更逼真的體驗。然而,這個領域仍充滿創新機遇,有大量的探索空間。我們需要更多研究來判斷無文字模型和流式模型能否克服其固有侷限性,並在市場中找到一席之地。

無論這些技術如何發展,企業音訊領域都將迎來變革性的應用。人們將能夠像與朋友交流一樣自然地與企業互動。企業如何部署語音 AI 將極大地影響客戶滿意度和品牌忠誠度,其效果可能積極也可能消極,最終取決於所選工具和執行策略。

我們尚未達到電影《Her》中描繪的人機深度情感連線的階段,但我們正在快速接近這樣的未來。

原文:https://lsvp.com/stories/the-future-of-voice-our-thoughts-on-how-it-will-transform-conversational-ai/

編譯:林瑞麗,傅豐元

社群技術顧問:付則宇、強化學徒

更多 Voice Agent 學習筆記:

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

相關文章