這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

RTE开发者社区發表於2024-12-23

12 月 13 日,語音 AI 初創公司 Cartesia 宣佈完成了新一輪 2700 萬美元的融資,由知名風投機構 Index Ventures 領投。

Cartesia 由 Karan Goel 和 Albert Gu 聯合創立,專注於開發基於狀態空間模型(SSM)的創新架構,該架構以其卓越的計算效率和實時處理能力而著稱。Cartesia 的核心產品 Sonic 正是基於 SSM 技術打造的高速文字轉語音引擎。

Cartesia 計劃在其 Sonic 的基礎上制定了長期路線圖,其中包括開發能夠攝取和處理不同輸入(例如文字、音訊、影片、影像和時間序列資料)的多模態 AI 模型。

最近,Cartesia 結合與數百位夥伴的合作經驗,分享了這份 2024 語音 AI 年度總結,並展望了 2025 年的發展。 包括中斷處理、數字人肢體語言同步和端側本地語音處理等趨勢。

報告對 2025 年語音技術的展望的核心要點:

語音到語音(S2S)模型成為主流:

  • 延遲降低: S2S 模型有望實現更低的延遲(例如,160 毫秒),更加接近人類對話的自然節奏。

  • 上下文感知增強: S2S 模型將能夠直接處理、理解並生成語音,同時保留情感、語調等非語言元素。

  • 中斷處理能力提升: S2S 模型有望更好地處理重疊的語音流和中斷情況。

語音助手處理更復雜的多步驟任務:

- 更深入地融入工作流程: 語音助手將在各個領域承擔更多工,例如預訂、預約和支付等。

- 利用檢索增強生成(RAG): 語音助手將具備端到端的處理能力,例如直接檢索資訊、應用政策並完成任務。

- 基於結果的定價模型: 供應商將採用與任務成功率相關的定價,而非通話時長。

本地模型實現裝置端語音 AI:

- 無網路連線執行: 將能夠在無網路環境下實現本地語音處理。

- 降低延遲: 本地處理能夠提供更低的延遲,從而提高響應速度。

- 隱私保護: 資料將保留在本地裝置上,從而保障使用者隱私。

- 邊緣 AI 晶片普及: 專用硬體將支援本地模型的高效執行。

細粒度控制語音:

- 精確控制合成語音: 可以控制情感、語調、節奏和發音等細微之處。

- 與其他 AI 模態協同: 語音特徵可以與數字人的肢體語言實現同步。

- 音訊編輯更流暢: 可以將 AI 生成的內容無縫融入現有音訊,並自動匹配風格。

Voice AI 2024 年度趨勢報告

作者:Cartesia

(編者注:本文羅列了多家 voice agent 初創公司,文末附有相關網址,方便讀者深入瞭解。)

今年在 Cartesia,我們很幸運與數百位創始人、產品領導者和工程師合作,他們正在塑造語音應用的未來。在我們 2024 年第一份語音趨勢報告中,我們強調了推動行業前進的關鍵基礎設施突破和新興用例,並展望 2025 年的未來。

2024 年最大的趨勢

1.出現了用於構建語音互動的新架構

2024 年標誌著對話語音人工智慧的突破,出現了結合語音識別(STT)和文字轉語音(TTS)模型的協調語音系統,能夠在對話中傾聽、推理和回應。

語音對語音技術隨著 OpenAI 在 ChatGPT 中推出的語音模式成為現實,引入了在音訊和文字資訊上進行端到端預訓練的模型,能夠原生理解和生成音訊以及文字標記。雖然 OpenAI 透過其 Realtime API 的實現可能尚未完全端到端,正如其演示中處理中斷的挑戰所證明的那樣,但這代表了朝著使用單一統一模型進行語音互動的重要一步。

全雙工語音對語音系統作為研究產物出現,透過像 Kyutai 的 Moshi 模型這樣的釋出。這些模型是「始終線上」的,因為與 OpenAI 的系統不同,它們能夠在模型說話時監聽使用者。這為多模態語音的未來提供了一個有趣的視角,模型始終在使用者音訊中進行流式傳輸。

新的語音模型架構變得可行,Cartesia 釋出了基於新狀態空間模型(SSM)架構的 Sonic TTS,該架構採用自迴歸訓練。這些架構與過去幾年流行的更傳統的基於注意力的 Transformer 模型有很大不同,因為它們在部署環境中提供了更大的靈活性。現在可以實現記憶體高效的裝置端(on device)部署,同時提高了質量和延遲。

2.語音人工智慧 API 進步以支援企業規模的自然對話

在 2024 年,現代語音智慧體架構的三個核心元件的改進使語音人工智慧能夠用自然對話取代僵化的「按 1 鍵選擇英語」電話樹。

  • 語音轉文字(STT):轉錄質量已經足夠強大,成為設計音訊原生應用程式的標準工具。然而,領域特定術語和遠場轉錄等問題仍然具有挑戰性。在 2022 年,OpenAI 的 Whisper 奠定了基礎,使用其開源模型,訓練了令人印象深刻的 680,000 小時多語言音訊資料。Deepgram 的 Nova-2 模型隨後提高了標準,實現了 30% 的詞錯誤率(WER)降低,併為 2024 年的商業應用設定了新的基準。

  • 大型語言模型(LLM):2024 年釋出的 GPT-4o 、Llama 3.2 、Claude 3.5 Sonnet 和 Gemini 2.0 在推理和效率方面有了顯著改善。LLM 成本從 GPT-4 的每百萬美元 45 美元大幅下降至 Llama 3.1 70B 在 Together AI 上執行的每百萬 token 2.75 美元。語音模型現在支援輸入流(input streaming),允許音訊在接收來自 LLM 的輸入時實時生成,同時在語音段之間保持一致的韻律。

  • 文字到語音(TTS):TTS 模型已經達到了生產級成熟度,提供了降低延遲、增強自然性和提高處理複雜內容(如縮略詞和數字表達)的準確性。領先的 TTS 引擎將合成語音從其機械起源轉變為真正的人類語音。這一進展得益於神經網路架構(SSMs、transformers、擴散模型)的創新、訓練資料質量和多樣性的提升,以及音訊編解碼器的最佳化——這對於高效編碼和解碼數字音訊以進行流媒體傳輸或儲存至關重要。

語音人工智慧提供商也超越了最初對專業消費者和語音原生初創公司的關注,以滿足企業需求。語音人工智慧系統必須從根本上重新設計,以滿足超越傳統非同步應用程式的實時互動嚴格標準。由於實時對話無法編輯或重新生成,基礎設施必須提供保證的正常執行時間、無瑕疵的併發通話處理和無可妥協的可靠性。為了服務傳統企業,提供商升級了他們的平臺,以提供可定製的服務水平協議、針對高峰量的動態擴充套件、強大的安全認證以及針對高度監管行業的自託管選項。這些功能在早期的語音人工智慧產品中很少見,但隨著技術的成熟,已成為標準。

3.新平臺使得在生產中構建、測試和部署自定義語音智慧體比以往任何時候都更容易。

今天大多數語音助手都是基於核心對話流程構建的——語音轉文字(STT)、大型語言模型(LLM)推理和文字轉語音(TTS)。

雖然這個管道可以建立自然對話,但在內部構建它面臨著重大挑戰:管理實時音訊流、處理模型延遲、協調輪流發言以及確保無縫過渡。工程團隊通常需要 6 到 12 個月的時間來構建的東西,可以透過語音編排平臺在幾周內實現。這些平臺抽象了複雜性,使開發人員能夠專注於打造引人入勝的體驗,同時混合和匹配最佳元件。

像 LiveKit 和 Daily 這樣的公司開發了開源元件,以便在使用 WebRTC 堆疊的實時 AI 模型之間實現無縫、低延遲的編排。他們的基礎設施確保全球範圍內的可靠效能,同時允許開發人員保持全棧定製。

語音智慧體編排平臺,如 Vapi、Retell、Bland 和 Thoughtly ,出現是為了快速部署自定義智慧體,配備先進的功能,如基於 RAG 的知識庫和工具呼叫功能。這些平臺還提供額外的功能,如語音活動檢測(VAD)以控制揚聲器切換和情感識別、中斷處理以及噪聲過濾模型,以促進自然對話。

新的可觀察性平臺,如 Hamming、Coval、Vocera 和 Canonical ,構建了完整的評估套件,用於大規模模擬和測量語音智慧體的質量。

(編者注:實時語音 AI 智慧體開源框架 TEN Framework 同時具備語音智慧體編排、RTC 配置、RAG 和 Function Call、實時狀態管理等能力。同時與 Dify 和 Coze 等流行 Workflow 平臺相容。)

4.語音助手在各個領域出現

垂直語音智慧體初創公司經歷了爆炸性增長,Y Combinator 反映了這一趨勢,語音原生公司的數量在冬季和秋季的批次之間增長了 70%。最初的採用集中在擴大之前人手不足的服務的能力,如 24/7 客戶運營和季節性業務高峰。

在 YC 孵化專案中,基於語音技術構建公司的增長趨勢

  • 貸款服務:Salient 和 Kastle 的智慧體幫助服務貸款,管理還款,並處理重新啟用休眠賬戶或交叉銷售其他金融產品的外聯工作——同時保持對處理敏感資料(如個人身份資訊)的高合規標準。

  • 保險:Liberate 和 Skit 的智慧體全天候處理索賠、保單續保,並提供清晰的保障選項說明。

  • 醫療保健:Abridge 首次在 2019 年應對對醫療記錄員的高需求而將轉錄引入醫療保健。現在,全球的診所正在採用人工智慧助手來安排預約、提供用藥提醒和回答賬單查詢,這要歸功於 Hello Patient 、Hippocratic 、Assort Health 和 Superdial 等公司,同時保護患者資訊。

  • 物流:貨運智慧體、第三方物流提供商(3PL)和承運人利用 Happy Robot 和 Fleetworks 來管理檢查電話、裝載更新、付款狀態和預約安排。

  • 酒店業:用例範圍從 Host AI 的全渠道 AI 助手到 Nowadays 的 AI 活動策劃者。Elise AI 的 AI 助手和客戶關係管理系統協同工作,處理從租賃諮詢到維護和續約的所有事務。

    • 中小企業:Goodcall 允許較小的特許經營輕鬆設定 AI 智慧體,以無縫處理所有入站電話,因為業主目前因容量限制錯過了 60% 的電話。Slang 為餐廳提供專門的解決方案,而 Numa 則與汽車經銷商的客戶關係管理系統整合,以利用過去的客戶互動資料來推動客戶留存。Avoca 為暖通空調、管道和其他現場服務提供 24/7 的 AI 呼叫中心。

5.語音智慧體簡化了核心業務功能

語音智慧體也出現在標準化業務流程中,在三個關鍵領域得到了廣泛應用:

  • 招聘:像 Mercor 和 Micro1 這樣的人工智慧面試官透過進行電話和影片面試,利用候選人的背景來制定相關問題,並提供比傳統申請篩選更深入的見解,從而增強招聘過程。

  • 銷售:隨著電子郵件效果的下降,像 11x 、Artisan 和 Nooks 這樣的公司正在透過 AI SDR 重新振興電話銷售,以進行潛在客戶開發和線索資格審查。與此同時,像 Hyperbound 這樣的平臺透過 AI 驅動的角色扮演培訓模擬銷售場景,以提高銷售代表的表現。

  • 客戶支援:像 Sierra、Decagon 、Forethought 、Parloa 和 Poly 這樣的人工智慧驅動的客戶體驗平臺正在整合語音功能,以支援仍然透過電話進行的大量客戶支援互動。

6.語音人工智慧驅動更具互動性的娛樂和媒體體驗,擁有互動角色

  • 內容創作:像 Heygen、Tavus、D-ID、Synthesia 和 Hedra 這樣的 AI 虛擬人平臺使創作者能夠從單個數字克隆生成無限的敘述影片,改變了營銷、培訓和教育內容的製作。像 Capcut、Canva、Adobe 和 Captions 這樣的創作者平臺現在直接整合 AI 語音,而《時代》雜誌和《紐約時報》等主要媒體也在為文章採用 AI 敘述,大眾化專業質量內容創作。

  • 遊戲:遊戲工作室正在利用語音人工智慧創造更具沉浸感的體驗,透過動態、響應式的非玩家角色(NPC)實時適應玩家的互動。像 Ego 和 Inworld 這樣的平臺使得建立豐富的 3D 世界成為可能,在這些世界中,人工智慧角色與玩家自然互動,而實時語音變聲器則允許玩家將自己的聲音與遊戲角色匹配,從而增強沉浸體驗。

  • 消費者服務:語音人工智慧使創作者和服務提供商能夠成倍擴大他們的個人影響力。影響者和名人可以透過 Delphi 與成千上萬的粉絲同時互動,而教練和治療師可以透過像 Sonia 這樣的平臺提供 24/7 個性化指導。像 Duolingo 和 Khan Academy 這樣的教育平臺透過人工智慧語音輔導員擴大他們的影響力,而谷歌的 NotebookLM 讓任何人都可以建立文章和書籍的音訊摘要。像 Replika 和 Character AI 這樣的公司為任何人群提供隨時可用的伴侶,而像 Tolvia 這樣的專業平臺則服務於老年人群體。最後,Quora 的 Poe 和 Perplexity 的語音對語音功能允許透過語音廣泛訪問 LLM 內容。

在這裡,我們展示了我們感到興奮的關鍵領域,以及更多即將到來的領域。我們期待在新的一年裡支援並看到更多初創企業在這些領域進行創新!

2025 年會有什麼期待

語音對語音模型進入主流

語音到語音(S2S)模型直接將語音輸入轉換為語音輸出,繞過文字表示的需要。雖然在 2024 年出現了幾種 S2S 模型,但我們預計 2025 年將是它們的突破年,因為它們在三個傳統上挑戰 STT→LLM→TTS 管道的關鍵維度上展示了引人注目的能力:

  • 延遲:當前的語音智慧體實現了最佳的延遲,約為 510 毫秒(Deepgram STT:100 毫秒,GPT-4:320 毫秒,Cartesia TTS:90 毫秒),仍然遠低於人類對話的約 230 毫秒。今年釋出的早期 S2S 模型如 Moshi,展示了透過單步處理實現 160 毫秒延遲的潛力,儘管它們需要更好的機制以避免在使用者說完之前生成響應。

  • 上下文意識:S2S 系統允許同一模型直接處理、理解和生成語音。透過在單一模型中處理所有內容,S2S 模型保留了通常在文字轉換中丟失的非語言元素,如情感、語調和韻律。雖然當前系統試圖將這些資訊作為後設資料在元件之間傳遞,但統一的 S2S 處理將更好地捕捉對話的細微差別。主要障礙仍然是計算成本,但一旦解決,效能和效率都會提高。

  • 中斷處理:與其強制嚴格的輪流發言,S2S 模型可以並行處理重疊的語音流。然而,目前的系統在自我語音識別、有限的上下文視窗和重疊音訊處理方面存在困難。我們預計在 2025 年,這些領域將會有顯著的改善。

語音助手將被賦予更復雜的多步驟任務,並在各個領域的工作流程中更加深入地融入。

2024 年標誌著語音助手的初步測試階段,主要處理溢位和基本篩選任務,具有可預測的對話輪次。隨著盲 A/B 測試顯示出更優的效能指標——包括通話時長、解決率、收入恢復率和客戶滿意度(CSAT)分數,企業對人工智慧驅動的語音互動充滿信心。語音人工智慧有望成為消費者日常與企業互動的主要介面,從預訂餐廳、安排醫療預約到支付賬單和處理機動車管理局服務。

試想一下,您致電航空公司重新預訂,一個人工智慧智慧體透過檢索增強生成(RAG)技術,端到端地處理您的需求。該智慧體能夠即時訪問乘客記錄、航班資訊以及航空公司政策。您無需等待或被轉接,人工智慧即可在自然對話中完成驗證當前預訂、查詢替代方案、應用相關政策並處理更改。這與在知識庫上微調大型語言模型(LLM)類似,企業也可以基於自身領域或公司特有的詞彙和風格,微調現有的轉錄和文字轉語音模型,從而進一步增強使用者對其人工智慧智慧體的信任。隨著人工智慧端到端解決複雜任務能力的不斷提升,這種信心也反映在新的智慧體定價模式上。供應商現在傾向於採用與成功任務解決率相關的按結果付費模式,而不是傳統的按通話時長付費。

1.緊湊的本地模型將使得在任何地方進行本地對話成為可能

緊湊的本地人工智慧模型正在獲得關注,因為它們解決了三個關鍵挑戰:它們可以在沒有網際網路連線的情況下執行,透過本地處理提供更低的延遲,並透過將資料保留在裝置上確保隱私。這使得語音人工智慧在這些要求不可妥協的場景中得以應用——從在偏遠地區執行的車輛到在訊號死區工作的現場人員。

我們預計 2025 年將是裝置端語音 AI 的突破年,因為新的架構、模型量化和蒸餾技術逐漸成熟,專用邊緣 AI 晶片變得廣泛可用,最終使本地處理在生產規模上變得可行。像 TensorFlow Lite 和 PyTorch Edge 這樣的框架的進步已經在加速這一轉變,使得部署和最佳化變得更加可及。

2.細粒度控制在語音的各個方面取得進展

2024 年,在合成語音的精細控制方面取得了顯著突破,從情感語調、節奏到精準發音,都達到了前所未有的水平。這些進步不僅僅侷限於聲音本身,更實現了語音特徵與其他人工智慧模態之間的無縫協調。例如,語音中的情感線索現在可以透過語音合成標記語言(SSML)驅動數字化身的肢體語言,使其呈現出匹配的面部表情,而 SSML 以往主要用於指示停頓或發音。這種技術進步使得內容創作者能夠將人工智慧生成的詞語或場景無縫嵌入現有音訊內容中,新加入的內容將自動匹配周圍素材的風格和節奏,達到渾然天成的效果。

展望未來

2025 年,語音人工智慧將在各個行業變得更強大、更可定製和更易獲取,因為這項技術將從早期實驗發展到生產就緒的系統。

原文:https://www.cartesia.ai/blog/state-of-voice-ai-2024
編譯:傅豐元

更多 Voice Agent 學習筆記:

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

參考連結
[1] Realtime API: https://openai.com/index/introducing-the-realtime-api/

[2] 演示:https://www.youtube.com/watch?v=1uM8jhcqDP0

[3] Moshi: https://arxiv.org/abs/2410.00037

[4] Sonic: https://www.cartesia.ai/blog/sonic

[5] 裝置端:https://www.cartesia.ai/on-device

[6] Whisper: https://openai.com/index/whisper/

[7] Deepgram: https://deepgram.com/product/speech-to-text

[8] GPT-4o: https://openai.com/index/hello-gpt-4o/

[9] Llama 3.2: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

[10] Claude 3.5 Sonnet: https://www.anthropic.com/news/claude-3-5-sonnet

[11] Gemini 2.0: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

[12] Together AI: https://www.together.ai/

[13] 輸入流:https://docs.cartesia.ai/build-with-sonic/capability-guides/stream-inputs-using-continuations

[14] LiveKit: https://livekit.io/

[15] Daily: http://daily.co/

[16] Vapi: https://vapi.ai/

[17] Retell: https://www.retellai.com/

[18] Bland: https://www.bland.ai/

[19] Thoughtly: https://thought.ly/

[20] Hamming: https://hamming.ai/

[21] Coval: https://www.coval.dev/

[22] Vocera: https://www.vocera.ai/

[23] Canonical: https://voice.canonical.chat/

[24] Salient: https://www.trysalient.com/

[25] Kastle: https://kastle.ai/

[26] Liberate: https://www.liberateinc.com/

[27] Skit: https://skit.ai/

[28] Abridge: https://www.abridge.com/

[29] Hello Patient: https://www.cartesia.ai/blog/hellopatient

[30] Hippocratic: https://www.hippocraticai.com/

[31] Assort Health: https://www.assorthealth.com/

[32] Superdial: https://www.thesuperbill.com/

[33] Happy Robot: https://www.happyrobot.ai/

[34] Fleetworks: https://fleetworks.ai/

[35] Host AI: https://www.hostai.app/

[36] Nowadays: http://getnowadays.com/

[37] Elise AI: https://www.eliseai.com/

[38] Goodcall: https://cartesia.ai/blog/goodcall

[39] Slang: https://www.slang.ai/

[40] Numa: https://www.numa.com/

[41] Avoca: https://www.avoca.ai/

[42] Mercor: https://mercor.com/

[43] Micro1: https://micro1.ai/

[44] 11x: https://micro1.ai/

[45] Artisan: https://artisan.co

[46] Nooks: https://www.nooks.ai/

[47] Hyperbound: https://www.hyperbound.ai/

[48] Sierra: https://sierra.ai/

[49] Decagon: https://decagon.ai/

[50] Forethought: https://forethought.ai/

[51] Parloa: https://www.parloa.com/

[52] Poly: https://poly.ai/

[53] Heygen: https://www.heygen.com/

[54] Tavus: https://tavus.io/

[55] D-ID: https://www.d-id.com/

[56] Synthesia: https://www.synthesia.io/

[57] Hedra: https://www.hedra.com/

[58] Capcut: http://capcut.com/

[59] Canva: https://canva.com/

[60] Adobe: https://www.adobe.com/express/feature/ai/audio/voiceover

[61] Captions: https://www.captions.ai/

[62]《時代》雜誌:http://time.com/

[63]《紐約時報》: http://nytimes.com/

[64] Ego: https://www.cartesia.ai/blog/ego

[65] Inworld: https://inworld.ai/

[66] 語音變聲器:https://www.cartesia.ai/blog/voice-changer

[67] Delphi: https://www.delphi.ai/

[68] Sonia: https://www.soniahealth.com/

[69] NotebookLM: https://notebooklm.google/

[70] Replika: https://replika.com/

[71] Character AI: https://character.ai/

[72] Tolvia: https://tolvia.com/

[73] Poe: https://cartesia.ai/blog/quora

[74] Perplexity: https://www.perplexity.ai/

相關文章