a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)

RTE开发者社区發表於2025-02-06

「我們正從 AI 語音的基礎設施層過渡到應用層」,繼 24 年 5 月推出首篇關於 Voice AI(https://mp.weixin.qq.com/s/dsyow086y7FZdvRzscacsw25)的報告後, 年初 a16z 再次更新了語音 AI 賽道的最新洞察。

語音是 AI 應用公司的一個關鍵機遇。作為人類最高頻(且資訊密度最大)的溝通方式,語音這項基礎能力在 AI 時代首次實現「可程式設計化」。

對於企業而言, AI 提供了一種技術替代方案來取代人工, 具有成本效益、速度更快、可靠性更高,而且通常效能更優。此外,語音代理使企業能夠保持全天候的客戶服務,無縫處理諮詢、安排預約和處理交易。這有效地消除了傳統營業時間的限制,確保了持續的線上可用性,與過去的侷限性形成鮮明對比(試想一下,在太平洋時間下午 3 點之後嘗試聯絡一家美國東海岸銀行)。

對於消費者而言,我們預計 語音將成為與 AI 互動的最初甚至可能是主要的模式。 這種互動可能表現為隨時可用的伴侶或導師,或者透過使語言學習等服務更廣泛地可用,這些服務以前對許多人來說遙不可及。

我們目前正從 AI 語音的 基礎設施層過渡到應用層。 隨著 AI 模型的不斷進步,語音將成為一個關鍵的切入點,而不是最終產品本身。 我們特別看好那些利用這種「語音優先」方法來解鎖更廣闊平臺機遇的初創公司。

Olivia Moore
作者介紹:Olivia Moore 是 Andreessen Horowitz 風險投資公司消費領域投資團隊的合夥人,專注於 AI 領域的投資。

AI 語音新動態

2024 年是 AI 語音發展的一個重要年份。

2024 年 AI Voice 技術進展

五月

  • OpenAI 推出 GPT-4o,具備實時語音功能

  • Cartesia 釋出真人級別語音工具 Sonic

六月

  • Character 推出語音通話功能(在測試版中,三百萬使用者撥打了 2000 萬通電話)

  • 蘋果宣佈透過 Apple Intelligence 將 ChatGPT 整合到 Siri 中

七月

  • OpenAI 開始推廣高階語音模式

  • Speechmatics 推出實時對話模型 Flow

八月

  • 亞馬遜將 Claude 整合到 Alexa 中

  • Meta 與名人合作,將他們的聲音用於 AI 伴侶

九月

  • NotebookLM 音訊概述功能爆火

  • PlayHT 升級 2.0 版模型

  • Hume 升級 EV1 2 版模型

十月

  • OpenAI 面向開發者開放實時語音 API

  • Kyutai 推出全雙工口語對話模型 Moshi

十一月

  • ElevenLabs 推出對話式 AI

  • 英偉達推出能夠修改語音的模型 Fugatto

  • Gemini 語音版 APP 上線

十二月

  • ChatGPT 高階語音模式推出網際網路搜尋功能

  • 1-800-CHATGPT 推出引發熱潮

模型開發的持續進步簡化了基礎設施「堆疊」,顯著降低了語音智慧體的延遲並提升了效能。近半年來,這些改進主要體現在新一代對話模型中。

這些對話模型的成本效益也日益顯著。例如,OpenAI 於 2024 年 12 月大幅降低了 GPT-4o 實時 API 的價格,輸入價格降低了 60%(至每百萬 tokens 40 美元),輸出價格降低了 87.5%(至每百萬 tokens 2.50 美元)。GPT-4o mini 現在也可實時部署使用。

新變化:2024 年 5 月與 2025 年 1 月對比

AI Agents 現在發展到哪一步了

AI Agents 的當前發展

1. 模型質量

語音智慧體在對話質量(包括延遲、可打斷性和情感表達)方面取得了顯著進展,其效能已達到甚至超越傳統業務流程外包/呼叫中心水平。

這一提升主要得益於 OpenAI 的實時語音模型以及 ElevenLabs 的 Conversational AI 等供應商所提供的創新模型。

2. GTM

對於中小型企業和大型企業而言,智慧體產品能以極快的速度幫助其擴充業務,因為它們可以直接用技術替代人力資源。

然而,由於市場準入門檻相對較低,傳統企業在應用這些產品時可能會面臨挑戰。上市速度、執行力以及後續的產品迭代是成功的關鍵。

3. 貨幣化

早期,許多語音產品採用按分鐘定價的模式,以反映模型成本。
但隨著模型成本的降低,這種定價模式正面臨越來越大的壓力,並導致供應商之間的價格競爭。

未來,定價策略可能會轉向固定平臺費用與使用量計費相結合的模式。

4. 競爭

面向企業的語音代理面臨來自以下幾個方面的競爭:

  • 以開發者為中心的平臺,使企業內部技術團隊能夠構建自己的解決方案。

  • 通用型平臺,使非技術團隊能夠部署代理。

  • 面向垂直行業的解決方案。
    我們預計未來市場競爭將會更加激烈!

語音智慧體市場在 2024 年下半年爆炸性增長。 Cartesia 的資料顯示,最近一屆 Y Combinator(YC)創業營中,有 22% 的公司專注於語音技術開發。

YC 中語音公司的增長情況

語音智慧體也正作為一種功能被新增到更多的通用型或多模態產品中。

在 2024 年,我們看到多個層次的對話語音技術公司吸引了資金和關注,包括:

  • 模型公司:如 ElevenLabs 和 Cartesia

  • 通用型平臺:如 Vapi 和 Bland

  • 垂直化平臺:如 HappyRobot 和 Wayfaster

尤其對於大型企業,我們很少看到從完全人工接聽電話到完全 AI 接聽電話的直接轉變。創始人通常會找到一個「切入點」,從處理一小部分客戶呼叫開始——(希望)這可以隨著時間的推移擴充套件到處理更多的電話型別和工作流程。我們看到的切入點包括:

B2B Voice Agent 發展切入點

1.非工作時間/過載呼叫

這些電話原本會轉到語音信箱。語音智慧體至少能收集(或共享)更多資訊,並安排人工回撥。

更進一步,如果語音智慧體能與日程安排軟體、客戶關係管理系統等整合,甚至可以直接為客戶完成預訂或交易。

2.全新的外呼電話

這類外呼電話以往因成本過高而難以實施。藉助 AI,任何產生的收益都可視為額外利潤。

這些電話包括客戶確認、賬戶啟用、潛在客戶挖掘等。

需要進行深度整合,例如,客戶只需上傳包含電話號碼的電子表格即可啟動外呼流程。

3.「後臺」電話

企業在非客戶導向的內部電話溝通上耗費大量時間,例如與供應商、合作伙伴之間的聯絡,常常面臨漫長的等待。

以醫療診所為例,它們需要頻繁地與藥房、保險公司、供應商等進行電話溝通。

即使語音智慧體僅能完成簡單的 IVR 導航和轉接,也能顯著提升效率,降低風險。

市場演變:融資情況

過去一年公開宣佈的融資輪次

模型公司

-ElevenLabs(語音模型平臺): 8000 萬美元 B 輪(2024 年 1 月)- a16z, Nat Friedman, Daniel Gross

- Hume(語音模型平臺): 5000 萬美元 B 輪(2024 年 3 月)- EQT

- PlayAI(語音模型平臺): 2100 萬美元 種子輪(2024 年 11 月)- Kindred Ventures

- Cartesia(語音模型平臺): 2700 萬美元 種子輪(2024 年 12 月)- Index Ventures

- WaveForms AI(音訊 LLM 公司): 4000 萬美元 種子輪(2024 年 12 月)- a16z

通用型平臺

- Kore(企業對話式 AI): 1.5 億美元 C 輪(2024 年 1 月)- FTV Capital, NVIDIARasa(開發者對話式平臺): 3000 萬美元 C 輪(2024 年 2 月)- PayPal, a16zParloa(客戶服務語音代理): 6600 萬美元 B 輪(2024 年 4 月)- Altimeter

- PolyAI(助手構建器): 5000 萬美元 C 輪(2024 年 5 月)- Hedosophia, NVIDIA, Zendesk

- Synthflow(無程式碼語音代理構建器): 740 萬美元 種子輪(2024 年 6 月)- Singular

- Thoughtly(呼叫中心語音代理): 300 萬美元 種子輪(2024 年 6 月)- Greycroft, Afore

- Bland(企業代理平臺): 2200 萬美元 A 輪(2024 年 8 月)- Scale

- Retell AI(開發平臺): 460 萬美元 種子輪(2024 年 8 月)- Alt Capital

- 11x(銷售): 2400 萬美元 A 輪(2024 年 9 月)- Benchmark; 5000 萬美元 B 輪(2024 年 10 月)- a16z

- Decagon(客戶支援): 3500 萬美元 A 輪(2024 年 6 月)- Accel, a16z; 6500 萬美元 B 輪(2024 年 10 月)- Bain Capital Ventures

- Sierra(客戶支援): 1.75 億美元 B 輪(2024 年 10 月)- Greenoaks

- Artisan(銷售): 1150 萬美元 種子輪(2024 年 10 月)- Oliver Jung

- Vapi(開發者平臺): 2000 萬美元 A 輪(2024 年 12 月)- Bessemer

垂直化平臺

- Hippocratic AI(醫療保健語音代理): 5300 萬美元 A 輪(2024 年 3 月)- a16z, General Catalyst; 1.41 億美元 B 輪(2025 年 1 月)- Kleiner Perkins

- Assort Health(醫療保健前臺代理): 350 萬美元 種子輪(2024 年 3 月)- Quiet Capital

- Voicepanel(客戶反饋代理): 240 萬美元 種子輪(2024 年 5 月)- YC, Rebel Fund, Liquid2

- Letter(AI 銷售指導): 270 萬美元 種子輪(2024 年 6 月)- YC, Formus Capital

- Solidroad(聯絡中心培訓): 120 萬美元 種子輪(2024 年 7 月)- Irish angels

- Apriora(AI 面試官): 280 萬美元 種子輪(2024 年 8 月)- 1984

- Wayfaster(語音 AI 面試官): 250 萬美元 種子輪(2024 年 9 月)- Slow Ventures

- Prepared911(緊急響應): 2700 萬美元 B 輪(2024 年 10 月)- a16z

- FullyRamped(AI 銷售培訓): 230 萬美元 種子輪(2024 年 10 月)- BoxGroup

- Parakeet Health(醫療保健前臺代理): 300 萬美元 種子輪(2024 年 10 月)- Canvas

- HelloPatient(醫療保健語音代理): 630 萬美元 種子輪(2024 年 10 月)- 8VC, Bling Capital, Max Ventures

- Numa(汽車經銷商語音代理): 3200 萬美元 B 輪(2024 年 10 月)- Touring Capital, Mitsui

- HappyRobot(物流語音代理): 1560 萬美元 A 輪(2024 年 12 月)- a16z

- Tenor(AI 領導力發展): 540 萬美元 種子輪(2024 年 12 月)- Base10

- Hyro(醫療保健語音代理): 3500 萬美元 B 輪(2024 年 12 月)- Healthier Capital

- Maki(語音 AI 面試官 / HR): 2860 萬美元 A 輪(2025 年 1 月)- Blossom

重點領域:核心市場

語音助手最自然的早期應用類別通常是在呼叫中心或外包服務(BPO)上已有較高支出的領域。如果電話作為本地員工的日常工作:(1)除非有大量員工專門負責電話溝通,否則現有痛點或潛在收益通常不足以推動變革;(2)也很難量化實施效果或成本節約,從而難以提出有力的論證。

全球「聯絡中心即服務」市場份額:按終端應用行業分析

這些主要領域(金融服務、B2C、B2B、政府和醫療保健)可能會有各自的核心供應商,類似於它們各自的記錄系統。

我們預計以下領域將湧現大量的初創企業:

(1)金融服務:如債務催收;

(2)保險:包括面向客戶和後臺運營;

(3)政府部門;

(4)支援服務:包括需要專業知識的複雜客戶服務(如 IT 幫助)。

除了呼叫中心應用,我們還觀察到企業願意為用於輔導或培訓的 AI 語音助手付費,尤其是在高薪職位領域。在這些行業中,高度模擬的語音助手可以作為模擬器,顯著提升員工的實際工作表現,從而替代部分人力成本(如銷售教練)或效果不佳的培訓軟體。

自 2020 年以來,Y Combinator 已經孵化了 90 家語音智慧體公司,且這一趨勢正在加速,最新的尚未完全公佈的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在過去一年內轉型進入語音智慧體領域的。

YC 孵化的 Voice Agent 公司

YC 孵化的語音助手專案主要集中在 B2B(約 69%)和醫療保健(約 18%)領域,消費類應用佔比相對較小(約 13%)。

在 B2B 領域,金融科技(16.9%)和運營(主要為客戶支援,12.4%)是最常見的子行業。在醫療保健領域,語音助手的應用方向分為前臺(面向患者)和後臺(面向藥房、保險等),重點關注普通人類醫學(11.2%)、牙科(3.4%)、獸醫(2.2%)和物理治療(1.1%)。

a16z 對語音智慧體的投資

Voice Agents 市場圖譜

Voice Agents 市場圖譜 - B2B

Voice Agents 市場圖譜 - B2C

我們在 AI 語音中尋找什麼?

a16z 重視的 Voice Agent 專案特色

1. 應用場景:電話是關鍵媒介

  • 行業首選: 電話是客戶演示的首選方式(例如物流行業)。

  • 法規驅動: 由於法規限制,電話溝通更有效(例如債務催收)。

  • 效果更佳: 電話比其他溝通方式成功率更高(例如醫療保健)。

2. 通話特性:受限且可控

  • 通話約束: 通話時長和形式/結果都受到限制。

  • 目標明確: 有一套明確的資料點需要收集或資訊需要傳遞,且結果可衡量。

  • 這對於企業接受 AI 語音助手至關重要。

3. 價值體現:顯著降低成本

  • 成本降低: 語音助手在保持與人工相似成功率的前提下,能夠降低 50% 以上的成本(通常意味著通話受到約束!) .

  • 客戶目標: 客戶希望大幅削減或重新分配人力資源。由於內部對 AI 的懷疑態度,投資回報率需要非常可觀。

4. 客戶需求:高優先順序或高價值通話

  • 極端情況: 對於客戶而言,通話至關重要,願意支付高額費用以確保接通或完成,但對於呼叫方而言,允許一定程度的錯誤或失敗。

  • 初期策略: 許多客戶從非工作時間/過載呼叫或「次級」呼叫開始,對效能要求較低。

5. 價值創造:直接收益或成本最佳化

對於客戶而言,通話要麼是:

  • 直接創收: 能夠帶來更多業務、收取更多費用(例如招聘行業)。

  • 成本關鍵: 在利潤微薄的行業中,通話是至關重要且佔比很高的成本(例如汽車餐廳)。

6. 銷售策略:靈活適應不同規模客戶

  • 中小企業/中型市場: 語音助手產品易於整合到 VoIP 或其他軟體中,並且設定是自助式的。

  • 大型企業: 早期更復雜的整合實際上可以形成護城河,因為呼叫並非如此。或者,早期整合複雜度較低,並具有自然的「先著陸後擴張」潛力。

案例分析:AI 語音面試官

將 AI 語音智慧體應用於工作面試,看似是一個冷門方向。這主要是因為面試過程複雜(需要與人類面試官相媲美),且對使用者體驗要求很高(需要確保良好的候選人體驗)。 然而,我們已經看到一些初創公司在該領域取得了顯著的早期進展。 以下是來自客戶的一些洞見:

痛點:大規模招聘場景下的人力資源挑戰

對於人力資源公司(尤其是那些服務於高流量、低至中等技能崗位的公司,例如擁有 43 家上市公司客戶,年收入達 6500 億美元的企業),招聘壓力尤為顯著。在這些場景下,AI 面試可以有效地替代傳統的電話篩選,甚至承擔更多的流程。 原因如下:

  • 候選人接受度高: 候選人通常更願意嘗試新的求職方式,包括與 AI 進行面試。與傳統流程相比,AI 面試可能更具吸引力。

  • 按結果付費模式: 人力資源公司的商業模式通常與推薦的候選人數量或最終成功入職的人數掛鉤。 因此,他們有強烈的意願提升候選人質量和數量。

「我們現在傳送的候選人中大約有 90% 能進入第一輪 [與僱主] 面試,75-80% 能進入最後一輪。在 [AI 語音面試初創公司] 之前,我們的數字只有一半。」—— 財富 100 強的人力資源公司

許多 AI 面試產品的表現已經達到甚至超過了人類招聘人員的水平,主要得益於以下幾個方面:

  • 隨時隨地: 候選人可以根據自己的時間安排,隨時隨地進行面試。

  • 評估一致性: AI 的評估標準始終如一。 即使招聘需求發生變化,客戶也可以輕鬆地重新評估之前的面試記錄。

  • 語言無障礙: 不存在因語言或口音造成的溝通障礙。

  • 專業知識: AI 通常能夠更準確地評估技術或職位相關的答案,避免了因招聘人員經驗不足而導致的誤判。

「受訪者往往以一種他們可能不會對人類面試官表現出的方式開始與 AI 建立信任。招聘人員可能沒有經驗去理解受訪者所說的話。AI 可以從系統中讀取資訊,並給出更聰明、更吸引人的回應。」—— 年收入 2 億美元的招聘機構

AI 語音面試官產品

2025 年關於 AI 語音的一些核心問題

定價 - 什麼將是首選的定價模型?

起初,按分鐘計費的定價模式曾被多家公司廣泛採用。然而,隨著模型成本的持續降低,這種模式的吸引力正逐漸減弱。由於客戶敏銳地察覺到成本的降低,他們也期望享受到更優惠的定價。展望未來,什麼樣的定價模式將會更受青睞?預計可能會採用平臺費用與基於使用量的組合模式。在哪些特定情況下,可以合理地收取實施費用或設定最低使用量門檻?

模式擴充套件 - 公司應該在語音通話之外,多久擴充套件到其他渠道?

沒有任何企業或行業完全依賴電話——電子郵件、網路聊天、簡訊等都是重要的溝通渠道。公司應該多快擴充套件到電話以外的其他方式?是先完整捕捉一個工作流程更好,還是先處理所有電話?

最終願景 - 是否有可能替代 xMS?

許多語音助手宣傳其最終願景是取代其類別中的 xMS(編者注:即各型別「記錄系統軟體」,用於儲存和管理企業核心資料,例如客戶關係管理 (CRM) 系統等)。在什麼類別中這實際上是可能的/可能發生的?如果許多企業已經為處理電話支付的費用超過了他們為 xMS 支付的費用,這是否重要?

行業與技術團隊——誰更具優勢?

許多早期的語音助手來自於高度技術化的團隊,他們在被吸引到某個領域/市場後,付出了努力去學習。隨著技術壁壘的降低,這是否會變成一個市場推廣的遊戲,技術能力較弱但行業專業知識更豐富的團隊會佔據優勢?這在不同領域會有什麼不同的表現?

通用與垂類:各自的優勢與適用性是什麼?

一些企業可能更喜歡使用通用平臺構建自己的 AI 語音智慧體,而不是使用垂直的、特定於市場的解決方案。 在哪些行業和規模中,這種「自建」方法最有可能? 垂直解決方案如何服務於可能更喜歡單一供應商的跨垂直企業?

情感紐帶:語音助手能否加深客戶關係?

AI 語音智慧體在情感維度上展現出超越人類的潛力。它們擁有更強的專注力、同理心和耐心,且理論上可以提供無限時長的服務。在某些特定領域,這種優勢尤其能夠幫助企業與客戶建立更深層次的情感連線。然而,目前該領域的潛力尚未得到充分挖掘。我們期待更多創業者能夠在關鍵垂直領域圍繞這一主題進行創新,構建更具情感價值的客戶關係。

原文:https://a16z.com/ai-voice-agents-2025-update/
編譯:施蘇娜、傅豐元

更多 Voice Agent 學習筆記:

對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

相關文章