從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+客戶

RTE开发者社区發表於2024-12-02

Retell.ai 的 5 位聯創。(圖:maginative.com)

Retell AI 提供一個平臺,用於構建和部署可進行自然、類人對話的 AI voice agent,賦能呼叫中心,替代或輔助人工座席。

Retell AI 起初為構建 voice agent 產品的開發者提供 API,現已將重點轉向為中型企業提供完整的 AI 呼叫中心解決方案。

Retell AI 的聯合創始人兼 CEO Bing Wu 曾在位元組跳動(TikTok 母公司)工作三年,領導開發了觸達數十億使用者的 B2B 和消費者產品。大學期間,他創立了兩家獲得投資的初創公司,並創造了六位數的收入。

近期,Bing Wu 作為嘉賓參與了播客 Voice AI Newsletter 的錄製。在這次對話中,他分享了創立 Retell AI 的過程,以及轉型 AI 呼叫中心服務後的心得,我們摘錄了部分精彩內容,希望能給大家提供這一領域的一些新視角。

AI 能否取代 BPOs?

Can AI Replace BPOs? | Bing Wu (CEO & Co-Founder at Retell AI)

主播: Davit Baghdasaryan,Krisp 聯合創始人兼 CEO
嘉賓: Bing Wu, Retell AI 聯合創始人兼 CEO

注:為便於閱讀,本文內容已作精簡,並非完整對話。你可以訪問原文收聽完整版播客。

預測話輪轉換:理解人類對話的語義和語氣

Davit Baghdasaryan: 歡迎收聽語音 AI 播客!今天的嘉賓是 Retell AI 的聯合創始人兼 CEO Bing Wu。

我在 Hacker News 上看到 Retell 釋出的訊息就一直關注你們了。根據我從 ChatGPT 收集的資訊,Retell AI 提供了一個平臺,用於構建和部署能夠進行自然、類人對話的 AI 語音智慧體。這些智慧體可以處理預約安排、客戶服務和線索鑑定等任務。該平臺提供低延遲響應、流暢的話輪轉換,並與各種電話服務整合。我的理解準確嗎?

Bing Wu: 非常準確。

Davit Baghdasaryan: 太棒了。語音 AI 智慧體是一個充滿挑戰的領域,而你們正走在前沿。能跟我們聊聊你的創業故事嗎?為什麼選擇專注於這個領域?你們二月份釋出產品後又發生了什麼?目前技術進展如何?

Bing Wu: 一切始於去年十一月。我們最初在開發直播配音軟體,目標使用者是希望觸及英語受眾的國際主播,特別是中文主播。他們當時主要使用手寫標語和簡單的英語進行產品銷售,但由於直播的興起,銷售額依然很高。我們開發了這款軟體,但它有七秒的延遲,嚴重影響了使用者體驗。

後來,我們收到了使用者關於 AI 語音生成的反饋。這促使我們轉向直接研發語音 AI。整合大規模語言模型 (LLM)、文字轉語音 (TTS) 和語音轉文字 (STT) 技術極具挑戰性,尤其是話輪轉換和延遲方面。我們在二月份推出的第一個產品是一個 API,讓 LLM 能夠「開口說話」。 我們解決了延遲問題,並開發了一個專有的話輪轉換模型,可以預測使用者話語的結束,從而實現近乎實時的響應。

Davit Baghdasaryan: 我記得 Retell 在話輪轉換方面有一種先進的方法。你能解釋一下為什麼檢測話輪轉換如此困難嗎?

Bing Wu: 傳統的喚醒詞(例如「嘿,Alexa」)或按鍵說話等方法並不自然。人類是透過理解語義和對話語氣來預測話輪轉換的。我們複製了這種機制,使用語義和音訊訊號在 100-200 毫秒內準確預測輪轉結束。

Davit Baghdasaryan: 如果話輪轉換處理不好會發生什麼?

Bing Wu: AI 要麼會不斷打斷使用者,要麼反應遲鈍。兩種情況都不理想。 人們在思考過程中會有停頓,AI 需要識別這些停頓。 即使是 GPT 的實時 API 也難以解決這個問題,經常在使用者說到一半時打斷他們。

Davit Baghdasaryan: 現在很多演示都展示了令人印象深刻的語音轉文字、LLM 和 TTS 流水線。有些回應速度快得有些不自然。這些演示的真實性如何?話輪轉換問題真的解決了嗎?

Bing Wu: 基本解決了,而且還在不斷改進。 真正的語音到語音模型可能會將話輪轉換直接整合到 LLM 中。 然而,即使是部分功能的演示也可能具有誤導性。

從開發者工具到企業呼叫中心解決方案

Davit Baghdasaryan: 你們現在的主要用例是什麼?自二月份以來,這些用例是如何演變的?

Bing Wu: 最初,我們的 API 主要面向構建語音 AI 產品的開發者。在我們的 YC 孵化批次中,有七家公司用它來開發 AI 治療師、語言學習教練等等。從那以後,我們認識到語音到語音模型的巨大潛力,於是轉向為中端市場企業構建 AI 電話呼叫中心平臺。我們正在幫助擁有 100-500 名座席的公司大幅減少人員配置並提高效率。像熱轉接這樣的關鍵功能,即在座席交接過程中傳遞上下文,至關重要。

Davit Baghdasaryan: 所以,你們現在的重點是呼叫中心?

Bing Wu: 是的,作為對現有人工呼叫中心的替代或補充。

Davit Baghdasaryan: 你們提供完整的呼叫中心解決方案,還是與現有解決方案整合?

Bing Wu: 我們的願景是提供一個端到端的解決方案,類似於與業務流程外包 (BPO) 服務商的介面。 使用者提供培訓材料、常見問題解答、公司資訊、CRM 訪問許可權和知識庫。AI 智慧體學習並迭代,並提供績效報告。您可以把它想象成一個 AI BPO。

Davit Baghdasaryan: 電話整合方面呢?

Bing Wu: 雖然針對座席監控和評估的 AI 原生解決方案正在興起,但與現有電話系統的整合仍然至關重要。 我們提供 SIP 中繼以相容現有的 VoIP 系統,從而實現 AI 和人工座席之間的無縫協作。

Davit Baghdasaryan: 與客戶環境的深度整合至關重要。這與 CRM 和其他後臺應用程式是如何工作的?

Bing Wu: CRM 整合非常關鍵。 我們的目標是與 Salesforce 等流行 CRM 進行本地整合。 我們使用動態變數根據 CRM 資料個性化對話。呼叫結束後,我們從對話記錄中提取結構化資料以更新 CRM,儘管這個過程還需要進一步簡化。

Davit Baghdasaryan: 那麼與自定義後臺應用程式整合呢?這需要自定義程式碼嗎?

Bing Wu: 這取決於具體的用例。對於需要實時資料檢索的客戶支援場景,目前需要一些自定義程式碼。但是,像公司知識庫這樣的靜態資訊可以輕鬆上傳。

Davit Baghdasaryan: 你們的座席如何處理需要與內部工具和流程進行更深入整合的更復雜請求?

Bing Wu: 我們正在構建高階對話管理工具,例如多管齊下的對話樹,以減少 AI 幻覺並處理複雜性。這些工具允許為每個步驟定義操作和短語,並根據結果進行分支。我們也在不斷改進知識庫整合。

Davit Baghdasaryan: 這已經部署了嗎?

Bing Wu: 是的,我們已經有 100 個客戶正在使用,但我們仍在努力實現我們的完整願景。

短期重點是可靠地處理一級/二級複雜度的請求

Davit Baghdasaryan: 在接下來的兩到三年裡,你認為語音 AI 的未來會是什麼樣子?基礎模型將如何影響你們的能力?你們未來能夠處理更復雜層級的請求嗎?

Bing Wu: 短期內,重點是可靠地處理一級和二級複雜度的請求,解決 LLM 幻覺問題,保持適當的語氣,並維護品牌形象。 僅此一項就可以極大地顛覆離岸 BPO 行業,提供更高的可靠性和一致性。轉向更復雜的請求取決於基礎模型的進步。

Davit Baghdasaryan: 你們的定價模式是什麼?

Bing Wu: 目前,我們是按分鐘計費的,基於實際使用量。這使客戶可以輕鬆地將成本與現有的每小時座席費用進行比較。 基於結果的定價可能適用於一些單點解決方案,但我們的目標是滿足呼叫中心的更廣泛的運營需求。

Davit Baghdasaryan: OpenAI 的 Voice Mode API 大約是每小時 15 美元。這算貴嗎?

Bing Wu: 與級聯模型相比,它比較貴, 級聯模型每分鐘的成本約為 0.10-0.12 美元。然而, 語音到語音模型的定價可能會迅速下降。

Davit Baghdasaryan: 所以,你們在接下來的三年裡將專注於可靠地處理一級/二級複雜度的請求,而更進一步的進展取決於基礎模型的改進?

Bing Wu: 是的,可靠性至關重要,尤其是在 銀行業和醫療保健等領域,嚴格遵守行業規範和指南至關重要。

Davit Baghdasaryan: Bing,非常感謝你分享這些精彩的見解。

Bing Wu: 謝謝你,Davit。

原文:https://voice-ai-newsletter.krisp.ai/p/can-ai-replace-bpos-bi...
編譯:施蘇娜、傅豐元社群
技術顧問:付則宇

更多 Voice Agent 學習筆記:

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
https://mp.weixin.qq.com/s/txGrV9-uqVnmNvxxrOEMFA

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
https://mp.weixin.qq.com/s/P8qmj4Ha2zbM_5cqLmhDDQ

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
https://mp.weixin.qq.com/s/1Z8TuyqFDkuUMGNbNSiAPw

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
https://mp.weixin.qq.com/s/fPcCw7aIUppbLNkR-0PJCQ

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
https://mp.weixin.qq.com/s/LNUj3YaOkPXFW10WriRwCA

Voice-first,閉關做一款語音產品的思考|社群來稿
https://mp.weixin.qq.com/s/MArV5cbJ2wKu15YcH3-5hA

在這裡插入圖片描述

相關文章