Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

這次 voice agent 開發者分享會舉行的同時，恰逢 Gemini 2.0 Flash 的釋出，免費試用讓更多人體驗到了多模態實時 AI 的魅力，網上湧現了大量例如口語練習、螢幕操控以及「what’s in my hand」型別的視覺理解 demo。然而，這些在駭客松上可以實現的 demo 距離真正的工程化和商業化還有很長的路要走。

相比之下，voice agent 分享會上的許多開發者已經投身其中，踩了不少坑，也積累不少經驗。

正在矽谷創業的 Vela 分享了她對 voice AI 創業在矽谷的發展。她認為，AI 既會 增強了人與人之間的溝通 ，也會增加人與自己的溝通。

AI 產品經理白宦成 則從產品角度探討了實時 AI 在銷售場景中的應用潛力，並展示瞭如何利用預生成和實時生成的知識庫來賦能銷售人員。雖然現在仍屬於 Copilot 模式，但你可以在分享中看到 Voice Agent 代替人工坐席的雛形。

專注於 AI 兒童教育硬體的 Rizon 分享了他們在技術選型和實際應用中遇到的挑戰。他們發現，在深入垂直場景後，現有模型的能力僅僅是探索的起點。例如，在兒童語音識別領域，目前還缺乏能夠有效 處理兒童口音的成熟模型。

voice agent 搭建框架 TEN 的 Plutoless 分享了第一時間整合 Gemini Multimodal Live API 的一手經驗，並介紹了 TEN 為簡化 voice agent 開發流程 所做的更新和最佳化。

YC 最新的年度總結播客將 voice AI 列為年度趨勢之一，認為其在橫向（提供工具能力）和縱向（深耕垂直場景）都擁有巨大潛力。在智慧客服和語言學習等場景中，voice AI 已初具規模。未來的市場格局也不會一家獨大，而將呈現百花齊放的態勢。

多模態和實時互動 AI 正加速從實驗階段邁向落地應用。希望本次分享能為你帶來一些啟發！

本次活動的微信群將持續開放 ，作為 voice agent 主題的長期討論場域，歡迎透過文末方式加入我們的社群。

Vela：Voice AI 全景概述與產品案例分享

對 Voice AI 發展的認識：

Voice AI 的核心價值： Voice AI 不僅僅是技術的進步，更是互動方式的革新。它將人機互動提升到人人互動的水平，也將增強人與人之間的溝通。
市場現狀： C 端產品百花齊放，從早期的 Clubhouse 等音訊社交軟體，到如今融合 AI 的 Airchat、Suno、Character.AI 的 voice call，以及 ChatGPT 的語音模型，都展現了 Voice AI 的巨大潛力。To B 領域，Voice AI 經歷了從簡單的 IVR 按鍵到自然語言控制的演變，市場規模持續擴大，尤其在矽谷，大量 Voice AI 初創公司獲得融資，預示著市場的蓬勃發展。
技術棧演進： 當前 Voice AI 主要基於 Speech-to-Text、LLM 和 Text-to-Speech 的三段式級聯方案。但這種方案存在一定的侷限性，下一代技術正在積極探索新的方向：

1、GPT-4o 的 LAR 模型： 透過在輸入層加入音訊編碼器，使模型能夠直接處理音訊訊號，並結合上下文進行理解。

2、輸出層 Audio-based Encoder： 提升語音合成的自然度和表現力，更接近真人對話。

3、Textless 模型： 跳過文字轉換步驟，直接處理音訊編碼器 Token，進一步降低延遲，提升實時性。

4、Streaming 模式： 實現真正的實時雙向語音互動，是 Voice AI 的終極目標。但目前準確率和高昂的訓練成本仍是主要挑戰。

產品案例分析：

Boardy： 這款 AI Networker 重新定義了人脈擴充的方式。它不僅僅是一個工具，更像是一個虛擬的社交助手，透過語音對話瞭解你的需求，並主動幫你聯絡潛在的人脈。
https://www.boardy.ai/

「與五年後的自己對話」（Vela 的作品）：這個產品探索了 AI 在個人成長領域的應用，透過與未來的「自己」對話，反思過去，展望未來。

對 NotebookLM「Join In」功能的解讀： NotebookLM 的雙人音訊生成功能雖然引人注目，但它本質上是靜態音訊的生成，而非真正的實時互動。真正的實時互動需要 Agent 能夠理解使用者的意圖，並動態地調整對話內容。

級聯方案與 Streaming 方案的未來： 兩種方案各有優劣，Streaming 方案的優勢在於延遲低，但內容可控性較差，成本也較高。而級聯方案在一些對內容質量要求較高的 ToB 場景中，例如醫療保健、保險等領域，仍然具有優勢。透過 Streaming 技術的最佳化，三段式方案的延遲可以控制在 500ms 左右，使其在實時性方面也具備競爭力。最終，哪種方案會成為主流，取決於技術的進一步發展和具體的應用場景。

白宦成：銷售場景下的實時 AI 輔助實踐

精準定位的應用場景： 該專案聚焦於一款企業級 IM 產品內部的銷售賦能，特別是針對線上銷售的實時外呼輔助和 AI 質檢。

直擊痛點的解決方案： 面對產品資訊複雜、銷售人員培訓成本高、流動率高等問題，白宦成團隊並沒有選擇完全用 AI 取代銷售，而是開發了一套實時輔助系統，幫助銷售人員提高效率和業績。

技術方案的巧妙結合： 為了平衡實時性和計算成本，該系統採用了 pre-generate 和 on-time generate 兩種方案。pre-generate 預先生成客戶相關資訊，減少實時計算壓力；on-time generate 則利用本地部署的豆包模型，實時生成與當前對話相關的資訊，保證低延遲和快速響應。

Copilot 理念： 強調 AI 的輔助角色，幫助銷售人員更好地完成工作，而不是完全取代他們。這種理念更符合當前 AI 的發展水平，也更容易被使用者接受。

持續改進的未來方向： 團隊計劃探索 Realtime API 的應用，並進一步最佳化 on-time generate 的 Streaming JSON 協議，提升使用者體驗，降低伺服器頻寬消耗。同時，他們也關注音訊處理流程和基礎設施建設，例如伺服器頻寬的最佳化，為未來的業務增長做好準備。

Rizon：兒童英語教育硬體產品開發中的挑戰與思考

創新性的產品形態： Rizon 的團隊正在開發一款結合行動式硬體、AR 技術和語音互動的兒童英語學習產品，旨在讓孩子在更自然的真實環境中練習英語口語，告別傳統的「啞巴英語」。

從三段式到雙兩段式的架構演進： 雖然目前產品採用的是 ASR + LLM + TTS 的三段式架構，但 Rizon 認為兩段式 + 兩段式架構（[語音輸入 - 結構化輸出]-工作流-[結構化輸入 - 語音輸出]）更適合兒童英語教育場景，因為它更利於結合上下文理解孩子的表達，並實現更自然的情感和語速控制。

亟待解決的關鍵挑戰：

兒童語音識別： 兒童的發音特點與成人不同，通用語音識別模型的準確率較低。因此，Rizon 團隊計劃訓練專門針對兒童的語音識別模型。
情感和語速控制： 與兒童互動需要更自然、更具親和力的語音表達，以及更合適的語速。這方面，傳統的 TTS 方案難以滿足需求，需要更先進的技術。
環境噪音處理： 由於產品應用於移動場景，如何有效地處理室外噪音是一個重要挑戰。

務實的技術選型：

硬體平臺： 選擇安卓系統，主要考慮其功能豐富、擴充套件性強，以及開發成本相對較低等因素。
通訊協議： 採用 RTC 協議，保障實時性和穩定性。但 RTC 在 Serverless 部署方面存在挑戰，團隊正在積極探索解決方案。

Plutoless：TEN Framework 更新與 Gemini 整合體驗

TEN Framework 的核心目標：

透過模組化的設計，簡化 Agent 的開發流程，讓開發者能夠更輕鬆地搭建、除錯和部署多模態 Agent。

Gemini 整合體驗的全面評估：

優勢：免費使用（對開發者非常友好），功能強大，原生支援 Vision，內建 Google Search 和 Code Executioner，省去了開發者整合第三方工具的麻煩。

不足：由於 Gemini 仍處於 Alpha 階段，存在一些問題，例如文件不完善，服務穩定性有待提高，語音識別對口音的適應性不足，Function Call 功能有待完善，且僅支援 Server VAD。

TEN Framework 的重要更新：

LLM 和 TTS 抽象： 透過對語言模型和語音合成模組進行抽象，規範了外掛的開發流程，方便開發者快速整合各種模型和工具，並根據實際需求進行替換。

支援更復雜的大腦編排： 新版本支援 Coze、Dify（WIP）等工具的整合，使開發者能夠構建更復雜、更強大的 Agent。

提升 Playground 體驗： 提供視覺化介面，方便開發者除錯和配置 Agent，降低開發門檻。

RTC 與 WebSocket 的深入對比： Plutoless 詳細分析了兩種協議的優劣，指出 RTC 更適合實時音影片互動場景，因為它具有更好的網路適應性和 QoS 控制能力，能夠有效應對網路波動和延遲。而 WebSocket 更輕量，適用於網路環境穩定的場景，例如在本地或區域網環境下的應用。

Lightning Demo

趙藝軍：Tempo-Pulse 觸覺音樂播放器

實時 AI 觸覺音樂播放器，將音樂轉換為觸覺反饋，讓聽障人士也能感受音樂的魅力。支援 Apple Music 曲庫和本地音樂匯入，並提供觸覺強度和風格的自定義設定。

https://www.rtecommunity.dev/t/t_gKh4nm8qJJW3BR

YuZou 鄒宇：抱抱小白 mibai

多人互動桌面機器人，結合語音互動、情緒識別和遠端控制等功能，打造一個具有個性化和社交屬性的桌面伴侶。硬體形態小巧，並支援無線充電。

https://mp.weixin.qq.com/s/4azfpun7XH4vf6kR3uVsHg

李亞偉：矽基流動大模型推理雲服務

專注於 AI 模型推理加速和成本最佳化的技術平臺，具有高效能、低成本的特點，並提供豐富的雲服務支援。目前提供了 Fish Speech、SenseVoiceSmall 等開源語音模型的介面。

張銻：語音控制電腦 Demo :

透過語音指令控制電腦，實現開啟軟體、搜尋資訊、播放影片等功能。探索 AI 與軟體的更自然、更高效的互動方式。

https://m.okjike.com/originalPosts/67420e81f22c7c56e4f834b9

Rex 陳正翔：AI 輪椅

專為老年人設計的 AI 輪椅，支援自然語言指令控制，並可以操作手機、智慧家居等裝置。例如，老年人可以透過語音指令讓輪椅帶自己去廁所，或者在摔倒時自動撥打電話給家人。

具備端側視覺多模態和 Nav2 導航的電動輪椅

Agenthttps://a0orhs0srr.feishu.cn/docx/Fzxxd0PnIo2gu4xcyOdc87dunvc

常高偉：AgentNetworkProtocol（ANP）

旨在構建智慧體網際網路時代的 HTTP 協議，解決智慧體之間的連線和資訊共享問題，為數十億智慧體構建一個開放、安全、高效的協作網路，讓 AI 能夠更便捷地訪問和利用網際網路上的資訊。

https://github.com/chgaowei/AgentNetworkProtocol/blob/main/README.cn.md

Johnson：能夠實時控制對話方向的智慧訪談 Agent

一款支援多人語音互動的智慧訪談工具，能夠實時控制對話方向，避免跑題，並根據預設的訪談提綱引導對話進行。

多 Agent 設計，1 個 Agent 是製片人，1 個是訪談記者，製片人 Agent 在非同步的後臺實時監聽 Voice2Voice 的對話，並給訪談記者提供一些指導建議。

https://open.minitool.fun:17080/Openconsole

英語教育 Agent（yin2）:

探索 AI 在英語教育領域的應用，例如口語練習、發音糾正等。（感謝 yin2 對本次活動的現場誇誇！）

黃巍 Tom：基於自由畫布的 AI Native 內容創作工具 Refly

基於自由畫布的 AI Native 內容創作工具，由多執行緒對話、知識庫整合、上下文記憶和智慧搜尋驅動，旨在幫助使用者將創意轉化為優質內容。

Refly 由多執行緒對話、知識庫整合、上下文記憶和智慧搜尋驅動，目前已經內測上線。

https://refly.ai/

本次活動也收到了參與者的一致好評，謝謝大家的參與，我們下一次 RTE Meetup 再見！！

關於 RTE Meetup

https://www.rtecommunity.dev/

Real-Time&Real Connection，RTE Meetup 是 RTE 開發者社群發起的小型開發者聚會，邀請開發者分享技術和產品的同時，也重視每個與會者的深度參與和交流體驗。

RTE=Real-Time Engagement，即「實時互動」。

成為 RTE Meetup 組織者

歡迎聯絡我們申請成為 RTE Meetup 組織者，用你感興趣的話題聚集同類人，分享新技術、新理念和新場景，一同探索實時互動新可能。有意者請加微信 Creators2022，備註身份和來意。

更多 Voice Agent 學習筆記：

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命：未來，消費者更可能傾向於與 AI 溝通，而非人工客服

語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first，閉關做一款語音產品的思考｜社群來稿