對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧
主題圍繞 「Voice Agent+ 硬體」 ,2025 年第一期 RTE Meetup 成功落地硬體之都深圳。
來自訊飛、樂鑫、閃極科技、TEN、MiniMax、聲網、小智 AI 聊天機器人等專案的開發者都到場分享或交流。主題領域覆蓋 IoT、AI 眼鏡、RTC、voice agent 構建框架、ESP32 等話題。
聲網技術專家吳方方 以宏觀視角剖析了 AIoT 行業從「聽到」到「聽懂」的演進歷程,並著重強調了大模型對 AIoT 的變革以及 RTC 技術在解決延遲挑戰中的關鍵作用。
TEN Framework 核心開發者 Jay 從實踐出發,分享瞭如何運用 TEN 框架和 ESP32 打造低延遲的卓越語音 AI 硬體體驗,TEN+EPS32 的方案也即將開源。
科大訊飛 AI 互動高階專案經理賀思源 闡述了訊飛在多模態語音增強、超擬人語音合成等前沿 AI 能力上的突破,以及這些技術在教育、醫療等領域的創新應用。
圓桌環節,包括 閃極科技 CTO 周萬程 在內的嘉賓們圍繞 大模型降本增效、端側計算能力提升 以及 網路傳輸最佳化 等關鍵技術展開探討,並討論了 Always on 的環境式智慧體 在 AI 硬體的發展。
我們整理了本次活動的核心分享,期待對你有所啟發!也歡迎加入我們的「voice agent+ 硬體」微信群。
本次活動的微信群將持續開放, 作為「voice agent+ 硬體」主題的長期討論場域,歡迎掃碼申請加入我們的微信群。
注:掃碼後,建議在瀏覽器中開啟頁面註冊報名(微信內建瀏覽器不支援 Google 登入)如遇問題,可加小助手微信(Creators2022)協助報名❤️
Web 端也可直接訪問網頁報名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n
吳方方:讓萬物「聽說」,AI 對話式智慧硬體方案和發展洞察
AIoT 行業演進:從「聽到」到「聽懂」
2017 年,AI 技術突破推動了語音識別(ASR)、語音合成(TTS)和自然語言理解(NLU)的發展,促成 AIoT 概念的興起。2020 年,AIoT 快速發展,自然語言人機互動成為現實。ASR 準確率超 93%,TTS 自然度和情感表達顯著提升, 智慧音響、手機助手、語音輸入法等產品湧現。
大模型對 AIoT 的影響
大模型提升了 AI 助手理解使用者意圖的能力,使對話更自然,並具備多模態感知能力。此外,AI 的自學習能力使其能不斷最佳化服務,滿足個性化需求。具體表現為:
理解力增強: AI 更精準地理解使用者指令。
生成式對話: 對話更具上下文理解,而非簡單應答。
多模態感知: 整合文字、語音、影像等多維度資訊。
自學習最佳化: 透過使用者反饋不斷迭代服務。
AIoT 產品形態變革
會議助手: 從記錄升級為總結、提煉的智慧助手。
AI 實時翻譯耳機: 實現跨語言實時同聲傳譯。
機器人助手: 從簡單執行指令升級為主動互動的個人助理。
挑戰與應對
大模型部署成本高,對延遲敏感,依賴端雲協同,且多模態資料傳輸壓力大。為此,引入 RTC 技術勢在必行。RTC 技術具有低延遲和靈活傳輸能力,可支援多模態資料傳輸,並將計算壓力轉移至雲端,提升使用者體驗。
聲網的 AI Agent x IoT 解決方案支援低功耗晶片快速接入大模型,實現低延時互動。開發者只需接入 RTC,其他計算由雲端完成,降低開發成本。
Jay:TEN x ESP32 玩轉 Voice AI,創造低延遲的 AI 硬體體驗
IoT 裝置接入大模型的挑戰與痛點
語音互動體驗至關重要: 低延遲和自然的打斷是關鍵的使用者體驗指標。
多重因素影響互動效果: ASR(自動語音識別)、大語言模型(LLM)和 TTS(文字轉語音)的選擇、三段式級聯架構的延遲、網路協議的適用性以及延遲和打斷最佳化等都是挑戰。
技術交叉複雜性: 涉及 AI 和通訊領域的交叉問題,需要開發者具備多領域知識。
網路協議選擇: 傳統的 WebSocket 在音影片傳輸方面存在延遲高、抗抖動性差的問題,而 RTC 協議更適合複雜場景,因為它具有低延遲、抗抖動和內建音訊處理功能。
TEN 框架的解決方案
基於 TEN 框架構建的對話 AI 引擎,TEN Agent 為開發者提供快速構建實時對話式 AI 智慧體的工具。
外掛式設計: 所有功能模組(如 RTC, ASR, LLM, TTS)均以外掛形式存在,方便靈活編排組合。
內建 RTC: 具備低延遲、降噪等特性,簡化了複雜音影片場景的處理。
開箱即用: TEN Agent 內建 RTC + STT + LLM + TTS 的完整流程,提供預設配置方便使用者快速體驗。
支援級聯和語音到語音(V2V)兩種模式: TEN 框架都能輕鬆實現,開發者可根據場景自由選擇。
可與 Dify 和 Coze 整合: 如果已經在 Dify 或 Coze 上搭建了 Agent 的大腦,可以透過簡單配置引數,讓其在 TEN 上實現語音互動。
TEN + ESP32 方案
基於 ESP32 的對話助手: 結合 TEN Agent,實現低成本的語音互動裝置。
架構: ESP32 透過 Agora 的 RTC SDK 連線到雲端的 TEN Agent,完成語音/影片/文字傳輸,並在雲端完成 ASR/LLM/TTS 處理。
關鍵實現: 包括整合 RTC SDK 和 TEN Agent 的控制 API,採集音訊並傳輸,接收回復並播放。
Demo 展示: 現場演示了基於 iFLY(ASR)、阿里通義千問(LLM)和 MiniMax(TTS)模型的語音互動,延遲約為 1.5-2 秒,打斷自然。
開源計劃: TEN + ESP32 方案將在未來 1-2 周內開源。
賀思源:新能力,新可能——AI 智慧硬體創新場景探索
訊飛新能力:
多模語音增強: 結合影片和語音資料,提升高噪聲環境下的語音識別準確率。
超擬人語音合成: 模擬人類發音特徵,使合成語音更自然,可線上體驗。
聲音復刻: 僅需 30 秒錄音即可復刻聲音,支援跨語種。
智慧問答庫: 結合大模型,提升問答效果,支援實時搜尋,解決大模型資訊滯後問題。
回覆風格自定義: 可為不同產品定製個性化回覆風格,避免千篇一律。
端側大模型: 為有資料安全需求的客戶提供本地化大模型解決方案。
大模型提示詞工程: 透過少量示例即可讓大模型自動泛化語料,提高開發效率。
訊飛新場景應用:
教育領域: 訊飛學習機提供中英文作文批改、口語陪練和教師助手等功能。
醫療領域: 訊飛小醫處理全鏈路用醫請求,包括就診前諮詢、用藥指導和體檢報告解讀。
辦公領域: PPT 助手一鍵生成 PPT 大綱模板,幫助使用者專注於內容創作。
AI 能力與硬體結合的思考:
AI 能力定位影響未來機會:輔助作用 如語音遙控器,核心需求是觀影,語音僅為輔助功能,創業公司機會較小。核心作用 如故事機,AI 能力是核心賣點,易催生新品類,帶來新公司機會。
限制條件可促進新品類誕生: 如端側大模型一體機源於央國企對資料安全的需求,閨蜜機源於電視便攜性不足。
多模態互動在情感陪伴類產品(如機器人)中有巨大潛力。 避免將語音互動僅作為傳統功能的輔助指令。
未來產品暢想:
AI 動態相框: 使用者可上傳圖片生成動態影片,或透過語音生成背景。
AI 試衣鏡: 透過實時掃描人體進行實時換裝,並推薦服裝搭配,滿足使用者釋義需求。
圓桌討論:把 GenAI 裝進物理世界,一共分幾步?
2025 年的關鍵技術突破
參與討論的嘉賓們認為,在未來 1~2 年內,最重要的技術突破可能主要集中在以下方面:
大模型降本增效: 訊飛的賀思源指出,目前大模型的呼叫成本仍然是傳統結構化對話的好幾倍。「大模型不是成本越高越好,而是要讓更多人用得起、用得好。」
端側計算能力提升: 閃極科技的周萬程強調,本地計算對於保護隱私資料、保證離線可用性至關重要,未來一定是端雲結合的異構架構。高通最新發布的 Snapdragon XR2 Gen 2 晶片就是一個重要進展,這標誌著端側計算能力的顯著提升,為更安全、更可靠的 AI 應用奠定了基礎。
網路傳輸最佳化: 聲網的吳方方指出,大多數場景並非完全無網路,而是網路不穩定。如何在弱網環境下保證 AI 體驗的流暢性是一個重要課題。他們認為,最佳化網路傳輸,尤其是在不穩定的網路環境中,是確保 AI 應用流暢使用者體驗的關鍵。
Always on 的 Ambient Agent 的未來
對於 「Ambient Agent」(環境式智慧體) 這一概念,嘉賓們認為這代表了 AI 硬體的重要發展方向。這種智慧體能夠全天候陪伴使用者,但不會過度打擾,而是在適當時機主動互動。
賀思源打了個比方:「就像開車時的導航,它會在關鍵時刻提醒你 『前面 200 米有紅燈』,但平時並不會喋喋不休。」同時,賀思源也表示,除了導航等傳統場景外,大模型在 視覺分析等複雜場景 中將發揮更大價值。
周萬程則指出了技術挑戰:「Always on 是個好概念,但要考慮功耗。 在重要場景高幀率記錄,不重要場景低幀率記錄,這需要很好的場景感知能力。」
Ligntning Demo
心語心聲:AI 驅動的智慧陪伴玩具
具有特色的智慧陪伴玩具,該產品的獨特之處在於具備審描功能,特別適用於老人和兒童群體。透過分析使用者的語音特徵,系統可以對兒童的心智發育、情緒狀況,以及老人的健康狀況做出初步判斷。目前由於資料量較小,還不能稱為醫療診療,團隊正在努力擴充套件資料庫。
專案目前面臨兩個主要挑戰:
1.電池續航問題:團隊最初計劃做 always on 專案,但在小型化過程中遇到了能量供給的困難
2.語音喚醒問題:正在探索透過分析說話者與老人、兒童交談時的聲音模式差異來作為喚醒的觸發點
兒童 AI 體感互動&口語陪練
一位在基於兒童 AI 創業的創業者認為純粹的兒童語音玩具可能是偽需求,市場上已有大量陪伴玩具,不一定需要實時的大模型陪伴。
目前她正在開展兩個創新專案:
1.兒童 AI 體感專案:開發能夠捕捉兒童動作的硬體裝置,配合電視遊戲實現互動陪伴;
2.兒童口語陪練專案:與科大訊飛合作,針對兒童口語訓練的特定需求和具體痛點開發解決方案。
小智 AI 聊天機器人
小智 AI 聊天機器人的產品負責人現場 demo 了基於樂鑫 ESP32 方案的對話硬體。樂鑫工程師現場也參與了答疑和交流。
活動主辦:RTE 開發者社群
場地支援方:亞馬遜雲科技 AWS
社群夥伴支援:有新 Newin、亞馬遜雲科技 User Group、LitGate、TEN Framework、訊飛開放平臺、 ErroRight
本次活動的微信群將持續開放, 作為「voice agent+ 硬體」主題的長期討論場域,歡迎掃碼申請加入我們的微信群。
注:掃碼後,建議在瀏覽器中開啟頁面註冊報名(微信內建瀏覽器不支援 Google 登入)如遇問題,可加小助手微信(Creators2022)協助報名❤️
Web 端也可直接訪問網頁報名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n
關於 RTE Meetup
https://www.rtecommunity.dev/
Real-Time&Real Connection,RTE Meetup 是 RTE 開發者社群發起的小型開發者聚會,邀請開發者分享技術和產品的同時,也重視每個與會者的深度參與和交流體驗。
RTE=Real-Time Engagement,即「實時互動」。
成為 RTE Meetup 組織者
歡迎聯絡我們申請成為 RTE Meetup 組織者,用你感興趣的話題聚集同類人,分享新技術、新理念和新場景,一同探索實時互動新可能。有意者請加微信 Creators2022,備註身份和來意。
相關文章
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 回顧·如何打造主動對話式AIAI
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 關於成都 Gopher Meetup 的回顧Go
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 「AI Infra 軟體開源不是一個選項,而是必然」丨雲邊端架構和 AI Infra 專場回顧 @RTE2024AI架構
- 「人眼視覺不再是影片消費的唯一形式」丨智慧編解碼和 AI 影片生成專場回顧 @RTE2024視覺AI
- 打造低延遲互動音訊: Oboe音訊
- 活動報名:Voice Agent+ 硬體分享會,深圳專場丨 RTE Meetup 007
- HiAI Foundation助力端側音影片AI能力,高效能低功耗釋放雲側成本AI
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- OpenAI 推出嵌入式硬體 SDK,支援 ESP32 語音開發;INFP:音訊驅動的雙人對話頭像生成,自動區分說話者和傾聽者OpenAI音訊
- 開發者實踐丨Agora Home AI 音視訊的未來GoAI
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報視覺開發者日報
- 活動回顧丨ALC Beijing 首場 Meetup:《開源到底有多難?》
- 回顧·智慧導購對話機器人實踐機器人
- 低延遲音視訊傳輸技術在直播領域的應用
- 深入理解JVM(③)低延遲的Shenandoah收集器JVMNaN
- 低延遲流式語音識別技術在人機語音互動場景中的實踐
- 直播教學!20 分鐘開發視覺化「智慧門鈴」丨RTE 開發實戰課 • 第一期視覺化
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 手機投屏到電腦_低延遲,傳聲音
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 依圖在實時音視訊中語音處理的挑戰丨RTC Dev Meetupdev
- 大屏視覺化用什麼開發,視覺化地圖用什麼軟體做好一點視覺化地圖
- 2020年CTS音視訊開發者大會圓滿落幕 回顧櫻花盛放時
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報