對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧

RTE开发者社区發表於2025-01-26

主題圍繞 「Voice Agent+ 硬體」 ,2025 年第一期 RTE Meetup 成功落地硬體之都深圳。

來自訊飛、樂鑫、閃極科技、TEN、MiniMax、聲網、小智 AI 聊天機器人等專案的開發者都到場分享或交流。主題領域覆蓋 IoT、AI 眼鏡、RTC、voice agent 構建框架、ESP32 等話題。

聲網技術專家吳方方 以宏觀視角剖析了 AIoT 行業從「聽到」到「聽懂」的演進歷程,並著重強調了大模型對 AIoT 的變革以及 RTC 技術在解決延遲挑戰中的關鍵作用。

TEN Framework 核心開發者 Jay 從實踐出發,分享瞭如何運用 TEN 框架和 ESP32 打造低延遲的卓越語音 AI 硬體體驗,TEN+EPS32 的方案也即將開源。

科大訊飛 AI 互動高階專案經理賀思源 闡述了訊飛在多模態語音增強、超擬人語音合成等前沿 AI 能力上的突破,以及這些技術在教育、醫療等領域的創新應用。

圓桌環節,包括 閃極科技 CTO 周萬程 在內的嘉賓們圍繞 大模型降本增效、端側計算能力提升 以及 網路傳輸最佳化 等關鍵技術展開探討,並討論了 Always on 的環境式智慧體 在 AI 硬體的發展。

我們整理了本次活動的核心分享,期待對你有所啟發!也歡迎加入我們的「voice agent+ 硬體」微信群。

本次活動的微信群將持續開放, 作為「voice agent+ 硬體」主題的長期討論場域,歡迎掃碼申請加入我們的微信群。

注:掃碼後,建議在瀏覽器中開啟頁面註冊報名(微信內建瀏覽器不支援 Google 登入)如遇問題,可加小助手微信(Creators2022)協助報名❤️

Web 端也可直接訪問網頁報名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n

吳方方:讓萬物「聽說」,AI 對話式智慧硬體方案和發展洞察

AIoT 行業演進:從「聽到」到「聽懂」

2017 年,AI 技術突破推動了語音識別(ASR)、語音合成(TTS)和自然語言理解(NLU)的發展,促成 AIoT 概念的興起。2020 年,AIoT 快速發展,自然語言人機互動成為現實。ASR 準確率超 93%,TTS 自然度和情感表達顯著提升, 智慧音響、手機助手、語音輸入法等產品湧現。

大模型對 AIoT 的影響

大模型提升了 AI 助手理解使用者意圖的能力,使對話更自然,並具備多模態感知能力。此外,AI 的自學習能力使其能不斷最佳化服務,滿足個性化需求。具體表現為:

  • 理解力增強: AI 更精準地理解使用者指令。

  • 生成式對話: 對話更具上下文理解,而非簡單應答。

  • 多模態感知: 整合文字、語音、影像等多維度資訊。

  • 自學習最佳化: 透過使用者反饋不斷迭代服務。

AIoT 產品形態變革

  • 會議助手: 從記錄升級為總結、提煉的智慧助手。

  • AI 實時翻譯耳機: 實現跨語言實時同聲傳譯。

  • 機器人助手: 從簡單執行指令升級為主動互動的個人助理。

挑戰與應對

大模型部署成本高,對延遲敏感,依賴端雲協同,且多模態資料傳輸壓力大。為此,引入 RTC 技術勢在必行。RTC 技術具有低延遲和靈活傳輸能力,可支援多模態資料傳輸,並將計算壓力轉移至雲端,提升使用者體驗。

聲網的 AI Agent x IoT 解決方案支援低功耗晶片快速接入大模型,實現低延時互動。開發者只需接入 RTC,其他計算由雲端完成,降低開發成本。

Jay:TEN x ESP32 玩轉 Voice AI,創造低延遲的 AI 硬體體驗

IoT 裝置接入大模型的挑戰與痛點

  • 語音互動體驗至關重要: 低延遲和自然的打斷是關鍵的使用者體驗指標。

  • 多重因素影響互動效果: ASR(自動語音識別)、大語言模型(LLM)和 TTS(文字轉語音)的選擇、三段式級聯架構的延遲、網路協議的適用性以及延遲和打斷最佳化等都是挑戰。

  • 技術交叉複雜性: 涉及 AI 和通訊領域的交叉問題,需要開發者具備多領域知識。

  • 網路協議選擇: 傳統的 WebSocket 在音影片傳輸方面存在延遲高、抗抖動性差的問題,而 RTC 協議更適合複雜場景,因為它具有低延遲、抗抖動和內建音訊處理功能。

TEN 框架的解決方案

基於 TEN 框架構建的對話 AI 引擎,TEN Agent 為開發者提供快速構建實時對話式 AI 智慧體的工具。

外掛式設計: 所有功能模組(如 RTC, ASR, LLM, TTS)均以外掛形式存在,方便靈活編排組合。

內建 RTC: 具備低延遲、降噪等特性,簡化了複雜音影片場景的處理。

開箱即用: TEN Agent 內建 RTC + STT + LLM + TTS 的完整流程,提供預設配置方便使用者快速體驗。

支援級聯和語音到語音(V2V)兩種模式: TEN 框架都能輕鬆實現,開發者可根據場景自由選擇。

可與 Dify 和 Coze 整合: 如果已經在 Dify 或 Coze 上搭建了 Agent 的大腦,可以透過簡單配置引數,讓其在 TEN 上實現語音互動。

TEN + ESP32 方案

基於 ESP32 的對話助手: 結合 TEN Agent,實現低成本的語音互動裝置。

架構: ESP32 透過 Agora 的 RTC SDK 連線到雲端的 TEN Agent,完成語音/影片/文字傳輸,並在雲端完成 ASR/LLM/TTS 處理。

關鍵實現: 包括整合 RTC SDK 和 TEN Agent 的控制 API,採集音訊並傳輸,接收回復並播放。

Demo 展示: 現場演示了基於 iFLY(ASR)、阿里通義千問(LLM)和 MiniMax(TTS)模型的語音互動,延遲約為 1.5-2 秒,打斷自然。

開源計劃: TEN + ESP32 方案將在未來 1-2 周內開源。

賀思源:新能力,新可能——AI 智慧硬體創新場景探索

訊飛新能力:

  • 多模語音增強: 結合影片和語音資料,提升高噪聲環境下的語音識別準確率。

  • 超擬人語音合成: 模擬人類發音特徵,使合成語音更自然,可線上體驗。

  • 聲音復刻: 僅需 30 秒錄音即可復刻聲音,支援跨語種。

  • 智慧問答庫: 結合大模型,提升問答效果,支援實時搜尋,解決大模型資訊滯後問題。

  • 回覆風格自定義: 可為不同產品定製個性化回覆風格,避免千篇一律。

  • 端側大模型: 為有資料安全需求的客戶提供本地化大模型解決方案。

  • 大模型提示詞工程: 透過少量示例即可讓大模型自動泛化語料,提高開發效率。

訊飛新場景應用:

  • 教育領域: 訊飛學習機提供中英文作文批改、口語陪練和教師助手等功能。

  • 醫療領域: 訊飛小醫處理全鏈路用醫請求,包括就診前諮詢、用藥指導和體檢報告解讀。

  • 辦公領域: PPT 助手一鍵生成 PPT 大綱模板,幫助使用者專注於內容創作。

AI 能力與硬體結合的思考:

  • AI 能力定位影響未來機會:輔助作用 如語音遙控器,核心需求是觀影,語音僅為輔助功能,創業公司機會較小。核心作用 如故事機,AI 能力是核心賣點,易催生新品類,帶來新公司機會。

  • 限制條件可促進新品類誕生: 如端側大模型一體機源於央國企對資料安全的需求,閨蜜機源於電視便攜性不足。

  • 多模態互動在情感陪伴類產品(如機器人)中有巨大潛力。 避免將語音互動僅作為傳統功能的輔助指令。

未來產品暢想:

  • AI 動態相框: 使用者可上傳圖片生成動態影片,或透過語音生成背景。

  • AI 試衣鏡: 透過實時掃描人體進行實時換裝,並推薦服裝搭配,滿足使用者釋義需求。

圓桌討論:把 GenAI 裝進物理世界,一共分幾步?

2025 年的關鍵技術突破

參與討論的嘉賓們認為,在未來 1~2 年內,最重要的技術突破可能主要集中在以下方面:

  • 大模型降本增效: 訊飛的賀思源指出,目前大模型的呼叫成本仍然是傳統結構化對話的好幾倍。「大模型不是成本越高越好,而是要讓更多人用得起、用得好。」

  • 端側計算能力提升: 閃極科技的周萬程強調,本地計算對於保護隱私資料、保證離線可用性至關重要,未來一定是端雲結合的異構架構。高通最新發布的 Snapdragon XR2 Gen 2 晶片就是一個重要進展,這標誌著端側計算能力的顯著提升,為更安全、更可靠的 AI 應用奠定了基礎。

  • 網路傳輸最佳化: 聲網的吳方方指出,大多數場景並非完全無網路,而是網路不穩定。如何在弱網環境下保證 AI 體驗的流暢性是一個重要課題。他們認為,最佳化網路傳輸,尤其是在不穩定的網路環境中,是確保 AI 應用流暢使用者體驗的關鍵。

Always on 的 Ambient Agent 的未來

對於 「Ambient Agent」(環境式智慧體) 這一概念,嘉賓們認為這代表了 AI 硬體的重要發展方向。這種智慧體能夠全天候陪伴使用者,但不會過度打擾,而是在適當時機主動互動。

賀思源打了個比方:「就像開車時的導航,它會在關鍵時刻提醒你 『前面 200 米有紅燈』,但平時並不會喋喋不休。」同時,賀思源也表示,除了導航等傳統場景外,大模型在 視覺分析等複雜場景 中將發揮更大價值。

周萬程則指出了技術挑戰:「Always on 是個好概念,但要考慮功耗。 在重要場景高幀率記錄,不重要場景低幀率記錄,這需要很好的場景感知能力。」

Ligntning Demo

心語心聲:AI 驅動的智慧陪伴玩具

具有特色的智慧陪伴玩具,該產品的獨特之處在於具備審描功能,特別適用於老人和兒童群體。透過分析使用者的語音特徵,系統可以對兒童的心智發育、情緒狀況,以及老人的健康狀況做出初步判斷。目前由於資料量較小,還不能稱為醫療診療,團隊正在努力擴充套件資料庫。

專案目前面臨兩個主要挑戰:

1.電池續航問題:團隊最初計劃做 always on 專案,但在小型化過程中遇到了能量供給的困難

2.語音喚醒問題:正在探索透過分析說話者與老人、兒童交談時的聲音模式差異來作為喚醒的觸發點

兒童 AI 體感互動&口語陪練

一位在基於兒童 AI 創業的創業者認為純粹的兒童語音玩具可能是偽需求,市場上已有大量陪伴玩具,不一定需要實時的大模型陪伴。

目前她正在開展兩個創新專案:

1.兒童 AI 體感專案:開發能夠捕捉兒童動作的硬體裝置,配合電視遊戲實現互動陪伴;

2.兒童口語陪練專案:與科大訊飛合作,針對兒童口語訓練的特定需求和具體痛點開發解決方案。

小智 AI 聊天機器人

小智 AI 聊天機器人的產品負責人現場 demo 了基於樂鑫 ESP32 方案的對話硬體。樂鑫工程師現場也參與了答疑和交流。

活動主辦:RTE 開發者社群

場地支援方:亞馬遜雲科技 AWS

社群夥伴支援:有新 Newin、亞馬遜雲科技 User Group、LitGate、TEN Framework、訊飛開放平臺、 ErroRight

本次活動的微信群將持續開放, 作為「voice agent+ 硬體」主題的長期討論場域,歡迎掃碼申請加入我們的微信群。

注:掃碼後,建議在瀏覽器中開啟頁面註冊報名(微信內建瀏覽器不支援 Google 登入)如遇問題,可加小助手微信(Creators2022)協助報名❤️

Web 端也可直接訪問網頁報名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n

關於 RTE Meetup

https://www.rtecommunity.dev/

Real-Time&Real Connection,RTE Meetup 是 RTE 開發者社群發起的小型開發者聚會,邀請開發者分享技術和產品的同時,也重視每個與會者的深度參與和交流體驗。

RTE=Real-Time Engagement,即「實時互動」。

成為 RTE Meetup 組織者

歡迎聯絡我們申請成為 RTE Meetup 組織者,用你感興趣的話題聚集同類人,分享新技術、新理念和新場景,一同探索實時互動新可能。有意者請加微信 Creators2022,備註身份和來意。


相關文章