端側 AI 時代，每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

RTE开发者社区發表於2025-03-11

原文網址 : https://testerhome.com/topics/41739

大家好～這是 Voice Agent 學習筆記系列的第二十二篇。我是課代表十三🧑‍💻。

2 月 26 日，Amazon 釋出了新一代 Alexa+，為全球 6 億臺智慧裝置終端瞬間賦予了新一代 AI 能力。 現場演示令人驚豔：Alexa+ 不僅能根據語音指令無縫切換播放裝置，實現音樂和影片在不同房間的流轉，還能與安防攝像頭聯動，自主調取與使用者指令相關的影片片段。

更令人印象深刻的是，它能夠完成各種複雜指令，如根據家庭成員的偏好選擇餐廳並預訂，叫計程車去機場接客人，並實時同步計程車資訊等等。

將 AI 融入端側的遠不止亞馬遜。2025 年，三星、蘋果等科技巨頭預計將 GenAI 全面融入智慧手機，而小米等智慧音響等家用裝置、以及各家汽車智慧座艙也將全面擁抱 GenAI——生成式 AI 正以前所未有的速度走進千家萬戶，融入日常生活的方方面面。

那麼，GenAI 目前在端側的技術發展到了什麼程度？ 面對日益普及的端側 AI，潛在的安全隱患又該如何規避？未來的互動介面是 GUI 的天下，還是 LUI 的時代？AI 將如何重塑我們的智慧家居體驗？在端側智慧化的浪潮中，開發者們又將迎來哪些全新的機遇，又將面臨哪些挑戰？

為了解答這些疑問，RTE 開發者社群特別邀請到了來自智譜、TEN 和聲網的多位實時多模態 AI 專家共同探討端側 AI 浪潮下的挑戰和機遇。以下是直播的一些精彩觀點的總結，希望能給大家提供一些新的思考。

同時，我們也整理了近 2 萬字的完整版文字回顧，點選文末的「閱讀全文」即可獲取！關注「RTE 開發者社群」影片號，點選「直播回放」，也可以檢視完整影片。

期待與你在 RTE 開發者社群交流更多 Voice Agent 相關話題！enjoy~

亞馬遜 Alexa+ 新品亮點：

賈世坤：

Alexa 新品的功能特性有兩大亮點：
- 語音實時編輯購物清單： AI 即時互動，視覺反饋提升人機互動感知度，實現白盒化互動。
- 日程管理能力： 前景廣闊，但涉及大量資料互動，需謹慎把控潛在安全隱患。
未來期待： Agent 和 Agent 之間的協作（譬如最近的 GibberLink），創造有趣的應用場景。

Plutoless:

Alexa 新品仍定位為助手，幫助使用者完成各項任務。
未來方向： AI Agent 整合到各種裝置中，透過語音直接控制家居裝置，實現裝置間的隱性連線與協作。
擔憂： 家居裝置間互聯可能讓人感到不安，語言適配仍面臨挑戰。

端側 AI 的更多應用場景：除了智慧音響，AI 還能做什麼？

賈世坤：

車載應用： 是目前最被看好的應用場景，尤其是在座艙控制和車外錄製裝置管理方面。
Agent 間協作： 透過 Function Call 等技術，整合在中控 IoT 等終端裝置上的 AI Agent 實現互動。

實時語音 AI 的進展與挑戰

Plutoless:

實時語音 AI 主要有兩種實現方式：
- 級聯方式： 語音識別->文字->大模型->TTS。優勢：成本低；劣勢：延遲高。
- 端到端模式： 音訊輸入->模型處理->音訊輸出。優勢：實時性強，情感識別好；劣勢：靈活性低。
實時語音技術面臨的挑戰：網路、音訊處理與幻覺
- 網路問題： 終端硬體效能不足，雲端執行依賴網路連線，尤其是在 last mile。解決方案：類似 RTC 技術進行最佳化。
- 音訊處理： 聲音增益、降噪、回聲消除等細節問題，影響使用者體驗。
幻覺問題： 音訊 LLM 驅動的 AI Agent 應用於實際生產環境時，幻覺會嚴重損害使用者體驗。

規避潛在風險，設計「有益幻覺」

賈世坤：

技術層面： 有效排除有害資訊，例如使用 Self-Check 方式（前端生成，後端自檢測）。
產品層面： 授權機制（許可權隔離和角色許可權隔離），互動層面提供足夠的空間糾正錯誤，針對兒童提供便捷的管理方式。
設計「有益幻覺」： 例如故事創作、影像創新設計等。

Plutoless:

避免大模型直接執行危險操作： 提供充分的提示資訊，老年人和兒童應以更簡化的方式呈現資訊，並告知資訊來源的準確性未知。

GUI vs. LUI：人機互動的未來趨勢

Plutoless:

LUI（語音使用者介面）和 GUI（圖形使用者介面）不是簡單的替代關係，而是一種協作關係。
LUI 優勢： 更自然、高效的互動方式，適用於語音訂票等簡單指令場景。
GUI 優勢： 更直觀、精準的控制，適用於需要確認多個選項的複雜場景。
展望： LUI 配合多模態互動方式（例如眼球追蹤），或許能完全取代 GUI，但這還有很長的路要走。開發者需要重新思考 UI 設計，將語音、視覺、觸覺等多種模態融合在一起。

端側能力：開發者能做什麼？硬體限制下的技術選擇

賈世坤：

商業化部分： 端側的多模態模型（效能快，可端側部署），語音合成（人機互動感受），端側語言模型（10B 以下規模）。
關注方向： 端側的整合工程能力（整合裝置算力、語音識別、大型模型、語音合成），端雲結合的方案（透過模型訓練或強化學習進行最佳化）。

Plutoless:

策略： 簡單任務在端側完成，複雜、計算量大的任務透過雲端 AI 完成。純粹入門或體驗使用雲端，想在端側執行特定功能時模型尺寸受限，適合處理相對固定和簡單的任務。
衡量指標： 延遲、發熱量、耗電量。

AIoT：智慧家居的變革與標準化

賈世坤：

提升： 能夠執行的任務更加豐富，達到了人們對智慧家居的預期；AI 帶來的上下文記憶能力，使系統能夠熟悉使用者並提升互動效果。

Plutoless:

標準化： AI 加速智慧家居平臺的標準化程序，使得家電使用不再需要查閱說明書，裝置能夠更快速地理解意圖，並具備更多能力、邏輯、判斷能力甚至主動性。

多裝置協同：未來的家庭物聯網如何運轉？

Plutoless:

現狀： Alexa Plus 已經展現出了一定的協同能力，裝置能夠共享上下文資訊。
未來： 發展到 Multi-agents 模式，不同的家電具備各自專業的 AI 能力，互相協作解決複雜問題。

Agent Store：AI 助手的分發平臺，未來應用商店的新形態

賈世坤：

願景： 長期看，會出現類似「AI 員工招聘社群」，而非 Agent Store 的形式。
平臺價值： 只要有平臺，大家一定會在平臺上進行價值互換，實現需求與解決方案的匹配。

Plutoless:

現狀： Alexa 和 Home Assistant 是初步的例子，未來 Home Assistant 很可能出現大量類似 GPTs 的基於平臺開發的各種人工智慧體。
趨勢： 將來可能會成為下一個類似手機 APP Store 的分發入口，使得每一個家居裝置都變成任意你想要的 AI Agent。

如何將推理模型與端側實時互動場景相結合？

賈世坤：

策略： 挖掘更多可控的新場景，短期內將模型部署在雲端，對於複雜操作的任務，藉助雲端模型進行推理或執行。
互動： 採用白盒化或後臺推理，透過與硬體裝置結合的方式進行互動，儘可能地將推理過程後置。

如何填補模型思考帶來的空白期？

賈世坤： 短期內，將推理過程白盒化，或者讓裝置根據家庭近一個月的記錄創作家庭瞬間或家庭記錄，對於非即時場景，使用者接受度相對較高。

如何看待新型端側裝置以及未來 AI 玩具的發展？

Plutoless:

看好型別： 眼鏡和陪伴類玩具（例如主要面向兒童的毛絨玩具）。
眼鏡： 靠近人的大腦和感官系統，能夠較為真實地還原人所見、所聽以及思考方式。
玩偶： 提供類人的智慧，使使用者真正感受到它不是一個 AI Bot，而是一個能夠互動、提供幫助、提供情緒價值，甚至能夠與孩子聊天的夥伴。
AI 玩具的「iPhone 時刻」： 更人性化的互動方式，能否帶來足夠的沉浸感，能否清晰地聽到我的聲音、能否真正理解我的意圖，能否讓我產生持續挖掘、溝通和交談的慾望，真正讓我忘卻它是一個 AI，並願意持續與之互動。

觀眾 Q&A 環節

如何為端到端的 Voice Agent 增加不同的智慧化能力？

賈世坤：

採用基於大模型技術，利用工具作為中間的事件傳輸或模型推理的組成部分。
透過 Function Call 的工具呼叫獲取故事內容或大綱，然後逐步講述。

自行實現三段式接入 vs TEN 框架，開發體驗或其他方面會有哪些差異？

Plutoless:

自行實現： 延遲高、效能差、效果不佳，缺乏對音影片資料處理的深入理解。
TEN 框架： 解決音影片處理邏輯、網路和音訊處理方面的問題，模組可插拔、可複用，執行緒模型分離音影片資料傳輸。
TEN 框架的優勢： 使用 TEN Framework 就像是用樂高搭積木一樣，我們提供標準化的積木元件，開發者只需按照自己的需求進行組合。而開發者自行進行三段式接入，則更像是在沙地上用沙子從頭搭建城堡，並且很容易犯錯。

AI 發展最需要解決的技術難點是什麼？

賈世坤： 基座模型能力的提升，提高推理的效果，降低推理的效能消耗，從而為產品設計和使用者互動帶來更大的空間。

未來 AI 的算力部署方式：雲端還是終端？

賈世坤： 短期來看，是雲端和終端並行發展或協作的方式。長期來看，取決於技術發展方向。如果目標是實現人人可用的 AI 普及，那麼可能更偏重終端。

MCP 協議：保護資料安全前提下，讓終端使用者享受到產品價值

Plutoless： MCP 協議本質上定義了一套協議，透過統一的方式定義與大模型的資料連線，從而允許使用者僅在必要範圍內暴露與大模型的互動，在保護自身資料安全的前提下，讓終端使用者享受到產品價值。對於非大模型廠商而言，幾乎是必需的。

未來展望 & 社群連線

Plutoless: 我們將持續深耕 AI 實時互動領域，近期 TEN 將上線對 Home Assistant 的支援，實現對小米裝置的使用，並推出易用的 Graph Designer 編排模組。歡迎在 GitHub 搜尋「TEN Agent」或「TEN Framework」探索我們的開源專案。也可以來線上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 體驗智譜 GLM 實時 API + TEN 的 demo。

賈世坤: 我們將持續提升模型和推理能力，並開放更多 API 供開發者使用。訪問 Bigmodel.cn 即可瞭解我們提供的 API 和模型工具。與 TEN 合作的 GLM-Realtime API 已在 TEN 和智譜開放平臺上線。歡迎大家訪問 BigModel，交流需求，共建端到端模型的開發能力。

我們也整理了近 2 萬字的完整版文字回顧，點選即可獲取！關注「RTE 開發者社群」影片號，點選「直播回放」，也可以檢視完整影片。

🧑‍💻課代表留言：希望早日見到智慧音響自己指使掃地機器人的那一天🙌

更多 Voice Agent 學習筆記：

世界最炙手可熱的語音 AI 公司，舉辦了一場全球駭客松，冠軍作品你可能已經看過

多模態 AI 怎麼玩？這裡有 18 個腦洞

AI 重塑宗教體驗，語音 Agent 能否成為突破點？

對話 TalktoApps 創始人：Voice AI 提高了我五倍的生產力，語音輸入是人機互動的未來

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記
2024-12-12
AI筆記
人類級別語音 AI 路線圖丨 Voice AI 學習筆記
2024-11-21
AI筆記
AI時代你一定要知道的Agent概念
2024-07-18
AI
2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布
2025-01-15
AI
千問AI agent qwan_agent使用
2024-06-07
AI
豆包 APP 上線端到端語音能力，低時延、可打斷；OpenAI 實時 Agent 原始碼：20 分鐘開發 Voice Agent
2025-01-20
APPOpenAI原始碼
活動報名：Voice Agent 開發者分享會丨 RTE Meetup
2024-12-11
RAG-Multi-Modal-Generative-AI-Agent
2024-10-05
AI
遠端裝置管理opendx平臺搭建-server，agent以及front實際搭建
2021-11-08
Server
Grok 3 語音功能上線，「髒話冒犯」模式引熱議；Voice Agent Demo 分享：實時 AI 解說員丨日報
2025-02-25
模式AI
AI學習筆記
2021-08-26
AI筆記
DataGPT：一個用自然語言來分析資料的AI Agent
2024-11-15
GPTAI
AI Agent 將重塑遊戲行業？
2023-12-13
AI遊戲行業
AI Agent應用出路到底在哪？
2024-09-28
AI
基於ReAct機制的AI Agent
2024-06-04
ReactAI
社群來稿丨一個真正意義上的實時多模態智慧體框架，TEN Framework 為構建下一代 AI Agent 而生
2024-09-25
智慧體框架FrameworkAI
ITSM垂類下，企業如何逐步搭建一個好的AI Agent
2024-08-09
AI
Windows 競技場：面向下一代AI Agent的測試集
2024-10-03
WindowsAI
說一說Web端側AI
2021-10-03
WebAI
你要的AI Agent工具都在這裡
2024-06-29
AI
活動報名：Voice Agent 技術現狀及應用展望丨 3.8 北京
2025-02-28
活動報名：Voice Agent+ 硬體分享會，深圳專場丨 RTE Meetup 007
2025-01-10
2 行程式碼，15 分鐘部署對話式 AI Agent！丨社群來稿
2025-02-19
行程AI
從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+客戶
2024-12-02
AI
zabbix安裝agent
2019-03-12
Zabbix Agent安裝
2020-11-25
javascript學習筆記--函式的返回值可以是一個函式
2018-09-26
JavaScript筆記函式
大語言模型的應用探索—AI Agent初探！
2024-07-08
模型AI
和 TEN、CosyVoice、Rokid 一起「組裝」你的專屬多模態 Agent！丨 RTE2024 AI 工坊報名
2024-10-14
AI
新火種AI｜比爾蓋茲：人工智慧的未來是AI Agent
2023-11-16
AI人工智慧
Brain：一個新AI時代的踐行者
2022-03-14
AI
AI大模型企業應用實戰(25)-為Langchain Agent新增記憶功能
2024-06-26
大模型LangChain
Fish Agent：多語言 Voice-to-Voice 開源語音模型；Runway 推出攝像機運鏡功能丨 RTE 開發者日報
2024-11-04
模型開發者日報
Voice Agent 開發者必讀，2024 最前沿語音模型梳理
2024-12-04
模型
Product Hunt 金喵獎 Voice AI 專案一覽；AI 招聘平臺 Mercor 再融資，估值 20 億美元丨日報
2025-02-24
AI
萬字長文解析AI Agent技術原理和應用
2024-07-08
AI
AI助手：Agent工作流程與應用場景詳解
2024-06-07
AI
AI 重塑宗教體驗，語音 Agent 能否成為突破點？
2025-02-10
AI

端側 AI 時代，每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

亞馬遜 Alexa+ 新品亮點：

端側 AI 的更多應用場景：除了智慧音響，AI 還能做什麼？

實時語音 AI 的進展與挑戰

規避潛在風險，設計「有益幻覺」

GUI vs. LUI：人機互動的未來趨勢

端側能力：開發者能做什麼？硬體限制下的技術選擇

AIoT：智慧家居的變革與標準化

多裝置協同：未來的家庭物聯網如何運轉？

Agent Store：AI 助手的分發平臺，未來應用商店的新形態

如何將推理模型與端側實時互動場景相結合？

如何填補模型思考帶來的空白期？

如何看待新型端側裝置以及未來 AI 玩具的發展？

觀眾 Q&A 環節

如何為端到端的 Voice Agent 增加不同的智慧化能力？

自行實現三段式接入 vs TEN 框架，開發體驗或其他方面會有哪些差異？

AI 發展最需要解決的技術難點是什麼？

未來 AI 的算力部署方式：雲端還是終端？

MCP 協議：保護資料安全前提下，讓終端使用者享受到產品價值

未來展望 & 社群連線

相關文章