端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

RTE开发者社区發表於2025-03-11

大家好~這是 Voice Agent 學習筆記系列的第二十二篇。我是課代表十三🧑‍💻。

2 月 26 日,Amazon 釋出了新一代 Alexa+,為全球 6 億臺智慧裝置終端瞬間賦予了新一代 AI 能力。 現場演示令人驚豔:Alexa+ 不僅能根據語音指令無縫切換播放裝置,實現音樂和影片在不同房間的流轉,還能與安防攝像頭聯動,自主調取與使用者指令相關的影片片段。

更令人印象深刻的是,它能夠完成各種複雜指令,如根據家庭成員的偏好選擇餐廳並預訂,叫計程車去機場接客人,並實時同步計程車資訊等等。

將 AI 融入端側的遠不止亞馬遜。2025 年,三星、蘋果等科技巨頭預計將 GenAI 全面融入智慧手機,而小米等智慧音響等家用裝置、以及各家汽車智慧座艙也將全面擁抱 GenAI——生成式 AI 正以前所未有的速度走進千家萬戶,融入日常生活的方方面面。

那麼,GenAI 目前在端側的技術發展到了什麼程度? 面對日益普及的端側 AI,潛在的安全隱患又該如何規避?未來的互動介面是 GUI 的天下,還是 LUI 的時代?AI 將如何重塑我們的智慧家居體驗?在端側智慧化的浪潮中,開發者們又將迎來哪些全新的機遇,又將面臨哪些挑戰?

為了解答這些疑問,RTE 開發者社群特別邀請到了來自智譜、TEN 和聲網的多位實時多模態 AI 專家共同探討端側 AI 浪潮下的挑戰和機遇。以下是直播的一些精彩觀點的總結,希望能給大家提供一些新的思考。

同時,我們也整理了近 2 萬字的完整版文字回顧,點選文末的「閱讀全文」即可獲取!關注「RTE 開發者社群」影片號,點選「直播回放」,也可以檢視完整影片。

期待與你在 RTE 開發者社群交流更多 Voice Agent 相關話題!enjoy~

亞馬遜 Alexa+ 新品亮點:

賈世坤:

  • Alexa 新品的功能特性有兩大亮點:

    • 語音實時編輯購物清單: AI 即時互動,視覺反饋提升人機互動感知度,實現白盒化互動。
    • 日程管理能力: 前景廣闊,但涉及大量資料互動,需謹慎把控潛在安全隱患。
  • 未來期待: Agent 和 Agent 之間的協作(譬如最近的 GibberLink),創造有趣的應用場景。

Plutoless:

  • Alexa 新品仍定位為助手,幫助使用者完成各項任務。

  • 未來方向: AI Agent 整合到各種裝置中,透過語音直接控制家居裝置,實現裝置間的隱性連線與協作。

  • 擔憂: 家居裝置間互聯可能讓人感到不安,語言適配仍面臨挑戰。

端側 AI 的更多應用場景:除了智慧音響,AI 還能做什麼?

賈世坤:

  • 車載應用: 是目前最被看好的應用場景,尤其是在座艙控制和車外錄製裝置管理方面。

  • Agent 間協作: 透過 Function Call 等技術,整合在中控 IoT 等終端裝置上的 AI Agent 實現互動。

實時語音 AI 的進展與挑戰

Plutoless:

  • 實時語音 AI 主要有兩種實現方式:

    • 級聯方式: 語音識別->文字->大模型->TTS。優勢:成本低;劣勢:延遲高。
    • 端到端模式: 音訊輸入->模型處理->音訊輸出。優勢:實時性強,情感識別好;劣勢:靈活性低。
  • 實時語音技術面臨的挑戰:網路、音訊處理與幻覺

    • 網路問題: 終端硬體效能不足,雲端執行依賴網路連線,尤其是在 last mile。解決方案:類似 RTC 技術進行最佳化。
    • 音訊處理: 聲音增益、降噪、回聲消除等細節問題,影響使用者體驗。
  • 幻覺問題: 音訊 LLM 驅動的 AI Agent 應用於實際生產環境時,幻覺會嚴重損害使用者體驗。

規避潛在風險,設計「有益幻覺」

賈世坤:

  • 技術層面: 有效排除有害資訊,例如使用 Self-Check 方式(前端生成,後端自檢測)。

  • 產品層面: 授權機制(許可權隔離和角色許可權隔離),互動層面提供足夠的空間糾正錯誤,針對兒童提供便捷的管理方式。

  • 設計「有益幻覺」: 例如故事創作、影像創新設計等。

Plutoless:

  • 避免大模型直接執行危險操作: 提供充分的提示資訊,老年人和兒童應以更簡化的方式呈現資訊,並告知資訊來源的準確性未知。

GUI vs. LUI:人機互動的未來趨勢

Plutoless:

  • LUI(語音使用者介面)和 GUI(圖形使用者介面)不是簡單的替代關係,而是一種協作關係。

  • LUI 優勢: 更自然、高效的互動方式,適用於語音訂票等簡單指令場景。

  • GUI 優勢: 更直觀、精準的控制,適用於需要確認多個選項的複雜場景。

  • 展望: LUI 配合多模態互動方式(例如眼球追蹤),或許能完全取代 GUI,但這還有很長的路要走。開發者需要重新思考 UI 設計,將語音、視覺、觸覺等多種模態融合在一起。

端側能力:開發者能做什麼?硬體限制下的技術選擇

賈世坤:

  • 商業化部分: 端側的多模態模型(效能快,可端側部署),語音合成(人機互動感受),端側語言模型(10B 以下規模)。

  • 關注方向: 端側的整合工程能力(整合裝置算力、語音識別、大型模型、語音合成),端雲結合的方案(透過模型訓練或強化學習進行最佳化)。

Plutoless:

  • 策略: 簡單任務在端側完成,複雜、計算量大的任務透過雲端 AI 完成。純粹入門或體驗使用雲端,想在端側執行特定功能時模型尺寸受限,適合處理相對固定和簡單的任務。

  • 衡量指標: 延遲、發熱量、耗電量。

AIoT:智慧家居的變革與標準化

賈世坤:

  • 提升: 能夠執行的任務更加豐富,達到了人們對智慧家居的預期;AI 帶來的上下文記憶能力,使系統能夠熟悉使用者並提升互動效果。

Plutoless:

  • 標準化: AI 加速智慧家居平臺的標準化程序,使得家電使用不再需要查閱說明書,裝置能夠更快速地理解意圖,並具備更多能力、邏輯、判斷能力甚至主動性。

多裝置協同:未來的家庭物聯網如何運轉?

Plutoless:

  • 現狀: Alexa Plus 已經展現出了一定的協同能力,裝置能夠共享上下文資訊。

  • 未來: 發展到 Multi-agents 模式,不同的家電具備各自專業的 AI 能力,互相協作解決複雜問題。

Agent Store:AI 助手的分發平臺,未來應用商店的新形態

賈世坤:

  • 願景: 長期看,會出現類似「AI 員工招聘社群」,而非 Agent Store 的形式。

  • 平臺價值: 只要有平臺,大家一定會在平臺上進行價值互換,實現需求與解決方案的匹配。

Plutoless:

  • 現狀: Alexa 和 Home Assistant 是初步的例子,未來 Home Assistant 很可能出現大量類似 GPTs 的基於平臺開發的各種人工智慧體。

  • 趨勢: 將來可能會成為下一個類似手機 APP Store 的分發入口,使得每一個家居裝置都變成任意你想要的 AI Agent。

如何將推理模型與端側實時互動場景相結合?

賈世坤:

  • 策略: 挖掘更多可控的新場景,短期內將模型部署在雲端,對於複雜操作的任務,藉助雲端模型進行推理或執行。

  • 互動: 採用白盒化或後臺推理,透過與硬體裝置結合的方式進行互動,儘可能地將推理過程後置。

如何填補模型思考帶來的空白期?

  • 賈世坤: 短期內,將推理過程白盒化,或者讓裝置根據家庭近一個月的記錄創作家庭瞬間或家庭記錄, 對於非即時場景,使用者接受度相對較高。

如何看待新型端側裝置以及未來 AI 玩具的發展?

Plutoless:

  • 看好型別: 眼鏡和陪伴類玩具(例如主要面向兒童的毛絨玩具)。

  • 眼鏡: 靠近人的大腦和感官系統,能夠較為真實地還原人所見、所聽以及思考方式。

  • 玩偶: 提供類人的智慧,使使用者真正感受到它不是一個 AI Bot,而是一個能夠互動、提供幫助、提供情緒價值,甚至能夠與孩子聊天的夥伴。

  • AI 玩具的「iPhone 時刻」: 更人性化的互動方式,能否帶來足夠的沉浸感,能否清晰地聽到我的聲音、能否真正理解我的意圖,能否讓我產生持續挖掘、溝通和交談的慾望,真正讓我忘卻它是一個 AI,並願意持續與之互動。

觀眾 Q&A 環節

如何為端到端的 Voice Agent 增加不同的智慧化能力?

賈世坤:

  • 採用基於大模型技術,利用工具作為中間的事件傳輸或模型推理的組成部分。

  • 透過 Function Call 的工具呼叫獲取故事內容或大綱,然後逐步講述。

自行實現三段式接入 vs TEN 框架,開發體驗或其他方面會有哪些差異?

Plutoless:

  • 自行實現: 延遲高、效能差、效果不佳,缺乏對音影片資料處理的深入理解。

  • TEN 框架: 解決音影片處理邏輯、網路和音訊處理方面的問題,模組可插拔、可複用,執行緒模型分離音影片資料傳輸。

  • TEN 框架的優勢: 使用 TEN Framework 就像是用樂高搭積木一樣,我們提供標準化的積木元件,開發者只需按照自己的需求進行組合。而開發者自行進行三段式接入,則更像是在沙地上用沙子從頭搭建城堡,並且很容易犯錯。

AI 發展最需要解決的技術難點是什麼?

賈世坤: 基座模型能力的提升,提高推理的效果,降低推理的效能消耗,從而為產品設計和使用者互動帶來更大的空間。

未來 AI 的算力部署方式:雲端還是終端?

賈世坤: 短期來看,是雲端和終端並行發展或協作的方式。長期來看,取決於技術發展方向。如果目標是實現人人可用的 AI 普及,那麼可能更偏重終端。

MCP 協議:保護資料安全前提下,讓終端使用者享受到產品價值

Plutoless: MCP 協議本質上定義了一套協議,透過統一的方式定義與大模型的資料連線,從而允許使用者僅在必要範圍內暴露與大模型的互動,在保護自身資料安全的前提下,讓終端使用者享受到產品價值。對於非大模型廠商而言,幾乎是必需的。

未來展望 & 社群連線

Plutoless: 我們將持續深耕 AI 實時互動領域,近期 TEN 將上線對 Home Assistant 的支援,實現對小米裝置的使用,並推出易用的 Graph Designer 編排模組。歡迎在 GitHub 搜尋「TEN Agent」或「TEN Framework」探索我們的開源專案。也可以來線上 Demo: https://agent.theten.ai/https://ten.rtcdeveloper.cn/ 體驗智譜 GLM 實時 API + TEN 的 demo。

賈世坤: 我們將持續提升模型和推理能力,並開放更多 API 供開發者使用。訪問 Bigmodel.cn 即可瞭解我們提供的 API 和模型工具。與 TEN 合作的 GLM-Realtime API 已在 TEN 和智譜開放平臺上線。歡迎大家訪問 BigModel,交流需求,共建端到端模型的開發能力。

我們也整理了近 2 萬字的完整版文字回顧,點選 即可獲取!關注「RTE 開發者社群」影片號,點選「直播回放」,也可以檢視完整影片。

🧑‍💻課代表留言:希望早日見到智慧音響自己指使掃地機器人的那一天🙌

更多 Voice Agent 學習筆記:

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

相關文章