端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記
大家好~這是 Voice Agent 學習筆記系列的第二十二篇。我是課代表十三🧑💻。
2 月 26 日,Amazon 釋出了新一代 Alexa+,為全球 6 億臺智慧裝置終端瞬間賦予了新一代 AI 能力。 現場演示令人驚豔:Alexa+ 不僅能根據語音指令無縫切換播放裝置,實現音樂和影片在不同房間的流轉,還能與安防攝像頭聯動,自主調取與使用者指令相關的影片片段。
更令人印象深刻的是,它能夠完成各種複雜指令,如根據家庭成員的偏好選擇餐廳並預訂,叫計程車去機場接客人,並實時同步計程車資訊等等。
將 AI 融入端側的遠不止亞馬遜。2025 年,三星、蘋果等科技巨頭預計將 GenAI 全面融入智慧手機,而小米等智慧音響等家用裝置、以及各家汽車智慧座艙也將全面擁抱 GenAI——生成式 AI 正以前所未有的速度走進千家萬戶,融入日常生活的方方面面。
那麼,GenAI 目前在端側的技術發展到了什麼程度? 面對日益普及的端側 AI,潛在的安全隱患又該如何規避?未來的互動介面是 GUI 的天下,還是 LUI 的時代?AI 將如何重塑我們的智慧家居體驗?在端側智慧化的浪潮中,開發者們又將迎來哪些全新的機遇,又將面臨哪些挑戰?
為了解答這些疑問,RTE 開發者社群特別邀請到了來自智譜、TEN 和聲網的多位實時多模態 AI 專家共同探討端側 AI 浪潮下的挑戰和機遇。以下是直播的一些精彩觀點的總結,希望能給大家提供一些新的思考。
同時,我們也整理了近 2 萬字的完整版文字回顧,點選文末的「閱讀全文」即可獲取!關注「RTE 開發者社群」影片號,點選「直播回放」,也可以檢視完整影片。
期待與你在 RTE 開發者社群交流更多 Voice Agent 相關話題!enjoy~
亞馬遜 Alexa+ 新品亮點:
賈世坤:
-
Alexa 新品的功能特性有兩大亮點:
- 語音實時編輯購物清單: AI 即時互動,視覺反饋提升人機互動感知度,實現白盒化互動。
- 日程管理能力: 前景廣闊,但涉及大量資料互動,需謹慎把控潛在安全隱患。
未來期待: Agent 和 Agent 之間的協作(譬如最近的 GibberLink),創造有趣的應用場景。
Plutoless:
Alexa 新品仍定位為助手,幫助使用者完成各項任務。
未來方向: AI Agent 整合到各種裝置中,透過語音直接控制家居裝置,實現裝置間的隱性連線與協作。
擔憂: 家居裝置間互聯可能讓人感到不安,語言適配仍面臨挑戰。
端側 AI 的更多應用場景:除了智慧音響,AI 還能做什麼?
賈世坤:
車載應用: 是目前最被看好的應用場景,尤其是在座艙控制和車外錄製裝置管理方面。
Agent 間協作: 透過 Function Call 等技術,整合在中控 IoT 等終端裝置上的 AI Agent 實現互動。
實時語音 AI 的進展與挑戰
Plutoless:
-
實時語音 AI 主要有兩種實現方式:
- 級聯方式: 語音識別->文字->大模型->TTS。優勢:成本低;劣勢:延遲高。
- 端到端模式: 音訊輸入->模型處理->音訊輸出。優勢:實時性強,情感識別好;劣勢:靈活性低。
-
實時語音技術面臨的挑戰:網路、音訊處理與幻覺
- 網路問題: 終端硬體效能不足,雲端執行依賴網路連線,尤其是在 last mile。解決方案:類似 RTC 技術進行最佳化。
- 音訊處理: 聲音增益、降噪、回聲消除等細節問題,影響使用者體驗。
幻覺問題: 音訊 LLM 驅動的 AI Agent 應用於實際生產環境時,幻覺會嚴重損害使用者體驗。
規避潛在風險,設計「有益幻覺」
賈世坤:
技術層面: 有效排除有害資訊,例如使用 Self-Check 方式(前端生成,後端自檢測)。
產品層面: 授權機制(許可權隔離和角色許可權隔離),互動層面提供足夠的空間糾正錯誤,針對兒童提供便捷的管理方式。
設計「有益幻覺」: 例如故事創作、影像創新設計等。
Plutoless:
- 避免大模型直接執行危險操作: 提供充分的提示資訊,老年人和兒童應以更簡化的方式呈現資訊,並告知資訊來源的準確性未知。
GUI vs. LUI:人機互動的未來趨勢
Plutoless:
LUI(語音使用者介面)和 GUI(圖形使用者介面)不是簡單的替代關係,而是一種協作關係。
LUI 優勢: 更自然、高效的互動方式,適用於語音訂票等簡單指令場景。
GUI 優勢: 更直觀、精準的控制,適用於需要確認多個選項的複雜場景。
展望: LUI 配合多模態互動方式(例如眼球追蹤),或許能完全取代 GUI,但這還有很長的路要走。開發者需要重新思考 UI 設計,將語音、視覺、觸覺等多種模態融合在一起。
端側能力:開發者能做什麼?硬體限制下的技術選擇
賈世坤:
商業化部分: 端側的多模態模型(效能快,可端側部署),語音合成(人機互動感受),端側語言模型(10B 以下規模)。
關注方向: 端側的整合工程能力(整合裝置算力、語音識別、大型模型、語音合成),端雲結合的方案(透過模型訓練或強化學習進行最佳化)。
Plutoless:
策略: 簡單任務在端側完成,複雜、計算量大的任務透過雲端 AI 完成。純粹入門或體驗使用雲端,想在端側執行特定功能時模型尺寸受限,適合處理相對固定和簡單的任務。
衡量指標: 延遲、發熱量、耗電量。
AIoT:智慧家居的變革與標準化
賈世坤:
- 提升: 能夠執行的任務更加豐富,達到了人們對智慧家居的預期;AI 帶來的上下文記憶能力,使系統能夠熟悉使用者並提升互動效果。
Plutoless:
- 標準化: AI 加速智慧家居平臺的標準化程序,使得家電使用不再需要查閱說明書,裝置能夠更快速地理解意圖,並具備更多能力、邏輯、判斷能力甚至主動性。
多裝置協同:未來的家庭物聯網如何運轉?
Plutoless:
現狀: Alexa Plus 已經展現出了一定的協同能力,裝置能夠共享上下文資訊。
未來: 發展到 Multi-agents 模式,不同的家電具備各自專業的 AI 能力,互相協作解決複雜問題。
Agent Store:AI 助手的分發平臺,未來應用商店的新形態
賈世坤:
願景: 長期看,會出現類似「AI 員工招聘社群」,而非 Agent Store 的形式。
平臺價值: 只要有平臺,大家一定會在平臺上進行價值互換,實現需求與解決方案的匹配。
Plutoless:
現狀: Alexa 和 Home Assistant 是初步的例子,未來 Home Assistant 很可能出現大量類似 GPTs 的基於平臺開發的各種人工智慧體。
趨勢: 將來可能會成為下一個類似手機 APP Store 的分發入口,使得每一個家居裝置都變成任意你想要的 AI Agent。
如何將推理模型與端側實時互動場景相結合?
賈世坤:
策略: 挖掘更多可控的新場景,短期內將模型部署在雲端,對於複雜操作的任務,藉助雲端模型進行推理或執行。
互動: 採用白盒化或後臺推理,透過與硬體裝置結合的方式進行互動,儘可能地將推理過程後置。
如何填補模型思考帶來的空白期?
- 賈世坤: 短期內,將推理過程白盒化,或者讓裝置根據家庭近一個月的記錄創作家庭瞬間或家庭記錄, 對於非即時場景,使用者接受度相對較高。
如何看待新型端側裝置以及未來 AI 玩具的發展?
Plutoless:
看好型別: 眼鏡和陪伴類玩具(例如主要面向兒童的毛絨玩具)。
眼鏡: 靠近人的大腦和感官系統,能夠較為真實地還原人所見、所聽以及思考方式。
玩偶: 提供類人的智慧,使使用者真正感受到它不是一個 AI Bot,而是一個能夠互動、提供幫助、提供情緒價值,甚至能夠與孩子聊天的夥伴。
AI 玩具的「iPhone 時刻」: 更人性化的互動方式,能否帶來足夠的沉浸感,能否清晰地聽到我的聲音、能否真正理解我的意圖,能否讓我產生持續挖掘、溝通和交談的慾望,真正讓我忘卻它是一個 AI,並願意持續與之互動。
觀眾 Q&A 環節
如何為端到端的 Voice Agent 增加不同的智慧化能力?
賈世坤:
採用基於大模型技術,利用工具作為中間的事件傳輸或模型推理的組成部分。
透過 Function Call 的工具呼叫獲取故事內容或大綱,然後逐步講述。
自行實現三段式接入 vs TEN 框架,開發體驗或其他方面會有哪些差異?
Plutoless:
自行實現: 延遲高、效能差、效果不佳,缺乏對音影片資料處理的深入理解。
TEN 框架: 解決音影片處理邏輯、網路和音訊處理方面的問題,模組可插拔、可複用,執行緒模型分離音影片資料傳輸。
TEN 框架的優勢: 使用 TEN Framework 就像是用樂高搭積木一樣,我們提供標準化的積木元件,開發者只需按照自己的需求進行組合。而開發者自行進行三段式接入,則更像是在沙地上用沙子從頭搭建城堡,並且很容易犯錯。
AI 發展最需要解決的技術難點是什麼?
賈世坤: 基座模型能力的提升,提高推理的效果,降低推理的效能消耗,從而為產品設計和使用者互動帶來更大的空間。
未來 AI 的算力部署方式:雲端還是終端?
賈世坤: 短期來看,是雲端和終端並行發展或協作的方式。長期來看,取決於技術發展方向。如果目標是實現人人可用的 AI 普及,那麼可能更偏重終端。
MCP 協議:保護資料安全前提下,讓終端使用者享受到產品價值
Plutoless: MCP 協議本質上定義了一套協議,透過統一的方式定義與大模型的資料連線,從而允許使用者僅在必要範圍內暴露與大模型的互動,在保護自身資料安全的前提下,讓終端使用者享受到產品價值。對於非大模型廠商而言,幾乎是必需的。
未來展望 & 社群連線
Plutoless: 我們將持續深耕 AI 實時互動領域,近期 TEN 將上線對 Home Assistant 的支援,實現對小米裝置的使用,並推出易用的 Graph Designer 編排模組。歡迎在 GitHub 搜尋「TEN Agent」或「TEN Framework」探索我們的開源專案。也可以來線上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 體驗智譜 GLM 實時 API + TEN 的 demo。
賈世坤: 我們將持續提升模型和推理能力,並開放更多 API 供開發者使用。訪問 Bigmodel.cn 即可瞭解我們提供的 API 和模型工具。與 TEN 合作的 GLM-Realtime API 已在 TEN 和智譜開放平臺上線。歡迎大家訪問 BigModel,交流需求,共建端到端模型的開發能力。
我們也整理了近 2 萬字的完整版文字回顧,點選 即可獲取!關注「RTE 開發者社群」影片號,點選「直播回放」,也可以檢視完整影片。
🧑💻課代表留言:希望早日見到智慧音響自己指使掃地機器人的那一天🙌
更多 Voice Agent 學習筆記:
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
相關文章
- 幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記AI筆記
- 人類級別語音 AI 路線圖丨 Voice AI 學習筆記AI筆記
- AI時代你一定要知道的Agent概念AI
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 千問AI agent qwan_agent使用AI
- 豆包 APP 上線端到端語音能力,低時延、可打斷;OpenAI 實時 Agent 原始碼:20 分鐘開發 Voice AgentAPPOpenAI原始碼
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- RAG-Multi-Modal-Generative-AI-AgentAI
- 遠端裝置管理opendx平臺搭建-server,agent以及front實際搭建Server
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- AI學習筆記AI筆記
- DataGPT:一個用自然語言來分析資料的AI AgentGPTAI
- AI Agent 將重塑遊戲行業?AI遊戲行業
- AI Agent應用出路到底在哪?AI
- 基於ReAct機制的AI AgentReactAI
- 社群來稿丨一個真正意義上的實時多模態智慧體框架,TEN Framework 為構建下一代 AI Agent 而生智慧體框架FrameworkAI
- ITSM垂類下,企業如何逐步搭建一個好的AI AgentAI
- Windows 競技場:面向下一代AI Agent的測試集WindowsAI
- 說一說Web端側AIWebAI
- 你要的AI Agent工具都在這裡AI
- 活動報名:Voice Agent 技術現狀及應用展望丨 3.8 北京
- 活動報名:Voice Agent+ 硬體分享會,深圳專場丨 RTE Meetup 007
- 2 行程式碼,15 分鐘部署對話式 AI Agent!丨社群來稿行程AI
- 從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+客戶AI
- zabbix安裝agent
- Zabbix Agent安裝
- javascript學習筆記--函式的返回值可以是一個函式JavaScript筆記函式
- 大語言模型的應用探索—AI Agent初探!模型AI
- 和 TEN、CosyVoice、Rokid 一起「組裝」你的專屬多模態 Agent!丨 RTE2024 AI 工坊報名AI
- 新火種AI|比爾蓋茲:人工智慧的未來是AI AgentAI人工智慧
- Brain:一個新AI時代的踐行者AI
- AI大模型企業應用實戰(25)-為Langchain Agent新增記憶功能大模型LangChain
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型
- Product Hunt 金喵獎 Voice AI 專案一覽;AI 招聘平臺 Mercor 再融資,估值 20 億美元 丨日報AI
- 萬字長文解析AI Agent技術原理和應用AI
- AI助手:Agent工作流程與應用場景詳解AI
- AI 重塑宗教體驗,語音 Agent 能否成為突破點?AI