TEN 現已接入智譜 GLM-Realtime 丨社群來稿

RTE开发者社区發表於2025-02-21

就在上週,三星 Galaxy S25 系列全球首發。基於最新 Galaxy AI 的三星 Galaxy S25 系列手機是三星在全球範圍內首次推出具有視訊通話功能的原生 AI 智慧硬體產品。

三星 Galaxy S25 系列背後的智譜最新實時音視訊通話 GLM-Realtime 模型,今天已經以外掛形式接入 TEN。現在你可以用 TEN + GLM-Realtime 搭建自己的語音 AI Agent 了!

用 GLM-Realtime 在 TEN 上讓 AI 送給自己一首生日快樂歌

智譜實時音視訊通話:GLM-Realtime 模型介紹

GLM-Realtime API 能夠提供實時的視訊通話功能,具有跨文字、音訊和影片進行實時推理的能力,AI 可以進行流暢的通話,人可以實時打斷 AI。除了實時音訊互動外,Realtime 還可透過手機或 AIPC 的攝像頭與人互動,透過共享電腦螢幕閱讀頁面資訊,透過影片流理解對話當前的環境。

體驗中心:https://open.bigmodel.cn/trialcenter/audiovideocall/experience
介面文件:https://open.bigmodel.cn/dev/api/rtav/GLM-Realtime

TEN Framework:主流對話式 Voice Agent 開源框架

基於 TEN,你可以搭建任何 Voice Agent,讓你的 AI 能聽能說!

TEN 的模組化設計和多模態資料傳輸最佳化,幫助開發者快速落地可生產使用的 voice agent。同時基於終端接入網路(lastmile)最佳化,以及音影片採集最佳化、3A、音影片編解碼等技術,TEN 框架提供了內建 rtc 的解決方案,解決了音影片互動最後一公里的問題,確保 voice agent 的體驗和互動質量。

Key Feature:

  • 支援多模態與端到端模型,滿足語音、文字和影像的輸入與輸出

  • 內建最佳化後的實時通訊能力,提供低延時、可打斷的互動體驗

  • 整合全球主流 STT、LLM 和 TTS 等外掛,靈活編排、快速開發

  • 支援 C++, Go, Python, Node.JS 等主流語言,Agent 可跨平臺無縫銜接

TEN+GLM 線上快速體驗👇

開啟體驗連結:

1、https://ten.rtcdeveloper.cn/

2、 選擇 “Voice Agent GLM Realtime”

3、點選 “connet”,開始你的 Voice Agent 體驗😉

*GLM-Realtime 影片理解能力 3 月份上線,歡迎大家關注我們的 github 獲取最新動態~
https://github.com/TEN-framework/TEN-Agent

TEN 本地部署指南

將倉庫 https://github.com/TEN-framework/TEN-Agent.git git clone 到本地後:

  1. 建立 .env 檔案 cp ./.env.example ./.env
  2. 在 .env 中設定 Agora 應用 ID 和應用證書 AGORA_APP_ID=AGORA_APP_CERTIFICATE=
  3. 啟動代理開發容器 docker compose up -d
  4. 進入容器 docker exec -it ten_agent_dev bash
  5. 構建代理 task use
  6. 啟動網路伺服器 task run
  7. 編輯開發環境設定在 localhost:3000 開啟開發環境來配置你的代理。

正確啟動後,你應該能看到如下介面:

選擇 graph “voice_assistant_realtime” 之後,點選 Module Picker 開啟模組選擇器

從下拉框選擇 “GLM Realtime”,然後點選 “Save Change” 儲存。

儲存成功後,點選 Property Editor 開啟屬性編輯器,選擇配置 “v2v” 模組,找到 “api_key” 屬性,填入你的智譜 API Key,儲存即可。

點選連線按鈕,開始你的 realtime 探索之旅!

智譜 X RTE 開發者社群 2000 萬 Tokens 福利,開發無負擔!

智譜開放平臺為 RTE 開發者社群準備了 2000 萬免費資源包福利,方便 RTE 社群和 TEN 社群開發者進行 AI Agent 的打造。0 元領取,限量 200 份,可適用於所有智譜開放平臺的推理模型。

使用期限:領取後 3 個月有效

獲取方式:訪問訪問如下連結/掃描二維碼領取資源包後,可以在 bigmodel.cn【我的資源包列表】中檢視
https://bigmodel.cn/tokenspropay?productIds=product-086

直播預告:來和智譜和 TEN 交流!

同期我們會在 2 月 27 日(週四)晚舉辦一期直播交流會,歡迎對 GLM-Realtime 和 TEN Framework 感興趣的開發者預約加入。

關於智譜開放平臺

智譜 BigModel 開放平臺 基於智譜大模型的模型能力,致力於為企業和開發者提供便利的大模型接入服務、豐富的大模型能力場景、專業的大模型解決方案,助力開發者與企業共同探索大模型落地應用的未來。官網地址:Bigmodel.cn

關於 RTE 開放者社群介紹

RTE 開發者社群是聚焦實時互動領域的開發者社群。希望透過社群連結領域內的開發者和生態力量,萌芽更多新技術、新場景,探索實時互動領域的更多可能。這裡你將遇見一群致力於改變人和人、人和世界,以及人和 AI 連線方式的開發者。官網:rtecommunity.dev

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章