和 TEN、CosyVoice、Rokid 一起「組裝」你的專屬多模態 Agent!丨 RTE2024 AI 工坊報名

RTE开发者社区發表於2024-10-14

2024年10月25日~26 日,由聲網和 RTE 開發者社群聯合主辦的 RTE2024 第十屆實時網際網路大會 將在北京·悠唐皇冠假日酒店正式開啟!

大會以「AI 愛」為主題,推出覆蓋實時網際網路全生態的論壇及周邊活動共計 20 餘場。

這次 RTE 開發者社群為大家準備了一場 RTE 2024 Workshop,與 builders 一起動手構建實時多模態 AI Agent!

00 <一份活動簡介>

OpenAI Realtime API 釋出,語音 AI 將迎來新一次爆發。AI 的實時語音和視覺互動能力將為我們帶來多少新的創意和場景?

現在,讓我們快速動手去體驗,並實現一種想法。

在這場工作坊,你會接觸到平臺型開源框架 TEN Framework ,以及使用 TEN 開發的多模態實時互動 AI Agent — TEN Agent ,並嘗試自定義一個實時多模態 Agent。

與此同時,來自 CosyVoice、Rokid 的開發者導師,也會分享在語音生成模型、空間計算在 Agent 搭建的原理和實踐。啟發你更多想象。

TEN 是市面上第一個相容了 OpenAI Realtime API 和 RTC 的實時多模態 AI Agent 框架,現在訪問 https://agent.theten.ai 可以立刻體驗接入 Realtime API beta 的最新版本 TEN Agent!

無需撰寫程式碼,你就能建立多模態 Agent。當電腦響起 “Voice Agent connected!”,你將親身體驗到 AI Agent 的實時對話能力,TEN Agent 能夠立即響應你的語音指令,基於影片進行影像理解,並且還能進行網頁和天氣檢索,讓你感受到更自然的人機互動體驗。

如果你還有口語陪練、兒童故事會、旅遊助手等想法,不妨在 TEN 框架下進行自定義,為你的 Agent 賦予新的人設(persona)、音色和功能,即刻探索語音、影片互動的新場景!

現場會設定雙重挑戰,無論你是想體驗多模態 Agent 抑或嘗試自己的想法,這裡都有適合你的內容。來自 TEN Framework 團隊的技術導師們都會在現場為大家答疑。達成基礎挑戰的夥伴都能拿走我們的開發者獎品,完成進階挑戰更有好禮相贈!

時間:2024年10月26日(週六)14:00-18:00
地點: 北京朝陽悠唐皇冠假日酒店 · 多瑙會議室

即刻掃碼報名!僅有三十餘席位!本次報名需稽核,透過後會邀請大家進入 workshop 專屬答疑微信群。

* 本 Workshop 門票包含:開發者伴手禮包、當日活動下午茶、大會千人高峰論壇及分論壇免費參與、展區參觀體驗、大會資料下載。

01 <現場指北針>

13:30-14:00 簽到

領取開發者禮包 🎁

14:10-15:00 主題分享

主題分享 1:
TEN 開源框架及最佳實踐案例

嘉賓:TEN Framework 共同發起者 & RTE 開發者社群佈道師 Plutoless

主題分享 2:
快速構建有情感的聲音 - CosyVoice 語音生成大模型原理和實踐

嘉賓:阿里巴巴通義實驗室語音演算法專家 呂翔

主題分享 3:

破次元 - Rokid 空間計算和實時 Agent 搭建

嘉賓:Rokid 全球開發者生態負責人 趙維奇

15:00-17:40 現場挑戰
動手並隨時茶歇補充能量!

17:40-18:00 本場回顧
別忘了兌換對應獎品

10 <對話技術>

  • TEN (Transformative Extensions Network) Framework 是一個平臺型開源框架,能夠讓開發者一站式快速、靈活地搭建屬於自己的多模態實時互動 AI Agent,這個框架包括了基於 Rust 語言開發的 all-in-one TEN manager,支援實時互動的多模態標準協議,支援多種程式語言混合使用的 TEN Runtime,用於視覺化低程式碼編排邏輯的 Graph Designer,以及支援社群公開發布、分享的 Extension Store,供開發者在構建 AI Agent 的過程中即插即用地挑選心儀的模組靈活替換。

  • TEN Agent 是一個用 TEN Framework 開發的多模態實時互動的 demo AI Agent,玩家可以透過語音與 LLM 進行互動,還可以透過攝像頭和它進行對話,同時也支援基於特定知識庫內容回答問題。TEN Agent 完全開源,供社群使用。

11

分享結束後,就正式進入我們的現場建立環節啦!歡迎各位小夥伴參與 RTE 2024 Workshop,這次的主線任務是:

Your Voice/Video Agent has been connected!

基礎挑戰 在本地把 TEN Agent 跑起來。

(1)與它進行影片/語音對話。
(2)呼叫 OpenAI Realtime API,與它進行對話。

進階挑戰 透過除錯 Graph Designer 或者更改程式碼實現自定義 Agent。

(1)切換自己喜歡的 LLM 。
(2)修改 LLM 的提示詞(Prompt)、開場白(greeting)、溫度(temperature)。
(3)切換自己想要的 TTS(TEN Agent 的預設 TTS 是 Azure)。

100 <工欲善其事,必先利其器>

在本場 AI Agent 工作坊中,我們需要現場動手跑通 TEN Agent,為了能讓大家現場一秒進入狀態,按時完成挑戰、獲得獎品,建議報名參與的同學提前做好如下軟硬體配置:

知識:需要知道科學上網的方式 (https + SSH), 會用命令列、git 和 Docker;

需要下載:Docker and Docker Compose 和 NodeJS 18。

報名並稽核透過後, 將會邀請大家進入 workshop 專屬答疑微信群,提前搞定前序工作,現場專注探索你的實時 AI 場景!

還可參考以下連結:

README 英文:https://github.com/TEN-framework/TEN-Agent

README 中文:https://github.com/ten-framework/ten-agent/blob/main/docs/readmes/README-CN.md

101 <必不可少充電樁>

我們在現場為大家準備了:

豐富的獎品進行兌換,達成基礎挑戰的夥伴都能領取開發者獎品,完成進階挑戰更有好禮相贈 🎁

以及美味的茶歇 🍰

當然還有必不可少像德芙一樣絲滑的網路環境 🗺️

玩得開心!

即刻掃碼報名!僅有三十餘席位!本次報名需稽核,透過後會邀請大家進入 workshop 專屬答疑微信群。

關於我們

RTE 開發者社群是聚焦實時互動領域的中立開發者社群。希望透過社群連結領域內的開發者和生態力量,萌芽更多新技術、新場景,探索實時互動領域的更多可能。不止於純粹的技術交流,社群相信開發者具備更加豐盈的個體價值,我們會關注行業發展變革、開發者職涯發展、技術創業創新資源,陪跑開發者,共享、共建、共成長。

相關文章