視覺理解 + 實時語音,打造你的多模態實時 AI 丨 TEN+ 亞馬遜雲科技開源工作坊

RTE开发者社区發表於2025-02-25

如何快速打造一個能聽懂你說話、理解你情緒,甚至看懂你手勢、理解你周圍影像的 AI 助手?

在這場 TEN x 亞馬遜雲科技聯合工作坊中,我們將帶你使用 TEN 框架Amazon Nova 大模型 ,親手構建屬於你的 Voice Agent ,並部署在 Amazon Bedrock 平臺上。無需複雜的程式碼,TEN 框架將助你快速搭建 AI Agent,而 Amazon Nova 模型的語音和影片理解能力,則為你的 Agent 提供強健大腦。

TEN 是一個用以建立實時語音 AI Agent 的開源框架。支援語音、文字和影像的輸入與輸出,內建最佳化的實時通訊能力,以提供低延時、可打斷的互動體驗。透過內建的 STT/LLM/TTS 模組,以及外掛化開發與靈活編排,幫助開發者快速測試和迭代對話體驗,即使沒有深厚 AI 背景的開發者也能快速構建強大的實時語音 AI Agent。

Amazon Nova 是亞馬遜最新推出的基礎模型系列,包含 3 個理解模型 (Pro/Lite/Micro) 和 2 個創意模型 (Canvas/Reel),滿足不同場景需求。支援多語言處理,支援文字、影像、影片等多模態輸入,提供豐富 API 介面,可透過 Amazon Bedrock 平臺進行定製化開發。支援跨區域推理、批次處理、微調等多種部署方式,具備完善的安全防護機制。

在工作坊中,你將一步步解鎖 TEN 與 Amazon Nova Pro/Lite 的能力,一個小時學會如何從零開始構建你的 AI 助手!現場有來自 TEN Framework 與亞馬遜雲科技技術專家的答疑指導,還準備了精美茶歇與開發者禮品。期待與大家現場相會~

活動時間

2025/3/8 13:30-16:30

地點

上海前灘(具體場地稽核透過後入群通知)

活動流程

13:00 - 13:30 簽到

13:40 - 14:20 主題分享
利用 Amazon Nova 構建生成式 AI 應用——陳一品,亞馬遜雲科技解決方案架構師

TEN 開源框架及最佳實踐——Plutoless,TEN Framework 共同發起者

14:20 - 16:00 動手實操 TEN+ Amazon Nova(茶歇&禮品)

16:00 - 16:30 demo 展示&自由交流

動手實操 TEN+ Amazon Nova

我們為大家準備了幾步語音 AI Agent 挑戰,幫助大家循序漸進地瞭解、使用 TEN+ Amazon Nova。

本場使用以下相關技術:

AI Agent 框架:TEN

https://github.com/TEN-framework/TEN-Agent

大模型:Amazon Nova Pro/Lite
https://aws.amazon.com/cn/ai/generative-ai/nova/

ASR:Amazon Transcribe
https://aws.amazon.com/cn/transcribe/

TTS:Amazon Polly
https://aws.amazon.com/cn/polly/

* 本場將為大家提供免費的亞馬遜雲科技測試賬號,併為大家準備所需的各種 key。

  • 階段 1

在 Amazon bedrock 上簡單幾步完成 TEN + Amazon Nova 大模型的部署,啟動 Agent 服務開始對話。

  • 階段 2

體驗 Amazon Nova Pro 和 Amazon Nova Lite,修改 Prompt 和 Amazon Polly 音色等配置,切換音/影片互動、實時翻譯等互動模式,來定製自己專屬的語音 AI Agent!

  • demo 展示

自行報名向大家展示你的創意、你的場景和你的 demo!

🎁 完成階段 1&2 的朋友,可以獲得由亞馬遜雲科技和 TEN 提供的開發者周邊,進行 demo 展示的朋友更有好禮相贈~

本場將為大家提供免費的亞馬遜雲科技測試賬號,併為大家準備所需的各種 key,建議報名參與者提前做好如下軟硬體配置:

  • 知識:會用命令列、git、docker;

  • 預裝 docker;

  • 自備電腦一臺。

報名並稽核透過後,將會邀請大家進入工作坊專屬答疑群,搞定前序工作,現場專注探索你的實時 AI 場景!歡迎報名~

本場活動由 TEN Framework 和亞馬遜雲科技聯合主辦,亞馬遜雲科技 User Group 和 RTE 開發者社群協辦。

關於 RTE 開放者社群介紹

RTE 開發者社群是聚焦實時互動領域的開發者社群。希望透過社群連結領域內的開發者和生態力量,萌芽更多新技術、新場景,探索實時互動領域的更多可能。這裡你將遇見一群致力於改變人和人、人和世界,以及人和 AI 連線方式的開發者。官網:rtecommunity.dev

關於 UG 社群介紹

亞馬遜雲科技 User Group 開發者社群是一個為開發者們提供彼此學習、分享技術實踐、培訓進階等活動的技術交流分享社群。欲知更多資訊或活動預告,請持續關注微信公眾號【User Group】,期待熱愛前沿技術和開源技術的您加入到 User Group 大家庭。

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

相關文章