很好也很貴?OpenAI Realtime API 一手體驗和 Voice AI 的未來 |播客《編碼人聲》
「編碼人聲」是由「RTE 開發者社群」策劃的一檔播客節目,關注行業發展變革、開發者職涯發展、技術突破以及創業創新,由開發者來分享開發者眼中的工作與生活。
OpenAI Realtime API 釋出了,你準備好了麼?
Realtime API 讓開發者可以構建近乎實時的「語音到語音」的體驗,無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換,實現更流暢的打斷體驗,還可以無縫切換多種語言。
本期節目請來了第一批接入並體驗 OpenAI Realtime API 的開發者,為你解析背後的技術和開發者的新機會。
兩位嘉賓分別是在實時多模態 AI 領域深耕多年的專家——開源實時多模態 AI 框架 TEN Framework 的聯合發起人 Plutoless ,以及拾象科技的 AI Research Lead 鍾凱祺 Cage。
節目深度分析了 OpenAI Realtime API 的優勢與挑戰,討論了實時多模態 AI 如何實現語音進、語音出的端到端互動,大幅降低延遲,提升使用者體驗,使得與 AI 的對話更加自然流暢。也談到了目前存在的高昂成本和技術整合的複雜性,以及這些問題對開發者意味著什麼。
此外,嘉賓們還深入探討了實時多模態 AI 的定義,什麼才是真正的實時多模態?他們分享了自己在實踐中遇到的挑戰和最佳實踐,探討了在 OpenAI Realtime API 的背景下,開發者如何抓住新的機遇。他們也展望了 AI 在未來實時網際網路中的角色,討論了 AI 安全、人與 AI 的協作、多模態互動等話題。
節目中提到的 Voice Agent 象限圖:X 軸為「準確優先」到「創造力優先」,Y 軸為「實時不敏感」到「實時敏感」(「海外獨角獸」製圖):
本期嘉賓和主播
普列思(Plutoless), 開源多模態實時互動框架 TEN Framework 的聯合發起人和開發者體驗負責人,RTE 開發者社群佈道師。擁有多年在實時互動領域的專業從業經驗。
鍾凱祺 Cage,「海外獨角獸」AI Research Lead。
朱峰,「津津樂道播客網路」創始人,產品及技術專家。
聽友福利
10 月 25 日到 26 日,RTE 開發者社群聯合聲網策劃的 RTE 大會 2024 將在北京舉行。今年的技術論壇將覆蓋音影片技術、AI 生成影片、Voice AI、多模態大模型、空間計算和新硬體、雲邊端架構和 AI Infra 等話題。期待與你一起探索實時互動的更多可能,咱們 10 月 25 日到 26 日,北京見!
獲取《編碼人聲》聽眾限免門票: https://r.daofm.cn/9fgol
同期 AI Workshop 報名:「組裝」你的專屬多模態 Agent!(10 月 26 日下午,北京)https://www.bagevent.com/event/rteworkshop
相關內容
1.訪問 TEN Agent,即刻體驗 OpenAI Realtime API
https://agent.theten.ai/
2.開源實時多模態 AI 框架 TEN Framework
https://www.theten.ai/
3.嘉賓 Cage 共同撰寫文章:《Voice Agent:AI 時代的互動介面,下一代 SaaS 入口》
4.特德·姜在《紐約客》的文章:Why A.I. Isn’t Going to Make Art
https://www.newyorker.com/culture/the-weekend-essay/why-ai-isnt-going-to-make-art
製作團隊
後期 / 卷圈
監製 / 姝琦
產品統籌 / bobo
聯合制作 / RTE 開發者社群
關於「編碼人聲」
「編碼人聲」是由「RTE 開發者社群」策劃的一檔播客節目,關注行業發展變革、開發者職涯發展、技術突破以及創業創新,由開發者來分享開發者眼中的工作與生活。
錄製嘉賓覆蓋信通院 & 科委專家、國內外資深投資人、VR/AR & 虛擬人 & AIGC 等新興技術領域頭部創業者、一線網紅 & 硬核開發者、跨界畫家 & 作家 & 釀酒師等。
RTE 開發者社群是聚焦實時互動領域的中立開發者社群。不止於純粹的技術交流,我們相信開發者具備更加豐盈的個體價值。行業發展變革、開發者職涯發展、技術創業創新資源,我們將陪跑開發者,共享、共建、共成長。
社群於 2023 年底正式啟動了「主理人 + 工作組」的運營機制,並確認了社群的 3 位聯合主理人 ——
· 零一萬物 01.AI 開源負責人 @ 林旅強 Richard
· FreeSWITCH 中文社群創始人 @ 杜金房
· 小紅書音影片架構負責人 @ 陳靖
本節目由津津樂道播客網路與 RTE 開發者社群聯合制作播出。
相關文章
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 在 GPT-4o 釋放完整能力前,聽聽實時多模態 AI 創業者的一手經驗 | 編碼人聲GPTAI創業
- OpenAI Realtime API 迎來降價;朱嘯虎首個 AI 硬體專案 Gyges Labs:輕量化近眼顯示光學方案OpenAIAPI
- Java中OpenAI API客戶端原始碼教程JavaOpenAIAPI客戶端原始碼
- fcpx外掛:WindRemover AI(影片和播客風聲消除外掛) v1.0.6REMAI
- AI智慧對人類未來的利弊AI
- 空間計算、物理計算、實時模擬與創造擁有「自主行為」的小狗 | 播客《編碼人聲》
- 應用CRM軟體很貴嗎?
- OpenAI Realtime API 升級,整合 WebRTC 且降價 60%;豆包釋出視覺理解模型,實時語音模型也將上線OpenAIAPIWeb視覺模型
- 雲知聲聯合創始人康恆:AI未來會成為“水電煤”AI
- 基於釦子AI智慧體生成雙語播客AI智慧體
- 語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場AI音訊
- 未來AI智慧對人類的影響的利弊AI
- WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?WebOpenAI
- AI人工智慧的4個未來趨勢,人類集體失業?AI人工智慧
- 軟體的未來是無碼
- 路透社:AI和未來的新聞AI
- 詞曲創作只需幾秒,「AI作曲家」Suno引爆音樂圈,第一手體驗和攻略來了AI
- 能操控電腦的 Computer Use 究竟是什麼?萬能膠水、舊世界操作員,還是無所不在的智慧?| 播客《編碼人聲》
- CX Network:用AI提升客戶體驗AI
- 聽見未來:AI音樂生成,個性化音樂新體驗!AI
- XM Institute:客戶體驗與未來購買意圖息息相關
- 和重啟大法一樣,重灌大法也很好用
- 駭客動態播報|果然,駭客也用上了ChatGPT……ChatGPT
- 電信API:擴充套件服務和改善客戶體驗的關鍵IT工具API套件
- Gen-AI:人工智慧和工作的未來AI人工智慧
- OpenAI APIOpenAIAPI
- AI 在用 | 有了這個超級提示和Claude 3,不聽播客也能搞定節目內容AI
- 雲知聲|讓AI人工智慧點亮未來數字世界AI人工智慧
- 科技愛好者週刊(第 127 期):未來人人開發軟體,幾乎沒人編碼
- 對談 MoonBit:AI 時代的程式語言應該是什麼樣子的?丨編碼人聲AI
- 《經濟學人》也談 Python:它會是我們的未來嗎?Python
- 從海外開發者大會的親身體悟聊起,談談 AI 與開發者關係的重構 | 編碼人聲AI
- 面向未來的閘道器: Kubernetes Gateway API 和 Envoy GatewayGatewayAPI
- 人類級別語音 AI 路線圖丨 Voice AI 學習筆記AI筆記
- Media Encoder 2023:掌控未來視界的超凡編碼神器
- AI主播、AI記者、AI編輯,傳媒AI化加速AI
- 只聞其聲也能「看透」你,來自「聲音畫像師」的秘密