11Labs 推出 Conversational AI，可定製互動式語音智慧體；Recall.ai：視訊會議智慧體通用 API

RTE开发者社区發表於2024-12-04

原文網址 : https://testerhome.com/topics/41080

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@ 鮑勃

01 有話題的新聞

1、騰訊釋出混元影片生成大模型：130 億引數全面開源

騰訊正式推出其最新影片生成大模型——混元影片生成模型，並全面開源。這款模型擁有 130 億引數，目前被譽為最大的開源影片生成模型。

騰訊混元影片生成模型展現出四大核心優勢：

首先是超寫實質感，能生成高畫質、真實的影片內容，適用於廣告和創意影片等商業場景；

其次是高語義遵循能力，可根據使用者需求精準刻畫主體細節和人物概念；

第三是運動畫面的流暢性，生成的運動鏡頭符合物理規律，變形風險低；

最後是原生鏡頭轉換功能，能自動生成多視角的同主體鏡頭切換，顯著提升畫面的敘事張力，使影片內容更加生動豐富。

值得一提的是，混元影片模型在近期的千題盲測中脫穎而出，斬獲第一名，充分證明了其在影片生成領域的卓越效能。

使用者可透過多種渠道體驗和使用這一創新技術。個人使用者可在騰訊元寶 APP 的 AI 應用-AI 影片欄目中申請試用，而企業客戶則可透過騰訊雲的服務介面進行對接。此外，模型已在 Hugging Face 和 GitHub 平臺釋出，為企業和個人開發者提供免費使用和生態外掛開發的機會。（@AIbase 基地）

2、Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的影像生成模型

Luma Labs 推出兩款全新影像生成模型：Luma Photon 和 Photon Flash。這兩款模型基於全新架構，生成高質量影像的速度比市場上其他模型快 10 倍，而且成本更低，每張 1080p 圖片的生成成本分別僅為 1.5 美分和 0.2 美分。

Luma Photon 在多項雙盲測試中脫穎而出，其生成質量獲得了使用者廣泛的青睞。它能夠生成具有超高細節、複雜紋理和逼真效果的影像，涵蓋電影級視覺效果、藝術風格畫作、產品設計模型等多個領域。無論是抽象畫、立體派還是自然風格等多種藝術表現形式，Luma Photon 都能輕鬆駕馭。它還能生成高真實感的場景和物體，適用於廣告、影視等行業。

Luma Photon 支援自然語言多輪迭代設計，使用者可以透過多輪語言指令逐步完善生成內容。例如，使用者可以輸入「加些橙色」和「最佳化細節」等指令，系統會根據指令不斷最佳化輸出。系統還能保留之前的指令，持續最佳化輸出，適合複雜創意任務。

Luma Photon 還提供從單張影像生成一致角色的能力，支援故事創作和營銷活動。它還可以支援多圖片提示，將靈感或現有設計快速融入新作品。

Luma Photon 還具備一些特殊功能，例如多角色與場景生成和視覺參考系統。它可以透過單張圖片生成一致角色，將其放入多個不同場景中，支援創作故事或廣告系列。它還允許使用者上傳參考影像，將設計靈感快速應用到生成結果中，無需細緻提示。

Luma Labs 還為開發者提供了開放 API 和二次開發支援。開發者可以透過 Luma API 將 Photon 模型整合到自己的應用中。（@AIbase 基地）

3、Voice Agent Demo 分享：股票圖表語音互動

https://x.com/BenjaminKlieger/status/1863617107566748151

這個語音人工智慧助手能夠在幾秒鐘內聆聽、回應，並根據實時股票資料生成互動式圖表。

多模態編排：8090 Solutions
推理加速：GroqInc

(@ BenjaminKlieger@X)

02 有亮點的產品

1、Output Media API by Recall.ai：用於構建能在視訊會議中互動的 AI 代理的 API

Output Media API by Recall.ai 旨在為開發者提供建立智慧會議代理的能力。該 API 針對需要在 Zoom、Meet、Teams 和 Webex 等主流視訊會議平臺上開發 AI 應用的開發者和企業。它提供了一個統一的介面，使 AI 代理能夠加入視訊會議，輸出音訊和影片，傾聽並像真實參與者一樣做出響應。這個解決方案簡化了跨平臺 AI 會議代理的開發過程，使開發者能夠快速構建具有語音互動能力的 AI 應用。透過利用 Recall.ai 的基礎設施，開發者可以專注於 AI 功能的實現，而無需處理複雜的視訊會議整合細節。該產品的目標是成為會議 AI 代理開發的首選工具，為未來的智慧會議體驗鋪平道路。(@ Z potentials)

2、Vocera：一個幫助 AI 開發者更快構建生產就緒語音代理的平臺

Vocera 旨在加速語音 AI 代理的開發和部署過程。它針對 AI 開發者和語音技術團隊，提供了一個綜合平臺，用於生成對抗性場景、模擬真實通話，併為語音代理提供可操作的洞察。

Vocera 的目標是將語音代理的開發速度提高 10 倍，同時確保其生產環境的可靠性。透過利用先進的模擬和監控技術，Vocera 不僅簡化了語音 AI 的測試和最佳化過程，還為使用者提供了生產環境中的實時監控能力。

該平臺的設計考慮到了現代語音 AI 開發的複雜需求，旨在成為語音代理開發和部署領域的領先工具，幫助開發者快速構建高質量、可靠的語音 AI 系統。(@ Z potentials)

3、AgentAuth：一款安全的 AI 代理連線工具

Composio AgentAuth 是一個面向 AI 應用開發者的認證整合平臺，其核心價值在於提供簡單且安全的方式讓 AI 代理訪問第三方應用。

產品支援一行程式碼接入 250+ 工具，涵蓋 CRM、HRM 等多個領域，主要服務於需要構建自動化工作流的技術團隊。透過簡化認證流程、確保安全性，有效解決了 AI 應用整合過程中的效率和安全痛點。

在功能設計上，產品突出了快速整合、安全認證和多平臺支援三大特點，透過開發者友好的介面和完善的文件，為使用者提供流暢的開發體驗。（@AIbase 基地）

4、ElevenLabs 推出 Conversational AI，構建可定製、互動式語音智慧體

今天，ElevenLabs 推出了 Conversational AI，這是一個用於構建可定製、互動式語音智慧體的一體化平臺。藉助 Conversational AI，使用者可以建立外撥銷售撥號器、排程智慧體、互動式遊戲角色、導師和客戶支援智慧體等。

由於伺服器呼叫次數減少，該平臺設計為低延遲。對話式人工智慧使用實時模型來預測發言者何時結束，從而優雅地處理輪流發言和打斷。此外，技術設定得到了簡化，使使用者可以專注於自定義智慧體。

對話式人工智慧將生動的文字轉語音、語音轉文字（使用者選擇的 LLM）與自定義的輪流和中斷邏輯相結合，使對話感覺自然。使用者可以專注於以下幾個方面：

建立知識庫
製作系統提示詞
透過 function calling 連線應用程式
從庫中選擇喜歡的聲音或克隆自己的聲音
尋找使用對話式人工智慧的方法，以令人難以置信的體驗滿足客戶

對話式人工智慧還包含高階功能，幫助使用者構建更具互動性的智慧體，其中包括：

整合 Twilio 用於處理電話呼叫
伺服器端和客戶端工具呼叫以增加靈活性
定製動態提示詞以建立個性化對話

（@ElevenLabs）

03 有態度的觀點

1、flomo 劉少楠：AI 是一個提效工具

在與「Founder Park」的訪談中，劉少楠在分享了他對產品開發、AI 技術應用、商業模式和創業心態的深刻見解。

他強調了 flomo 作為備忘錄工具的定位，即服務於普通人，提供比普通備忘錄稍好一些的功能，並且不追求短期的熱點，而是注重長期為使用者提供價值。

劉少楠認為產品經理應該忘記過去的成功，適應 AI 時代的變化，理解使用者需求、場景和商業價值。在 AI 技術的應用上，他表現出對 AI 的恐慌，但同時不急於行動，而是透過不斷討論和思辨來消除不確定性。

他指出，AI 應該是一個提效工具，而不是偷懶工具，應該促進使用者的思考，而不是減少思考。在商業模式上，他堅持不賣廣告、不賣永久會員、不融資的原則，追求的是產品的長期存在而非短期的爆發。此外，他還提到了退出策略的重要性，認為退出是一種理性選擇，是決策的一部分。(@ APPSO)

更多 Voice Agent 學習筆記：

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命：未來，消費者更可能傾向於與 AI 溝通，而非人工客服

語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first，閉關做一款語音產品的思考｜社群來稿

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

雲知聲推出音庫定製服務，“硬核”智慧語音技術再上新高
2022-01-18
智慧語音，互動入口的新未來
2019-10-08
簡單剖析智慧語音互動技術
2019-06-19
騰訊AI：定義下一代智慧互動，研發智慧顯微鏡，釋出智慧商超與樓宇硬體
2018-11-01
AI
騰訊AI：研發智慧顯微鏡，定義下一代智慧互動，釋出智慧商超與樓宇硬體
2018-11-01
AI
Android實踐：做一個可視訊互動的智慧小車
2018-08-01
Android
大廠林立,思必馳推可定製開發語音互動技術!
2018-05-07
騰訊會議自動連線音訊怎麼設定？騰訊會議自動連線音訊的設定教程
2020-06-19
音訊
教育行業AI應用Cerebrium建立實時RAG語音智慧體
2024-09-11
行業AI智慧體
阿里AI智慧音響現在有了視覺能力，跟人互動時表情豐富
2018-03-23
阿里AI視覺
實時語音互動，打造更加智慧便捷的應用
2024-09-30
NVIDIA 推出智慧體構建工具 Agentic AI Blueprints；VITA-1.5：實時多模態互動，1.5 秒延遲
2025-01-07
智慧體AI
11Labs 支援打造對話 AI 智慧體；阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報
2024-11-20
AI智慧體阿里大模型開發者日報
物體識別桌利用智慧互動實現資訊傳播
2023-02-21
多 AI 智慧體系統- AI 智慧體的 6 個關鍵要素
2024-05-27
AI智慧體
基於釦子AI智慧體生成雙語播客
2024-10-19
AI智慧體
智慧耳機上演“神仙打架”：語音互動新寵誕生記
2019-04-27
融入語音互動技術，搜狗地圖釋出智慧副駕
2018-03-08
地圖
智慧工廠——智慧製造的載體
2022-01-07
北京銳智互動：軟體定製開發商排名
2022-12-26
小林同學智慧AI大模型語音助手
2024-07-12
AI大模型
2024世界人工智慧大會暨人工智慧全球治理高階別會議全體會議在上海舉辦，推動智慧向善造福全人類
2024-07-04
人工智慧
基於OpenAi通用特定領域的智慧語音小助手
2023-11-27
OpenAI
視訊會議一般用什麼軟體？
2021-07-13
提升AI智慧化水平，打造智慧新體驗
2021-11-23
AI
【智慧製造】工業軟體：智慧製造的大腦
2018-04-09
除了智慧音響，AI語音還可以用在哪裡？
2019-08-31
AI
展現完美的自己英偉達AI演算法提升視訊會議體驗
2021-06-25
AI演算法
“科技+創意”這就是多媒體互動智慧展廳！
2020-08-19
通用計劃明年推出自動駕駛計程車共享服務，可定製化設計車輛
2018-05-14
自動駕駛
語音控制智慧插座
2018-11-09
智慧語音爬天井
2022-01-24
利用AI智慧體實現自動化公開課
2024-07-10
AI智慧體
嵌入式軟體架構設計-訊息互動
2022-07-05
架構
年關感情水逆？定製你的AI語音故事
2020-01-08
AI
GhostTalk：透過充電線對智慧語音系統進行互動攻擊
2022-03-03
保利威，提供可整合、可定製的視訊直播技術
2022-03-08
百度賈磊迴歸後首度揭秘語音佈局：推出地圖語音定製功能
2019-09-20
地圖

11Labs 推出 Conversational AI，可定製互動式語音智慧體；Recall.ai：視訊會議智慧體通用 API

01 有話題的新聞

02 有亮點的產品

03 有態度的觀點

相關文章