11Labs 推出 Conversational AI,可定製互動式語音智慧體;Recall.ai:視訊會議智慧體通用 API

RTE开发者社区發表於2024-12-04

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、騰訊釋出混元影片生成大模型:130 億引數全面開源

騰訊正式推出其最新影片生成大模型——混元影片生成模型,並全面開源。這款模型擁有 130 億引數,目前被譽為最大的開源影片生成模型。

騰訊混元影片生成模型展現出四大核心優勢:

首先是超寫實質感,能生成高畫質、真實的影片內容,適用於廣告和創意影片等商業場景;

其次是高語義遵循能力,可根據使用者需求精準刻畫主體細節和人物概念;

第三是運動畫面的流暢性,生成的運動鏡頭符合物理規律,變形風險低;

最後是原生鏡頭轉換功能,能自動生成多視角的同主體鏡頭切換,顯著提升畫面的敘事張力,使影片內容更加生動豐富。

值得一提的是,混元影片模型在近期的千題盲測中脫穎而出,斬獲第一名,充分證明了其在影片生成領域的卓越效能。

使用者可透過多種渠道體驗和使用這一創新技術。個人使用者可在騰訊元寶 APP 的 AI 應用-AI 影片欄目中申請試用,而企業客戶則可透過騰訊雲的服務介面進行對接。此外,模型已在 Hugging Face 和 GitHub 平臺釋出,為企業和個人開發者提供免費使用和生態外掛開發的機會。(@AIbase 基地)

2、Luma 推出 Luma Photon 和 Photon Flash 基於全新架構的影像生成模型

Luma Labs 推出兩款全新影像生成模型:Luma Photon 和 Photon Flash。這兩款模型基於全新架構,生成高質量影像的速度比市場上其他模型快 10 倍,而且成本更低,每張 1080p 圖片的生成成本分別僅為 1.5 美分和 0.2 美分。

Luma Photon 在多項雙盲測試中脫穎而出,其生成質量獲得了使用者廣泛的青睞。它能夠生成具有超高細節、複雜紋理和逼真效果的影像,涵蓋電影級視覺效果、藝術風格畫作、產品設計模型等多個領域。無論是抽象畫、立體派還是自然風格等多種藝術表現形式,Luma Photon 都能輕鬆駕馭。它還能生成高真實感的場景和物體,適用於廣告、影視等行業。

Luma Photon 支援自然語言多輪迭代設計,使用者可以透過多輪語言指令逐步完善生成內容。例如,使用者可以輸入「加些橙色」和「最佳化細節」等指令,系統會根據指令不斷最佳化輸出。系統還能保留之前的指令,持續最佳化輸出,適合複雜創意任務。

Luma Photon 還提供從單張影像生成一致角色的能力,支援故事創作和營銷活動。它還可以支援多圖片提示,將靈感或現有設計快速融入新作品。

Luma Photon 還具備一些特殊功能,例如多角色與場景生成和視覺參考系統。它可以透過單張圖片生成一致角色,將其放入多個不同場景中,支援創作故事或廣告系列。它還允許使用者上傳參考影像,將設計靈感快速應用到生成結果中,無需細緻提示。

Luma Labs 還為開發者提供了開放 API 和二次開發支援。開發者可以透過 Luma API 將 Photon 模型整合到自己的應用中。(@AIbase 基地)

3、Voice Agent Demo 分享:股票圖表語音互動

https://x.com/BenjaminKlieger/status/1863617107566748151

這個語音人工智慧助手能夠在幾秒鐘內聆聽、回應,並根據實時股票資料生成互動式圖表。

  • 多模態編排:8090 Solutions

  • 推理加速:GroqInc

(@ BenjaminKlieger@X)

02 有亮點的產品

1、Output Media API by Recall.ai:用於構建能在視訊會議中互動的 AI 代理的 API

Output Media API by Recall.ai 旨在為開發者提供建立智慧會議代理的能力。該 API 針對需要在 Zoom、Meet、Teams 和 Webex 等主流視訊會議平臺上開發 AI 應用的開發者和企業。它提供了一個統一的介面,使 AI 代理能夠加入視訊會議,輸出音訊和影片,傾聽並像真實參與者一樣做出響應。這個解決方案簡化了跨平臺 AI 會議代理的開發過程,使開發者能夠快速構建具有語音互動能力的 AI 應用。透過利用 Recall.ai 的基礎設施,開發者可以專注於 AI 功能的實現,而無需處理複雜的視訊會議整合細節。該產品的目標是成為會議 AI 代理開發的首選工具,為未來的智慧會議體驗鋪平道路。(@ Z potentials)

2、Vocera:一個幫助 AI 開發者更快構建生產就緒語音代理的平臺

Vocera 旨在加速語音 AI 代理的開發和部署過程。它針對 AI 開發者和語音技術團隊,提供了一個綜合平臺,用於生成對抗性場景、模擬真實通話,併為語音代理提供可操作的洞察。

Vocera 的目標是將語音代理的開發速度提高 10 倍,同時確保其生產環境的可靠性。透過利用先進的模擬和監控技術,Vocera 不僅簡化了語音 AI 的測試和最佳化過程,還為使用者提供了生產環境中的實時監控能力。

該平臺的設計考慮到了現代語音 AI 開發的複雜需求,旨在成為語音代理開發和部署領域的領先工具,幫助開發者快速構建高質量、可靠的語音 AI 系統。(@ Z potentials)

3、AgentAuth:一款安全的 AI 代理連線工具

Composio AgentAuth 是一個面向 AI 應用開發者的認證整合平臺,其核心價值在於提供簡單且安全的方式讓 AI 代理訪問第三方應用。

產品支援一行程式碼接入 250+ 工具,涵蓋 CRM、HRM 等多個領域,主要服務於需要構建自動化工作流的技術團隊。透過簡化認證流程、確保安全性,有效解決了 AI 應用整合過程中的效率和安全痛點。

在功能設計上,產品突出了快速整合、安全認證和多平臺支援三大特點,透過開發者友好的介面和完善的文件,為使用者提供流暢的開發體驗。(@AIbase 基地)

4、ElevenLabs 推出 Conversational AI,構建可定製、互動式語音智慧體

今天,ElevenLabs 推出了 Conversational AI,這是一個用於構建可定製、互動式語音智慧體的一體化平臺。藉助 Conversational AI,使用者可以建立外撥銷售撥號器、排程智慧體、互動式遊戲角色、導師和客戶支援智慧體等。

由於伺服器呼叫次數減少,該平臺設計為低延遲。對話式人工智慧使用實時模型來預測發言者何時結束,從而優雅地處理輪流發言和打斷。此外,技術設定得到了簡化,使使用者可以專注於自定義智慧體。

對話式人工智慧將生動的文字轉語音、語音轉文字(使用者選擇的 LLM)與自定義的輪流和中斷邏輯相結合,使對話感覺自然。使用者可以專注於以下幾個方面:

  • 建立知識庫

  • 製作系統提示詞

  • 透過 function calling 連線應用程式

  • 從庫中選擇喜歡的聲音或克隆自己的聲音

  • 尋找使用對話式人工智慧的方法,以令人難以置信的體驗滿足客戶

對話式人工智慧還包含高階功能,幫助使用者構建更具互動性的智慧體,其中包括:

  • 整合 Twilio 用於處理電話呼叫

  • 伺服器端和客戶端工具呼叫以增加靈活性

  • 定製動態提示詞以建立個性化對話

@ElevenLabs

03 有態度的觀點

1、flomo 劉少楠:AI 是一個提效工具

在與「Founder Park」的訪談中,劉少楠在分享了他對產品開發、AI 技術應用、商業模式和創業心態的深刻見解。

他強調了 flomo 作為備忘錄工具的定位,即服務於普通人,提供比普通備忘錄稍好一些的功能,並且不追求短期的熱點,而是注重長期為使用者提供價值。

劉少楠認為產品經理應該忘記過去的成功,適應 AI 時代的變化,理解使用者需求、場景和商業價值。在 AI 技術的應用上,他表現出對 AI 的恐慌,但同時不急於行動,而是透過不斷討論和思辨來消除不確定性。

他指出,AI 應該是一個提效工具,而不是偷懶工具,應該促進使用者的思考,而不是減少思考。在商業模式上,他堅持不賣廣告、不賣永久會員、不融資的原則,追求的是產品的長期存在而非短期的爆發。此外,他還提到了退出策略的重要性,認為退出是一種理性選擇,是決策的一部分。(@ APPSO)

更多 Voice Agent 學習筆記:

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章