WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、Runway 推影像生成模型 Frames 專注特定美學,重構創意邊界
Runway 的最新影像生成模型 Frames,正以前所未有的方式顛覆著視覺創作的邊界。這不僅僅是一個 AI 工具,更是一個能夠幫助使用者構建完整視覺世界的創意引擎。
與傳統的通用影像生成模型不同,Frames 最大的魅力在於其對風格和美學的極致控制。這款模型的核心能力,在其「世界構建」的獨特技術。使用者可以細粒度地控制影像的「外觀、感覺和氛圍」。它不再是簡單地生成圖片,而是幫你編織一個完整的藝術世界。無論是電影概念、遊戲設計,還是個人藝術專案,Frames 都能幫你構建一個統一、強大的視覺敘事。每一張影像都彷彿出自同一位藝術大師之手,又充滿無限可能性。
在保持風格統一的同時,Frames 還能激發創意的多樣性。它為創作者提供了一個前所未有的平臺:你可以探索各種風格變化,同時確保每一幀都完美契合你的整體視覺語言。(@AIbase 基地)
2、Anthropic 釋出開源 MCP 協議 推動 AI 系統與資料來源的雙向連線
人工智慧公司 Anthropic 宣佈推出一項新的開源標準——模型上下文協議(MCP),旨在透過將 AI 助手與業務工具和軟體等資料來源連線,提升模型對查詢的響應質量和相關性。MCP 的釋出意味著 AI 助手在處理任務時,能夠直接從不同的資料來源中提取資訊,避免了「資訊孤島」的問題。
在一篇部落格文章中,Anthropic 表示,儘管 AI 助手在推理和質量方面已取得快速進展,但目前大多數模型仍受限於與資料的隔離,無法直接訪問儲存的資料。這使得每個資料來源都需要單獨的定製實現,從而導致互聯絡統難以擴充套件。MCP 旨在透過協議解決這一問題,允許開發者在 AI 驅動的應用程式(如聊天機器人)與資料來源之間建立雙向連線。
MCP 協議允許開發者透過「MCP 伺服器」共享資料,構建「MCP 客戶端」(如應用程式和工作流),並透過命令訪問這些資料來源。Anthropic 稱,開發者可以利用這一標準協議進行構建,而不必為每個資料來源單獨維護聯結器,從而使生態系統更加互聯。
目前,包括 Block 和 Apollo 在內的公司已將 MCP 整合到其系統中,Replit、Codeium 和 Sourcegraph 等開發工具公司也正在向其平臺新增 MCP 支援。Anthropic 還表示,Claude Enterprise 計劃的訂閱者可以透過 MCP 伺服器將 Claude 聊天機器人連線到其內部系統。此外,Anthropic 已分享了針對 Google Drive、Slack 和 GitHub 等企業系統的預構建 MCP 伺服器,並計劃推出工具包,幫助企業部署適用於整個組織的生產 MCP 伺服器。(@AIbase 基地)
3、英偉達釋出 Edify 3D 生成模型 2 分鐘即可生成高質量 3D 資產
NVIDIA 最新推出的 Edify3D 技術在 3D 資產生成領域取得重大突破。這項創新技術能在短短兩分鐘內,基於文字描述或參考影像生成包含完整 UV 貼圖、4K 紋理和 PBR 材質的高品質 3D 模型,為遊戲設計、影視製作和擴充套件現實等行業帶來革命性解決方案。
dify3D 採用了獨特的技術架構,將多視角擴散模型與基於 Transformer 的重建技術相結合。其核心管線包含三個關鍵步驟:
- 多視角擴散模型根據輸入生成多個視角的 RGB 影像;
- 多視角 ControlNet 合成對應的表面法線;
- 重建模型將這些資訊整合成神經 3D 表示,透過等值面提取和網格後處理生成最終的幾何體。
特別值得一提的是,Edify3D 還可用於生成複雜的 3D 場景。透過與大語言模型(LLM)結合,系統能夠根據文字提示定義場景佈局、物體位置和尺寸,建立連貫且真實的 3D 場景組合。這一功能為藝術設計、3D 建模和 AI 模擬等應用提供了強大支援。
在技術擴充套件性方面,Edify3D 表現出色。隨著訓練視角數量的增加,模型生成的影像質量和一致性不斷提升。重建模型的效能也會隨著輸入視角數量的增加而改善,同時還能根據計算資源靈活調整三平面令牌大小。(@AIbase 基地)
4、小型 TTS 模型 OuteTTS v0.2 釋出,支援多語言並具備語音克隆功能
OuteTTS-0.2-500M 是 v0.1 版本的改進版。該模型保持了使用音訊提示的相同方法,而沒有對基礎模型本身進行架構修改。該版本以 Qwen-2.5-0.5B 為基礎,在更大、更多樣化的資料集上進行了訓練,從而在效能的各個方面都有了顯著的提高。
主要改進:
- 增強的準確性:與前一版本相比,顯著提高了提示跟蹤和輸出一致性
- 自然語音:生成更自然流暢的語音合成
- 擴充套件詞彙:在超過 50 億個音訊提示標記上進行訓練
- 語音克隆:改進的語音克隆功能具有更高的多樣性和準確性
- 多語言支援:新增對中文、日文和韓文的實驗性支援(@Hugging Face)
5、WebRTC 作者加入 OpenAI,主導實時 AI 專案
WebRTC 作者之一,開源語音模型 Ultravox 的創始人兼 CTO Justin Uberti 今日在 X 上宣佈加入 OpenAI,並將主導實時 AI(Real Time AI)相關工作。
他說:「在 WebRTC 的開發過程中,我們深刻地體會到語音和影片對人類溝通的巨大影響。那時,我就在思考:未來,我們是否也能以同樣的方式與 AI 交流?如今,這個未來已初具雛形,我很高興地宣佈,我已加入 OpenAI,將主導實時 AI 專案!」
Justin Uberti 還曾是 Google 的 Stadia、Duo 和 Hangouts Video 團隊負責人。
早些時間,開源 WebRTC 專案 Pion 的創始人 Sean DuBois 也加入了 OpenAI。(@juberti@X)
02 有亮點的產品
1、Luma 推全新 Dream Machine 支援創意融圖、角色參考等
Luma AI 釋出了全新的 Dream Machine 平臺,該平臺旨在讓任何人都可以輕鬆創作高質量的影像和影片,無論技術水平如何。
Dream Machine 基於 Luma 最新的影像基礎模型 Photon,該模型使用先進的通用變換架構,可以根據文字提示生成高質量的靜止影像,並且能夠可靠地嵌入文字,這是許多其他影像生成模型難以做到的。
Dream Machine 平臺的一大亮點是其直觀的互動設計。使用者可以用自然語言描述他們的想法,或者上傳參考影像來指導平臺的輸出,而無需像傳統工具那樣進行復雜的提示工程。
Dream Machine 還提供了一系列強大的工具和功能,幫助使用者將創意變為現實。例如,「角色參考」功能可以將單一圖片轉化為動態角色,並在多種場景中使用,甚至可以將一張照片與另一張照片融合,創造出一個獨特的角色。此外,平臺還提供了「鏡頭運動」、「起始與結束幀」和迴圈功能,讓使用者可以輕鬆導演和定製影片效果。
對於那些缺乏靈感的使用者,Dream Machine 的「頭腦風暴」功能可以提供各種創意點子,幫助他們找到創作方向。(@AIbase 基地)
2、PicMenu:利用 AI 視覺化你的選單 你只需拍一下選單 即可將你的菜名生成對應的圖片
PicMenu 是一個利用 AI 快速將餐廳選單視覺化的工具。透過拍攝選單圖片,PicMenu 可以為每道菜生成詳細的影像和描述,提供更直觀的餐飲資訊。
主要功能
1、選單解析與生成:
- 拍攝餐廳選單的照片後,使用 AI 提取選單項,生成每道菜的高質量影像。
2、AI 支援的詳細資訊:
- 提取並顯示菜品的附加資訊(未來可能包括成分、來源、卡路里和口味)。
3、多語言與標籤支援(開發中):
- 計劃支援多語言選單解析,並新增標籤(如辣味、素食、純素等),提供基於標籤的過濾功能。(@ 小互 AI)
03 有態度的觀點
1、Perplexity 增長負責人:創始人的最大錯誤是假設使用者痛點
近日,播客 20VC 採訪了 Perplexity 的增長負責人 Raman Malik。
Raman Malik 在採訪時提到:「創始人的最大錯誤:假設使用者痛點,而實際上這些痛點並不存在。」
Raman 強調,必須透過資料和使用者反饋來驗證假設,而不是簡單的憑空猜測使用者需求。產品增長的過程中,避免陷入這種誤區是非常重要的。
另外,Raman 在採訪中表示,在 AI 公司與那些對 AI 不感興趣的新觀眾進行定位時,他們需要你抽象掉整個 AI 搜尋引擎的概念,直接傳達價值:立刻獲得答案,並附有可靠來源。(@APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?WebOpenAI
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 如何基於實時聲紋變聲實現對聲音的“克隆”
- 追逐AGI!微軟AI副總裁、Phi小模型領導者Bubeck將加入OpenAI微軟模型OpenAI
- 如何呼叫openai的TTS模型OpenAITTS模型
- F5-TTS語音克隆漢化整合包1016TTS
- gpt-4o-audio-preview 釋出,支援 STT/TTS 不含實時音訊;Ministral 3B/8B 端側模型釋出GPTViewTTS音訊模型
- CosyVoice多語言、音色和情感控制模型,one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源模型Mac
- Coqui TTS合成語音UITTS
- 文字到語音(tts)TTS
- 谷歌、OpenAI學者談AI:語言模型正在努力「攻克」數學谷歌OpenAI模型
- NET core 釋出時幹掉多餘的語言包-
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- TTS 擂臺: 文字轉語音模型的自由搏擊場TTS模型
- 小語言模型指南模型
- 準備加入 AI 時代主導權爭奪戰,歐盟謀劃 AI 新政AI
- 基於大型語言模型爬蟲專案Crawl4AI介紹模型爬蟲AI
- 小程式--語音合成tts 對接多平臺(訊飛,思必馳,百度)TTS
- 微軟小語言模型Phi-3-Mini-4K-Instructk開源釋出微軟模型Struct
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- 開源實時監控系統CAT 3.0釋出:多語言客戶端及多項效能提升客戶端
- C# TTS-文字轉語音C#TTS
- 深入淺出 WebRTC AEC(聲學回聲消除)Web
- OpenAI首次官宣語音專案,配音演員警報拉響OpenAI
- 克隆專案
- Python 3.8.0a2 釋出,物件導向程式語言Python物件
- 一個小而美的 C 語言專案
- win10系統語音聲音小怎麼設定 win10系統語音聲音特別小處理方法Win10
- Fish Speech 更新V1.5:領先的多語言文字轉語音模型模型
- CosyVoice: 多語言大規模語音生成模型的全棧解決方案模型全棧
- WebRTC – Agora (聲網)簡介與實現音視訊通話WebGo
- 耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘TTS
- ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-ttsTTS模型微軟