WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言

RTE开发者社区發表於2024-11-26

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@鮑勃

01 有話題的新聞

1、Runway 推影像生成模型 Frames 專注特定美學,重構創意邊界

Runway 的最新影像生成模型 Frames,正以前所未有的方式顛覆著視覺創作的邊界。這不僅僅是一個 AI 工具,更是一個能夠幫助使用者構建完整視覺世界的創意引擎。

與傳統的通用影像生成模型不同,Frames 最大的魅力在於其對風格和美學的極致控制。這款模型的核心能力,在其「世界構建」的獨特技術。使用者可以細粒度地控制影像的「外觀、感覺和氛圍」。它不再是簡單地生成圖片,而是幫你編織一個完整的藝術世界。無論是電影概念、遊戲設計,還是個人藝術專案,Frames 都能幫你構建一個統一、強大的視覺敘事。每一張影像都彷彿出自同一位藝術大師之手,又充滿無限可能性。

在保持風格統一的同時,Frames 還能激發創意的多樣性。它為創作者提供了一個前所未有的平臺:你可以探索各種風格變化,同時確保每一幀都完美契合你的整體視覺語言。(@AIbase 基地)

2、Anthropic 釋出開源 MCP 協議 推動 AI 系統與資料來源的雙向連線

人工智慧公司 Anthropic 宣佈推出一項新的開源標準——模型上下文協議(MCP),旨在透過將 AI 助手與業務工具和軟體等資料來源連線,提升模型對查詢的響應質量和相關性。MCP 的釋出意味著 AI 助手在處理任務時,能夠直接從不同的資料來源中提取資訊,避免了「資訊孤島」的問題。

在一篇部落格文章中,Anthropic 表示,儘管 AI 助手在推理和質量方面已取得快速進展,但目前大多數模型仍受限於與資料的隔離,無法直接訪問儲存的資料。這使得每個資料來源都需要單獨的定製實現,從而導致互聯絡統難以擴充套件。MCP 旨在透過協議解決這一問題,允許開發者在 AI 驅動的應用程式(如聊天機器人)與資料來源之間建立雙向連線。

MCP 協議允許開發者透過「MCP 伺服器」共享資料,構建「MCP 客戶端」(如應用程式和工作流),並透過命令訪問這些資料來源。Anthropic 稱,開發者可以利用這一標準協議進行構建,而不必為每個資料來源單獨維護聯結器,從而使生態系統更加互聯。

目前,包括 Block 和 Apollo 在內的公司已將 MCP 整合到其系統中,Replit、Codeium 和 Sourcegraph 等開發工具公司也正在向其平臺新增 MCP 支援。Anthropic 還表示,Claude Enterprise 計劃的訂閱者可以透過 MCP 伺服器將 Claude 聊天機器人連線到其內部系統。此外,Anthropic 已分享了針對 Google Drive、Slack 和 GitHub 等企業系統的預構建 MCP 伺服器,並計劃推出工具包,幫助企業部署適用於整個組織的生產 MCP 伺服器。(@AIbase 基地)

3、英偉達釋出 Edify 3D 生成模型 2 分鐘即可生成高質量 3D 資產

NVIDIA 最新推出的 Edify3D 技術在 3D 資產生成領域取得重大突破。這項創新技術能在短短兩分鐘內,基於文字描述或參考影像生成包含完整 UV 貼圖、4K 紋理和 PBR 材質的高品質 3D 模型,為遊戲設計、影視製作和擴充套件現實等行業帶來革命性解決方案。

dify3D 採用了獨特的技術架構,將多視角擴散模型與基於 Transformer 的重建技術相結合。其核心管線包含三個關鍵步驟:

  • 多視角擴散模型根據輸入生成多個視角的 RGB 影像;
  • 多視角 ControlNet 合成對應的表面法線;
  • 重建模型將這些資訊整合成神經 3D表示,透過等值面提取和網格後處理生成最終的幾何體。

特別值得一提的是,Edify3D 還可用於生成複雜的 3D 場景。透過與大語言模型(LLM)結合,系統能夠根據文字提示定義場景佈局、物體位置和尺寸,建立連貫且真實的 3D 場景組合。這一功能為藝術設計、3D 建模和 AI 模擬等應用提供了強大支援。

在技術擴充套件性方面,Edify3D 表現出色。隨著訓練視角數量的增加,模型生成的影像質量和一致性不斷提升。重建模型的效能也會隨著輸入視角數量的增加而改善,同時還能根據計算資源靈活調整三平面令牌大小。(@AIbase 基地)

4、小型 TTS 模型 OuteTTS v0.2 釋出,支援多語言並具備語音克隆功能

OuteTTS-0.2-500M 是 v0.1 版本的改進版。該模型保持了使用音訊提示的相同方法,而沒有對基礎模型本身進行架構修改。該版本以 Qwen-2.5-0.5B 為基礎,在更大、更多樣化的資料集上進行了訓練,從而在效能的各個方面都有了顯著的提高。

主要改進:

  • 增強的準確性:與前一版本相比,顯著提高了提示跟蹤和輸出一致性
  • 自然語音:生成更自然流暢的語音合成
  • 擴充套件詞彙:在超過 50億個音訊提示標記上進行訓練
  • 語音克隆:改進的語音克隆功能具有更高的多樣性和準確性
  • 多語言支援:新增對中文、日文和韓文的實驗性支援(@Hugging
    Face)

5、WebRTC 作者加入 OpenAI,主導實時 AI 專案

WebRTC 作者之一,開源語音模型 Ultravox 的創始人兼 CTO Justin Uberti 今日在 X 上宣佈加入 OpenAI,並將主導實時 AI(Real Time AI) 相關工作。

他說:「在 WebRTC 的開發過程中,我們深刻地體會到語音和影片對人類溝通的巨大影響。那時,我就在思考:未來,我們是否也能以同樣的方式與 AI 交流?如今,這個未來已初具雛形,我很高興地宣佈,我已加入 OpenAI,將主導實時 AI 專案!」

Justin Uberti 還曾是 Google 的 Stadia、Duo 和 Hangouts Video 團隊負責人。
早些時間,開源 WebRTC 專案 Pion 的創始人 Sean DuBois 也加入了 OpenAI。(@juberti@X)

02 有亮點的產品

1、Luma 推全新 Dream Machine 支援創意融圖、角色參考等

Luma AI 釋出了全新的 Dream Machine 平臺,該平臺旨在讓任何人都可以輕鬆創作高質量的影像和影片,無論技術水平如何。

Dream Machine 基於 Luma 最新的影像基礎模型 Photon,該模型使用先進的通用變換架構,可以根據文字提示生成高質量的靜止影像,並且能夠可靠地嵌入文字,這是許多其他影像生成模型難以做到的。

Dream Machine 平臺的一大亮點是其直觀的互動設計。使用者可以用自然語言描述他們的想法,或者上傳參考影像來指導平臺的輸出,而無需像傳統工具那樣進行復雜的提示工程。

Dream Machine 還提供了一系列強大的工具和功能,幫助使用者將創意變為現實。例如,「角色參考」功能可以將單一圖片轉化為動態角色,並在多種場景中使用,甚至可以將一張照片與另一張照片融合,創造出一個獨特的角色。此外,平臺還提供了「鏡頭運動」、「起始與結束幀」和迴圈功能,讓使用者可以輕鬆導演和定製影片效果。

對於那些缺乏靈感的使用者,Dream Machine 的「頭腦風暴」功能可以提供各種創意點子,幫助他們找到創作方向。(@AIbase 基地)

2、PicMenu:利用 AI 視覺化你的選單 你只需拍一下選單 即可將你的菜名生成對應的圖片

PicMenu 是一個利用 AI 快速將餐廳選單視覺化的工具。透過拍攝選單圖片,PicMenu 可以為每道菜生成詳細的影像和描述,提供更直觀的餐飲資訊。

主要功能

1、選單解析與生成:

  • 拍攝餐廳選單的照片後,使用 AI 提取選單項,生成每道菜的高質量影像。

2、AI 支援的詳細資訊:

  • 提取並顯示菜品的附加資訊(未來可能包括成分、來源、卡路里和口味)。

3、多語言與標籤支援(開發中):

  • 計劃支援多語言選單解析,並新增標籤(如辣味、素食、純素等),提供基於標籤的過濾功能。(@小互 AI)

03 有態度的觀點

1、Perplexity 增長負責人:創始人的最大錯誤是假設使用者痛點

近日,播客 20VC 採訪了 Perplexity 的增長負責人 Raman Malik。

Raman Malik 在採訪時提到:「創始人的最大錯誤:假設使用者痛點,而實際上這些痛點並不存在。」

Raman 強調,必須透過資料和使用者反饋來驗證假設,而不是簡單的憑空猜測使用者需求。產品增長的過程中,避免陷入這種誤區是非常重要的。

另外,Raman 在採訪中表示,在 AI 公司與那些對 AI 不感興趣的新觀眾進行定位時,他們需要你抽象掉整個 AI 搜尋引擎的概念,直接傳達價值:立刻獲得答案,並附有可靠來源。(@APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章