語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報

RTE开发者社区發表於2024-10-08

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、語音生成 AI 公司 ElevenLabs 新一輪融資估值達 30 億美元

據訊息稱,專注於為音訊應用開發 AI 工具的初創公司 ElevenLabs,正在與現有及新投資者洽談新一輪融資,估值可能高達 30 億美元。這家成立僅兩年的公司,專注於為有聲讀物生成合成聲音,併為影片提供實時語言配音。

雖然谷歌的 Gemini 和 OpenAI 都推出了自己的語音模型,但這兩家巨頭的產品尚未達到 ElevenLabs 那樣的語音克隆能力。其他競爭者包括 Murf、Tavus、Resemble AI、Respeecher 和 Lovo 等公司,它們也在爭奪合成語音生成市場的份額。

2、5 秒內快速生成、直出工業級 PBR 資產,三維擴散模型 3DTopia-XL 開源

上海人工智慧實驗室等聯合釋出了一款名為 3DTopia-XL 的三維擴散模型,該模型能夠快速從圖片或文字描述生成具有物理渲染材質的高質量三維數字資產。3DTopia-XL 採用了一種新的三維表徵技術 PrimX 和基於 DiT 的生成架構,能夠在 5 秒內生成超寫實的三維模型。

這項技術關鍵創新在於 PrimX ,它將三維物體表示為一系列符號距離場的集合,每個集合僅對區域性的幾何、紋理和材質進行建模,從而高效地表示三維資料。3DTopia-XL 的引數規模達到 10 億,但比之前的模型更小,執行時只需要 6GB 的視訊記憶體。模型的生成結果可以無縫匯入主流遊戲引擎和工業設計軟體,如 Blender 和 UE ,用於渲染和進一步的處理。(@ 新智訊)

3、Meta 證實:Ray-Ban 眼鏡拍攝的照片和影片會被用於訓練 AI 模型

據外媒報導,Meta 公司證實,使用者用 Ray-Ban Meta 智慧眼鏡拍攝的照片和影片可能會被用於訓練其 AI 模型。Meta 政策傳播經理 Emil Vazquez 在一封電子郵件中表示:「在多模態 AI 可用的地區(目前為美國和加拿大),與 Meta AI 共享的影像和影片可能會被用於改進我們的 AI 模型,這符合我們的隱私政策。」

此前,Meta 一位發言人澄清稱,只要使用者不將照片和影片提交給 AI,這些資料就不會被用於訓練 Meta 的 AI 模型。然而,一旦使用者要求 Meta AI 分析這些照片,它們就會受到不同的政策約束。換句話說,唯一避免這種情況的方法是不使用 Meta 的多模態 AI 功能。這一做法引發了人們的擔憂,因為 Ray-Ban Meta 使用者可能並不瞭解他們正在向 Meta 提供大量影像用於訓練其 AI 模型,這些影像可能包含他們的家庭內部、親人或個人檔案等資訊。(@IT 之家)

4、英偉達推出 ACE 虛幻引擎 5 外掛,打造逼真數字人

10 月 7 日,英偉達 ACE(Avatar Cloud Engine)是一套可幫助開發者利用生成式 AI 建立栩栩如生的虛擬數字人物的技術。在 ACE 的加持下,普通的非玩家角色(NPC)可以搖身一變,成為能夠發起對話或引導玩家找到新任務的動態互動式角色。在 2024 年西雅圖虛幻節上,英偉達釋出了適用於 Nvidia ACE 的新虛幻引擎 5 裝置端外掛,可以讓開發者更輕鬆地在 Windows PC 上構建和部署 AI 驅動的 MetaHuman 角色。

值得一提的是,ACE 技術不僅能生成逼真的面部動畫,還具備強大的上下文理解能力。藉助檢索增強生成(RAG)技術,數字人能夠根據對話歷史和上下文做出更自然、更符合邏輯的反應。此次與虛幻引擎 5 的整合,使得開發者能夠更加便捷地將 ACE 技術應用於遊戲開發中。英偉達還提供了示例專案,為開發者提供了一個清晰的指引,幫助他們快速上手。(@IT 之家)

5、很好也很貴?OpenAI Realtime API 一手體驗和 Voice AI 的未來 |播客《編碼人聲》

OpenAI Realtime API 釋出了,你準備好了麼?

Realtime API 讓開發者可以構建近乎實時的「語音到語音」的體驗,無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換,實現更流暢的打斷體驗,還可以無縫切換多種語言。

本期節目請來了第一批接入並體驗 OpenAI Realtime API 的開發者,為你解析背後的技術和開發者的新機會。

兩位嘉賓分別是在實時多模態 AI 領域深耕多年的專家——開源實時多模態 AI 框架 TEN Framework 的聯合發起人 Plutoless ,以及拾象科技的 AI Research Lead 鍾凱祺 Cage。

節目深度分析了 OpenAI Realtime API 的優勢與挑戰,討論了實時多模態 AI 如何實現語音進、語音出的端到端互動,大幅降低延遲,提升使用者體驗,使得與 AI 的對話更加自然流暢。也談到了目前存在的高昂成本和技術整合的複雜性,以及這些問題對開發者意味著什麼。

此外,嘉賓們還深入探討了實時多模態 AI 的定義,什麼才是真正的實時多模態?他們分享了自己在實踐中遇到的挑戰和最佳實踐,探討了在 OpenAI Realtime API 的背景下,開發者如何抓住新的機遇。他們也展望了 AI 在未來實時網際網路中的角色,討論了 AI 安全、人與 AI 的協作、多模態互動等話題。(@ 編碼人聲)

02 有態度的觀點

1、李飛飛:我不知道什麼是 AGI

在週四的 Credo AI 負責任的人工智慧領導峰會上,世界著名研究員常被稱為「人工智慧教母」的李飛飛表示,她也不知道什麼是 AGI。在其他時刻,李飛飛討論了她在現代人工智慧誕生中的角色,社會應該如何保護自己免受先進人工智慧模型的影響,以及她為什麼認為她的新獨角獸初創公司 World Labs 將改變一切。

但當被問及她對「人工智慧奇點」的看法時,李和我們其他人一樣感到困惑。「我來自人工智慧學術界,接受過更嚴格和基於證據的方法的教育,所以我並不太清楚這些詞的意思,」李在舊金山一個擠滿人的房間裡說,旁邊是一扇俯瞰金門大橋的大窗戶。「坦率地說,我甚至不知道 AGI 是什麼意思。人們說你見到它就知道,我想我還沒有見過。事實上,我並不花太多時間思考這些詞,因為我認為還有很多更重要的事情要做……」(@Z Potentials)

2、Cursor 創始團隊最新訪談:如果 Github 整合 o1,Cursor 可能要倒閉了

Cursor 是一款基於 VS Code 的程式碼編輯器,它為 AI 輔助程式設計新增了許多強大的功能,吸引了程式設計界和人工智慧界的關注和興奮。近日,知名播客節目主持人 Lex Fridman 與四位 Cursor 團隊成員進行了一場技術對談,揭示了這個團隊在做的以及未來要做的探索。其中有這麼一段對話:

問:最近有傳言說,GitHub Copilot 可能會以某種方式整合 o1,有一些評論說:「這是否意味著 Cursor 完了?」你們怎麼看呢?

答:是時候關停 Cursor 了。沒錯 Cursor 是該倒閉了。

問:所以你們真的覺得是時候把 Cursor 關了嗎?

答:我認為這個領域與過去 2010 年左右的軟體領域有些不同,因為這裡的上限真的非常高。我認為再等 3-4 年,那時最好的 AI 程式設計產品可能比現在的要實用得多。

當然,你可以談論護城河、品牌、優勢等等,但如果你在產品創新上止步不前,就會被甩在後面。這對初創公司和想進入這個市場的人來說都是好訊息,因為只要你能打造出更好的產品,就有機會超越那些擁有大量使用者的競爭者。因此,我認為接下來的幾年關鍵在於打造最好的產品和系統,不僅包括模型引擎的改進,還包括最佳化編輯體驗。

沒錯,我認為 Cursor 相比其他產品的額外價值不僅僅在於能快速整合 o1 這樣的新模型。更重要的是,Cursor 的定製模型在各個方面提供了深入支援,這些模型可能在你不知情的情況下默默發揮作用,每個功能都為使用者體驗進行了精心設計。(@ 機器之心)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章