語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、語音生成 AI 公司 ElevenLabs 新一輪融資估值達 30 億美元
據訊息稱,專注於為音訊應用開發 AI 工具的初創公司 ElevenLabs,正在與現有及新投資者洽談新一輪融資,估值可能高達 30 億美元。這家成立僅兩年的公司,專注於為有聲讀物生成合成聲音,併為影片提供實時語言配音。
雖然谷歌的 Gemini 和 OpenAI 都推出了自己的語音模型,但這兩家巨頭的產品尚未達到 ElevenLabs 那樣的語音克隆能力。其他競爭者包括 Murf、Tavus、Resemble AI、Respeecher 和 Lovo 等公司,它們也在爭奪合成語音生成市場的份額。
2、5 秒內快速生成、直出工業級 PBR 資產,三維擴散模型 3DTopia-XL 開源
上海人工智慧實驗室等聯合釋出了一款名為 3DTopia-XL 的三維擴散模型,該模型能夠快速從圖片或文字描述生成具有物理渲染材質的高質量三維數字資產。3DTopia-XL 採用了一種新的三維表徵技術 PrimX 和基於 DiT 的生成架構,能夠在 5 秒內生成超寫實的三維模型。
這項技術關鍵創新在於 PrimX ,它將三維物體表示為一系列符號距離場的集合,每個集合僅對區域性的幾何、紋理和材質進行建模,從而高效地表示三維資料。3DTopia-XL 的引數規模達到 10 億,但比之前的模型更小,執行時只需要 6GB 的視訊記憶體。模型的生成結果可以無縫匯入主流遊戲引擎和工業設計軟體,如 Blender 和 UE ,用於渲染和進一步的處理。(@ 新智訊)
3、Meta 證實:Ray-Ban 眼鏡拍攝的照片和影片會被用於訓練 AI 模型
據外媒報導,Meta 公司證實,使用者用 Ray-Ban Meta 智慧眼鏡拍攝的照片和影片可能會被用於訓練其 AI 模型。Meta 政策傳播經理 Emil Vazquez 在一封電子郵件中表示:「在多模態 AI 可用的地區(目前為美國和加拿大),與 Meta AI 共享的影像和影片可能會被用於改進我們的 AI 模型,這符合我們的隱私政策。」
此前,Meta 一位發言人澄清稱,只要使用者不將照片和影片提交給 AI,這些資料就不會被用於訓練 Meta 的 AI 模型。然而,一旦使用者要求 Meta AI 分析這些照片,它們就會受到不同的政策約束。換句話說,唯一避免這種情況的方法是不使用 Meta 的多模態 AI 功能。這一做法引發了人們的擔憂,因為 Ray-Ban Meta 使用者可能並不瞭解他們正在向 Meta 提供大量影像用於訓練其 AI 模型,這些影像可能包含他們的家庭內部、親人或個人檔案等資訊。(@IT 之家)
4、英偉達推出 ACE 虛幻引擎 5 外掛,打造逼真數字人
10 月 7 日,英偉達 ACE(Avatar Cloud Engine)是一套可幫助開發者利用生成式 AI 建立栩栩如生的虛擬數字人物的技術。在 ACE 的加持下,普通的非玩家角色(NPC)可以搖身一變,成為能夠發起對話或引導玩家找到新任務的動態互動式角色。在 2024 年西雅圖虛幻節上,英偉達釋出了適用於 Nvidia ACE 的新虛幻引擎 5 裝置端外掛,可以讓開發者更輕鬆地在 Windows PC 上構建和部署 AI 驅動的 MetaHuman 角色。
值得一提的是,ACE 技術不僅能生成逼真的面部動畫,還具備強大的上下文理解能力。藉助檢索增強生成(RAG)技術,數字人能夠根據對話歷史和上下文做出更自然、更符合邏輯的反應。此次與虛幻引擎 5 的整合,使得開發者能夠更加便捷地將 ACE 技術應用於遊戲開發中。英偉達還提供了示例專案,為開發者提供了一個清晰的指引,幫助他們快速上手。(@IT 之家)
5、很好也很貴?OpenAI Realtime API 一手體驗和 Voice AI 的未來 |播客《編碼人聲》
OpenAI Realtime API 釋出了,你準備好了麼?
Realtime API 讓開發者可以構建近乎實時的「語音到語音」的體驗,無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換,實現更流暢的打斷體驗,還可以無縫切換多種語言。
本期節目請來了第一批接入並體驗 OpenAI Realtime API 的開發者,為你解析背後的技術和開發者的新機會。
兩位嘉賓分別是在實時多模態 AI 領域深耕多年的專家——開源實時多模態 AI 框架 TEN Framework 的聯合發起人 Plutoless ,以及拾象科技的 AI Research Lead 鍾凱祺 Cage。
節目深度分析了 OpenAI Realtime API 的優勢與挑戰,討論了實時多模態 AI 如何實現語音進、語音出的端到端互動,大幅降低延遲,提升使用者體驗,使得與 AI 的對話更加自然流暢。也談到了目前存在的高昂成本和技術整合的複雜性,以及這些問題對開發者意味著什麼。
此外,嘉賓們還深入探討了實時多模態 AI 的定義,什麼才是真正的實時多模態?他們分享了自己在實踐中遇到的挑戰和最佳實踐,探討了在 OpenAI Realtime API 的背景下,開發者如何抓住新的機遇。他們也展望了 AI 在未來實時網際網路中的角色,討論了 AI 安全、人與 AI 的協作、多模態互動等話題。(@ 編碼人聲)
02 有態度的觀點
1、李飛飛:我不知道什麼是 AGI
在週四的 Credo AI 負責任的人工智慧領導峰會上,世界著名研究員常被稱為「人工智慧教母」的李飛飛表示,她也不知道什麼是 AGI。在其他時刻,李飛飛討論了她在現代人工智慧誕生中的角色,社會應該如何保護自己免受先進人工智慧模型的影響,以及她為什麼認為她的新獨角獸初創公司 World Labs 將改變一切。
但當被問及她對「人工智慧奇點」的看法時,李和我們其他人一樣感到困惑。「我來自人工智慧學術界,接受過更嚴格和基於證據的方法的教育,所以我並不太清楚這些詞的意思,」李在舊金山一個擠滿人的房間裡說,旁邊是一扇俯瞰金門大橋的大窗戶。「坦率地說,我甚至不知道 AGI 是什麼意思。人們說你見到它就知道,我想我還沒有見過。事實上,我並不花太多時間思考這些詞,因為我認為還有很多更重要的事情要做……」(@Z Potentials)
2、Cursor 創始團隊最新訪談:如果 Github 整合 o1,Cursor 可能要倒閉了
Cursor 是一款基於 VS Code 的程式碼編輯器,它為 AI 輔助程式設計新增了許多強大的功能,吸引了程式設計界和人工智慧界的關注和興奮。近日,知名播客節目主持人 Lex Fridman 與四位 Cursor 團隊成員進行了一場技術對談,揭示了這個團隊在做的以及未來要做的探索。其中有這麼一段對話:
問:最近有傳言說,GitHub Copilot 可能會以某種方式整合 o1,有一些評論說:「這是否意味著 Cursor 完了?」你們怎麼看呢?
答:是時候關停 Cursor 了。沒錯 Cursor 是該倒閉了。
問:所以你們真的覺得是時候把 Cursor 關了嗎?
答:我認為這個領域與過去 2010 年左右的軟體領域有些不同,因為這裡的上限真的非常高。我認為再等 3-4 年,那時最好的 AI 程式設計產品可能比現在的要實用得多。
當然,你可以談論護城河、品牌、優勢等等,但如果你在產品創新上止步不前,就會被甩在後面。這對初創公司和想進入這個市場的人來說都是好訊息,因為只要你能打造出更好的產品,就有機會超越那些擁有大量使用者的競爭者。因此,我認為接下來的幾年關鍵在於打造最好的產品和系統,不僅包括模型引擎的改進,還包括最佳化編輯體驗。
沒錯,我認為 Cursor 相比其他產品的額外價值不僅僅在於能快速整合 o1 這樣的新模型。更重要的是,Cursor 的定製模型在各個方面提供了深入支援,這些模型可能在你不知情的情況下默默發揮作用,每個功能都為使用者體驗進行了精心設計。(@ 機器之心)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 很好也很貴?OpenAI Realtime API 一手體驗和 Voice AI 的未來 |播客《編碼人聲》OpenAIAPI
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 約會應用Tinder母公司將上市:估值達30億美元
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 分析師稱Waymo估值將達700億美元,成為全球估值最高的汽車公司
- Docker 獲 7500 萬美元融資,估值達 13 億美元|航海日誌 Vol.24Docker
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- New Relic:再次融資8000萬美元 估值達7.5億美元
- 騰訊音樂IPO:估值或超300億美元 但成本過高難盈利
- 音樂識別應用Shazam融資3000萬 估值超10億美元
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 估值300億美元,Airbnb的成功祕訣是……AI
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 閃購網站Gilt欲2.5億美元出售:估值最高達11億美元網站
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- 中國科技創業公司IPO總估值達上千億美元創業
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 中美科技戰,英國受益!騰訊收購英國AI公司股權,估值達1億美元AI
- 14家超過10億美元估值的大資料公司大資料
- 手遊《英雄戰爭》開發商上市,估值達到19億美元
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Dealroom&Tech Nation:估值超過10億美元英國科技公司數量達100家OOM
- Airbnb證實融資15億美元估值升至255億美元AI
- 如何去一家估值10億美元的創業公司工作?創業
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報