AI 語音獨角獸 ElevenLabs C 輪融資估值超 30 億美元;港科大 Llasa TTS:15 秒聲音克隆支援中英雙語

RTE开发者社区發表於2025-01-26

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、Llasa TTS:文字到語音(TTS)模型,支援中英雙語生成

Llasa TTS 是香港科技大學開發的一款基於 LLaMA 微調的文字到語音(TTS)模型,支援中英雙語生成。

不僅支援中英文的文字轉語音功能,還支援語音克隆,只需 15S 的聲音素材即可完美復刻,還能克隆目標語音的情感特色。

模型訓練使用了 250,000 小時的中英雙語語音資料,與傳統的 TTS 模型相比,Llasa 在語音自然性、情感表達以及風格匹配上都有顯著提升。

不僅能從純文字生成語音,還支援透過語音樣例提示生成具有類似風格和情感的語音,表現力極其出色。無論是為語音助手生成自然對話,還是用於配音和個性化語音場景,Llasa 都是一個不錯的選擇。(@ 開源星探)

2、ByteDance Research 影片理解大模型「眼鏡猴」正式釋出

最近,ByteDance Research 的影片理解大模型 眼鏡猴(Tarsier)迎來了巨大更新,釋出了第二代模型 Tarsier2 及相關技術報告。研究團隊此前釋出的 Tarsier-7B/34B 在影片描述領域已經是 最強開源模型 ,僅次於閉源模型 Gemini-1.5-Pro 和 GPT-4o。

可以看到,Tarsier2 不僅對於影片中 人物動作 捕捉得細緻入微(如小嶽嶽追車、跪地),還可以充分結合影片中的 字幕資訊 ,從而進一步分析人物的動機 / 心理,理解人物關係和情節發展。除此之外,Tarsier 最擅長的影片描述任務自然也不在話下。

無論是真人還是動畫、橫屏還是豎屏、多場景還是多鏡頭,Tarsier2 總是能敏銳地捕捉影片中的核心 視覺元素及動態事件 ,使用簡練的語言表述出來,並且很少產生幻覺。(@ 機器之心)

3、J-Moshi:首個日語全雙工語音對話系統

https://github.com/nu-dialogue/j-moshi

一、J-Moshi 是日語中第一個全雙工(同時雙向)語音對話系統。它具有以下特點:

  • 像人類一樣同時「說」和「聽」

  • 模型尺寸為 7B,重量輕

  • 基於 Kyutai Labs 開發的 Moshi 構建

二、系統主要特點:

  • 可以進行實時語音互動

  • 保持對話的連續性

  • 支援自然同步和重疊

三、技術特點:

  • 採用多流 TTS 技術的自然語音合成

  • 利用大規模日語口語對話資料進行學習

  • J-Moshi-ext 還利用合成語音資料來提高效能

四、開發背景:

  • 名古屋大學資訊學研究生院開發

  • 獲得 JST Moonshot 研發專案的支援

  • 與愛信合作建立對話語料庫

該系統計劃在 2025 年 NLP 會議上展示,目前程式碼已在 GitHub 上提供。(@ チャエン | デジライズ CEO@X)

4、xAI 為 iOS 應用開發語音模式,採用 Grok 和 ElevenLabs 模型

xAI 正在為其 iOS 獨立 Grok 應用開發語音模式,該模式由其自家的語音模型以及來自 11 Labs 的模型提供支援。但此功能仍隱藏在功能標誌後面,對公眾不可用。據報導,提示欄上將有新的語音模式圖示,這將開啟一個全新的檢視以啟動語音連線。中間的按鈕用作靜音,同時也指示連線狀態。

將語音模式選擇器,使用者可以在 Grok 語音或 11 Labs 的模型之間切換。還有多個語音可供選擇。到目前為止,有四種不同的選項。除此之外,搜尋切換提示 Grok 語音模式也將能夠訪問實時資料。

該功能本身尚未啟用,其釋出形式尚不明確。但這對 xAI 來說是一個非常有趣的舉措。考慮到這款應用做得很好,增加語音模式將極大地提升該應用的利用率,尤其是在即將推出的 Grok 3 版本中。(@TestingCatalog)

5、AI 語音獨角獸 ElevenLabs 完成 2.5 億美元 C 輪融資,ARR 達 9000 萬美元

據多個訊息源透露,專注於 AI 語音合成技術的創業公司 ElevenLabs 已完成 2.5 億美元 C 輪融資,估值達到 30-33 億美元。本輪融資由 ICONIQ Growth 領投,原有投資方 Andreessen Horowitz 可能跟投。這輪融資較一年前的 B 輪融資估值翻了三倍。

ElevenLabs 成立於 2022 年,由前 Palantir 員工 Mati Staniszewski 和前 Google 員工 Piotr Dabkowski 共同創立。公司主要提供 AI 語音克隆、配音和文字轉語音等技術服務,透過 API 形式供企業呼叫。目前其客戶包括 Synthesia、華盛頓郵報、HarperCollins 和貝塔斯曼等知名企業。

據悉,ElevenLabs 的年度經常性收入(ARR)已從 2023 年的 2500 萬美元增長至約 9000 萬美元。本輪融資後,公司估值與收入的倍數約為 37 倍,相比其他增長最快的生成式 AI 公司 50 倍的估值倍數略顯保守。(@Saasverse)

02 有亮點的產品

1、商湯 Vimi 相機改名顯演包 APP 已在各個應用商店正式上線

商湯科技旗下的 Vimi 相機更名為顯演包 APP,專為創意內容創作者設計,具備 AI 表演功能和活躍的創意社群。使用者可透過 AI 角色扮演、變聲器與其他創作者互動,上傳影片使圖片動起來。

顯演包 APP 是為創意內容創作者設計的 AI 表演應用,具備強大的生成功能。除此之外,使用者可利用 AI 變聲器和角色扮演功能,輕鬆演繹經典角色,豐富創作體驗。Vimi 大模型還支援多種驅動方式,使用者只需上傳圖片即可生成數字分身和不同風格的影片。(@AIbase 基地)

2、一張照片生成拜年影片!百度推出「飛帖賀新春」微信小程式功能

近日,百度智慧雲曦靈數字人推出了一項創新功能——「飛帖賀新春」微信小程式,為傳統拜年習俗注入了新的科技活力。這一功能在春節期間免費向公眾開放,使用者只需上傳一張照片,即可快速生成個性化的數字人拜年影片。

「飛帖拜年」源自唐宋年間文人雅士之間的一種拜年習俗,他們將祝福語刻在竹木上互相投遞。如今,百度智慧雲曦靈數字人藉助先進的 AI 技術,讓這一古老習俗煥發出新的生機。透過「照片數字人影片合成」技術,曦靈小程式利用大模型影像識別演算法,為面部關鍵特徵構建初始模型,並透過大量頭部動作和麵部資料訓練動作驅動演算法,使數字人面部動作更加自然。同時,曦靈還採用了先進的唇形驅動演算法,確保數字人說話時唇形與音訊完全同步,讓拜年影片更加逼真。

百度智慧雲曦靈作為全模態應用的數字人平臺,致力於為企業提供高可用、高價效比的數字人克隆與應用產品,支援影片創作、對話互動、直播等全場景應用。透過百度在數字人技術領域的多年積累,結合大模型的能力,曦靈數字人不僅具備高效的生成能力和高度逼真的外觀,還擁有智慧、自然的互動能力。在 2D 數字人方面,曦靈可透過照片或影片快速克隆人像,適用於直播、影片、對話等多種場景。

此外,曦靈還率先在國內推出文生 3D 超寫實數字人應用平臺,僅需輸入一句話,5 分鐘即可生成超寫實 3D 數字人,並支援無門檻修改。(@AIbase 基地)

03 有態度的觀點

1、DeepMind CEO:以現在的標準,實現真正的 AGI 至少需要 5 年

近日,Google DeepMind CEO Demis Hassabis 接受金融時報採訪,其表示按目前的標準,實現真正的 AGI 還需要 5 到 10 年。Demis Hassabis 提到,在 DeepMind 的過去 15 到 20 年中,一直堅持一個定義:AGI 是一個能夠展現出人類所有認知能力的系統。同時他分析表示,人類大腦是目前在宇宙中發現的唯一一個具有通用智慧的例子,所以如果說一個系統有通用智慧,那它就應該能做到人類大腦能展現的所有事情。隨後 Demis Hassabis 預測,按上述標準來看,實現真正的 AGI 還需要 5 到 10 年時間,並且他認為可能還缺少一兩個關鍵性的突破。(@APPSO)

2、OpenAI 首席產品官表示:2025 年是 AI 智慧體之年

在瑞士達沃斯舉行的論壇上,OpenAI 首席產品官凱文・韋爾(Kevin Weil)表示,我們正處於人工智慧代理的邊緣。他預測,到 2025 年,ChatGPT 將不僅僅是一個可以回答各種問題的智慧工具,而是能夠在現實世界中為使用者完成具體任務的「智慧助手」。

韋爾強調,人工智慧代理將在未來很快能夠處理許多日常瑣事,這些事情往往讓人感到煩惱,比如填寫表格、預訂餐廳等。他堅信,這種技術的進步是毋庸置疑的,使用者將會體驗到前所未有的便利。

與此同時,LinkedIn 執行長瑞安・羅斯蘭斯基(Ryan Roslansky)指出,人工智慧正在不斷改變人們在職場上所需的技能。他提到,自 2015 年以來,所有工作所需的技能平均變化了 25%,這表明人工智慧的影響正在加速,並且這種趨勢將在 21 世紀的剩餘時間中繼續加強。(@AIbase 基地)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章