AI 語音獨角獸 ElevenLabs C 輪融資估值超 30 億美元;港科大 Llasa TTS:15 秒聲音克隆支援中英雙語
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、Llasa TTS:文字到語音(TTS)模型,支援中英雙語生成
Llasa TTS 是香港科技大學開發的一款基於 LLaMA 微調的文字到語音(TTS)模型,支援中英雙語生成。
不僅支援中英文的文字轉語音功能,還支援語音克隆,只需 15S 的聲音素材即可完美復刻,還能克隆目標語音的情感特色。
模型訓練使用了 250,000 小時的中英雙語語音資料,與傳統的 TTS 模型相比,Llasa 在語音自然性、情感表達以及風格匹配上都有顯著提升。
不僅能從純文字生成語音,還支援透過語音樣例提示生成具有類似風格和情感的語音,表現力極其出色。無論是為語音助手生成自然對話,還是用於配音和個性化語音場景,Llasa 都是一個不錯的選擇。(@ 開源星探)
2、ByteDance Research 影片理解大模型「眼鏡猴」正式釋出
最近,ByteDance Research 的影片理解大模型 眼鏡猴(Tarsier)迎來了巨大更新,釋出了第二代模型 Tarsier2 及相關技術報告。研究團隊此前釋出的 Tarsier-7B/34B 在影片描述領域已經是 最強開源模型 ,僅次於閉源模型 Gemini-1.5-Pro 和 GPT-4o。
可以看到,Tarsier2 不僅對於影片中 人物動作 捕捉得細緻入微(如小嶽嶽追車、跪地),還可以充分結合影片中的 字幕資訊 ,從而進一步分析人物的動機 / 心理,理解人物關係和情節發展。除此之外,Tarsier 最擅長的影片描述任務自然也不在話下。
無論是真人還是動畫、橫屏還是豎屏、多場景還是多鏡頭,Tarsier2 總是能敏銳地捕捉影片中的核心 視覺元素及動態事件 ,使用簡練的語言表述出來,並且很少產生幻覺。(@ 機器之心)
3、J-Moshi:首個日語全雙工語音對話系統
https://github.com/nu-dialogue/j-moshi
一、J-Moshi 是日語中第一個全雙工(同時雙向)語音對話系統。它具有以下特點:
像人類一樣同時「說」和「聽」
模型尺寸為 7B,重量輕
基於 Kyutai Labs 開發的 Moshi 構建
二、系統主要特點:
可以進行實時語音互動
保持對話的連續性
支援自然同步和重疊
三、技術特點:
採用多流 TTS 技術的自然語音合成
利用大規模日語口語對話資料進行學習
J-Moshi-ext 還利用合成語音資料來提高效能
四、開發背景:
名古屋大學資訊學研究生院開發
獲得 JST Moonshot 研發專案的支援
與愛信合作建立對話語料庫
該系統計劃在 2025 年 NLP 會議上展示,目前程式碼已在 GitHub 上提供。(@ チャエン | デジライズ CEO@X)
4、xAI 為 iOS 應用開發語音模式,採用 Grok 和 ElevenLabs 模型
xAI 正在為其 iOS 獨立 Grok 應用開發語音模式,該模式由其自家的語音模型以及來自 11 Labs 的模型提供支援。但此功能仍隱藏在功能標誌後面,對公眾不可用。據報導,提示欄上將有新的語音模式圖示,這將開啟一個全新的檢視以啟動語音連線。中間的按鈕用作靜音,同時也指示連線狀態。
將語音模式選擇器,使用者可以在 Grok 語音或 11 Labs 的模型之間切換。還有多個語音可供選擇。到目前為止,有四種不同的選項。除此之外,搜尋切換提示 Grok 語音模式也將能夠訪問實時資料。
該功能本身尚未啟用,其釋出形式尚不明確。但這對 xAI 來說是一個非常有趣的舉措。考慮到這款應用做得很好,增加語音模式將極大地提升該應用的利用率,尤其是在即將推出的 Grok 3 版本中。(@TestingCatalog)
5、AI 語音獨角獸 ElevenLabs 完成 2.5 億美元 C 輪融資,ARR 達 9000 萬美元
據多個訊息源透露,專注於 AI 語音合成技術的創業公司 ElevenLabs 已完成 2.5 億美元 C 輪融資,估值達到 30-33 億美元。本輪融資由 ICONIQ Growth 領投,原有投資方 Andreessen Horowitz 可能跟投。這輪融資較一年前的 B 輪融資估值翻了三倍。
ElevenLabs 成立於 2022 年,由前 Palantir 員工 Mati Staniszewski 和前 Google 員工 Piotr Dabkowski 共同創立。公司主要提供 AI 語音克隆、配音和文字轉語音等技術服務,透過 API 形式供企業呼叫。目前其客戶包括 Synthesia、華盛頓郵報、HarperCollins 和貝塔斯曼等知名企業。
據悉,ElevenLabs 的年度經常性收入(ARR)已從 2023 年的 2500 萬美元增長至約 9000 萬美元。本輪融資後,公司估值與收入的倍數約為 37 倍,相比其他增長最快的生成式 AI 公司 50 倍的估值倍數略顯保守。(@Saasverse)
02 有亮點的產品
1、商湯 Vimi 相機改名顯演包 APP 已在各個應用商店正式上線
商湯科技旗下的 Vimi 相機更名為顯演包 APP,專為創意內容創作者設計,具備 AI 表演功能和活躍的創意社群。使用者可透過 AI 角色扮演、變聲器與其他創作者互動,上傳影片使圖片動起來。
顯演包 APP 是為創意內容創作者設計的 AI 表演應用,具備強大的生成功能。除此之外,使用者可利用 AI 變聲器和角色扮演功能,輕鬆演繹經典角色,豐富創作體驗。Vimi 大模型還支援多種驅動方式,使用者只需上傳圖片即可生成數字分身和不同風格的影片。(@AIbase 基地)
2、一張照片生成拜年影片!百度推出「飛帖賀新春」微信小程式功能
近日,百度智慧雲曦靈數字人推出了一項創新功能——「飛帖賀新春」微信小程式,為傳統拜年習俗注入了新的科技活力。這一功能在春節期間免費向公眾開放,使用者只需上傳一張照片,即可快速生成個性化的數字人拜年影片。
「飛帖拜年」源自唐宋年間文人雅士之間的一種拜年習俗,他們將祝福語刻在竹木上互相投遞。如今,百度智慧雲曦靈數字人藉助先進的 AI 技術,讓這一古老習俗煥發出新的生機。透過「照片數字人影片合成」技術,曦靈小程式利用大模型影像識別演算法,為面部關鍵特徵構建初始模型,並透過大量頭部動作和麵部資料訓練動作驅動演算法,使數字人面部動作更加自然。同時,曦靈還採用了先進的唇形驅動演算法,確保數字人說話時唇形與音訊完全同步,讓拜年影片更加逼真。
百度智慧雲曦靈作為全模態應用的數字人平臺,致力於為企業提供高可用、高價效比的數字人克隆與應用產品,支援影片創作、對話互動、直播等全場景應用。透過百度在數字人技術領域的多年積累,結合大模型的能力,曦靈數字人不僅具備高效的生成能力和高度逼真的外觀,還擁有智慧、自然的互動能力。在 2D 數字人方面,曦靈可透過照片或影片快速克隆人像,適用於直播、影片、對話等多種場景。
此外,曦靈還率先在國內推出文生 3D 超寫實數字人應用平臺,僅需輸入一句話,5 分鐘即可生成超寫實 3D 數字人,並支援無門檻修改。(@AIbase 基地)
03 有態度的觀點
1、DeepMind CEO:以現在的標準,實現真正的 AGI 至少需要 5 年
近日,Google DeepMind CEO Demis Hassabis 接受金融時報採訪,其表示按目前的標準,實現真正的 AGI 還需要 5 到 10 年。Demis Hassabis 提到,在 DeepMind 的過去 15 到 20 年中,一直堅持一個定義:AGI 是一個能夠展現出人類所有認知能力的系統。同時他分析表示,人類大腦是目前在宇宙中發現的唯一一個具有通用智慧的例子,所以如果說一個系統有通用智慧,那它就應該能做到人類大腦能展現的所有事情。隨後 Demis Hassabis 預測,按上述標準來看,實現真正的 AGI 還需要 5 到 10 年時間,並且他認為可能還缺少一兩個關鍵性的突破。(@APPSO)
2、OpenAI 首席產品官表示:2025 年是 AI 智慧體之年
在瑞士達沃斯舉行的論壇上,OpenAI 首席產品官凱文・韋爾(Kevin Weil)表示,我們正處於人工智慧代理的邊緣。他預測,到 2025 年,ChatGPT 將不僅僅是一個可以回答各種問題的智慧工具,而是能夠在現實世界中為使用者完成具體任務的「智慧助手」。
韋爾強調,人工智慧代理將在未來很快能夠處理許多日常瑣事,這些事情往往讓人感到煩惱,比如填寫表格、預訂餐廳等。他堅信,這種技術的進步是毋庸置疑的,使用者將會體驗到前所未有的便利。
與此同時,LinkedIn 執行長瑞安・羅斯蘭斯基(Ryan Roslansky)指出,人工智慧正在不斷改變人們在職場上所需的技能。他提到,自 2015 年以來,所有工作所需的技能平均變化了 25%,這表明人工智慧的影響正在加速,並且這種趨勢將在 21 世紀的剩餘時間中繼續加強。(@AIbase 基地)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- AI獨角獸第四正規化再融2.3億美元,估值20億美元,思科聯想入股AI
- AI晶片獨角獸寒武紀新融資完成:估值逾20億美元,國家隊基金入場AI晶片
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- C# TTS-文字轉語音C#TTS
- F5-TTS語音克隆漢化整合包1016TTS
- 文字到語音(tts)TTS
- Coqui TTS合成語音UITTS
- UiPath獲E輪2.25億美元融資:估值102億美元成全球估值最高RPA企業UI
- 看見聲音的價值,AI獨角獸企業雲知聲開啟智享生活新時代AI
- AI文娛獨角獸Video++極鏈科技完成C1輪,5個月融資10.7億元AIIDE
- 曠視科技完成7.5億美元D輪融資,估值達40億美元
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢AI
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- “掌上超聲+AI”新賽道:Butterfly融2.5億美元晉級獨角獸,中國多家企業緊隨其後AI
- 用AI打個電話騙走22萬歐元,克隆你的語音只需5秒錄音AI
- 市場規模超 60 億美元,語音如何改變對話式 AI?AI
- 新火種AI|零到估值超十億,李開復如何8個月打造AI 2.0獨角獸?AI
- 從撥號上網到創立估值55億美元獨角獸,Transformer作者萬字訪談聊AI趨勢ORMAI
- 可觀測領域準獨角獸「駐雲科技」完成2億元新一輪融資
- Discord融資5億美元,估值飆漲至150億
- 優必選宣佈完成8.2億美元C輪融資, 估值50億美元后,我們專訪了CEO周劍
- Epic將展開新一輪融資 或使公司估值達170億美元
- 一文讀懂螞蟻集團:C輪融資估值已達1500億美元,如今價值幾何?
- “AI明星”地平線B輪融資6億美元!AI
- 語音的關鍵聲學特徵(語音情感特徵提取)特徵
- 5 秒克隆聲音「GitHub 熱點速覽 v.21.34」Github
- 科大訊飛:讓世界聽見AI的聲音AI
- 騰訊音樂即將赴美上市 估值300億美元
- 騰訊音樂IPO:估值或超300億美元 但成本過高難盈利
- 融資20億,坐擁全球首款物聯網AI晶片,這家AI獨角獸擬登科創板AI晶片
- VALL-EX下載介紹:只需3秒錄音,即可克隆你的聲音
- 耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘TTS
- 騰訊再投數字銀行Qonto,50億美元估值成法國第二大獨角獸