Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、MaskGCT:Amphion 系統推出開源 TTS 大模型,5 秒語音實現跨語言聲音克隆新突破
近日,香港中文大學(深圳)聯手趣丸科技推出了新一代大規模聲音克隆 TTS 模型——MaskGCT。該模型在包含 10 萬小時多語言資料的 Emilia 資料集上進行訓練,展現出超自然的語音克隆、風格遷移以及跨語種生成能力,同時保持了較強的穩定性。MaskGCT 已在香港中文大學(深圳)與上海人工智慧實驗室聯合開發的開源系統 Amphion 釋出。
據介紹,MaskGCT 在三個 TTS 基準資料集上都達到了 SOTA 效果,效能超過當前最先進的同類模型。
相較於現有的 TTS 大模型,MaskGCT 在語音的相似度、質量和穩定性上進一步突破,尤其在語音相似度方面處於絕對領先地位。顯著特點如下:
秒級超逼真的聲音克隆:提供 3 秒音訊樣本即可復刻人類、動漫、「耳邊細語」等任意音色,且能完整復刻語調、風格和情感。更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支援透過編輯文字編輯語音,並保持韻律、音色等方面的極度一致。高質量多語種語音資料集:訓練於香港中文大學(深圳)和趣丸科技等機構聯合推出的 10 萬小時資料集 Emilia,是全球最大且最為多樣的高質量多語種語音資料集之一,精通中英日韓法德 6 種語言的跨語種合成。( @Amphion)
2、ElevenLabs 僱傭收購稍後閱讀 app Omnivore
語音合成技術見長的人工智慧公司 ElevenLabs 最近僱傭收購了開源待讀應用程式 Omnivore 背後的團隊。
在一篇部落格文章中,Omnivore 的聯合創始人 Jackson Harper 和 Hongbo Wu 表示,加入 ElevenLabs 將為他們提供「一個更大的平臺,以便為嚴肅讀者創造無障礙且富有吸引力的體驗」。
Harper 和 Wu 寫道:「ElevenLabs 致力於開發者社群,Omnivore 的程式碼庫將保持 100% 開源,供所有使用者使用。」這一決定確保更廣泛的開發社群能夠繼續發展和改進 Omnivore 的技術。
Omnivore 的使用者可以在 11 月 16 日前匯出他們的資料,屆時這些資料將被刪除。
Harper 和 Wu 於 2021 年創辦了 Omnivore,旨在為他們所稱的「熱愛文字的人」提供一個「稍後閱讀」的解決方案。Omnivore 是一個功能齊全的平臺,具備高亮顯示、PDF 支援和離線功能,提供網站、iOS 和 Android 應用程式,還包括適用於所有主流網路瀏覽器的擴充套件。Omnivore 還提供由 ElevenLabs 語音生成 API 支援的文字轉語音功能。
Harper 和 Wu 提到:「我們透過將 ElevenLabs 超逼真的人工智慧語音整合至 Omnivore,深入瞭解了他們的技術。」很快,利用 ElevenLabs 的聲音來收聽文章和書籍成為了我們在 Omnivore 中最受歡迎的功能之一。
在轉投 ElevenLabs 後,Harper 和 Wu 表示他們將把開發精力集中於 ElevenLabs 自有的閱讀器應用程式 ElevenReader 上。ElevenReader 於今年早些時候推出,使用者可以上傳文章、PDF 檔案和電子書,並透過不同的語言和聲音(如朱迪·加蘭和詹姆斯·迪恩等演員的聲音)進行收聽。
ElevenLabs 在今年早些時候從包括 Andreessen Horowitz 在內的投資者處籌集了 8000 萬美元,成為一家獨角獸公司。據 TechCrunch 本月報導,該公司正在與投資者接洽新一輪融資事宜,預計該輪融資可能使公司估值達到約 30 億美元。(@TechCrunch)
3、神秘模型「小熊貓」一夜刷屏:排名超 Flux、Midjourney
「red_panda」神秘模型登頂文生圖競技場,引發廣泛猜測。其生成效果優異,勝率高達 79%。
網友對其來源眾說紛紜,猜測包括 Midjourney V7、中杯 Stable Diffusion 3.5、甚至 OpenAI 的 DALL-E 4,以及中國廠商的可能性。目前,red_panda 仍佔據榜首,備受關注。(@IT 之家)
4、GitHub Copilot 進駐 Windows Terminal 和蘋果 Xcode,助力開發者效率提升
在 GitHub Universe 大會上,GitHub 宣佈了備受期待的 GitHub Copilot 重大更新,該智慧程式碼助手將登陸 Windows Terminal 和 Xcode 開發環境。
首先,GitHub Copilot 將登陸 Windows Terminal。透過與 Windows Terminal Canary 版本中的終端聊天功能結合,開發者可以直接在終端內獲得來自 Copilot 的命令建議和解釋。此功能適用於所有 Copilot 個人版、商業版和企業版使用者。
同時,GitHub Copilot for Xcode 也迎來了公開預覽版。這將讓使用 Xcode 的蘋果開發者享受與其他整合開發環境(IDE)使用者相同的智慧編碼輔助功能。在公開預覽版中,Copilot for Xcode 提供了以下特性:
程式碼補全:Copilot 無縫嵌入 Xcode,在你鍵入程式碼時提供實時建議。多語言支援:支援 Swift 和 Objective-C 等蘋果生態系統常用程式語言,確保所有開發者都能受益於 Copilot 的智慧輔助。多行建議:預設情況下,Copilot 會顯示單行建議。按住 Option 鍵並按下 Option + Tab 鍵,可以接受完整的多行建議。內容過濾:Copilot 提供高階過濾器,可以篩除有害或不恰當的內容建議,確保所有程式碼符合專業標準並營造安全、尊重的編碼環境。阻止匹配公共程式碼的程式碼塊建議:你可以選擇啟用重複檢測過濾器,該過濾器會阻止與 GitHub 上的公共程式碼相匹配的程式碼塊建議。
除了 Windows Terminal 和 Xcode 支援之外,GitHub 還為 Copilot 帶來了其他新功能。全新的 Copilot 訪問必應功能使 VS Code、Visual Studio 和 GitHub.com 中的 Copilot 聊天室支援網路搜尋。開發者可以透過此功能輕鬆討論最近發生的事件、新發展、趨勢和技術,例如詢問「Typescript 的最新版本是什麼?」或「Node.js 下次重大更新何時釋出?」目前,該功能僅對 Copilot 商業版和企業版使用者開放。(@IT 之家)
5、騰訊推出 AI 筆記,可搜公眾號文章
騰訊近日推出 ima copilot AI 工具,可以搜尋微信公眾號文章中的內容。
在 ima copilot 的搜尋框內鍵入搜尋關鍵字,即可引用一些微信公眾號的文章生成回答,支援深度模式、腦圖生成等功能。除了搜尋想要的內容,ima copilot 也能作為 AI 瀏覽器,總結網站內容。ima copilot 也支援 500 頁和 100MB 內的本地文件總結。
除了搜尋內容,使用者還可以用 ima copilot 生成 1GB 的專屬知識庫,可以上傳本地文件和網頁。
ima copilot 還支援 AI 筆記功能,在完成 AI 搜尋、總結後,可以將生成的結果匯入筆記之中,進行進一步 AI 寫作和解讀。(@APPSO)
02 有態度的觀點
1、Anthropic CEO:強大的 AI 將在 21 世紀為我們帶來什麼?
Anthropic CEO Dario Amodei 預測,憑藉強大的 AI 的力量,生物學和醫學將加速進步,在未來 5-10 年內實現原本需要 50-100 年的成果。他稱這一現象為「壓縮的 21 世紀」,即 AI 能夠讓人類在幾年內取得整整一個世紀的生物醫學成就。
Amodei 還認為,若 AI 的邏輯被推向極致,最終將引導人類走向法治、民主和啟蒙價值觀。雖然這一程序並非必然,但從統計趨勢來看,AI 將加速人類正向這些目標前進的步伐,讓方向更加清晰,目標更加明確。
相較於在真實神經網路上的實驗,人工神經網路的實驗要容易得多,因為前者通常需要對動物大腦進行解剖。因此,可解釋性可能會成為深入理解神經科學的有力工具。同時,AI 在智慧系統訓練方面的知識應該能夠推動神經科學領域的變革,儘管目前尚不確定這一變革是否已經發生。(@Z potentials)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 國產最強語音大模型誕生,MaskGCT宣佈開源,聲音效果媲美人類大模型GC
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 5 秒克隆聲音「GitHub 熱點速覽 v.21.34」Github
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- TTS 擂臺: 文字轉語音模型的自由搏擊場TTS模型
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 中國 10 億引數規模以上大模型數量已超 100 個;GitHub 推出程式碼自動修復工具丨 RTE 開發者日報 Vol.172大模型Github開發者日報
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報