Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報

RTE开发者社区發表於2024-10-30

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@鮑勃

01有話題的新聞

1、MaskGCT:Amphion 系統推出開源 TTS 大模型,5 秒語音實現跨語言聲音克隆新突破

近日,香港中文大學(深圳)聯手趣丸科技推出了新一代大規模聲音克隆 TTS 模型——MaskGCT。該模型在包含 10 萬小時多語言資料的 Emilia 資料集上進行訓練,展現出超自然的語音克隆、風格遷移以及跨語種生成能力,同時保持了較強的穩定性。MaskGCT 已在香港中文大學(深圳)與上海人工智慧實驗室聯合開發的開源系統 Amphion 釋出。

據介紹,MaskGCT 在三個 TTS 基準資料集上都達到了 SOTA 效果,效能超過當前最先進的同類模型。

相較於現有的 TTS 大模型,MaskGCT 在語音的相似度、質量和穩定性上進一步突破,尤其在語音相似度方面處於絕對領先地位。顯著特點如下:

秒級超逼真的聲音克隆:提供 3 秒音訊樣本即可復刻人類、動漫、「耳邊細語」等任意音色,且能完整復刻語調、風格和情感。更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支援透過編輯文字編輯語音,並保持韻律、音色等方面的極度一致。高質量多語種語音資料集:訓練於香港中文大學(深圳)和趣丸科技等機構聯合推出的 10 萬小時資料集 Emilia,是全球最大且最為多樣的高質量多語種語音資料集之一,精通中英日韓法德 6 種語言的跨語種合成。( @Amphion)

2、ElevenLabs 僱傭收購稍後閱讀 app Omnivore

語音合成技術見長的人工智慧公司 ElevenLabs 最近僱傭收購了開源待讀應用程式 Omnivore 背後的團隊。

在一篇部落格文章中,Omnivore 的聯合創始人 Jackson Harper 和 Hongbo Wu 表示,加入 ElevenLabs 將為他們提供「一個更大的平臺,以便為嚴肅讀者創造無障礙且富有吸引力的體驗」。

Harper 和 Wu 寫道:「ElevenLabs 致力於開發者社群,Omnivore 的程式碼庫將保持 100%開源,供所有使用者使用。」這一決定確保更廣泛的開發社群能夠繼續發展和改進 Omnivore 的技術。

Omnivore 的使用者可以在 11 月 16 日前匯出他們的資料,屆時這些資料將被刪除。

Harper 和 Wu 於 2021 年創辦了 Omnivore,旨在為他們所稱的「熱愛文字的人」提供一個「稍後閱讀」的解決方案。Omnivore 是一個功能齊全的平臺,具備高亮顯示、PDF 支援和離線功能,提供網站、iOS 和 Android 應用程式,還包括適用於所有主流網路瀏覽器的擴充套件。Omnivore 還提供由 ElevenLabs 語音生成 API 支援的文字轉語音功能。

Harper 和 Wu 提到:「我們透過將 ElevenLabs 超逼真的人工智慧語音整合至 Omnivore,深入瞭解了他們的技術。」很快,利用 ElevenLabs 的聲音來收聽文章和書籍成為了我們在 Omnivore 中最受歡迎的功能之一。

在轉投 ElevenLabs 後,Harper 和 Wu 表示他們將把開發精力集中於 ElevenLabs 自有的閱讀器應用程式 ElevenReader 上。ElevenReader 於今年早些時候推出,使用者可以上傳文章、PDF 檔案和電子書,並透過不同的語言和聲音(如朱迪·加蘭和詹姆斯·迪恩等演員的聲音)進行收聽。

ElevenLabs 在今年早些時候從包括 Andreessen Horowitz 在內的投資者處籌集了 8000 萬美元,成為一家獨角獸公司。據 TechCrunch 本月報導,該公司正在與投資者接洽新一輪融資事宜,預計該輪融資可能使公司估值達到約 30 億美元。(@TechCrunch)

3、神秘模型「小熊貓」一夜刷屏:排名超 Flux、Midjourney

「red_panda」神秘模型登頂文生圖競技場,引發廣泛猜測。其生成效果優異,勝率高達 79%。

網友對其來源眾說紛紜,猜測包括 Midjourney V7、中杯 Stable Diffusion 3.5、甚至 OpenAI 的 DALL-E 4,以及中國廠商的可能性。目前,red_panda 仍佔據榜首,備受關注。(@IT 之家)

4、GitHub Copilot 進駐 Windows Terminal 和蘋果 Xcode,助力開發者效率提升

在 GitHub Universe 大會上,GitHub 宣佈了備受期待的 GitHub Copilot 重大更新,該智慧程式碼助手將登陸 Windows Terminal 和 Xcode 開發環境。

首先,GitHub Copilot 將登陸 Windows Terminal。透過與 Windows Terminal Canary 版本中的終端聊天功能結合,開發者可以直接在終端內獲得來自 Copilot 的命令建議和解釋。此功能適用於所有 Copilot 個人版、商業版和企業版使用者。

同時,GitHub Copilot for Xcode 也迎來了公開預覽版。這將讓使用 Xcode 的蘋果開發者享受與其他整合開發環境 (IDE) 使用者相同的智慧編碼輔助功能。在公開預覽版中,Copilot for Xcode 提供了以下特性:

程式碼補全:Copilot 無縫嵌入 Xcode,在你鍵入程式碼時提供實時建議。多語言支援:支援 Swift 和 Objective-C 等蘋果生態系統常用程式語言,確保所有開發者都能受益於 Copilot 的智慧輔助。多行建議:預設情況下,Copilot 會顯示單行建議。按住 Option 鍵並按下 Option + Tab 鍵,可以接受完整的多行建議。內容過濾:Copilot 提供高階過濾器,可以篩除有害或不恰當的內容建議,確保所有程式碼符合專業標準並營造安全、尊重的編碼環境。阻止匹配公共程式碼的程式碼塊建議:你可以選擇啟用重複檢測過濾器,該過濾器會阻止與 GitHub 上的公共程式碼相匹配的程式碼塊建議。
除了 Windows Terminal 和 Xcode 支援之外,GitHub 還為 Copilot 帶來了其他新功能。全新的 Copilot 訪問必應功能使 VS Code、Visual Studio 和 GitHub.com 中的 Copilot 聊天室支援網路搜尋。開發者可以透過此功能輕鬆討論最近發生的事件、新發展、趨勢和技術,例如詢問「Typescript 的最新版本是什麼?」或「Node.js 下次重大更新何時釋出?」目前,該功能僅對 Copilot 商業版和企業版使用者開放。(@IT 之家)

5、騰訊推出 AI 筆記,可搜公眾號文章

騰訊近日推出 ima copilot AI 工具,可以搜尋微信公眾號文章中的內容。

在 ima copilot 的搜尋框內鍵入搜尋關鍵字,即可引用一些微信公眾號的文章生成回答,支援深度模式、腦圖生成等功能。除了搜尋想要的內容,ima copilot 也能作為 AI 瀏覽器,總結網站內容。ima copilot 也支援 500 頁和 100MB 內的本地文件總結。

除了搜尋內容,使用者還可以用 ima copilot 生成 1GB 的專屬知識庫,可以上傳本地文件和網頁。

ima copilot 還支援 AI 筆記功能,在完成 AI 搜尋、總結後,可以將生成的結果匯入筆記之中,進行進一步 AI 寫作和解讀。(@APPSO)

02有態度的觀點

1、Anthropic CEO:強大的 AI 將在 21 世紀為我們帶來什麼?

Anthropic CEO Dario Amodei 預測,憑藉強大的 AI 的力量,生物學和醫學將加速進步,在未來 5-10 年內實現原本需要 50-100 年的成果。他稱這一現象為「壓縮的 21 世紀」,即 AI 能夠讓人類在幾年內取得整整一個世紀的生物醫學成就。

Amodei 還認為,若 AI 的邏輯被推向極致,最終將引導人類走向法治、民主和啟蒙價值觀。雖然這一程序並非必然,但從統計趨勢來看,AI 將加速人類正向這些目標前進的步伐,讓方向更加清晰,目標更加明確。

相較於在真實神經網路上的實驗,人工神經網路的實驗要容易得多,因為前者通常需要對動物大腦進行解剖。因此,可解釋性可能會成為深入理解神經科學的有力工具。同時,AI 在智慧系統訓練方面的知識應該能夠推動神經科學領域的變革,儘管目前尚不確定這一變革是否已經發生。(@Z potentials)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章