Zonos-v0.1:開源 TTS 模型,支援多語言和高保真聲音克隆;「Apple 智慧」或即將在國內上線,蘋果舉行開發者活動

RTE开发者社区發表於2025-02-11

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、Zyphra 釋出 Zonos-v0.1:領先的開源文字到語音模型,支援多語言和高保真聲音克隆

Zyphra 釋出的 Zonos-v0.1 是領先的開放權重文字到語音模型,提供與頂級 TTS 提供商相當甚至更出色的表現力和質量。它能夠在給定說話人嵌入或音訊字首的情況下,從文字提示生成高度自然化的語音。只需 5 到 30 秒的語音,Zonos 就能實現高保真度的聲音克隆。它還允許根據說話速度、音調變化、音訊質量和悲傷、恐懼、憤怒、快樂和喜悅等情緒進行條件化。該模型以 44kHz 的取樣率原生輸出語音。

主要功能:

  • 零樣本語音克隆 TTS:輸入所需文字和 10-30 秒的說話人樣本,生成高質量的 TTS 輸出

  • 音訊字首輸入:新增文字和音訊字首,以實現更豐富的說話人匹配。音訊字首可用於引發如耳語等難以從純語音克隆中獲得的舉止

  • 多語言支援:Zonos-v0.1 支援英語、日語、中文、法語和德語

  • 音訊質量和情感控制:Zonos 提供了對生成音訊許多方面的精細控制。這包括說話速度、音調、最大頻率、音訊質量以及各種情感,如快樂、憤怒、悲傷和恐懼。

  • 速度快:模型在 RTX 4090 上執行時,實時性因子約為 2 倍

  • WebUI gradio 介面:Zonos 附帶了一個易於使用的 gradio 介面,用於生成語音

  • 簡單安裝和部署:Zonos 可以透過使用倉庫中打包的 Docker 檔案簡單安裝和部署。

(@Hugging Face)

2、北航推出開源 TinyLLaVA-Video 模型:小尺寸多模態影片理解框架

北京航空航天大學的研究團隊最近釋出了一個名為 TinyLLaVA-Video 的開源影片理解框架。該框架基於 TinyLLaVA_Factory 專案,專為計算資源有限的環境設計,其模型引數不超過 4B,卻能在多個影片理解基準測試中超越現有的 7B+ 模型。TinyLLaVA-Video 採用模組化設計,允許使用者根據需求替換語言模型、視覺編碼器等元件,並自定義訓練策略。專案不僅公開了完整的模型權重、訓練程式碼和訓練資料集,還提供了高質量的資料基礎,以支援研究者在合理的訓練時間內復現實驗結果並開展進一步研究。這一框架的推出,為輕量級影片理解模型的訓練正規化與架構創新提供了實驗平臺,有助於推動小尺寸影片理解模型的持續發展。

論文地址:
https://arxiv.org/abs/2501.15513Github

專案:
https://github.com/ZhangXJ199/TinyLLaVA-Video@ 機器之心)

3、香港大學釋出突破性影片生成模型 Goku,引領市場營銷新潮流

香港大學聯合位元組跳動公司釋出了一款名為 Goku 的影片生成模型,該模型基於 rectified flow Transformer 架構,專為影像和影片的聯合生成而設計。Goku 模型不僅支援文字生成影像和影片,還推出了 Goku+,一個針對廣告場景最佳化的影片廣告基礎模型,聲稱能以比原來低 100 倍的成本建立廣告影片。

Goku 模型在多項評估中取得了優異成績,例如在 GenEval 上的得分為 0.76,在 DPG-Bench 上的得分為 83.65,在 VBench 上的文字到影片生成任務中得分高達 84.85,重新整理了多個領域的最新記錄。

此外,Goku 模型在生成商品廣告方面表現出色,無論是展示食品還是化妝品,人物表情和動作都顯得非常逼真自然。該模型還能夠將一張商品圖和文字提示結合起來,生成帶人物互動講解的影片,為市場營銷和社交媒體內容創作者提供了一個強大的新工具。

Goku 模型的成功釋出,預示著 AI 影片生成技術將邁入一個新的發展階段,引起了網友們的廣泛關注和討論,許多人認為 Goku 和 Goku+ 是顛覆性的創新,將 AI 影片生成推向了下一個水平。(@ 量子位)

4、LG 的 Exaone AI 模型以成本效率匹敵 DeepSeek

近期,美國知名研究機構 Epoch AI 釋出了一份報告,正式將 LG 的 Exaone3.532B 模型評選為「值得注意的 AI」之一,並在成本效率方面表現尤為突出,與中國的 DeepSeek 不相上下。

LG Exaone3.5 模型於 2023 年 12 月正式推出,其開發投資約為 70 億韓元(約合 480 萬美元),這一成本低於 DeepSeek 開發其 V3 模型所花費的 600 萬美元。Epoch AI 的評估標準主要考慮了模型的效能、使用頻率等因素,而這也是兩年來首個獲得此類認可的韓國 AI 模型,顯示了 LG 在人工智慧領域的突破性進展。

LG AI 研究所的負責人裵慶勳在科技部主辦的一次會議上表示,Exaone 模型經過多次最佳化,旨在提高其在實際工業應用中的效率。最初的 Exaone1.0 模型於 2021 年底推出,引數數量高達 3000 億,而最新的 3.5 版本則將引數縮減至 320 億,這一縮減不僅提高了模型的效率,也顯著降低了執行成本。

目前,Exaone 模型已在 LG 集團的生成式 AI 服務 ChatExaone 中投入使用,員工們正在積極利用這一工具提升工作效率。此外,Epoch AI 的報告中還提及了其他幾家韓國公司和高等院校的 AI 模型,包括 Naver、三星電子,以及首爾國立大學、韓國科學技術院、延世大學和高麗大學等,它們也均躋身於值得注意的 AI 模型行列,顯示了韓國在全球 AI 技術競賽中的實力。(@AIbase 基地)

5、通義音樂生成技術 InspireMusic:一款集音樂生成、歌曲生成、音訊生成能力為一體的開源 AIGC 工具包

InspireMusic 是由通義實驗室開源的音樂生成技術,旨在打造一款集 音樂生成、歌曲生成、音訊生成能力 為一體的開源 AIGC 工具包。

為研究者和開發者提供音樂/歌曲/音訊生成模型的訓練和調優工具及模型,方便最佳化生成效果;同時為音樂愛好者提供一個易於使用的文字生成音樂/歌曲/音訊創作工具,可透過文字描述或音訊提示來控制生成內容。

目前,InspireMusic 已開源了音樂生成的訓練和推理程式碼,支援透過簡單的文字描述或音訊提示,快速生成多種風格的音樂作品。InspireMusic 的 文生音樂創作模式 涵蓋了多種曲風、情感表達和複雜的音樂結構控制,提供了極大的創作自由度和靈活性。未來計劃進一步開放歌唱生成和音訊生成的基礎模型,歡迎研究者、開發者及使用者積極參與體驗和研發。該開源工具包為社群開發者提供了豐富的技術資源,支援從學術研究到產品開發的廣泛應用。

主要特點:

  • 統一的音訊生成框架: 基於音訊大模型技術,InspireMusic 支援音樂、歌曲及音訊的生成,為使用者提供多樣化選擇;

  • 靈活可控生成: 基於文字提示和音樂特徵描述,使用者可精準控制生成音樂的風格和結構;

  • 簡單易用: 簡便的模型微調和推理工具,為使用者提供高效的訓練與調優工具。(@ 阿里語音 AI)

02 有亮點的產品

1、「Apple 智慧」或即將在國內上線,蘋果舉行開發者活動

蘋果公司即將在中國推出其人工智慧助手 Apple Intelligence 的中文版,這一訊息引起了廣泛關注。Apple Intelligence 是蘋果公司推出的 AI 功能套件,已成為蘋果未來一段時間內多個作業系統的開發重點。儘管 Apple Intelligence 有望在 iOS 18.4 開始支援中文,但這並不意味著該功能會立即在中國大陸地區正式上線,因為語言支援並不等同於功能落地,可能涉及到一些審批,可能需要更長時間才能在國內開放。

蘋果公司於2025年1月10日在中國成立了名為蘋果技術開發(上海)有限公司的新公司,註冊資本 3500 萬美元,這一佈局讓人聯想到蘋果可能透過這家公司加速推動 AI 服務在國內的落地。此外,蘋果計劃於 3 月 25 日在上海舉行「深入探索 Apple 智慧和機器學習」開發者線上活動,這可能暗示了 Apple Intelligence 也會在 3 月 25 日左右正式上線國內。

庫克在財報電話會議中明確表示,Apple Intelligence 將在今年 4 月新增對包括中文在內的多種語言的支援。iOS 18.4 的首個 Beta 測試版本預計將在下週向開發者推送,其中 Siri 智慧化程度將獲得增強,例如透過識別使用者的背景資訊進行個性化響應、支援螢幕感知,以及在不同應用之間執行復雜操作。(@ 科技獸)

03 有態度的觀點

1、谷歌 CEO:現在就是 AI 創新,黃金年代

今天凌晨 3 點,谷歌和 Alphabet 執行長 Sundar Pichai,在正在法國巴黎舉辦的全球 AI 峰會上發表了重要演講——現在就是 AI 創新的黃金年代。

Pichai 認為,AI 技術正在經歷快速的進步,成本大幅下降尤為顯著。在過去 18 個月中,處理 token 的成本從每百萬個 4 美元降至 13 美分,降幅高達 97%。

在科學領域,AI 也取得了重大突破。例如,谷歌釋出的蛋白質模型 AlphaFold,幫助全球超過 250 萬研究人員開發新的瘧疾疫苗和癌症治療方法。谷歌在量子計算方面也取得了重要進步,其最新的 Willow 量子晶片在不到五分鐘的時間內解決了一個經典計算機需要十億億年才能解決的超難問題。

從擊敗人類圍棋頂級高手的 AlphaGo Zero,再到蛋白質模型 AlphaFold,以及改變世界 AI 走勢的 Transformer,谷歌作為全球 AI 領導者之一,願意繼續參與並引領這個 AI 創新黃金年代。(@AIGC 開放社群)

更多 Voice Agent 學習筆記:

a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)

對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章