Zonos-v0.1:開源 TTS 模型,支援多語言和高保真聲音克隆;「Apple 智慧」或即將在國內上線,蘋果舉行開發者活動
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、Zyphra 釋出 Zonos-v0.1:領先的開源文字到語音模型,支援多語言和高保真聲音克隆
Zyphra 釋出的 Zonos-v0.1 是領先的開放權重文字到語音模型,提供與頂級 TTS 提供商相當甚至更出色的表現力和質量。它能夠在給定說話人嵌入或音訊字首的情況下,從文字提示生成高度自然化的語音。只需 5 到 30 秒的語音,Zonos 就能實現高保真度的聲音克隆。它還允許根據說話速度、音調變化、音訊質量和悲傷、恐懼、憤怒、快樂和喜悅等情緒進行條件化。該模型以 44kHz 的取樣率原生輸出語音。
主要功能:
零樣本語音克隆 TTS:輸入所需文字和 10-30 秒的說話人樣本,生成高質量的 TTS 輸出
音訊字首輸入:新增文字和音訊字首,以實現更豐富的說話人匹配。音訊字首可用於引發如耳語等難以從純語音克隆中獲得的舉止
多語言支援:Zonos-v0.1 支援英語、日語、中文、法語和德語
音訊質量和情感控制:Zonos 提供了對生成音訊許多方面的精細控制。這包括說話速度、音調、最大頻率、音訊質量以及各種情感,如快樂、憤怒、悲傷和恐懼。
速度快:模型在 RTX 4090 上執行時,實時性因子約為 2 倍
WebUI gradio 介面:Zonos 附帶了一個易於使用的 gradio 介面,用於生成語音
簡單安裝和部署:Zonos 可以透過使用倉庫中打包的 Docker 檔案簡單安裝和部署。
(@Hugging Face)
2、北航推出開源 TinyLLaVA-Video 模型:小尺寸多模態影片理解框架
北京航空航天大學的研究團隊最近釋出了一個名為 TinyLLaVA-Video 的開源影片理解框架。該框架基於 TinyLLaVA_Factory 專案,專為計算資源有限的環境設計,其模型引數不超過 4B,卻能在多個影片理解基準測試中超越現有的 7B+ 模型。TinyLLaVA-Video 採用模組化設計,允許使用者根據需求替換語言模型、視覺編碼器等元件,並自定義訓練策略。專案不僅公開了完整的模型權重、訓練程式碼和訓練資料集,還提供了高質量的資料基礎,以支援研究者在合理的訓練時間內復現實驗結果並開展進一步研究。這一框架的推出,為輕量級影片理解模型的訓練正規化與架構創新提供了實驗平臺,有助於推動小尺寸影片理解模型的持續發展。
論文地址:
https://arxiv.org/abs/2501.15513Github
專案:
https://github.com/ZhangXJ199/TinyLLaVA-Video@ 機器之心)(
3、香港大學釋出突破性影片生成模型 Goku,引領市場營銷新潮流
香港大學聯合位元組跳動公司釋出了一款名為 Goku 的影片生成模型,該模型基於 rectified flow Transformer 架構,專為影像和影片的聯合生成而設計。Goku 模型不僅支援文字生成影像和影片,還推出了 Goku+,一個針對廣告場景最佳化的影片廣告基礎模型,聲稱能以比原來低 100 倍的成本建立廣告影片。
Goku 模型在多項評估中取得了優異成績,例如在 GenEval 上的得分為 0.76,在 DPG-Bench 上的得分為 83.65,在 VBench 上的文字到影片生成任務中得分高達 84.85,重新整理了多個領域的最新記錄。
此外,Goku 模型在生成商品廣告方面表現出色,無論是展示食品還是化妝品,人物表情和動作都顯得非常逼真自然。該模型還能夠將一張商品圖和文字提示結合起來,生成帶人物互動講解的影片,為市場營銷和社交媒體內容創作者提供了一個強大的新工具。
Goku 模型的成功釋出,預示著 AI 影片生成技術將邁入一個新的發展階段,引起了網友們的廣泛關注和討論,許多人認為 Goku 和 Goku+ 是顛覆性的創新,將 AI 影片生成推向了下一個水平。(@ 量子位)
4、LG 的 Exaone AI 模型以成本效率匹敵 DeepSeek
近期,美國知名研究機構 Epoch AI 釋出了一份報告,正式將 LG 的 Exaone3.532B 模型評選為「值得注意的 AI」之一,並在成本效率方面表現尤為突出,與中國的 DeepSeek 不相上下。
LG Exaone3.5 模型於 2023 年 12 月正式推出,其開發投資約為 70 億韓元(約合 480 萬美元),這一成本低於 DeepSeek 開發其 V3 模型所花費的 600 萬美元。Epoch AI 的評估標準主要考慮了模型的效能、使用頻率等因素,而這也是兩年來首個獲得此類認可的韓國 AI 模型,顯示了 LG 在人工智慧領域的突破性進展。
LG AI 研究所的負責人裵慶勳在科技部主辦的一次會議上表示,Exaone 模型經過多次最佳化,旨在提高其在實際工業應用中的效率。最初的 Exaone1.0 模型於 2021 年底推出,引數數量高達 3000 億,而最新的 3.5 版本則將引數縮減至 320 億,這一縮減不僅提高了模型的效率,也顯著降低了執行成本。
目前,Exaone 模型已在 LG 集團的生成式 AI 服務 ChatExaone 中投入使用,員工們正在積極利用這一工具提升工作效率。此外,Epoch AI 的報告中還提及了其他幾家韓國公司和高等院校的 AI 模型,包括 Naver、三星電子,以及首爾國立大學、韓國科學技術院、延世大學和高麗大學等,它們也均躋身於值得注意的 AI 模型行列,顯示了韓國在全球 AI 技術競賽中的實力。(@AIbase 基地)
5、通義音樂生成技術 InspireMusic:一款集音樂生成、歌曲生成、音訊生成能力為一體的開源 AIGC 工具包
InspireMusic 是由通義實驗室開源的音樂生成技術,旨在打造一款集 音樂生成、歌曲生成、音訊生成能力 為一體的開源 AIGC 工具包。
為研究者和開發者提供音樂/歌曲/音訊生成模型的訓練和調優工具及模型,方便最佳化生成效果;同時為音樂愛好者提供一個易於使用的文字生成音樂/歌曲/音訊創作工具,可透過文字描述或音訊提示來控制生成內容。
目前,InspireMusic 已開源了音樂生成的訓練和推理程式碼,支援透過簡單的文字描述或音訊提示,快速生成多種風格的音樂作品。InspireMusic 的 文生音樂創作模式 涵蓋了多種曲風、情感表達和複雜的音樂結構控制,提供了極大的創作自由度和靈活性。未來計劃進一步開放歌唱生成和音訊生成的基礎模型,歡迎研究者、開發者及使用者積極參與體驗和研發。該開源工具包為社群開發者提供了豐富的技術資源,支援從學術研究到產品開發的廣泛應用。
主要特點:
統一的音訊生成框架: 基於音訊大模型技術,InspireMusic 支援音樂、歌曲及音訊的生成,為使用者提供多樣化選擇;
靈活可控生成: 基於文字提示和音樂特徵描述,使用者可精準控制生成音樂的風格和結構;
簡單易用: 簡便的模型微調和推理工具,為使用者提供高效的訓練與調優工具。(@ 阿里語音 AI)
02 有亮點的產品
1、「Apple 智慧」或即將在國內上線,蘋果舉行開發者活動
蘋果公司即將在中國推出其人工智慧助手 Apple Intelligence 的中文版,這一訊息引起了廣泛關注。Apple Intelligence 是蘋果公司推出的 AI 功能套件,已成為蘋果未來一段時間內多個作業系統的開發重點。儘管 Apple Intelligence 有望在 iOS 18.4 開始支援中文,但這並不意味著該功能會立即在中國大陸地區正式上線,因為語言支援並不等同於功能落地,可能涉及到一些審批,可能需要更長時間才能在國內開放。
蘋果公司於2025年1月10日在中國成立了名為蘋果技術開發(上海)有限公司的新公司,註冊資本 3500 萬美元,這一佈局讓人聯想到蘋果可能透過這家公司加速推動 AI 服務在國內的落地。此外,蘋果計劃於 3 月 25 日在上海舉行「深入探索 Apple 智慧和機器學習」開發者線上活動,這可能暗示了 Apple Intelligence 也會在 3 月 25 日左右正式上線國內。
庫克在財報電話會議中明確表示,Apple Intelligence 將在今年 4 月新增對包括中文在內的多種語言的支援。iOS 18.4 的首個 Beta 測試版本預計將在下週向開發者推送,其中 Siri 智慧化程度將獲得增強,例如透過識別使用者的背景資訊進行個性化響應、支援螢幕感知,以及在不同應用之間執行復雜操作。(@ 科技獸)
03 有態度的觀點
1、谷歌 CEO:現在就是 AI 創新,黃金年代
今天凌晨 3 點,谷歌和 Alphabet 執行長 Sundar Pichai,在正在法國巴黎舉辦的全球 AI 峰會上發表了重要演講——現在就是 AI 創新的黃金年代。
Pichai 認為,AI 技術正在經歷快速的進步,成本大幅下降尤為顯著。在過去 18 個月中,處理 token 的成本從每百萬個 4 美元降至 13 美分,降幅高達 97%。
在科學領域,AI 也取得了重大突破。例如,谷歌釋出的蛋白質模型 AlphaFold,幫助全球超過 250 萬研究人員開發新的瘧疾疫苗和癌症治療方法。谷歌在量子計算方面也取得了重要進步,其最新的 Willow 量子晶片在不到五分鐘的時間內解決了一個經典計算機需要十億億年才能解決的超難問題。
從擊敗人類圍棋頂級高手的 AlphaGo Zero,再到蛋白質模型 AlphaFold,以及改變世界 AI 走勢的 Transformer,谷歌作為全球 AI 領導者之一,願意繼續參與並引領這個 AI 創新黃金年代。(@AIGC 開放社群)
更多 Voice Agent 學習筆記:
a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)
對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 蘋果OpenELM:開源小語言模型蘋果模型
- 蘋果搜尋廣告Apple Ads國內正式開啟,贈送開發者100美金試用蘋果APP
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- 開源語音合成庫 coqui TTS 使用記錄UITTS
- 蘋果開發者是否稽核歧視中國開發者?傲慢無恥的蘋果公司蘋果
- “2023資料安全智慧化中國行”活動,開幕即高能
- 人工智慧大模型之開源大語言模型彙總(國內外開源專案模型彙總)人工智慧大模型
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 蘋果開發者是否稽核歧視中國開發者?傲慢無恥的蘋果公司(二)蘋果
- OpenVoiceV2本地部署教程,蘋果MacOs部署流程,聲音響度統一,文字轉語音,TTS蘋果MacTTS
- AI 語音獨角獸 ElevenLabs C 輪融資估值超 30 億美元;港科大 Llasa TTS:15 秒聲音克隆支援中英雙語AITTS
- 蘋果將推出Apple One,捆綁銷售含Apple Arcade在內的數字服務蘋果APP
- 蘋果開發者賬號出售—蘋果將要推出廉價版HomePod蘋果
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-ttsTTS模型微軟
- 蘋果“綁架”開發者蘋果
- F5-TTS語音克隆漢化整合包1016TTS
- 議程全覽 | 中國開源年會線上會議 + 多地線下聚會即將啟幕
- 叫板蘋果谷歌,微軟將開發者應用分成上調至 95%蘋果谷歌微軟
- 蘋果Apple ID更改國家或地區教程 Apple ID怎麼改國家?蘋果APP
- 正式開源!網易有道上線“易魔聲”語音合成引擎
- 位元組打造大模型TTS:不僅能高保真合成,而且支援調整編輯大模型TTS
- Spotify開始測試語音搜尋技術,或將打造智慧音響
- 蘋果企業開發者賬號裡面的蘋果開發者證書概覽蘋果
- 蘋果靠什麼吸引開發者?掙錢極多蘋果
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- CosyVoice多語言、音色和情感控制模型,one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源模型Mac
- 蘋果mac電腦如何開啟“語音控制”?蘋果Mac
- OpenSOC即將開源
- 蘋果總部大樓開放!開發者可現場參與 WWDC 2022 特別活動蘋果
- Chrome 或引入 Gemini AI 功能「Glic」,需訪問麥克風;理想同學 App 即將上線支援語音交流、識物ChromeAIAPP
- 智駕公司下場搞AI影片生成,模型上線即開源AI模型
- 國產最強語音大模型誕生,MaskGCT宣佈開源,聲音效果媲美人類大模型GC
- 蘋果 App Store 將下架數千款半活躍應用,開發者壓力山大蘋果APP