CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、語音生成大模型 CosyVoice 升級 2.0 版本
CosyVoice 是阿里巴巴通義實驗室語音團隊於今年 7 月份開源的語音生成大模型,依託大模型技術,實現自然流暢的語音生成體驗。與傳統語音生成技術相比,CosyVoice 具有韻律自然、音色逼真等特點。自開源以來,CosyVoice 憑藉高品質的多語言語音生成、零樣本語音生成、跨語言語音生成、富文字和自然語言的細粒度控制能力獲得了廣大社群開發者們的喜愛和支援。
如今,CosyVoice 迎來全面升級,我們將釋出 CosyVoice2.0 版本,提供更準、更穩、更快、 更好的語音生成能力。
超低延遲:CosyVoice 2.0 提出了離線和流式一體化建模的語音生成大模型技術,支援雙向流式語音合成,在基本不損失效果的情況下首包合成延遲可以達到 150ms。
高準確度:CosyVoice 2.0 合成音訊的發音錯誤相比於 CosyVoice 1.0 相對下降 30%~50%,在 Seed-TTS 測試集的 hard 測試集上取得當前最低的字錯誤率。合成繞口令、多音字、生僻字上具有明顯的提升。
強穩定性:CosyVoice 2.0 在零樣本語音生成和跨語言語音合成上能夠出色地保證音色一致性,特別是跨語言語音合成相比於 1.0 版本具有明顯提升。
自然體驗:CosyVoice 2.0 合成音訊的韻律、音質、情感匹配相比於 1.0 具有明顯提升。MOS 評測分從 5.4 提升到 5.53(相同評測某商業化語音合成大模型為 5.52)。同時, CosyVoice 2.0 對於指令可控的音訊生成也進行了升級,支援更多細粒度的情感控制,以及方言口音控制。(@ 阿里語音 AI)
2、Nexa AI 釋出 OmniAudio-2.6B:用於邊緣部署的快速音訊語言模型
Nexa AI 近日推出了其全新的 OmniAudio-2.6B 音訊語言模型,旨在滿足邊緣裝置的高效部署需求。與傳統的將自動語音識別(ASR)和語言模型分開的架構不同,OmniAudio-2.6B 將 Gemma-2-2b、Whisper Turbo 以及定製的投影儀整合到一個統一框架中,這一設計消除了傳統系統中各個元件連結所帶來的低效率和延遲,特別適用於計算資源有限的裝置。
主要亮點:
處理速度: OmniAudio-2.6B 在效能上表現出色。在 2024Mac Mini M4Pro 上,使用 Nexa SDK 並採用 FP16GGUF 格式時,模型可實現每秒 35.23 個令牌的處理速度,而在 Q4_K_M GGUF 格式下,可處理每秒 66
個令牌。與之對比,Qwen2-Audio-7B 在相似硬體上只能處理每秒 6.38 個令牌,展示出顯著的速度優勢。資源效率: 該模型的緊湊設計有效減少了對雲資源的依賴,使其成為功率和頻寬受限的可穿戴裝置、汽車系統及物聯網裝置的理想選擇。這一特點使其能夠在有限的硬體條件下實現高效執行。
高準確性和靈活性: 儘管 OmniAudio-2.6B 專注於速度和效率,其在準確性方面也表現不俗,適用於轉錄、翻譯、摘要等多種任務。無論是實時語音處理還是複雜的語言任務,OmniAudio-2.6B
都能夠提供精準的結果。(@ AIbase 基地)
3、微軟推出基於合成資料集的新一代 Phi-4,小模型也可以擅長數學推理
根據 Tech Crunch 報導,微軟宣佈推出其 Phi 系列生成式 AI 模型的最新版本——Phi-4。據微軟介紹,Phi-4 在多個領域相較於其前代模型都有所改進,尤其是在數學問題解決方面。這一進步部分得益於更高質量的訓練資料。
從週四晚間開始,Phi-4 以非常有限的形式開放,僅在微軟最近推出的 Azure AI Foundry 開發平臺上可用,並且僅限於基於微軟研究許可協議的研究用途。
這是微軟最新的小型語言模型,引數規模為 140 億,與其他小型模型如 GPT-4o Mini、Gemini 2.0 Flash 和 Claude 3.5 Haiku 競爭。這類小型語言模型執行速度更快,成本更低,但近年來小型語言模型的效能也在逐步提升。
微軟表示,Phi-4 效能的提升得益於使用了「高質量的合成資料集」,以及高質量的人類生成內容資料集和一些未公開的後期訓練改進。
值得注意的是,Phi-4 是微軟自塞巴斯蒂安·布貝克(Sébastien Bubeck)離職後釋出的首個 Phi 系列模型。布貝克此前是微軟 AI 部門副總裁,也是 Phi 模型開發的核心人物,他於今年 10 月離開微軟加入 OpenAI。(@ Z Finance)
4、無問芯穹釋出全球首個全模態理解開源端模型:長語音自動總結,輕鬆處理圖文音
無問芯穹宣佈開源目前世界上首個端側全模態理解的開源模型 Megrez-3B-Omni,不僅體積輕巧,速度飛快,更是一個多才多藝的全能選手,能夠輕鬆處理圖片、音訊、文字三種模態資料。
在眾多測評基準中,Megrez-3B-Omni 在圖片、文字、音訊三個模態中均取得了同尺寸下最優效能。作為一個 3B 模型,綜合效能表現甚至能超過 34B 模型。
具體來說,Megrez-3B-Omni 採用了專為手機、平板等端側裝置量身定製的 30 億引數黃金尺寸,其主幹網路引數規模僅有 2.3B,精度超越了上一代 14B 模型,做到了最大推理速度比同精度模型快達 300%。(@ 量子位)
02 有亮點的產品
1、Moonvalley:AI 影片生成黑馬,獲頂級機構近億美金美元投資
Moonvalley 是一家新興的生成式影片公司,在 Discord 上擁有超過 100,000 名使用者,其核心產品先進的文字到影片生成平臺,使用者只需輸入文字提示即可生成多種風格的影片,包括動漫、3D 動畫和現實主義風格。
根據 CEO Talukdar 的說法,其核心影片生成模型尚未完全訓練完成,預計將在今年晚些時候推出首個版本。公司特別強調其在資料使用方面的合規性,是少數嚴格採用「選擇加入」授權資料的企業之一。
在技術創新方面,Moonvalley 正致力於解決影片 AI 領域的關鍵挑戰,包括精確的物件控制、模型清潔度以及專業工作流程工具的開發,旨在為品牌廣告和電影製作等創意產業打造一個功能強大的原生 AI 設計平臺,以實現前所未有的精確度、協作效率和定製化能力。
這一願景也得到了投資界的認可,公司於2024年11月18日宣佈完成 7050 萬美元融資,由 General Catalyst 和 Khosla Ventures 領投,Bessemer Ventures 參投,為其技術研發和市場擴充提供了強有力的資金支援。
CEO Talukdar 曾在 Zapier 負責產品增長,他招募了前 DeepMind 的科學家 Mateusz Malinowski 和 Mik Binkowski 一起創立 Moonvalley,後兩者曾在 DeepMind 期間研究影片生成技術。公司有約 30 名員工,從公司披露的團隊名單看,有 8 位來自前 DeepMind 的成員,另外還有多位來自 Google、meta、TikTok、Snap 公司的成員。(@ Z potentials)
2、OpenAI 計劃推出 2000 美金/月的 AI Agent
據「彭博社」報導,OpenAI 首席財務官 Sarah Friar 表示,OpenAI 正在為其 AI 產品計劃推出 2000 美元/月的訂閱會員,並且由於其具備「博士級智慧」,該產品可以作為僱用人類的「替代品」。
Sarah Friar 表示,OpenAI 即將推出的將會是一款 AI Agent,並且 Sarah Friar 認為軟體可能會由此轉向基於價值的定價模型,透過訂閱這個 AI Agent 來讓 AI 自主完成一些複雜任務,例如預定旅行,或者進行科研任務。(@ APPSO)
03 有態度的觀點
1、OpenAI 首席科學家:預訓練即將終結
在近期舉辦的人工智慧頂會 NeurIPS 2024 中,OpenAI 首席科學家發表了個人最新演講,表示預訓練即將終結。
演講中,Ilya Sutskever 表示,雖然計算能力在不斷增長,硬體和演算法的進步使得神經網路的訓練效率得到了提升,但資料的增長卻已接近瓶頸。
他認為,「雖然當前我們仍然可以使用現有資料進行有效訓練,但這一增長趨勢終將放緩,預訓練的時代也會逐步結束。」
在談到人工智慧的未來發展方向時,Ilya Sutskever 指出,雖然當前的語言模型和 AI 系統在某些任務上表現出超人類的能力,但它們在推理時仍顯得不穩定和不可預測。
他還在演講中進一步推測,未來的 AI 將不僅僅是執行任務的工具,而會發展成能夠自主進行推理和決策的「Agent」。(@ APPSO)
更多 Voice Agent 學習筆記:
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 無問芯穹釋出全球首個端側全模態理解的開源模型Megrez-3B-Omni,小巧全能,極速推理模型
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型GPT視覺大模型
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- CosyVoice: 多語言大規模語音生成模型的全棧解決方案模型全棧
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- Kyutai 開源端側模型 Helium -1 preview;FoloToy 內測「超級智慧體」,支援聯網查詢和語音調整音量語速AI模型View智慧體
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報