CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報

RTE开发者社区發表於2024-12-16

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、語音生成大模型 CosyVoice 升級 2.0 版本

CosyVoice 是阿里巴巴通義實驗室語音團隊於今年 7 月份開源的語音生成大模型,依託大模型技術,實現自然流暢的語音生成體驗。與傳統語音生成技術相比,CosyVoice 具有韻律自然、音色逼真等特點。自開源以來,CosyVoice 憑藉高品質的多語言語音生成、零樣本語音生成、跨語言語音生成、富文字和自然語言的細粒度控制能力獲得了廣大社群開發者們的喜愛和支援。

如今,CosyVoice 迎來全面升級,我們將釋出 CosyVoice2.0 版本,提供更準、更穩、更快、 更好的語音生成能力。

超低延遲:CosyVoice 2.0 提出了離線和流式一體化建模的語音生成大模型技術,支援雙向流式語音合成,在基本不損失效果的情況下首包合成延遲可以達到 150ms。

高準確度:CosyVoice 2.0 合成音訊的發音錯誤相比於 CosyVoice 1.0 相對下降 30%~50%,在 Seed-TTS 測試集的 hard 測試集上取得當前最低的字錯誤率。合成繞口令、多音字、生僻字上具有明顯的提升。

強穩定性:CosyVoice 2.0 在零樣本語音生成和跨語言語音合成上能夠出色地保證音色一致性,特別是跨語言語音合成相比於 1.0 版本具有明顯提升。

自然體驗:CosyVoice 2.0 合成音訊的韻律、音質、情感匹配相比於 1.0 具有明顯提升。MOS 評測分從 5.4 提升到 5.53(相同評測某商業化語音合成大模型為 5.52)。同時, CosyVoice 2.0 對於指令可控的音訊生成也進行了升級,支援更多細粒度的情感控制,以及方言口音控制。(@ 阿里語音 AI)

2、Nexa AI 釋出 OmniAudio-2.6B:用於邊緣部署的快速音訊語言模型

Nexa AI 近日推出了其全新的 OmniAudio-2.6B 音訊語言模型,旨在滿足邊緣裝置的高效部署需求。與傳統的將自動語音識別(ASR)和語言模型分開的架構不同,OmniAudio-2.6B 將 Gemma-2-2b、Whisper Turbo 以及定製的投影儀整合到一個統一框架中,這一設計消除了傳統系統中各個元件連結所帶來的低效率和延遲,特別適用於計算資源有限的裝置。

主要亮點:

  • 處理速度: OmniAudio-2.6B 在效能上表現出色。在 2024Mac Mini M4Pro 上,使用 Nexa SDK 並採用 FP16GGUF 格式時,模型可實現每秒 35.23 個令牌的處理速度,而在 Q4_K_M GGUF 格式下,可處理每秒 66
    個令牌。與之對比,Qwen2-Audio-7B 在相似硬體上只能處理每秒 6.38 個令牌,展示出顯著的速度優勢。

  • 資源效率: 該模型的緊湊設計有效減少了對雲資源的依賴,使其成為功率和頻寬受限的可穿戴裝置、汽車系統及物聯網裝置的理想選擇。這一特點使其能夠在有限的硬體條件下實現高效執行。

  • 高準確性和靈活性: 儘管 OmniAudio-2.6B 專注於速度和效率,其在準確性方面也表現不俗,適用於轉錄、翻譯、摘要等多種任務。無論是實時語音處理還是複雜的語言任務,OmniAudio-2.6B
    都能夠提供精準的結果。(@ AIbase 基地)

3、微軟推出基於合成資料集的新一代 Phi-4,小模型也可以擅長數學推理

根據 Tech Crunch 報導,微軟宣佈推出其 Phi 系列生成式 AI 模型的最新版本——Phi-4。據微軟介紹,Phi-4 在多個領域相較於其前代模型都有所改進,尤其是在數學問題解決方面。這一進步部分得益於更高質量的訓練資料。

從週四晚間開始,Phi-4 以非常有限的形式開放,僅在微軟最近推出的 Azure AI Foundry 開發平臺上可用,並且僅限於基於微軟研究許可協議的研究用途。

這是微軟最新的小型語言模型,引數規模為 140 億,與其他小型模型如 GPT-4o Mini、Gemini 2.0 Flash 和 Claude 3.5 Haiku 競爭。這類小型語言模型執行速度更快,成本更低,但近年來小型語言模型的效能也在逐步提升。

微軟表示,Phi-4 效能的提升得益於使用了「高質量的合成資料集」,以及高質量的人類生成內容資料集和一些未公開的後期訓練改進。

值得注意的是,Phi-4 是微軟自塞巴斯蒂安·布貝克(Sébastien Bubeck)離職後釋出的首個 Phi 系列模型。布貝克此前是微軟 AI 部門副總裁,也是 Phi 模型開發的核心人物,他於今年 10 月離開微軟加入 OpenAI。(@ Z Finance)

4、無問芯穹釋出全球首個全模態理解開源端模型:長語音自動總結,輕鬆處理圖文音

無問芯穹宣佈開源目前世界上首個端側全模態理解的開源模型 Megrez-3B-Omni,不僅體積輕巧,速度飛快,更是一個多才多藝的全能選手,能夠輕鬆處理圖片、音訊、文字三種模態資料。

在眾多測評基準中,Megrez-3B-Omni 在圖片、文字、音訊三個模態中均取得了同尺寸下最優效能。作為一個 3B 模型,綜合效能表現甚至能超過 34B 模型。

具體來說,Megrez-3B-Omni 採用了專為手機、平板等端側裝置量身定製的 30 億引數黃金尺寸,其主幹網路引數規模僅有 2.3B,精度超越了上一代 14B 模型,做到了最大推理速度比同精度模型快達 300%。(@ 量子位)

02 有亮點的產品

1、Moonvalley:AI 影片生成黑馬,獲頂級機構近億美金美元投資

Moonvalley 是一家新興的生成式影片公司,在 Discord 上擁有超過 100,000 名使用者,其核心產品先進的文字到影片生成平臺,使用者只需輸入文字提示即可生成多種風格的影片,包括動漫、3D 動畫和現實主義風格。

根據 CEO Talukdar 的說法,其核心影片生成模型尚未完全訓練完成,預計將在今年晚些時候推出首個版本。公司特別強調其在資料使用方面的合規性,是少數嚴格採用「選擇加入」授權資料的企業之一。

在技術創新方面,Moonvalley 正致力於解決影片 AI 領域的關鍵挑戰,包括精確的物件控制、模型清潔度以及專業工作流程工具的開發,旨在為品牌廣告和電影製作等創意產業打造一個功能強大的原生 AI 設計平臺,以實現前所未有的精確度、協作效率和定製化能力。

這一願景也得到了投資界的認可,公司於2024年11月18日宣佈完成 7050 萬美元融資,由 General Catalyst 和 Khosla Ventures 領投,Bessemer Ventures 參投,為其技術研發和市場擴充提供了強有力的資金支援。

CEO Talukdar 曾在 Zapier 負責產品增長,他招募了前 DeepMind 的科學家 Mateusz Malinowski 和 Mik Binkowski 一起創立 Moonvalley,後兩者曾在 DeepMind 期間研究影片生成技術。公司有約 30 名員工,從公司披露的團隊名單看,有 8 位來自前 DeepMind 的成員,另外還有多位來自 Google、meta、TikTok、Snap 公司的成員。(@ Z potentials)

2、OpenAI 計劃推出 2000 美金/月的 AI Agent

據「彭博社」報導,OpenAI 首席財務官 Sarah Friar 表示,OpenAI 正在為其 AI 產品計劃推出 2000 美元/月的訂閱會員,並且由於其具備「博士級智慧」,該產品可以作為僱用人類的「替代品」。

Sarah Friar 表示,OpenAI 即將推出的將會是一款 AI Agent,並且 Sarah Friar 認為軟體可能會由此轉向基於價值的定價模型,透過訂閱這個 AI Agent 來讓 AI 自主完成一些複雜任務,例如預定旅行,或者進行科研任務。(@ APPSO)

03 有態度的觀點

1、OpenAI 首席科學家:預訓練即將終結

在近期舉辦的人工智慧頂會 NeurIPS 2024 中,OpenAI 首席科學家發表了個人最新演講,表示預訓練即將終結。

演講中,Ilya Sutskever 表示,雖然計算能力在不斷增長,硬體和演算法的進步使得神經網路的訓練效率得到了提升,但資料的增長卻已接近瓶頸。

他認為,「雖然當前我們仍然可以使用現有資料進行有效訓練,但這一增長趨勢終將放緩,預訓練的時代也會逐步結束。」

在談到人工智慧的未來發展方向時,Ilya Sutskever 指出,雖然當前的語言模型和 AI 系統在某些任務上表現出超人類的能力,但它們在推理時仍顯得不穩定和不可預測。

他還在演講中進一步推測,未來的 AI 將不僅僅是執行任務的工具,而會發展成能夠自主進行推理和決策的「Agent」。(@ APPSO)

更多 Voice Agent 學習筆記:

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章