DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、Cartesia 釋出 Voice Changer:可實現聲音轉換、克隆和實時語音翻譯
Cartesia 是一家專注於開發實時多模態智慧技術的初創公司,由史丹佛大學的研究人員創立。今天,他們推出了一個新模型,該模型能夠為 Cartesia 的 Voice Changer 提供動力,是實現轉換、克隆和本地化語音的終極工具。
模型亮點:
精細調整每一個細節:調整節奏、表現力、語調等,從而獲得完美的表達。
利用他們的語音庫 :從眾多高質量的 AI 語音中選擇,適合任何心情或風格,涵蓋 15 種語言和多種方言。
自定義聲音克隆:建立獨特的 AI 聲音,並無縫使用我們的聲音變換器。
高階本地化:翻譯時保持原文語調和情感不變。(@Cartesia@X)
2、xAI 宣佈 Grok 3 免費開放使用
2 月 20 日,馬斯克旗下的 xAI 宣佈最新推出的 Grok-3 模型免費開放使用。xAI 稱,「世界上最聰明」的 AI — Grok-3 模型現已免費提供,並調侃表示除非 xAI 的伺服器當機。同時 xAI 還表示,X Premium+ 和 SuperGrok 使用者將能獲得對 Grok-3 的更多訪問許可權,同時還能提前體驗語音模式等進階功能。
同日,Grok App 客戶端升至美國區 App Store 免費 App 榜首,超越 OpenAI 的 ChatGPT App。Grok-3 模型於 2 月 18 日釋出。據悉,Grok-3 訓練累積使用了 20 萬張 H100 顯示卡,其在 Chatbot 競技場之稱的 LMSYS 盲測中,程式碼、指令響應等各個方面排名第一,超過 Gemini-2 Pro、DeepSeek-V3、GPT-4o 等模型。
此外,xAI 還一同推出由 Grok-3 加持的 DeepSearch,號稱是下一代搜尋引擎。DeepSearch 功能下,模型將自主像 agent 一樣運作,並且理解使用者提問背後的意圖,能夠在網際網路以及 X 中進行全面檢索。(@APPSO)
3、重磅發現!DeepSeek R1 方法成功遷移到視覺領域,多模態 AI 迎來新突破!
介紹一個全新的開源專案 ——VLM-R1,它將 DeepSeek 的 R1 方法從純文字領域成功遷移到了視覺語言領域,這意味著開啟了對於多模態領域的想象空間。這個專案的靈感來自去年 DeepSeek 開源的那個 R1 方法,靠著 GRPO(Group Relative Policy Optimization)強化學習方法,在純文字大模型上取得了驚人的效果。現在,VLM-R1 團隊直接把它應用到了視覺語言模型上,開啟了一扇新的大門。
圖片裡展示了一桌子豐盛的美食,包括各種蔬菜、麵餅和點心。針對圖片,向模型提出一個問題:「在圖片中找出蛋白質含量最高的食物」。
模型不僅回答得準確:
「圖片中展示了桌上的各種菜品,包括蔬菜、麵餅和點心。從蛋白質含量來看,麵餅或麵點可能含量最高,因為它們通常由全穀物製成,麵粉中含有蛋白質。雖然蔬菜也含有蛋白質,但比起這些主食來說含量較少。」
更厲害的是,它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅。
完美展示了 VLM-R1 在實際應用中的優勢:
準確的視覺識別能力專業的知識推理能力清晰的文字表達能力
專案地址:
[VLM-R1](https://github.com/om-ai-lab/VLM-R1@ 機器之心))(
4、阿里宣佈將釋出深度推理模型!基於全球屠榜的 Qwen2.5-MAX
昨天,阿里巴巴集團 CEO 吳泳銘在財報會上表示,阿里將於近期釋出基於千問 Qwen2.5-MAX 的深度推理模型。
1 月底,阿里釋出了 AI 基礎大模型千問旗艦版 Qwen2.5-Max,預訓練資料超過 20 萬億 tokens。
公開資料顯示,Qwen2.5-Max 在多項公開主流模型評測基準上錄得高分,全面超越了全球領先的開源 MoE 模型以及最大的開源稠密模型。
目前,Qwen 的全球衍生模型已突破 9 萬個,全球排名第一。(@APPSO)
5、DeepSeek 即將釋出 5 個開源專案
DeepSeek 在 X 釋出了一個預告說:「我們是 @deepseek_ai,一個探索通用人工智慧(AGI)的小團隊。從下週開始,我們將開源 5 個程式碼倉庫,以完全透明的方式分享我們雖小但真誠的進展。這些線上服務中不起眼的構建模組,都經過了詳細的文件記錄、部署以及在生產環境中的實戰檢驗。作為開源社群的一份子,我們堅信每一行分享的程式碼都能匯聚成共同的動力,加速整個程序。每日解鎖即將到來。沒有象牙塔,只有純粹的「車庫能量」和社群驅動的創新。」(@ DeepSeek@X)
02 有亮點的產品
1、騰訊 ima 安卓端 App 正式上線
騰訊旗下 AI 工作臺 ima.copilot(簡稱 ima)昨日宣佈,推出移動端應用程式(App),率先上線安卓端,iOS 將於近期上線,同時將雲端儲存空間免費擴容至 2G。作為以知識庫為核心的 AI 工作臺產品,ima 自 2024 年 10 月釋出以來,已覆蓋 Windows、Mac 及微信小程式平臺,此次移動端上線標誌著使用者可隨時隨地享受「搜、讀、寫」一體化的智慧體驗。目前,使用者可以透過 ima 官網(ima.qq.com)和騰訊應用寶下載 ima 安卓端 App。(@APPSO)
2、攜手舜宇光學旗下公司,中國電信 AI 眼鏡最早 5 月釋出
在去年舉辦的 2024 數字科技生態大會上,中國電信就帶著自研 AI 眼鏡(以下簡稱電信 AI 眼鏡)亮相大會展臺,它具有識別物體、人像、撥打電話、編輯簡訊以及跨語種翻譯等功能。
據瞭解,這款展出的電信 AI 眼鏡由中電信人工智慧科技有限公司與浙江舜為科技有限公司(注:以下簡稱舜為)聯合研發,後者為舜宇光學科技集團下屬控股公司,專注於 XR 智慧硬體系統解決方案,研發能力覆蓋 XR 整機光學設計、硬體開發、驅動開發、演算法整合、ID 設計、結構設計、生產製造等。
配置方面,電信 AI 眼鏡採用第一代高通驍龍 AR1 晶片,搭配 1200 萬畫素 RGB 攝像頭,配備 LED 指示燈提示拍攝、語音及配對狀態;音訊上,支援 3 麥克風陣列和雙揚聲器開放聲場技術,同時整合 AI 降噪,定向增強及空間音訊演算法,在保護使用者隱私的前提下為使用者提供良好的音訊體驗,單次充電續航時間可達 8 小時。
功能方面,電信 AI 眼鏡搭載 TeleAI「星辰大模型」,支援語音助手、高畫質拍照和影片錄製、導航與定位、音樂播放、健康資料監測、利用多模態大模型實現 AI 識人識物等,適用於日常生活、工作協作、教育學習和戶外活動。
除了具備一般 AI 眼鏡的功能之外,電信 AI 眼鏡對視障人群也很友好,它能夠對使用者面前的影像進行識別,透過語音傳遞資訊,給視障人士帶來極大的便利。
中國電信的工作人員透露,這款自研的 AI 眼鏡預計最快在今年 5 月份登場。目前,中國電信正在全力進行研發,力爭將成本控制在兩千元以內。
從電信 AI 眼鏡的情況來看,這款產品似乎是一款由舜為負責設計生產,打上中國電信的品牌、內建電信 AI 大模型服務的產品。(@VRAR 星球)
3、AI 寵物企業獲近千萬融資,演算法經濟催生養寵新物種
寵物會說(深圳)近日完成近千萬元戰略融資,其以 AI 為核心的垂直社群平臺透過重構「硬體 + 服務」生態,成為這一變革的典型樣本——不同於傳統寵物企業,它透過資料驅動與場景創新,驗證了 AI 技術與寵物產業深度融合的商業潛力。寵會說以 AI 大模型為核心,打造了一個集內容創作、社互動動與智慧裝置聯動於一體的寵物生態社群。其核心技術包括寵物識別、聲音分析、行為監測等 AI 模組,為寵主提供更智慧化的養寵體驗。
寵會說的技術架構呈現出典型的 AI 時代特徵:依託大語言模型構建知識圖譜,透過影像識別、語音分析等模組形成多維互動網路,最終實現智慧硬體與雲端服務的無縫對接。這種技術整合不僅體現在社群內容生成層面,更滲透到寵物餵養、健康管理、行為分析等核心場景。在產品層面,寵會說結合 AIGC 技術,圍繞以下幾大板塊展開佈局:
短影片社群:使用者可透過短影片記錄寵物日常生活,分享養寵心得,增強社群互動性。
AI 養寵:結合智慧餵食器、攝像頭等裝置,實現科學餵養和遠端監控,緩解寵物因孤獨或焦慮帶來的行為問題。
AI 健康管理:使用者可拍攝寵物的毛髮、眼睛等特徵,由 AI 分析其健康狀態,提供初步診斷建議。
AI 定製周邊:上傳寵物照片,即可生成專屬定製產品,如寵物服飾、周邊用品等,滿足個性化需求。
AI 影片生成:使用者輸入關鍵文字,即可由 AI 自動生成短影片,提高內容生產效率。
這種多元化的產品體系,使寵會說不僅僅是一個社交平臺,更是一個整合了內容、智慧硬體和個性化服務的養寵生態系統。(@ 中鯨社)
03 有態度的觀點
1、Suno CEO:我們想用 AI 拯救音樂
近期,AI 音樂生成產品 Suno CEO Mikey Shulman 接受了播客 20VC 的採訪,其中 Mikey Shulman 分享了他對音樂產業的未來一些看法。Mikey Shulman 開篇就表示,Suno 並不是在製作音樂,而是在培養音樂人。其表示,Suno 的目標是讓每個人都能體驗音樂的所有樂趣。其中 Mikey Shulman 還藉此來談及了公司的轉型,他表示生成式內容比自己預測的來得要快,並且比想象中更好。隨後主持人提到了 scaling laws「後續是否還會發展」,而 Mikey Shulman 表示,音樂是完全主觀的體驗,所以單純擴大規模並不能解決所有問題,並且他認為,規模在音樂領域並不像在文字領域那樣是解決一切問題的靈丹妙藥。Mikey Shulman 還提及,目前的聽眾沒有意識到流行音樂很大程度上是推薦演算法的產物。他解釋道,一首歌是否會在網際網路流行,其實是演算法和人為推廣一起作用的結果,不完全取決於音樂本身的質量。最後,Mikey Shulman 提及了自己對 Suno 的未來想法。他引用了「Instagram 如何改變了攝影行業」,並認為,目前 Suno 甚至是音樂行業,需要解決的的問題是不夠多的人能靠音樂謀生,因此 Mikey Shulman 想借助 AI,讓更多人接觸甚至是以音樂謀生。( APPSO)
更多 Voice Agent 學習筆記:
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 5 款不錯的開源語音識別/語音文字轉換系統
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 語音翻譯軟體怎麼用?怎麼實現語音的翻譯
- 如何基於實時聲紋變聲實現對聲音的“克隆”
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- 快速實現語音轉文字,還自帶翻譯
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- 18 個實時音視訊開發中會用到開源專案
- 18個實時音視訊開發中會用到開源專案
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- GitHub標星近1萬:只需5秒音源,這個網路就能實時“克隆”你的聲音Github
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- Swift-語音識別、翻譯Swift
- JS實現將文字轉換為語音並自動播放JS
- 如何在Python中將語音轉換為文字Python
- Windows部署語音轉文字專案_WhisperWindows
- 5 秒克隆聲音「GitHub 熱點速覽 v.21.34」Github
- [譯] 使用 Nexmo 和微軟語音翻譯 API 構建 Babel Fish微軟APIBabel
- Zonos-v0.1:開源 TTS 模型,支援多語言和高保真聲音克隆;「Apple 智慧」或即將在國內上線,蘋果舉行開發者活動TTS模型APP蘋果
- 華為音訊編輯服務實時變聲,大叔音怪獸音隨意變換音訊
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- 【翻譯】.NET 5 Preview5釋出View
- 有這5款開源軟體,語音轉文字很簡單!
- OpenAI Java SDK——chatgpt-java-v1.0.3更新支援GPT-3.5-Turbo,支援語音轉文字,語音翻譯。OpenAIJavaChatGPT
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報