DeepSeek 即將釋出 5 個開源專案；Cartesia Voice Changer：聲音轉換、克隆和實時語音翻譯丨日報

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq、@ 鮑勃

01 有話題的技術

1、Cartesia 釋出 Voice Changer：可實現聲音轉換、克隆和實時語音翻譯

Cartesia 是一家專注於開發實時多模態智慧技術的初創公司，由史丹佛大學的研究人員創立。今天，他們推出了一個新模型，該模型能夠為 Cartesia 的 Voice Changer 提供動力，是實現轉換、克隆和本地化語音的終極工具。

模型亮點：

精細調整每一個細節：調整節奏、表現力、語調等，從而獲得完美的表達。
利用他們的語音庫：從眾多高質量的 AI 語音中選擇，適合任何心情或風格，涵蓋 15 種語言和多種方言。
自定義聲音克隆：建立獨特的 AI 聲音，並無縫使用我們的聲音變換器。
高階本地化：翻譯時保持原文語調和情感不變。(@Cartesia@X)

2、xAI 宣佈 Grok 3 免費開放使用

2 月 20 日，馬斯克旗下的 xAI 宣佈最新推出的 Grok-3 模型免費開放使用。xAI 稱，「世界上最聰明」的 AI — Grok-3 模型現已免費提供，並調侃表示除非 xAI 的伺服器當機。同時 xAI 還表示，X Premium+ 和 SuperGrok 使用者將能獲得對 Grok-3 的更多訪問許可權，同時還能提前體驗語音模式等進階功能。

同日，Grok App 客戶端升至美國區 App Store 免費 App 榜首，超越 OpenAI 的 ChatGPT App。Grok-3 模型於 2 月 18 日釋出。據悉，Grok-3 訓練累積使用了 20 萬張 H100 顯示卡，其在 Chatbot 競技場之稱的 LMSYS 盲測中，程式碼、指令響應等各個方面排名第一，超過 Gemini-2 Pro、DeepSeek-V3、GPT-4o 等模型。

此外，xAI 還一同推出由 Grok-3 加持的 DeepSearch，號稱是下一代搜尋引擎。DeepSearch 功能下，模型將自主像 agent 一樣運作，並且理解使用者提問背後的意圖，能夠在網際網路以及 X 中進行全面檢索。(@APPSO)

3、重磅發現！DeepSeek R1 方法成功遷移到視覺領域，多模態 AI 迎來新突破！

介紹一個全新的開源專案 ——VLM-R1，它將 DeepSeek 的 R1 方法從純文字領域成功遷移到了視覺語言領域，這意味著開啟了對於多模態領域的想象空間。這個專案的靈感來自去年 DeepSeek 開源的那個 R1 方法，靠著 GRPO（Group Relative Policy Optimization）強化學習方法，在純文字大模型上取得了驚人的效果。現在，VLM-R1 團隊直接把它應用到了視覺語言模型上，開啟了一扇新的大門。

圖片裡展示了一桌子豐盛的美食，包括各種蔬菜、麵餅和點心。針對圖片，向模型提出一個問題：「在圖片中找出蛋白質含量最高的食物」。

模型不僅回答得準確：

「圖片中展示了桌上的各種菜品，包括蔬菜、麵餅和點心。從蛋白質含量來看，麵餅或麵點可能含量最高，因為它們通常由全穀物製成，麵粉中含有蛋白質。雖然蔬菜也含有蛋白質，但比起這些主食來說含量較少。」

更厲害的是，它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅。

完美展示了 VLM-R1 在實際應用中的優勢：

準確的視覺識別能力專業的知識推理能力清晰的文字表達能力
專案地址：

[VLM-R1]（https://github.com/om-ai-lab/VLM-R1@ 機器之心）)（

4、阿里宣佈將釋出深度推理模型！基於全球屠榜的 Qwen2.5-MAX

昨天，阿里巴巴集團 CEO 吳泳銘在財報會上表示，阿里將於近期釋出基於千問 Qwen2.5-MAX 的深度推理模型。

1 月底，阿里釋出了 AI 基礎大模型千問旗艦版 Qwen2.5-Max，預訓練資料超過 20 萬億 tokens。

公開資料顯示，Qwen2.5-Max 在多項公開主流模型評測基準上錄得高分，全面超越了全球領先的開源 MoE 模型以及最大的開源稠密模型。

目前，Qwen 的全球衍生模型已突破 9 萬個，全球排名第一。(@APPSO)

5、DeepSeek 即將釋出 5 個開源專案

DeepSeek 在 X 釋出了一個預告說：「我們是 @deepseek_ai，一個探索通用人工智慧（AGI）的小團隊。從下週開始，我們將開源 5 個程式碼倉庫，以完全透明的方式分享我們雖小但真誠的進展。這些線上服務中不起眼的構建模組，都經過了詳細的文件記錄、部署以及在生產環境中的實戰檢驗。作為開源社群的一份子，我們堅信每一行分享的程式碼都能匯聚成共同的動力，加速整個程序。每日解鎖即將到來。沒有象牙塔，只有純粹的「車庫能量」和社群驅動的創新。」(@ DeepSeek@X)

02 有亮點的產品

1、騰訊 ima 安卓端 App 正式上線

騰訊旗下 AI 工作臺 ima.copilot（簡稱 ima）昨日宣佈，推出移動端應用程式（App），率先上線安卓端，iOS 將於近期上線，同時將雲端儲存空間免費擴容至 2G。作為以知識庫為核心的 AI 工作臺產品，ima 自 2024 年 10 月釋出以來，已覆蓋 Windows、Mac 及微信小程式平臺，此次移動端上線標誌著使用者可隨時隨地享受「搜、讀、寫」一體化的智慧體驗。目前，使用者可以透過 ima 官網（ima.qq.com）和騰訊應用寶下載 ima 安卓端 App。(@APPSO)

2、攜手舜宇光學旗下公司，中國電信 AI 眼鏡最早 5 月釋出

在去年舉辦的 2024 數字科技生態大會上，中國電信就帶著自研 AI 眼鏡（以下簡稱電信 AI 眼鏡）亮相大會展臺，它具有識別物體、人像、撥打電話、編輯簡訊以及跨語種翻譯等功能。

據瞭解，這款展出的電信 AI 眼鏡由中電信人工智慧科技有限公司與浙江舜為科技有限公司（注：以下簡稱舜為）聯合研發，後者為舜宇光學科技集團下屬控股公司，專注於 XR 智慧硬體系統解決方案，研發能力覆蓋 XR 整機光學設計、硬體開發、驅動開發、演算法整合、ID 設計、結構設計、生產製造等。

配置方面，電信 AI 眼鏡採用第一代高通驍龍 AR1 晶片，搭配 1200 萬畫素 RGB 攝像頭，配備 LED 指示燈提示拍攝、語音及配對狀態；音訊上，支援 3 麥克風陣列和雙揚聲器開放聲場技術，同時整合 AI 降噪，定向增強及空間音訊演算法，在保護使用者隱私的前提下為使用者提供良好的音訊體驗，單次充電續航時間可達 8 小時。

功能方面，電信 AI 眼鏡搭載 TeleAI「星辰大模型」，支援語音助手、高畫質拍照和影片錄製、導航與定位、音樂播放、健康資料監測、利用多模態大模型實現 AI 識人識物等，適用於日常生活、工作協作、教育學習和戶外活動。

除了具備一般 AI 眼鏡的功能之外，電信 AI 眼鏡對視障人群也很友好，它能夠對使用者面前的影像進行識別，透過語音傳遞資訊，給視障人士帶來極大的便利。

中國電信的工作人員透露，這款自研的 AI 眼鏡預計最快在今年 5 月份登場。目前，中國電信正在全力進行研發，力爭將成本控制在兩千元以內。

從電信 AI 眼鏡的情況來看，這款產品似乎是一款由舜為負責設計生產，打上中國電信的品牌、內建電信 AI 大模型服務的產品。（@VRAR 星球）

3、AI 寵物企業獲近千萬融資，演算法經濟催生養寵新物種

寵物會說（深圳）近日完成近千萬元戰略融資，其以 AI 為核心的垂直社群平臺透過重構「硬體 + 服務」生態，成為這一變革的典型樣本——不同於傳統寵物企業，它透過資料驅動與場景創新，驗證了 AI 技術與寵物產業深度融合的商業潛力。寵會說以 AI 大模型為核心，打造了一個集內容創作、社互動動與智慧裝置聯動於一體的寵物生態社群。其核心技術包括寵物識別、聲音分析、行為監測等 AI 模組，為寵主提供更智慧化的養寵體驗。

寵會說的技術架構呈現出典型的 AI 時代特徵：依託大語言模型構建知識圖譜，透過影像識別、語音分析等模組形成多維互動網路，最終實現智慧硬體與雲端服務的無縫對接。這種技術整合不僅體現在社群內容生成層面，更滲透到寵物餵養、健康管理、行為分析等核心場景。在產品層面，寵會說結合 AIGC 技術，圍繞以下幾大板塊展開佈局：

短影片社群：使用者可透過短影片記錄寵物日常生活，分享養寵心得，增強社群互動性。
AI 養寵：結合智慧餵食器、攝像頭等裝置，實現科學餵養和遠端監控，緩解寵物因孤獨或焦慮帶來的行為問題。
AI 健康管理：使用者可拍攝寵物的毛髮、眼睛等特徵，由 AI 分析其健康狀態，提供初步診斷建議。
AI 定製周邊：上傳寵物照片，即可生成專屬定製產品，如寵物服飾、周邊用品等，滿足個性化需求。
AI 影片生成：使用者輸入關鍵文字，即可由 AI 自動生成短影片，提高內容生產效率。

這種多元化的產品體系，使寵會說不僅僅是一個社交平臺，更是一個整合了內容、智慧硬體和個性化服務的養寵生態系統。（@ 中鯨社）

03 有態度的觀點

1、Suno CEO：我們想用 AI 拯救音樂

近期，AI 音樂生成產品 Suno CEO Mikey Shulman 接受了播客 20VC 的採訪，其中 Mikey Shulman 分享了他對音樂產業的未來一些看法。Mikey Shulman 開篇就表示，Suno 並不是在製作音樂，而是在培養音樂人。其表示，Suno 的目標是讓每個人都能體驗音樂的所有樂趣。其中 Mikey Shulman 還藉此來談及了公司的轉型，他表示生成式內容比自己預測的來得要快，並且比想象中更好。隨後主持人提到了 scaling laws「後續是否還會發展」，而 Mikey Shulman 表示，音樂是完全主觀的體驗，所以單純擴大規模並不能解決所有問題，並且他認為，規模在音樂領域並不像在文字領域那樣是解決一切問題的靈丹妙藥。Mikey Shulman 還提及，目前的聽眾沒有意識到流行音樂很大程度上是推薦演算法的產物。他解釋道，一首歌是否會在網際網路流行，其實是演算法和人為推廣一起作用的結果，不完全取決於音樂本身的質量。最後，Mikey Shulman 提及了自己對 Suno 的未來想法。他引用了「Instagram 如何改變了攝影行業」，並認為，目前 Suno 甚至是音樂行業，需要解決的的問題是不夠多的人能靠音樂謀生，因此 Mikey Shulman 想借助 AI，讓更多人接觸甚至是以音樂謀生。( APPSO)

更多 Voice Agent 學習筆記：

多模態 AI 怎麼玩？這裡有 18 個腦洞

AI 重塑宗教體驗，語音 Agent 能否成為突破點？

對話 TalktoApps 創始人：Voice AI 提高了我五倍的生產力，語音輸入是人機互動的未來

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

DeepSeek 即將釋出 5 個開源專案；Cartesia Voice Changer：聲音轉換、克隆和實時語音翻譯丨日報

01 有話題的技術

02 有亮點的產品

03 有態度的觀點

相關文章