DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報

RTE开发者社区發表於2025-02-21

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、Cartesia 釋出 Voice Changer:可實現聲音轉換、克隆和實時語音翻譯

Cartesia 是一家專注於開發實時多模態智慧技術的初創公司,由史丹佛大學的研究人員創立。今天,他們推出了一個新模型,該模型能夠為 Cartesia 的 Voice Changer 提供動力,是實現轉換、克隆和本地化語音的終極工具。

模型亮點:

  • 精細調整每一個細節:調整節奏、表現力、語調等,從而獲得完美的表達。

  • 利用他們的語音庫 :從眾多高質量的 AI 語音中選擇,適合任何心情或風格,涵蓋 15 種語言和多種方言。

  • 自定義聲音克隆:建立獨特的 AI 聲音,並無縫使用我們的聲音變換器。

  • 高階本地化:翻譯時保持原文語調和情感不變。(@Cartesia@X)

2、xAI 宣佈 Grok 3 免費開放使用

2 月 20 日,馬斯克旗下的 xAI 宣佈最新推出的 Grok-3 模型免費開放使用。xAI 稱,「世界上最聰明」的 AI — Grok-3 模型現已免費提供,並調侃表示除非 xAI 的伺服器當機。同時 xAI 還表示,X Premium+ 和 SuperGrok 使用者將能獲得對 Grok-3 的更多訪問許可權,同時還能提前體驗語音模式等進階功能。

同日,Grok App 客戶端升至美國區 App Store 免費 App 榜首,超越 OpenAI 的 ChatGPT App。Grok-3 模型於 2 月 18 日釋出。據悉,Grok-3 訓練累積使用了 20 萬張 H100 顯示卡,其在 Chatbot 競技場之稱的 LMSYS 盲測中,程式碼、指令響應等各個方面排名第一,超過 Gemini-2 Pro、DeepSeek-V3、GPT-4o 等模型。

此外,xAI 還一同推出由 Grok-3 加持的 DeepSearch,號稱是下一代搜尋引擎。DeepSearch 功能下,模型將自主像 agent 一樣運作,並且理解使用者提問背後的意圖,能夠在網際網路以及 X 中進行全面檢索。(@APPSO)

3、重磅發現!DeepSeek R1 方法成功遷移到視覺領域,多模態 AI 迎來新突破!

介紹一個全新的開源專案 ——VLM-R1,它將 DeepSeek 的 R1 方法從純文字領域成功遷移到了視覺語言領域,這意味著開啟了對於多模態領域的想象空間。這個專案的靈感來自去年 DeepSeek 開源的那個 R1 方法,靠著 GRPO(Group Relative Policy Optimization)強化學習方法,在純文字大模型上取得了驚人的效果。現在,VLM-R1 團隊直接把它應用到了視覺語言模型上,開啟了一扇新的大門。

圖片裡展示了一桌子豐盛的美食,包括各種蔬菜、麵餅和點心。針對圖片,向模型提出一個問題:「在圖片中找出蛋白質含量最高的食物」。

模型不僅回答得準確:

「圖片中展示了桌上的各種菜品,包括蔬菜、麵餅和點心。從蛋白質含量來看,麵餅或麵點可能含量最高,因為它們通常由全穀物製成,麵粉中含有蛋白質。雖然蔬菜也含有蛋白質,但比起這些主食來說含量較少。」

更厲害的是,它還精準地在圖片中框選出了那個蛋白質含量最高的雞蛋餅。

完美展示了 VLM-R1 在實際應用中的優勢:

準確的視覺識別能力專業的知識推理能力清晰的文字表達能力
專案地址:

[VLM-R1](https://github.com/om-ai-lab/VLM-R1@ 機器之心))(

4、阿里宣佈將釋出深度推理模型!基於全球屠榜的 Qwen2.5-MAX

昨天,阿里巴巴集團 CEO 吳泳銘在財報會上表示,阿里將於近期釋出基於千問 Qwen2.5-MAX 的深度推理模型。

1 月底,阿里釋出了 AI 基礎大模型千問旗艦版 Qwen2.5-Max,預訓練資料超過 20 萬億 tokens。

公開資料顯示,Qwen2.5-Max 在多項公開主流模型評測基準上錄得高分,全面超越了全球領先的開源 MoE 模型以及最大的開源稠密模型。

目前,Qwen 的全球衍生模型已突破 9 萬個,全球排名第一。(@APPSO)

5、DeepSeek 即將釋出 5 個開源專案

DeepSeek 在 X 釋出了一個預告說:「我們是 @deepseek_ai,一個探索通用人工智慧(AGI)的小團隊。從下週開始,我們將開源 5 個程式碼倉庫,以完全透明的方式分享我們雖小但真誠的進展。這些線上服務中不起眼的構建模組,都經過了詳細的文件記錄、部署以及在生產環境中的實戰檢驗。作為開源社群的一份子,我們堅信每一行分享的程式碼都能匯聚成共同的動力,加速整個程序。每日解鎖即將到來。沒有象牙塔,只有純粹的「車庫能量」和社群驅動的創新。」(@ DeepSeek@X)

02 有亮點的產品

1、騰訊 ima 安卓端 App 正式上線

騰訊旗下 AI 工作臺 ima.copilot(簡稱 ima)昨日宣佈,推出移動端應用程式(App),率先上線安卓端,iOS 將於近期上線,同時將雲端儲存空間免費擴容至 2G。作為以知識庫為核心的 AI 工作臺產品,ima 自 2024 年 10 月釋出以來,已覆蓋 Windows、Mac 及微信小程式平臺,此次移動端上線標誌著使用者可隨時隨地享受「搜、讀、寫」一體化的智慧體驗。目前,使用者可以透過 ima 官網(ima.qq.com)和騰訊應用寶下載 ima 安卓端 App。(@APPSO)

2、攜手舜宇光學旗下公司,中國電信 AI 眼鏡最早 5 月釋出

在去年舉辦的 2024 數字科技生態大會上,中國電信就帶著自研 AI 眼鏡(以下簡稱電信 AI 眼鏡)亮相大會展臺,它具有識別物體、人像、撥打電話、編輯簡訊以及跨語種翻譯等功能。

據瞭解,這款展出的電信 AI 眼鏡由中電信人工智慧科技有限公司與浙江舜為科技有限公司(注:以下簡稱舜為)聯合研發,後者為舜宇光學科技集團下屬控股公司,專注於 XR 智慧硬體系統解決方案,研發能力覆蓋 XR 整機光學設計、硬體開發、驅動開發、演算法整合、ID 設計、結構設計、生產製造等。

配置方面,電信 AI 眼鏡採用第一代高通驍龍 AR1 晶片,搭配 1200 萬畫素 RGB 攝像頭,配備 LED 指示燈提示拍攝、語音及配對狀態;音訊上,支援 3 麥克風陣列和雙揚聲器開放聲場技術,同時整合 AI 降噪,定向增強及空間音訊演算法,在保護使用者隱私的前提下為使用者提供良好的音訊體驗,單次充電續航時間可達 8 小時。

功能方面,電信 AI 眼鏡搭載 TeleAI「星辰大模型」,支援語音助手、高畫質拍照和影片錄製、導航與定位、音樂播放、健康資料監測、利用多模態大模型實現 AI 識人識物等,適用於日常生活、工作協作、教育學習和戶外活動。

除了具備一般 AI 眼鏡的功能之外,電信 AI 眼鏡對視障人群也很友好,它能夠對使用者面前的影像進行識別,透過語音傳遞資訊,給視障人士帶來極大的便利。

中國電信的工作人員透露,這款自研的 AI 眼鏡預計最快在今年 5 月份登場。目前,中國電信正在全力進行研發,力爭將成本控制在兩千元以內。

從電信 AI 眼鏡的情況來看,這款產品似乎是一款由舜為負責設計生產,打上中國電信的品牌、內建電信 AI 大模型服務的產品。(@VRAR 星球)

3、AI 寵物企業獲近千萬融資,演算法經濟催生養寵新物種

寵物會說(深圳)近日完成近千萬元戰略融資,其以 AI 為核心的垂直社群平臺透過重構「硬體 + 服務」生態,成為這一變革的典型樣本——不同於傳統寵物企業,它透過資料驅動與場景創新,驗證了 AI 技術與寵物產業深度融合的商業潛力。寵會說以 AI 大模型為核心,打造了一個集內容創作、社互動動與智慧裝置聯動於一體的寵物生態社群。其核心技術包括寵物識別、聲音分析、行為監測等 AI 模組,為寵主提供更智慧化的養寵體驗。

寵會說的技術架構呈現出典型的 AI 時代特徵:依託大語言模型構建知識圖譜,透過影像識別、語音分析等模組形成多維互動網路,最終實現智慧硬體與雲端服務的無縫對接。這種技術整合不僅體現在社群內容生成層面,更滲透到寵物餵養、健康管理、行為分析等核心場景。在產品層面,寵會說結合 AIGC 技術,圍繞以下幾大板塊展開佈局:

  • 短影片社群:使用者可透過短影片記錄寵物日常生活,分享養寵心得,增強社群互動性。

  • AI 養寵:結合智慧餵食器、攝像頭等裝置,實現科學餵養和遠端監控,緩解寵物因孤獨或焦慮帶來的行為問題。

  • AI 健康管理:使用者可拍攝寵物的毛髮、眼睛等特徵,由 AI 分析其健康狀態,提供初步診斷建議。

  • AI 定製周邊:上傳寵物照片,即可生成專屬定製產品,如寵物服飾、周邊用品等,滿足個性化需求。

  • AI 影片生成:使用者輸入關鍵文字,即可由 AI 自動生成短影片,提高內容生產效率。

這種多元化的產品體系,使寵會說不僅僅是一個社交平臺,更是一個整合了內容、智慧硬體和個性化服務的養寵生態系統。(@ 中鯨社)

03 有態度的觀點

1、Suno CEO:我們想用 AI 拯救音樂

近期,AI 音樂生成產品 Suno CEO Mikey Shulman 接受了播客 20VC 的採訪,其中 Mikey Shulman 分享了他對音樂產業的未來一些看法。Mikey Shulman 開篇就表示,Suno 並不是在製作音樂,而是在培養音樂人。其表示,Suno 的目標是讓每個人都能體驗音樂的所有樂趣。其中 Mikey Shulman 還藉此來談及了公司的轉型,他表示生成式內容比自己預測的來得要快,並且比想象中更好。隨後主持人提到了 scaling laws「後續是否還會發展」,而 Mikey Shulman 表示,音樂是完全主觀的體驗,所以單純擴大規模並不能解決所有問題,並且他認為,規模在音樂領域並不像在文字領域那樣是解決一切問題的靈丹妙藥。Mikey Shulman 還提及,目前的聽眾沒有意識到流行音樂很大程度上是推薦演算法的產物。他解釋道,一首歌是否會在網際網路流行,其實是演算法和人為推廣一起作用的結果,不完全取決於音樂本身的質量。最後,Mikey Shulman 提及了自己對 Suno 的未來想法。他引用了「Instagram 如何改變了攝影行業」,並認為,目前 Suno 甚至是音樂行業,需要解決的的問題是不夠多的人能靠音樂謀生,因此 Mikey Shulman 想借助 AI,讓更多人接觸甚至是以音樂謀生。( APPSO)

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章