PlayAI 釋出 TTS 新模型，三方測試超 ElevenLabs；19 歲華人輟學打造對話式 AI 助手，融資 200 萬美元

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq，@ 鮑勃

01 有話題的技術

1、位元組跳動推出 OmniHuman：從單張照片生成逼真全身動態影片

位元組跳動的研究團隊近日開發出一款名為 OmniHuman 的人工智慧系統，能夠將單張照片轉化為逼真的影片，展示人物的講話、歌唱以及自然的動作。

OmniHuman 能夠生成全身影片，展現人物在講話時的手勢和動態，超越了以往僅能動畫面部或上半身的 AI 模型。這項技術的核心在於，它結合了文字、音訊和人體動作等多種輸入，透過一種稱為「全條件」訓練的創新方法，使得 AI 能夠從更大、更豐富的資料集中學習。（@AIbase 基地）

2、阿里雲 Qwen2.5-1M 開源釋出：100 萬上下文長度模型登場

繼 DeepSeek R1 之後，阿里雲通義千問團隊宣佈推出其最新的開源模型 Qwen2.5-1M，再次引發業界關注。

此次釋出的 Qwen2.5-1M 系列包含兩個開源模型： Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 。這是通義千問首次推出能夠原生支援百萬 Token 上下文長度的模型，並在推理速度上實現了顯著提升。

Qwen2.5-1M 的核心亮點在於其原生支援百萬 Token 的超長上下文處理能力。這使得模型能夠輕鬆應對書籍、長篇報告、法律檔案等超長文件，無需進行繁瑣的分割處理。同時，該模型還支援更長時間、更深入的對話，能夠記住更長的對話歷史，實現更連貫、更自然的互動體驗。此外，Qwen2.5-1M 在理解複雜任務，如程式碼理解、複雜推理、多輪對話等方面也展現出更強大的能力。

除了令人震撼的百萬 Token 上下文長度，Qwen2.5-1M 還帶來了另一項重大突破：閃電般快速的推理框架！通義千問團隊完全開源了基於 vLLM 的推理框架，並整合了稀疏注意力機制。這一創新性的框架使得 Qwen2.5-1M 在處理百萬 Token 輸入時，速度提升了 3 倍到 7 倍 ，這意味著使用者可以更加高效地使用超長上下文模型，極大地提升了實際應用場景的效率和體驗。（@AIbase 基地）

02 有亮點的產品

1、PlayAI 釋出 TTS 新模型 Dialog 1.0，三方測試多方面超 ElevenLabs

PlayAI 釋出了全新 TTS 模型 Dialog 1.0 ，該模型以超強的表達力和音質優勢，在第三方測試中 超越 ElevenLabs 。Dialog 1.0 具備 <1% 誤差率 ，支援 30+ 語言 ，並實現行業領先的低延遲（303ms TTFA），大幅提升語音克隆效果。

語音質量：在第三方測試中，PlayAI Dialog 在語音流暢度和情感連貫性方面優於 ElevenLabs v2.5 Turbo（10:1）和 ElevenLabs Multilingual v2.0（3:1）。測試者尤其讚賞其準確的表現力和節奏。

低延遲：與 ElevenLabs v2.5 Turbo 類似，PlayAI Dialog 具有較低的首次音訊時間（TTFA），適合低延遲應用，如語音代理、呼叫中心、遊戲和娛樂。

多語言支援：除英語外，支援中文、法語、德語、印地語、日語、韓語、葡萄牙語和烏爾都語。另有 23 種語言處於實驗階段。

2、誰還沒發現微信好友裡的「臥底 AI」：你以為它只會做紅包封面？

一個年過完，許多人的微信裡都多了一個 好友。

與一些陪伴大家多年從不回覆的沉默工具號不一樣，這是一個事事有回應的 AI 助手。

微信搜尋「元寶紅包封面助手」就能加它微信，以 微信好友 的形式聊天。

只需輸入簡單的主題詞，比如「天天開心」，它便能自動生成精美的繪圖，並搭配由關鍵片語成的祝福語等，製作成獨特的紅包封面。

根據身邊統計學，有人是透過做好的紅包封面裡附贈了對聯，發現這個 封面助手還有對話功能。

在角色設定上，對比一些智慧客服的刻板印象，「元寶紅包封面助手」很有人味兒。

沒有機械的「您好，我是您的 AI 助理」，開口就是「寶兒」，同它對話陪伴感、情緒價值拉滿。（@ 量子位）

3、Martin AI：19 歲華人輟學打造對話式 AI 助手，融資 200 萬美元

19 歲華人輟學創業，拿下 200 萬美元融資，致力於打造新型對話式 AI 助手。Dawson Chen 和 Ethan Hou 分別從耶魯大學和伯克利大學退學，共同創辦了 Martin AI。

該公司開發的 AI 助手 Martin 採用「自定義記憶架構」，能夠理解使用者偏好和上下文，支援透過簡訊、WhatsApp、Slack 等多種渠道與使用者互動，幫助使用者管理日程、查詢資訊、撰寫郵件等。Martin 還支援語音互動，可自動調整日程並通知相關方。

Martin 的主要功能包括日程管理、郵件管理、任務管理、通訊管理、檔案管理以及個性化服務。它能夠與 Gmail、Slack、Google Drive 以及各類日曆等職場必備工具無縫對接。Martin 的願景是透過極致的使用者體驗和快速迭代來與科技巨頭競爭，希望在未來五年內，每個人的日常生活中都能有五到十個 AI 智慧體，而 Martin 將成為最貼近消費者生活的那個。

目前，Martin 已經獲得了包括 Pioneer Fund、FoundersX Ventures、Eight Capital 等知名機構的投資，並在 App Store 上線，提供免費下載和付費訂閱服務。（@ 新智元）

03 有態度的觀點

1、郭明錤：DeepSeek 爆紅加速 AI 模型「裝置端化」趨勢

近日，分析師郭明錤發文表示，DeepSeek-R1 釋出後，加速了 AI 模型「裝置端化」的趨勢。郭明錤提到，API/Token 價格顯著下滑，有利於 AI 軟體/服務與裝置端 AI，加速 AI 應用多元化。其中 DeepSeek-R1 採取了激進的定價策略，其 API/token 定價最低不到 OpenAI-o1 的 1/100。郭明錤預測，此競爭壓力可能將推動 AI 使用成本下滑，並且因 AI 產業在中國市場競爭激烈，將有其他中國廠商推出效能優異且定價更激進的 LLM。

郭明錤還表示，Scaling law 的邊際效益放緩時，AI 算力仍可透過最佳化訓練方式持續增長，並有利於挖掘新應用。

郭明錤分析，過去 1-2 年，投資人對 AI 伺服器供應鏈的投資邏輯主要基於 AI 伺服器出貨量在 Scaling law 成立下可持續增長。然而，Scaling law 的邊際效益正逐漸遞減，這也讓市場更加關注 DeepSeek 透過 Scaling law 以外的方式顯著提升模型效益。

日前，來自加州伯克利大學在讀博士 Jiayi Pan 的研究團隊，成功地以極低的成本復現了 DeepSeek R1-Zero 中的關鍵技術「頓悟時刻」。研究表明，即便規模較小的語言模型，透過強化學習（RL），模型也能自行發展出強大的自我驗證和搜尋能力。(@APPSO)

2、谷歌前 CEO：DeepSeek 崛起標誌著全球 AI 競賽新階段

谷歌前執行長埃裡克·施密特（Eric Schmidt）在發表的專欄文章中呼籲美國加大開源人工智慧的研發力度，以應對 DeepSeek 的崛起。

施密特認為，DeepSeek 的崛起標誌著全球人工智慧競賽的轉折點，證明中國可以利用更少的資源與大科技公司競爭。施密特指出，為了對抗 DeepSeek，美國必須開發更多的開源模型，投資人工智慧基礎設施（如星際之門），並鼓勵領先的實驗室分享他們的訓練方法。

他還強調，DeepSeek 的成功不僅在於其技術的先進性，還在於其開源策略，這使得更多的 AI 團隊能夠基於最先進的模型開發更多的 AI 原生應用。中國工程院院士、清華大學計算機系教授鄭緯民指出，DeepSeek 成功出圈的原因主要集中在三個方面：DeepSeek-V3 和 DeepSeek-R1 兩款模型分別實現了比肩 OpenAI 的 GPT-4o 和 o1 模型的能力，同時成本僅為 OpenAI 模型的十分之一左右。

此外，DeepSeek 還開源了這兩款模型的技術，進一步推動了 AI 技術的普及和應用。（@AIbase 基地）

04 有看點的活動

1、ElevenLabs x a16z Hackathon，全球六個城市 + 線上參與

ElevenLabs 和 a16z 正在舉辦一場以 AI 代理為主題的全球駭客馬拉松，將在全球範圍內同步舉辦 7 場大型駭客馬拉松，匯聚全球最優秀的開發者、創新者、設計師和 AI 工程師。

線上參與時間：

北京時間 2 月 22 日星期六下午 6:00 - 2 月 24 日星期一上午 10:00

其他城市參與時間參考活動官網：https://hackathon.elevenlabs.io/

更多 Voice Agent 學習筆記：

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

PlayAI 釋出 TTS 新模型，三方測試超 ElevenLabs；19 歲華人輟學打造對話式 AI 助手，融資 200 萬美元

01 有話題的技術

02 有亮點的產品

03 有態度的觀點

04 有看點的活動

相關文章