Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報

RTE开发者社区發表於2025-02-19

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq@ssn、@ 鮑勃

01 有話題的技術

1、聲網上線對話式 AI 引擎 Beta 版,15 分鐘讓 DeepSeek 開口說話

近期,DeepSeek 旋風席捲全球,其獨有的深度思考 + 聯網模式讓使用者紛紛驚歎好用,如果你想脫離與 AI 的文字互動,與 DeepSeek 進行更具真實感的語音對話,聲網的對話式 AI 引擎讓你 15 分鐘內就能做到。

聲網對話式 AI 引擎 Beta 版於 2 月 18 日 正式上線,支援開發者在 Console 後臺自行開通服務接入 API,並在 Playground 中實際調參、測試並生成程式碼,僅需 2 行程式碼,15 分鐘即可部署基於大模型的對話式 AI Agent。

核心能力:

  • AI 語音秒回:AI 秒回你的提問,語音對話延遲低至 650ms

  • 對話人聲鎖定: 遮蔽 95% 環境人聲、噪聲干擾,精準識別對話人聲

  • 智慧打斷: 模擬真人對話節奏,隨時打斷與 AI 的對話,響應低至 340ms

  • 全模型適配:實現 DeepSeek、ChatGPT 等全模型適配,更有音影片 SDK 支援 30000+ 終端機型適配,解決多裝置相容性的後顧之憂

  • 不懼弱網:地鐵、地下車庫等弱網環境下,人與 AI 也能流暢對話

聲網對話式 AI 引擎官網也已同步上線,開發者在瞭解產品功能的同時,也可透過官網申請體驗最新的 Demo 應用。(@ 聲網)

2、OpenAI 前 CTO 官宣新公司,挖來大批 ChatGPT 核心骨幹,北大校友加盟

北京時間今天凌晨,OpenAI 前 CTO Mira Murati 宣佈,創立名為 thinkingmachines 的 AI 公司。

根據 thinkingmachines 官方介紹,工作人員由來自「ChatGPT、 Character.AI 、PyTorch 和 Mistral」等公司的成員構成。在官網上可以看到,目前團隊成員中,有相當一部分的成員有過在 OpenAI 任職的經歷,如前 OpenAI 研究(後培訓)副總裁 Barret Zoph、前 OpenAI VP 翁荔等人。Mira Murati 表示, thinkingmachines 正在構建以下三件事:

  • 幫助人們調整人工智慧系統以適應其的特定需求

  • 打造強大的基礎模型,用以構建更強大的 AI 系統

  • 培養開放科學的氛圍,幫助整個領域理解和改進這些系統(@APPSO

3、Deepgram 推出 Nova-3,為 AI 驅動的 STT 樹立新標準

企業用例語音 AI 平臺 Deepgram 近期釋出了全新的語音轉文字(STT)模型 Nova-3。

據官方介紹,Nova-3 以前代產品的優勢作為基礎,是 Deepgram 迄今為止最先進的 STT 模型,旨在重新定義 STT 準確度和效能的基準。

Nova-3 專為實時應用場景設計,突破了 AI 驅動轉錄的界限,在傳統解決方案難以勝任的複雜環境中提供卓越的準確性和效能。即使在嘈雜或特殊環境中,它也能實現出色的轉錄準確性,從而提高生產力、客戶滿意度和成本效率。Nova-3 具備先進的功能,以應對各種複雜場景:

  • 惡劣的聲學條件 ——在遠距離、嘈雜和多說話人場景中準確轉錄語音,使其成為空中交通管制、免下車服務以及呼叫中心的理想選擇。

  • 實時多語言支援 ——支援跨多種語言的實時轉錄(同類模型中首創),適用於應急響應、全球客戶服務和多語言業務等場景。

  • 行業特定的準確性 ——識別醫學和法律轉錄等專業領域的特定術語。

  • 精確資料處理 ——確保零售、銀行和金融領域的準確數字識別,同時支援實時編輯敏感資訊以確保合規性和資料隱私。

此外,Nova-3 是業界首個支援自助定製的語音 AI 模型,使用者無需具備深厚的機器學習專業知識即可針對特定領域對模型進行微調。

測試結果表明,與競爭對手相比,Nova-3 提供業界領先的效能,流媒體的字錯誤率(WER)降低了 54.3%,批處理的字錯誤率降低了 47.4%。(@ 實時互動網)

02 有亮點的產品

1、Supertone Play:AI 語音工具賦能內容創作,多語種支援與安全保障

近日,韓國娛樂公司 HYBE 旗下人工智慧語音公司 Supertone 正式釋出了一款名為「Supertone Play」的創新文字轉語音工具,旨在為內容創作者提供高質量、富有表現力的音訊解決方案。

多語種支援與豐富的聲音角色

Supertone Play 目前支援英語、韓語和日語三種語言,並計劃在年內將支援範圍擴充套件至西班牙語和中文,以滿足全球創作者的需求。該工具提供多達 150 種不同的聲音角色,涵蓋了從自然對話到專業新聞播報,再到有聲讀物和潮流搞笑聲音等多種風格,可以廣泛應用於各種內容創作場景。

個性化定製與情感表達

除了豐富的聲音角色外,Supertone Play 還具備強大的語音克隆功能。使用者只需提供 10 秒鐘的個人聲音樣本,即可建立獨一無二的個性化聲音角色。更重要的是,使用者還可以根據創作需求,調整聲音的情感語調,實現更加生動和富有感染力的表達。

安全保障與技術防濫用

為了防止該技術被濫用於深度偽造等非法用途,Supertone 在 Supertone Play 中加入了多項安全措施。例如,「聲音驗證碼」功能可以確保創作者使用的是自己的真實聲音,而「不可聽水印」則可以追蹤由 Supertone 生成的語音內容。這些安全措施的實施,旨在保障技術的合理使用,維護使用者的權益。

廣泛的應用前景

Supertone 表示,Supertone Play 生成的聲音質量已經達到了可以應用於影片遊戲、商業廣告、影片製作和播客等多個領域的水平。目前,使用者可以在 Supertone 官方網站上免費試用該工具,試用期至 4 月 16 日。(@AI TOP100)

2、Hume AI 宣佈即將推出新 AI 語音產品

Hume AI 今日釋出預告,新的 AI 語音產品即將推出。

此前,Hume AI 宣佈推出新語言語音模型 OCTAVE(Omni-modal Conversational Text and Voice Engine) ,這款模型具備情感語音生成、聲音克隆、多角色對話合成等技術能力。(@Hume@X)

3、NotebookLM 前核心成員推出新產品 Huxe,幫助產品經理高效決策

NotebookLM 的前創始人宣佈推出新產品 Huxe(尚未正式上架)。Huxe 的核心目標是構建一個統一介面,整合多個資料來源,進行 AI 分析並生成報告,從而簡化產品經理日常工作中頻繁切換多個應用獲取資訊的流程,縮簡訊息挖掘時間,並提高決策效率。

Huxe 旨在提供一個平臺,將來自 Salesforce、Zendesk、Slack 等多個業務資料來源整合到一個標籤頁中,實現以下功能:

  • 透明的推理過程 : 能夠清晰展示系統得出結論的步驟,例如 Salesforce SOQL 查詢和 Zendesk 自定義過濾器。

  • 智慧代理流程 : 透過多步驟的智慧代理流程,確定資料來源,執行查詢,精煉結果,整合不同來源的資料,並根據使用者反饋進行最佳化。

  • 自動化報告 : 自動生成使用者需要跟蹤的報告,例如每日 Discord 社群反饋報告。(@Raiza Martin@X、tuturetom@X)

4、「9 塊 9」的中國 AI 耳機,瘋狂收割老外

AI 翻譯耳機在 TikTok 上的熱銷引發了全球消費者的關注,特別是在美國和中東等移民聚集地區,需求迅速暴漲。透過將 AI 翻譯和助手功能整合到耳機中,這些耳機不僅具備同聲傳譯和音視訊通話翻譯功能,還可以進行降噪處理,提升使用者體驗。

NebulaBuds 等耳機品牌透過提供 AI 助手和翻譯功能的 App 解決方案,使藍芽耳機在短時間內銷售額大幅增長,從原本的月銷售 200 萬元飆升至 800 萬元。低價翻譯耳機成為熱銷產品,名創優品等品牌在 TikTok 上推出的翻譯耳機售價僅在 13.99 至 23.99 美元之間,極大降低了消費者的嘗試門檻。

隨著 AI 技術的不斷進步,語音識別和翻譯功能的準確性大幅提升,AI 耳機的實用性和市場需求也進一步擴大。華強北的小型耳機代工廠迅速抓住這一機遇,推出了價格低廉、功能強大的 AI 翻譯耳機,成功吸引了全球消費者,成為全球耳機市場的新增長點。(@ 極客公園)

03 有態度的觀點

1、a16z 創始人:新公司遠比現有企業更快實現 AI Agent 的完全替代

(圖片來源:Peter H.Diamandis)

a16z 創始人 Peter Diamandis 在近日表示,現有企業遠不如新公司能夠迅速實現 AI Agent 的完全替代。新的 AI 公司可以圍繞 AI 進行組織架構設計,從而更高效地推動技術的落地。他還指出,拜登政府與科技行業之間的對立加劇,科技併購幾乎被凍結,影響了行業的發展。

Diamandis 強調,利用 AI 解決癌症和延長人類健康壽命將是未來的巨大市場,創業者需確保在產品落地之前有穩固的早期營收。

此外,他提到中國在 AI 機器人領域逐漸失去低勞動力成本的優勢,過去的崛起主要依賴勞動力套利。

最後,他呼籲使用者應掌握自己的資料,建立公鑰基礎設施(PKI)來確保資料安全。(@Z potentials)

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章