Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ssn、@ 鮑勃
01 有話題的技術
1、聲網上線對話式 AI 引擎 Beta 版,15 分鐘讓 DeepSeek 開口說話
近期,DeepSeek 旋風席捲全球,其獨有的深度思考 + 聯網模式讓使用者紛紛驚歎好用,如果你想脫離與 AI 的文字互動,與 DeepSeek 進行更具真實感的語音對話,聲網的對話式 AI 引擎讓你 15 分鐘內就能做到。
聲網對話式 AI 引擎 Beta 版於 2 月 18 日 正式上線,支援開發者在 Console 後臺自行開通服務接入 API,並在 Playground 中實際調參、測試並生成程式碼,僅需 2 行程式碼,15 分鐘即可部署基於大模型的對話式 AI Agent。
核心能力:
AI 語音秒回:AI 秒回你的提問,語音對話延遲低至 650ms
對話人聲鎖定: 遮蔽 95% 環境人聲、噪聲干擾,精準識別對話人聲
智慧打斷: 模擬真人對話節奏,隨時打斷與 AI 的對話,響應低至 340ms
全模型適配:實現 DeepSeek、ChatGPT 等全模型適配,更有音影片 SDK 支援 30000+ 終端機型適配,解決多裝置相容性的後顧之憂
不懼弱網:地鐵、地下車庫等弱網環境下,人與 AI 也能流暢對話
聲網對話式 AI 引擎官網也已同步上線,開發者在瞭解產品功能的同時,也可透過官網申請體驗最新的 Demo 應用。(@ 聲網)
2、OpenAI 前 CTO 官宣新公司,挖來大批 ChatGPT 核心骨幹,北大校友加盟
北京時間今天凌晨,OpenAI 前 CTO Mira Murati 宣佈,創立名為 thinkingmachines 的 AI 公司。
根據 thinkingmachines 官方介紹,工作人員由來自「ChatGPT、 Character.AI 、PyTorch 和 Mistral」等公司的成員構成。在官網上可以看到,目前團隊成員中,有相當一部分的成員有過在 OpenAI 任職的經歷,如前 OpenAI 研究(後培訓)副總裁 Barret Zoph、前 OpenAI VP 翁荔等人。Mira Murati 表示, thinkingmachines 正在構建以下三件事:
幫助人們調整人工智慧系統以適應其的特定需求
打造強大的基礎模型,用以構建更強大的 AI 系統
培養開放科學的氛圍,幫助整個領域理解和改進這些系統(@APPSO)
3、Deepgram 推出 Nova-3,為 AI 驅動的 STT 樹立新標準
企業用例語音 AI 平臺 Deepgram 近期釋出了全新的語音轉文字(STT)模型 Nova-3。
據官方介紹,Nova-3 以前代產品的優勢作為基礎,是 Deepgram 迄今為止最先進的 STT 模型,旨在重新定義 STT 準確度和效能的基準。
Nova-3 專為實時應用場景設計,突破了 AI 驅動轉錄的界限,在傳統解決方案難以勝任的複雜環境中提供卓越的準確性和效能。即使在嘈雜或特殊環境中,它也能實現出色的轉錄準確性,從而提高生產力、客戶滿意度和成本效率。Nova-3 具備先進的功能,以應對各種複雜場景:
惡劣的聲學條件 ——在遠距離、嘈雜和多說話人場景中準確轉錄語音,使其成為空中交通管制、免下車服務以及呼叫中心的理想選擇。
實時多語言支援 ——支援跨多種語言的實時轉錄(同類模型中首創),適用於應急響應、全球客戶服務和多語言業務等場景。
行業特定的準確性 ——識別醫學和法律轉錄等專業領域的特定術語。
精確資料處理 ——確保零售、銀行和金融領域的準確數字識別,同時支援實時編輯敏感資訊以確保合規性和資料隱私。
此外,Nova-3 是業界首個支援自助定製的語音 AI 模型,使用者無需具備深厚的機器學習專業知識即可針對特定領域對模型進行微調。
測試結果表明,與競爭對手相比,Nova-3 提供業界領先的效能,流媒體的字錯誤率(WER)降低了 54.3%,批處理的字錯誤率降低了 47.4%。(@ 實時互動網)
02 有亮點的產品
1、Supertone Play:AI 語音工具賦能內容創作,多語種支援與安全保障
近日,韓國娛樂公司 HYBE 旗下人工智慧語音公司 Supertone 正式釋出了一款名為「Supertone Play」的創新文字轉語音工具,旨在為內容創作者提供高質量、富有表現力的音訊解決方案。
多語種支援與豐富的聲音角色
Supertone Play 目前支援英語、韓語和日語三種語言,並計劃在年內將支援範圍擴充套件至西班牙語和中文,以滿足全球創作者的需求。該工具提供多達 150 種不同的聲音角色,涵蓋了從自然對話到專業新聞播報,再到有聲讀物和潮流搞笑聲音等多種風格,可以廣泛應用於各種內容創作場景。
個性化定製與情感表達
除了豐富的聲音角色外,Supertone Play 還具備強大的語音克隆功能。使用者只需提供 10 秒鐘的個人聲音樣本,即可建立獨一無二的個性化聲音角色。更重要的是,使用者還可以根據創作需求,調整聲音的情感語調,實現更加生動和富有感染力的表達。
安全保障與技術防濫用
為了防止該技術被濫用於深度偽造等非法用途,Supertone 在 Supertone Play 中加入了多項安全措施。例如,「聲音驗證碼」功能可以確保創作者使用的是自己的真實聲音,而「不可聽水印」則可以追蹤由 Supertone 生成的語音內容。這些安全措施的實施,旨在保障技術的合理使用,維護使用者的權益。
廣泛的應用前景
Supertone 表示,Supertone Play 生成的聲音質量已經達到了可以應用於影片遊戲、商業廣告、影片製作和播客等多個領域的水平。目前,使用者可以在 Supertone 官方網站上免費試用該工具,試用期至 4 月 16 日。(@AI TOP100)
2、Hume AI 宣佈即將推出新 AI 語音產品
Hume AI 今日釋出預告,新的 AI 語音產品即將推出。
此前,Hume AI 宣佈推出新語言語音模型 OCTAVE(Omni-modal Conversational Text and Voice Engine) ,這款模型具備情感語音生成、聲音克隆、多角色對話合成等技術能力。(@Hume@X)
3、NotebookLM 前核心成員推出新產品 Huxe,幫助產品經理高效決策
NotebookLM 的前創始人宣佈推出新產品 Huxe(尚未正式上架)。Huxe 的核心目標是構建一個統一介面,整合多個資料來源,進行 AI 分析並生成報告,從而簡化產品經理日常工作中頻繁切換多個應用獲取資訊的流程,縮簡訊息挖掘時間,並提高決策效率。
Huxe 旨在提供一個平臺,將來自 Salesforce、Zendesk、Slack 等多個業務資料來源整合到一個標籤頁中,實現以下功能:
透明的推理過程 : 能夠清晰展示系統得出結論的步驟,例如 Salesforce SOQL 查詢和 Zendesk 自定義過濾器。
智慧代理流程 : 透過多步驟的智慧代理流程,確定資料來源,執行查詢,精煉結果,整合不同來源的資料,並根據使用者反饋進行最佳化。
自動化報告 : 自動生成使用者需要跟蹤的報告,例如每日 Discord 社群反饋報告。(@Raiza Martin@X、tuturetom@X)
4、「9 塊 9」的中國 AI 耳機,瘋狂收割老外
AI 翻譯耳機在 TikTok 上的熱銷引發了全球消費者的關注,特別是在美國和中東等移民聚集地區,需求迅速暴漲。透過將 AI 翻譯和助手功能整合到耳機中,這些耳機不僅具備同聲傳譯和音視訊通話翻譯功能,還可以進行降噪處理,提升使用者體驗。
NebulaBuds 等耳機品牌透過提供 AI 助手和翻譯功能的 App 解決方案,使藍芽耳機在短時間內銷售額大幅增長,從原本的月銷售 200 萬元飆升至 800 萬元。低價翻譯耳機成為熱銷產品,名創優品等品牌在 TikTok 上推出的翻譯耳機售價僅在 13.99 至 23.99 美元之間,極大降低了消費者的嘗試門檻。
隨著 AI 技術的不斷進步,語音識別和翻譯功能的準確性大幅提升,AI 耳機的實用性和市場需求也進一步擴大。華強北的小型耳機代工廠迅速抓住這一機遇,推出了價格低廉、功能強大的 AI 翻譯耳機,成功吸引了全球消費者,成為全球耳機市場的新增長點。(@ 極客公園)
03 有態度的觀點
1、a16z 創始人:新公司遠比現有企業更快實現 AI Agent 的完全替代
(圖片來源:Peter H.Diamandis)
a16z 創始人 Peter Diamandis 在近日表示,現有企業遠不如新公司能夠迅速實現 AI Agent 的完全替代。新的 AI 公司可以圍繞 AI 進行組織架構設計,從而更高效地推動技術的落地。他還指出,拜登政府與科技行業之間的對立加劇,科技併購幾乎被凍結,影響了行業的發展。
Diamandis 強調,利用 AI 解決癌症和延長人類健康壽命將是未來的巨大市場,創業者需確保在產品落地之前有穩固的早期營收。
此外,他提到中國在 AI 機器人領域逐漸失去低勞動力成本的優勢,過去的崛起主要依賴勞動力套利。
最後,他呼籲使用者應掌握自己的資料,建立公鑰基礎設施(PKI)來確保資料安全。(@Z potentials)
更多 Voice Agent 學習筆記:
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 2 行程式碼,15 分鐘部署對話式 AI Agent!丨社群來稿行程AI
- 對話式AI將迎來最佳發展時機,新風口有哪些?AI
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- $157億市場!全球對話式AI將呈爆炸式增長 | 報告AI
- 趣味AI語音電話——鼠年拜年新姿勢AI
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 市場規模超 60 億美元,語音如何改變對話式 AI?AI
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- AI語音電話,打給異鄉的自己AI
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 回顧·如何打造主動對話式AIAI
- AI 史話AI
- 【語音之家】AI產業沙龍—— 網易語音AI技術:從內容安全到內容品質AI產業
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 人類級別語音 AI 路線圖丨 Voice AI 學習筆記AI筆記
- 如何將AI應用於晶片設計?谷歌有話說!AI晶片谷歌
- AI電話機器人防騷擾調研:用AI來對抗AIAI機器人
- 雲知聲AI開放平臺之語音合成技術:讓AI人工智慧照亮智慧生活AI人工智慧
- 鼠年福利!AI語音小叮噹,電話拜年免費玩AI
- 如何理解 AI 對話中的 Token?AI
- 它將AI與定向聲音技術相結合,防止更加私密的通話出現漏音AI
- 對話式 AI 應用的降本增效實踐AI
- 對話式AI:大流行期間的前沿技術AI
- Web 端語音對話 AI 示例:使用 Whisper 和 llama.cpp 構建語音聊天機器人WebAI機器人
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 4句話讓你明白什麼是AIAI
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- AI 取代人類,先從電話推銷員開始?AI
- 淺說AI產品經理的定義與分類AI
- 科大訊飛:讓世界聽見AI的聲音AI
- 對話李開復:中國和美國將在AI領域甩開全世界AI
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 告別生硬翻譯!AI谷歌翻譯:讓你的文字"說人話"AI谷歌
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報