Cartesia 升級 TTS 模型,可在音訊中無縫填充內容;索尼 AI 遊戲角色原型:結合語音與動畫,與玩家實時對話丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、OpenAl 釋出 Agent 工具包,網友:謝謝 Manus AI
OpenAI 釋出了一系列專為構建 AI Agents 設計的新工具和 API,幫助開發者更容易建立能自動完成任務的 AI Agents(智慧體)。OpenAI 認為雖然過去一年推出的高階推理、多模態互動等模型能力為 Agent 奠定了基礎,但開發者在構建生產級 Agent 時,還是會遇到不少難題。為此,他們今天特地釋出了全新的 Responses API、三種內建工具以及以及一個開源的 Agents SDK。
省流版如下:
Responses API:結合 Chat Completions API 簡潔性與 Assistants API 工具使用能力的新型 API 介面。
Web 搜尋工具(Web Search Tool):讓模型訪問網際網路獲取最新資訊的工具。
檔案搜尋工具(File Search Tool):從大量文件中檢索相關資訊的增強工具。
計算機使用工具(Computer Use Tool):由 Computer-Using Agent(CUA)模型提供支援的計算機操作自動化工具,讓 AI 能像人一樣操作電腦介面。
Agents SDK:基於 Swarm 框架升級,簡化多 Agent 工作流程編排的開源框架。
具體來說,Responses API 結合了 Chat Completions API(主要用來生成對話回覆)的簡潔性和 Assistants API(能讓 AI 呼叫外部功能,比如查資料、操作東西)的工具使用能力,成為構建 Agent 應用的新基礎。開發者只需呼叫一次 API ,即可利用多種工具和多輪模型互動解決複雜任務。
OpenAI 還推出了開源的 Agents SDK,專門用來簡化多 Agent 工作流程的編排。相比去年釋出的實驗性 Swarm 框架,這個全新 SDK 有了顯著的改進。提供易於配置的 LLM 與內建工具整合、Agent 間智慧交接控制、可配置安全檢查以及視覺化追蹤等功能,適用於客戶支援自動化、多步研究、內容生成等多種應用場景。(@APPSO)
2、Manus 與阿里通義千問團隊達成戰略合作
3 月 11 日,Manus 官方微博宣佈,與阿里通義千問團隊正式達成戰略合作。雙方將基於通義千問系列開源模型,在國產模型和算力平臺上實現 Manus 的全部功能。
Manus 是由創業公司 Monica 釋出的首款 AI Agent 產品,最近在社交媒體火爆出圈。
早些時候,Manus 創始人季逸超在社交平臺透露,Manus 產品使用了不同的基於阿里千問大模型(Qwen)的微調模型。(@ 快科技)
3、Cartesia 升級 TTS 模型 Sonic 2.0,延遲 40 毫秒
Sonic 2.0 基於 Cartesia 新的狀態空間模型架構構建,被描述為目前最快且最可控的語音模型。儘管是原始 Sonic 模型的兩倍大,但 Sonic 2.0 的執行速度更快,完整模型的延遲僅為 90 毫秒,Turbo 模式的延遲僅為 40 毫秒 。在對 100 個不同聲音進行的盲測中,Sonic 2.0 比下一個最佳提供商獲得了 1.5 倍的使用者青睞。
除了速度和質量的提升之外,Sonic 2.0 還提供了對語音生成的空前控制,具有一流的語音克隆能力,可以準確地捕捉複雜的口音和豐富的音訊音景。Cartesia 還為 Sonic 2.0 引入了兩個新的、強大的功能模組:語音轉換器,旨在完善音訊的風格和聲音;以及填充功能,用於在音訊中無縫編輯內容。(@cartesia.ai)
02 有亮點的產品
1、Meta 攜手雷朋為時尚品牌 Coperni 推出透明版智慧眼鏡:限量 3600 副、售價 549 美元
3 月 10 日,Meta 釋出博文,宣佈攜手雷朋(Ray-Ban),為巴黎時裝週推出「Ray-Ban Meta x Coperni Limited Edition」,全球採用透明黑色框架和灰色鏡面鏡片,限量 3600 副,售價 549 美元(約 3986 元人民幣)。
(圖片來源:Meta)
據瞭解,這款眼鏡採用透明黑色框架,鏡臂上印有 Coperni 標誌,整體設計簡約而高階,全球僅發售 3600 副,售完即止,目前僅在 Ray-Ban 官網有貨。雖然外觀升級,但內部配置與功能與普通版 Ray-Ban Meta 智慧眼鏡一致。
Coperni 本次秀場以「數字社群」為主題,與 Meta 的科技理念不謀而合。秀場還特別舉辦了一場 200 人參與的 24 小時 LAN 派對,進一步呼應了這一主題。模特們在走秀時佩戴 Ray-Ban Meta x Coperni 限量版眼鏡,展示了其擴音錄製功能,將科技與時尚完美融合。
此外,Meta 計劃在 2025 年為 Ray-Ban 智慧眼鏡新增螢幕,並引入類似 Google Project Astra 的「Live AI」功能,這些創新將進一步推動智慧眼鏡在日常生活和時尚領域的應用。(@Meta、IT 之家)
2、索尼 AI 遊戲角色原型曝光:結合語音與動畫,與玩家實時對話
IT 之家 3 月 11 日訊息,科技媒體 The Verge 今天(3 月 11 日)釋出博文,報導稱索尼公司正開發由 AI 驅動的 PlayStation 遊戲角色,並分享了一段時長 1 分鐘的影片,展示了《地平線:西之絕境》(Horizon Forbidden West)遊戲中的 AI 版角色埃洛伊(Aloy)。
該影片由索尼互動娛樂的軟體工程總監 Sharwin Raghoebardajal 解說,展示了 Aloy 如何透過語音提示與玩家對話。儘管這只是原型技術,但它預示著 AI 在遊戲開發中的巨大潛力。
該原型使用了 OpenAI 的 Whisper 進行語音轉文字,GPT-4 和 Llama 3 用於對話和決策。索尼還開發了內部的情感語音合成系統(EVS)和 Mockingbird 技術,用於語音生成和麵部動畫。(@IT 之家)
03 有態度的觀點
1、復旦副教授:人工智慧的發展高潮尚未結束
近日,復旦大學大資料學院的魏忠鈺副教授接受《追問》的採訪,雙方從基礎研究到產業落地探討,層層揭示 AI 崛起與迭代的內在邏輯。在談及「初創公司是否應選擇智慧體作為入局方式」時,魏忠鈺教授認可這一基本論斷,同時其表示對於初創公司來說,如果現在再去開發基礎模型能力,一方面很難與已經建立技術基礎或資料基礎的公司競爭,另一方面也難以獲得足夠的資源來進行基礎模型的開發。因此,選擇一些特定領域的應用,可能是一個相對明智的方向。同時,魏忠鈺教授認為,針對特定領域的專有化能力建構始終是必要的,其中資料是關鍵之一。
魏忠鈺教授提到,許多專業化場景的資料都涉及隱私保護,無法在網路上或通用場景中輕易獲取,而模型能力建構很大程度依賴於資料,如果這些資料無法被通用模型獲取,那麼擁有這些資料的領域從業者就具備了獨特的優勢。最後,魏忠鈺教授還分享了自己對未來的看法。其認為人工智慧的發展高潮尚未結束,未來一段時間內,它在其他領域的成果會逐漸顯現。因此,在神經科學和腦科學領域,人工智慧也必將產生實質性的影響。關注人工智慧相關技術對下一步的發展至關重要。(@ APPSO)
更多 Voice Agent 學習筆記:
端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 在FPS遊戲中,玩家對音畫同步感知的量化與評估遊戲
- 在 Unity 多人遊戲中實現語音對話Unity遊戲
- 微軟 Muse 遊戲生成模型:理解遊戲環境,生成玩家動作;西工大 ASLP 實驗室開源語音理解模型 OSUM 丨日報微軟遊戲模型
- 京東、索尼合作再升級,遊戲電視音畫質全方位進階遊戲
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Kyutai 釋出實時同傳語音模型 Hibiki,可在 iPhone 執行;清華、東大等釋出音訊生成動作模型 EMAGEAI模型iPhone音訊
- WebRTC音訊通話升級為視訊通話Web音訊
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 互動內容的遊戲化“升級”遊戲
- 乾貨丨遊戲音訊與聲音設計相關書籍推薦遊戲音訊
- 接入語音盒子,廣東成人玩偶公司走紅;AI 語音訪談員 Chikka 登頂 PH 日榜:AI 語音收集反饋,即時生成洞察報告丨日報AI
- Llama 4 即將釋出,引入語音能力;AI 智慧運動眼鏡 BleeqUp:實時對講、AI 自動成片等功能丨日報AI
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 文字到語音(tts)TTS
- Coqui TTS合成語音UITTS
- 【語音之家】AI產業沙龍—— 網易語音AI技術:從內容安全到內容品質AI產業
- 內容與渠道博弈升級
- 在索尼未來戰略中,遊戲業務關鍵詞是「沉浸」與「無縫」遊戲
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 它將AI與定向聲音技術相結合,防止更加私密的通話出現漏音AI
- 使用者可在Messenger內讀書並與角色互動Messenger
- 依圖在實時音視訊中語音處理的挑戰丨RTC Dev Meetupdev
- TGDC | 用“內容沉浸”聯結遊戲與現實遊戲
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- 語音識別技術與政務資訊系統結合
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- 手遊中實時音視訊的開發經驗與實現技巧
- iOS音訊程式設計之實時語音通訊(對講機功能)iOS音訊程式設計
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- 如何實現遊戲陪玩系統中語音的錄製與播放?遊戲
- 基於環信實現實時視訊語音通話功能
- TTS 擂臺: 文字轉語音模型的自由搏擊場TTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型