Cartesia 升級 TTS 模型,可在音訊中無縫填充內容;索尼 AI 遊戲角色原型:結合語音與動畫,與玩家實時對話丨日報

RTE开发者社区發表於2025-03-12

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、OpenAl 釋出 Agent 工具包,網友:謝謝 Manus AI

OpenAI 釋出了一系列專為構建 AI Agents 設計的新工具和 API,幫助開發者更容易建立能自動完成任務的 AI Agents(智慧體)。OpenAI 認為雖然過去一年推出的高階推理、多模態互動等模型能力為 Agent 奠定了基礎,但開發者在構建生產級 Agent 時,還是會遇到不少難題。為此,他們今天特地釋出了全新的 Responses API、三種內建工具以及以及一個開源的 Agents SDK。

省流版如下:

  • Responses API:結合 Chat Completions API 簡潔性與 Assistants API 工具使用能力的新型 API 介面。

  • Web 搜尋工具(Web Search Tool):讓模型訪問網際網路獲取最新資訊的工具。

  • 檔案搜尋工具(File Search Tool):從大量文件中檢索相關資訊的增強工具。

  • 計算機使用工具(Computer Use Tool):由 Computer-Using Agent(CUA)模型提供支援的計算機操作自動化工具,讓 AI 能像人一樣操作電腦介面。

  • Agents SDK:基於 Swarm 框架升級,簡化多 Agent 工作流程編排的開源框架。

具體來說,Responses API 結合了 Chat Completions API(主要用來生成對話回覆)的簡潔性和 Assistants API(能讓 AI 呼叫外部功能,比如查資料、操作東西)的工具使用能力,成為構建 Agent 應用的新基礎。開發者只需呼叫一次 API ,即可利用多種工具和多輪模型互動解決複雜任務。

OpenAI 還推出了開源的 Agents SDK,專門用來簡化多 Agent 工作流程的編排。相比去年釋出的實驗性 Swarm 框架,這個全新 SDK 有了顯著的改進。提供易於配置的 LLM 與內建工具整合、Agent 間智慧交接控制、可配置安全檢查以及視覺化追蹤等功能,適用於客戶支援自動化、多步研究、內容生成等多種應用場景。(@APPSO)

2、Manus 與阿里通義千問團隊達成戰略合作

3 月 11 日,Manus 官方微博宣佈,與阿里通義千問團隊正式達成戰略合作。雙方將基於通義千問系列開源模型,在國產模型和算力平臺上實現 Manus 的全部功能。

Manus 是由創業公司 Monica 釋出的首款 AI Agent 產品,最近在社交媒體火爆出圈。

早些時候,Manus 創始人季逸超在社交平臺透露,Manus 產品使用了不同的基於阿里千問大模型(Qwen)的微調模型。(@ 快科技)

3、Cartesia 升級 TTS 模型 Sonic 2.0,延遲 40 毫秒

Sonic 2.0 基於 Cartesia 新的狀態空間模型架構構建,被描述為目前最快且最可控的語音模型。儘管是原始 Sonic 模型的兩倍大,但 Sonic 2.0 的執行速度更快,完整模型的延遲僅為 90 毫秒,Turbo 模式的延遲僅為 40 毫秒 。在對 100 個不同聲音進行的盲測中,Sonic 2.0 比下一個最佳提供商獲得了 1.5 倍的使用者青睞。

除了速度和質量的提升之外,Sonic 2.0 還提供了對語音生成的空前控制,具有一流的語音克隆能力,可以準確地捕捉複雜的口音和豐富的音訊音景。Cartesia 還為 Sonic 2.0 引入了兩個新的、強大的功能模組:語音轉換器,旨在完善音訊的風格和聲音;以及填充功能,用於在音訊中無縫編輯內容。(@cartesia.ai)

02 有亮點的產品

1、Meta 攜手雷朋為時尚品牌 Coperni 推出透明版智慧眼鏡:限量 3600 副、售價 549 美元

3 月 10 日,Meta 釋出博文,宣佈攜手雷朋(Ray-Ban),為巴黎時裝週推出「Ray-Ban Meta x Coperni Limited Edition」,全球採用透明黑色框架和灰色鏡面鏡片,限量 3600 副,售價 549 美元(約 3986 元人民幣)。

(圖片來源:Meta)

據瞭解,這款眼鏡採用透明黑色框架,鏡臂上印有 Coperni 標誌,整體設計簡約而高階,全球僅發售 3600 副,售完即止,目前僅在 Ray-Ban 官網有貨。雖然外觀升級,但內部配置與功能與普通版 Ray-Ban Meta 智慧眼鏡一致。

Coperni 本次秀場以「數字社群」為主題,與 Meta 的科技理念不謀而合。秀場還特別舉辦了一場 200 人參與的 24 小時 LAN 派對,進一步呼應了這一主題。模特們在走秀時佩戴 Ray-Ban Meta x Coperni 限量版眼鏡,展示了其擴音錄製功能,將科技與時尚完美融合。

此外,Meta 計劃在 2025 年為 Ray-Ban 智慧眼鏡新增螢幕,並引入類似 Google Project Astra 的「Live AI」功能,這些創新將進一步推動智慧眼鏡在日常生活和時尚領域的應用。(@Meta、IT 之家)

2、索尼 AI 遊戲角色原型曝光:結合語音與動畫,與玩家實時對話

IT 之家 3 月 11 日訊息,科技媒體 The Verge 今天(3 月 11 日)釋出博文,報導稱索尼公司正開發由 AI 驅動的 PlayStation 遊戲角色,並分享了一段時長 1 分鐘的影片,展示了《地平線:西之絕境》(Horizon Forbidden West)遊戲中的 AI 版角色埃洛伊(Aloy)。

該影片由索尼互動娛樂的軟體工程總監 Sharwin Raghoebardajal 解說,展示了 Aloy 如何透過語音提示與玩家對話。儘管這只是原型技術,但它預示著 AI 在遊戲開發中的巨大潛力。

該原型使用了 OpenAI 的 Whisper 進行語音轉文字,GPT-4 和 Llama 3 用於對話和決策。索尼還開發了內部的情感語音合成系統(EVS)和 Mockingbird 技術,用於語音生成和麵部動畫。(@IT 之家)

03 有態度的觀點

1、復旦副教授:人工智慧的發展高潮尚未結束

近日,復旦大學大資料學院的魏忠鈺副教授接受《追問》的採訪,雙方從基礎研究到產業落地探討,層層揭示 AI 崛起與迭代的內在邏輯。在談及「初創公司是否應選擇智慧體作為入局方式」時,魏忠鈺教授認可這一基本論斷,同時其表示對於初創公司來說,如果現在再去開發基礎模型能力,一方面很難與已經建立技術基礎或資料基礎的公司競爭,另一方面也難以獲得足夠的資源來進行基礎模型的開發。因此,選擇一些特定領域的應用,可能是一個相對明智的方向。同時,魏忠鈺教授認為,針對特定領域的專有化能力建構始終是必要的,其中資料是關鍵之一。

魏忠鈺教授提到,許多專業化場景的資料都涉及隱私保護,無法在網路上或通用場景中輕易獲取,而模型能力建構很大程度依賴於資料,如果這些資料無法被通用模型獲取,那麼擁有這些資料的領域從業者就具備了獨特的優勢。最後,魏忠鈺教授還分享了自己對未來的看法。其認為人工智慧的發展高潮尚未結束,未來一段時間內,它在其他領域的成果會逐漸顯現。因此,在神經科學和腦科學領域,人工智慧也必將產生實質性的影響。關注人工智慧相關技術對下一步的發展至關重要。(@ APPSO)

更多 Voice Agent 學習筆記:

端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章