MiniMax TTS 新模型 T2A-01-HD：情感控制 10 秒克隆限時免費；真人表演 + 文字命令，Kinetix 精準生成角色動作

開發者朋友們大家好：

這裡是「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq，@ 鮑勃

01 有話題的技術

1、Kinetix 推出全新 AI 影片技術可精準控制角色動作

在數字創作領域的技術競爭日趨白熱化之際，Kinetix 推出了一項令人矚目的 AI 影片技術，讓角色動作控制達到了新的精準度。這項技術透過創新性地結合真人表演影片和文字指令，實現了對數字角色動作的精確操控。

該系統的操作流程出奇簡單：創作者只需上傳一段真實的動作影片，比如自己錄製的一段揮手或跳舞畫面，再配上相應的文字描述，如「角色微笑並揮手」，系統就能將這些輸入轉化為數字角色的精準動作表現。這種方式與 Runway 的 Act One 頗為相似，都致力於簡化動畫創作流程。

在功能方面，該系統展現出極強的適應性。無論是簡單的揮手、點頭、鞠躬，還是複雜的舞蹈、跑步等全身性動作，甚至是微笑、皺眉、驚訝等細膩的表情變化，系統都能精確捕捉和重現。更值得一提的是，創作者還可以透過調節動作的速度、幅度和節奏，對角色的表現效果進行更細緻的調整。

作為全球領先的 3D 動畫資料庫支持者，Kinetix 擁有數百萬個高質量動作片段和數億個 3D 全身姿態資料。這些海量資料為系統提供了強大的基礎支援，確保生成的角色動作細節精準到位，從手勢、表情到身體姿態都栩栩如生。系統還配備了先進的合成資料生成管道，能夠根據不同場景需求自動生成多樣化的新動作。

這項技術最顯著的優勢在於其 democratic 化的特性。即使沒有專業動畫製作經驗的使用者，也能在短短几分鐘內創作出專業水準的動畫內容。相比傳統動畫製作動輒數週甚至數月的週期，Kinetix 將製作時間壓縮至數小時，同時大幅降低了製作成本，為中小型團隊和個人創作者提供了前所未有的創作可能。（@ AIbase 基地）

2、微軟 AutoGen v0.4 釋出：AI 智慧體靈活性和跨語言能力大提升

微軟近日釋出了 AutoGen v0.4 版本，這是其用於 AI 代理的編排框架。這一更新旨在增強 AI 代理的靈活性和可控性，以滿足使用者對功能擴充套件和觀察能力的需求。

AutoGen 自推出以來，受到了開發者的廣泛關注，但使用者在使用過程中也遇到了一些架構限制、效率低下的 API 及除錯和干預功能不足等問題。

在新版本中，微軟重點提升了框架的模組化和可擴充套件性。AutoGen v0.4 引入了非同步訊息傳遞機制，使得基於該框架構建的代理能夠支援事件驅動和請求互動模式。這一改進使得開發者可以更加方便地新增外掛元件，構建長期執行的代理，同時還可以設計更為複雜和分散式的代理網路。

此外，AutoGen v0.4 的擴充套件模組簡化了多代理團隊和高階模型客戶端的協作管理，併為開源開發者提供了更好的擴充套件管理功能。為了提升使用者對代理互動的觀察能力，AutoGen v0.4 內建了指標追蹤、訊息追蹤和除錯工具，使得使用者可以實時監控代理之間的互動。

該框架還實現了跨語言的互操作性，目前支援 Python 和。NET 語言，未來將支援更多程式語言。微軟對 AutoGen 框架進行了重構，清晰地定義了框架、工具和應用程式之間的責任。新框架分為三個層次：核心層為事件驅動系統的基礎構件；AgentChat 層是基於核心層構建的任務驅動高層 API，具備群聊、程式碼執行和預構建代理功能；第一方擴充套件則與 Azure 程式碼執行器和 OpenAI 模型客戶端等整合。

與此同時，微軟對 AutoGen Studio 也進行了升級，這是一種低程式碼介面，可用於快速原型設計代理。使用者能夠實時獲取代理更新，暫停對話或在執行過程中重新引導代理，還可以透過拖拽介面設計代理團隊，匯入自定義代理並獲得互動反饋。

微軟自 2023 年 10 月推出 AutoGen 以來，致力於簡化代理之間的溝通。隨著 AI 代理的不斷發展，微軟也推出了其他代理系統，如 Magentic-One，形成了龐大的 AI 代理生態系統。而競爭對手如 Salesforce、ServiceNow 和 AWS 也在不斷增強其代理系統的能力，以追趕微軟的步伐。（@ AIbase 基地）

3、視覺語言模型安全升級，還不犧牲效能，淘天 MMLab 南大重大出品

當「多模態」「跨模態」成為不可阻擋的 AI 趨勢時，多模態場景下的安全挑戰尤其應當引發產學研各界的注意。

應對挑戰，淘天集團未來生活實驗室團隊聯手南京大學、重慶大學、港中文 MMLab 提出了一種全新的視覺語言模型（VLM）安全對齊方法，PSA-VLM（Progressive Safety Alignment for Vision-Language Models）。

PSA-VLM 透過基於概念瓶頸模型（CBM）的架構創新，允許模型在生成答案時干預模型的中間層概念預測，從而最佳化大模型的最終回覆，顯著提升 VLM 在應對視覺安全風險方面的效能。這一方法不僅在安全效能上取得了卓越的表現，同時保持了模型的通用任務能力。

視覺語言模型的安全隱憂：從「黑箱」到「可控」

近年來，大語言模型（LLMs）的發展促進了多模態學習的進步，使這些強大的語言模型能夠處理來自多種模態的資訊。其中，視覺語言模型（VLMs）透過整合影像和文字特徵，在視覺問答、影像描述以及多模態推理等任務上取得了顯著成果。

然而，儘管 VLMs 取得了諸多進展，但其安全性仍然存在重大缺陷。研究發現，在遭遇攻擊時視覺模態表現出特別的脆弱性，針對 VLM 中視覺模態的攻擊更容易成功： 人們可以透過簡單的攻擊手段繞過語言模型基座已有的安全對齊機制，生成有害內容 。雖然一些研究探索了針對多模態模型的防禦和對齊措施，然而，現有防禦方法通常基於直覺設計並透過資料驅動的端到端訓練實現。模型仍然是一個人類難以理解和控制的黑箱 。此外，模型的高複雜性也帶來了發現內部潛在缺陷的擔憂，這都帶來了模型具備可解釋性和可控性的需求。

為了克服這些侷限性，PSA-VLM 的創新在於引入了概念瓶頸模型的核心思想——透過一層可解釋的高階概念連線輸入和輸出，實現模型的透明化與可控性。

這不僅讓模型能夠準確識別不安全內容，還支援使用者在概念層面對模型預測進行干預，為高風險場景提供了靈活可靠的解決方案。（@ 量子位）

02 有亮點的產品

1、 MiniMax 推出 TTS 模型 T2A-01-HD：微妙情感控制、錄音室級效果、限時免費

MiniMax 推出了 T2A-01-HD ，這是文字轉音訊技術的又一突破。憑藉無與倫比的多功能性、情感深度和多語言真實性，該型號重新定義了語音合成的可能性。以下是它與眾不同之處：

無限的語音自定義：

1️⃣僅用 10 秒的音訊即可克隆聲音，保留每個細微差別和情感底色。-訪問按語言、性別、口音、年齡和風格分類的 300 多個預建聲音庫。-使用高階引數控制自定義音調、速度和情感基調，獲得動態效果。

2️⃣新增室內聲學和電話濾波器等專業效果，獲得錄音室級效果。

複雜的情商：

1️⃣透過業界首個智慧情感系統捕捉和複製語音中微妙的情感細微差別，讓語音栩栩如生。

2️⃣選擇自動情緒檢測或手動控制，獲得完美表達的語音。

真正地道的語言專業知識：

流利地說 17 種以上的語言，自然的口音反映出地道的地區性。

支援的語言包括：

英語（美國、英國、澳大利亞、印度）
中文（普通話和粵語）
日語、韓語、法語、德語、西班牙語、葡萄牙語（包括巴西葡萄牙語）、義大利語、阿拉伯語、俄語、土耳其語、荷蘭語、烏克蘭語、越南語和印尼語。

該列表會不斷更新以包含更多語言（@ Hailuo AI (MiniMax)@X）

2、騰訊會議 AI 小助手 Pro：深度理解和快速響應會議資訊

近日，騰訊會議宣佈了一項重大產品升級，正式推出了 AI 小助手 Pro，並對組織協同功能進行了全面最佳化。這一訊息引起了廣泛關注。

據悉，AI 小助手 Pro 是基於騰訊混元千億級引數大模型打造的一款智慧工具。它能夠深度理解和快速響應會議資訊，依託歷史和實時會議內容，為使用者提供更加精準和有針對性的回答。這款智慧助手不僅支援聯網搜尋，還能處理檔案或圖片提問，進行文案創作、報告解讀、方案策劃等多種任務。在會議中，AI 小助手 Pro 甚至可以幫助使用者分析 PPT，無論是會中還是會外，都能發揮重要作用。

除了 AI 小助手 Pro 的推出，騰訊會議還針對會議通知和錄製分享等痛點進行了改進。使用者現在可以在騰訊會議內建立組織，預定會議時直接在通訊錄中勾選內外部聯絡人，日程將自動同步到對方會議列表，並透過多種渠道提醒參會人準時參加。如果需要拉入新的參會者，只需在通訊錄中發起呼叫，對方接聽即可入會，大大提升了會議效率。

此外，騰訊會議還最佳化了雲錄製分享功能。使用者會後可將雲錄製內容快捷分享給通訊錄內外部聯絡人，對方直接在騰訊會議客戶端的「錄製」模組就能檢視，不僅方便快捷，還能有效防止錄製連結洩露。

值得一提的是，此次升級後，騰訊會議新增了個人身份認證和企業認證功能。專業版、商業版和企業版使用者在溝通時，可以在個人資料卡、會議水牌中展示認證資訊，進一步提升了會議的專業性和安全性。（@ AIbase 基地）

03 有態度的觀點

1、Salesforce 首席科學家：藉助 AI Agent，工作將會更有能力、更有趣

近日，Salesforce 首席科學家 Silvio Savarese 發表文章，其中他表示步入 AI 的第三波浪潮，藉助 AI Agent，人們工作起來會更有能力、更覺有趣、更富創造力。

文中，Silvio Savarese 分了三個階段來談及 AI 的發展。

第一階段，專家級的 AI Agent 聚焦特定行業，能出色完成既定任務。Silvio Savarese 認為，這將會給日常關鍵的商業運作帶來了前所未有的效率和準確性，同時這些 AI Agent 是企業應用 AI 的基礎，它們處理零散任務又穩又快，極大改變了部門的工作流程。

而第二階段，Silvio Savarese 則認為是公司內部的專家 AI Agent 開始協同合作，朝著一個共同的商業目標努力。並且這一階段會引入「協調者」身份的 AI Agent，負責組織多個專家 AI Agent 的協同工作。

到達第三階段，Silvio Savarese 表示跨組織邊界的複雜 Agent-to-Agent（A2A）互動出現了，這開創了全新的商業模式。最後，Silvio Savarese 也表示，要實現最終的理想目標，人類還有很多工作要做。Silvio Savarese 建議，當人類部署愈發複雜的 AI Agent 系統時，每一項決策都必須遵循信任與責任這兩個基本原則，要做到構建信任與確保問責制。(@ APPSO)

更多 Voice Agent 學習筆記：

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

MiniMax TTS 新模型 T2A-01-HD：情感控制 10 秒克隆限時免費；真人表演 + 文字命令，Kinetix 精準生成角色動作

01 有話題的技術

02 有亮點的產品

03 有態度的觀點

相關文章