米哈遊蔡浩宇新遊戲:角色語音、情緒、動作實時生成;Argmax 端側說話人分離框架:10M 大小 1 秒識別 4 分鐘音訊丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、騰訊官宣本週開啟「混元 3D 開源日」
近日,騰訊混元宣佈,分別在 3 月 18 日和 3 月 19 日兩天(都為上午 11 時)開啟「混元 3D 開源日」。今年 1 月,騰訊混元宣佈正式開源 3D 生成大模型 2.0 版本(Hunyuan3D-2.0),同時上線業界首個一站式 3D 內容 AI 創作引擎。據官方介紹,Hunyuan3D-2.0 相較於 1.0 版本,在 3D 模型生成效果上有顯著提升,在幾何結構上更加精細,紋理色彩更加豐富;根據 CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)和 CLIP-score 指標,Hunyuan3D-2.0 模型的整體表現,在業界處於領先梯隊。
而一同上線的騰訊混元 3D AI 創作引擎,可透過提示詞或圖片,直接生成高質量 3D 模型,並且還有 3D 功能矩陣、3D 編輯、3D 生成工作流、創作素材庫等多種功能;混元 3D AI 創作引擎還支援設計 3D 生成工作流,使用者只需要輸入提示詞,或上傳圖片,調整節點生成引數,即可一鍵生成具有特定風格和特徵的 3D 資產。(@APPSO)
2、百度釋出首個原生多模態大模型文心大模型 4.5 和深度思考模型 X1
3 月 16 日,百度正式釋出文心大模型 4.5 及文心大模型 X1。據介紹,文心大模型 4.5 是百度首個原生多模態大模型,其多模態理解、文字和邏輯推理能力顯著提升,在多項測試中表現優於 GPT4.5,API 呼叫價格僅為 GPT4.5 的 1%;文心大模型 X1 為深度思考模型,效能對標 DeepSeek-R1,並增加多模態、多工具呼叫能力,API 呼叫價格約為 R1 的一半。
此前,百度曾宣佈文心一言將於 4 月 1 日免費,本次釋出不僅帶來兩款全新大模型,且將免費時間提前,全面提升使用者體驗。
同時,文心大模型 4.5 已在百度智慧雲千帆大模型平臺上線,輸入價格低至 0.004 元 / 千 tokens;文心大模型 X1 價格僅為 DeepSeek R1 一半,輸入價格 0.002 元 / 千 tokens。目前,在文心一言官網即可免費體驗文心大模型 4.5 和文心大模型 X1。(@APPSO)
3、Argmax 推出端側說話人分離推理框架,10M 大小 ,1 秒識別 4 分鐘音訊
https://www.argmaxinc.com/blog/speakerkit
為了響應開發者社群對裝置端說話人分離功能的強烈需求,Argmax 公司推出了 SpeakerKit。SpeakerKit 是 Argmax SDK 系列裝置推理框架的最新成員,旨在解決開發者在使用 WhisperKit 時最為迫切的功能需求:說話人分離,即識別「誰在何時說話」這一重要任務。
亮點
速度: 在 iPhone 上,SpeakerKit 僅需約 1 秒即可識別 4 分鐘音訊中的說話人。經測試,該速度遠超其他任何系統,無論是在伺服器端還是裝置端。
質量: 儘管速度提高了一個數量級,SpeakerKit 在 13 個資料集上的錯誤率與 Pyannote 等最先進的系統相媲美。
大小: SpeakerKit 總大小約為 10 兆,可以輕鬆地與應用程式捆綁或快速下載。
廣泛相容性: 該框架支援所有執行 iOS 16 或 macOS 13 及更新版本的裝置。Android 版本的支援也即將推出。
模組化: SpeakerKit 可以與 WhisperKit 協同工作,生成帶有說話人標註的轉錄文字(「誰在何時說了什麼」)。此外,它還可以與其他任何轉錄引擎結合使用,提供了許多伺服器端 API 所不具備的靈活性。(@argmaxinc blog)
02 有亮點的產品
1、蔡浩宇的新遊戲,今天終於正式曝光了
近日,由米哈遊創始人蔡浩宇創立的 AI 遊戲公司「Anuttacon」,公佈首個遊戲專案《Whispers From The Star》。據介紹,《Whispers From The Star》主角是一個天體物理系女生 Stella,她意外墜落在了一個外星星球上,玩家是她唯一能聯絡的人,同時玩家的任務是幫助她生存下去,並離開 GAIA 星球。 該遊戲最大亮點就是 Stella 的對話是 AI 實時生成,根據玩家輸入的對話內容,Stella 會給出不固定的回答、情緒和動作。《Whispers From The Star》主打以 AI 驅動角色的實時對話,為玩家提供開放、個性化,並且身臨其境的遊玩體驗。該遊戲或為 Anuttacon 的實驗產品,旨在驗證多模態模型驅動下,實時互動的表現,因此《Whispers From The Star》的畫面為 100% 實時演算。
值得關注的是,《Whispers From The Star》主要平臺為手機,目前已向 iOS12 以上的 iPhone 開啟內測。《Whispers From The Star》的開發公司 Anuttacon,是由米哈遊創始人蔡浩宇宣佈從公司卸任「退休」後所打造的首個 AI 創業專案,於去年 8 月被曝光。該公司致力於用 AI 為玩家創造前所未有的體驗,突破互動娛樂的界限。團隊創立之初已有不少業內大牛加入,其中包括微軟圖形學大佬童欣、前 B 站遊戲和直播負責人王宇陽等。(@APPSO)
2、伴魚 AI 私教破解個性化教育難題
在國家全面推進「人工智慧 + 教育」的戰略背景下,伴魚智學正式釋出「AI 私教大模型系統」,憑藉「奈米級知識體系」「全場景督學服務」「探究式學習閉環」三大核心能力,重新定義智慧教育新正規化,打造極致的個性化教育,讓每個孩子發出獨特的光。該系統基於 3000 萬節課程、7000 萬使用者學習資料訓練,在 1 對 1 真人教學場景中多項指標超越 OpenAI GPT 等國際大模型,成為國內首個透過「新課標理解準確率 98.5%」認證的 AI 教育產品。
學、練、測、評、復一體實現全流程閉環
伴魚構建了覆蓋「課前 - 課中 - 課後」的完整學習生態,學習時 AI 私教 1 對 1 互動式答疑,支援語音、影片、圈選提問等多模態互動;練習基於錯題基因庫智慧推送母題,實現「做一題頂十題」;複習採用艾賓浩斯記憶演算法,個性化規劃每日複習計劃;督學方面獨創「三師服務」(AI 私教 + 班主任 + 名師),實時同步學情至家長端,解決「輔導依賴家長」的痛點。學生家長反饋,使用伴魚 AI 私教後,孩子作業完成效率提升 40%,主動提問頻率增長 210%。(@ 實況網)
03 有態度的觀點
1、GitHub CEO:真正的 AI Agent,還有很長的路要走
近日,GitHub CEO Thomas Dohmke 接受播客 No Priors 的採訪,其中 Thomas 在談話中深入討論了 AI Agent 對程式設計師的影響、AI 對軟體團隊的影響有多大等內容。開篇,Thomas 便定下了 AI Agent 廣泛採用的標準:對使用者來說,可預測的、可操控的、可驗證的和可容忍的。其解釋道,AI Agent 真正的目的在於提高使用者的效率,而不是浪費使用者的寶貴時間,同時 AI Agent 也需要一個好的推理模型,並弄清楚什麼是正確的開發流程。Thomas 也表示,目前人類離 AI Agent 真正足夠好還有很長的路要走,主要問題在於 AI Agent 沒辦法向人類一樣,將系統思維代入到實際的開發中去。Thomas 指出,人類在做事情的過程中不斷提出、解決新的問題,而目前 AI Agent 還是隻能將一件大事分成小塊而進行逐一解決。與其他人一樣,Thomas 也有自己對 AI Agent 的未來想象。他認為,未來的 AI Agent 將會更加個性化,能夠跟隨使用者的思路去給出符合使用者想法的解決方案,並讓解決結果更像使用者自己的風格,同時,AI 模型也將變得更加多元化、更多選擇。(@APPSO)
04 社群專案推薦
1、Talk to Computer:讓計算機聽懂人話
來自 @ 張銻:因為驚歎於 LLM 對語言的理解能力,我想要藉助它讓計算機聽懂人話。現在支援了語音輸入,有一句話直達搜尋/網頁/Steam 遊戲這些功能。當前支援功能還比較簡單,歡迎討論和提需求。
特性
支援 Windows/Mac
無需環境 直接下載 exe/dmg 使用
算力使用雲服務(矽基流動),對自己電腦效能無要求
https://github.com/zhangti112358/TalktoComputer
05 有看點的活動
1、官宣!【B4B 大資料商業應用挑戰賽 2024-25】參賽者招募!
B4B 大資料商業應用挑戰賽 2024-25 載譽歸來!今年主題「碳科技於房地產 CarbonTech for Real Estate」和「從 AI 驅動的虛擬科技 Virtual Media Tech powered by AI」,我們期待透過這次命題,讓科技在推動環境、社會和治理(ESG)倡議中的成為重要角色。參賽者將利用創新解決方案,探索技術如何應對氣候變化和企業責任等全球性挑戰。這一主題鼓勵創造性思維和合作,激勵團隊開發不僅能推進商業目標,還能為社會和環境作出積極貢獻的方案。
立即報名:
https://forms.office.com/r/yikgCvK3Rp
截止報名日期:
2025年3月17日
🎯我們不限範圍和應用,只要您的解決方案能解決 ESG 問題,並符合公眾對資料獲取、儲存、使用和分析的道德期望,我們都歡迎您的參與,參賽隊伍可以免費參加香港會議展覽中心國際創科展(InnoEX)!此外,入圍的隊伍亦有機會跟同行頂尖及有豐富經驗的導師團隊學習,並有機會到國內,與內地的團隊及企業進行交流,這將是一個難得的學習和交流機會!
🏘️「碳科技於房地產 CarbonTech for Real Estate」:新建材、能源管理、設計與規劃、建築與拆除以及設施管理等方面,都需要大資料的幫助。房地產不僅僅是建築和磚塊,從工作場所到購物場所,交通運輸站點,甚至是我們的住所,它與我們的生活息息相關。我們期望能夠在大資料及物管科技的幫助下,進一步推動業界減少碳排放,為環保出一分力。
🌐和「從 AI 驅動的虛擬科技 Virtual Media Tech powered by AI」:虛擬技術將在轉變傳統實踐中發揮關鍵作用,但硬體進步、價格可負擔性和使用者舒適度等都是需要克服的障礙。我們期待您的創新解決方案,讓虛擬技術更加普及、易用和更具有成本效益。
🔥現在就與身邊的朋友前來挑戰,展現您的大資料技術和創新思維,一起創造更加美好的未來!🔥(@B4B 大資料挑戰賽)
更多 Voice Agent 學習筆記:
端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 30分鐘實現小程式語音識別
- Cartesia 升級 TTS 模型,可在音訊中無縫填充內容;索尼 AI 遊戲角色原型:結合語音與動畫,與玩家實時對話丨日報TTS模型音訊AI遊戲原型動畫
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- 米哈遊CEO蔡浩宇GDC演講:《原神》如何打造動人的開放世界?
- 微軟 Muse 遊戲生成模型:理解遊戲環境,生成玩家動作;西工大 ASLP 實驗室開源語音理解模型 OSUM 丨日報微軟遊戲模型
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 遊戲5分鐘,上頭2小時!畫風可愛的音樂遊戲《Like A Giraffe!》遊戲
- 遊戲音訊存檔 | 第 1 部分:基本情況遊戲音訊
- 在 Unity 多人遊戲中實現語音對話Unity遊戲
- C# 10分鐘完成百度語音技術(語音識別與合成)——入門篇C#
- OpenAI 推出嵌入式硬體 SDK,支援 ESP32 語音開發;INFP:音訊驅動的雙人對話頭像生成,自動區分說話者和傾聽者OpenAI音訊
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 華為音訊編輯服務,實時分離人聲、伴奏和樂器聲音訊
- mkvtoolnix 分離影片音軌 把英語的音軌分離出來 - 軟體推薦
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- 米哈遊想把動作手遊賽道卷沒嗎?
- “直播+遊戲”語音房互動玩法遊戲
- 遊戲音樂的認識與製作三遊戲
- 訊飛 離線語音識別+替換自己的id
- 接入語音盒子,廣東成人玩偶公司走紅;AI 語音訪談員 Chikka 登頂 PH 日榜:AI 語音收集反饋,即時生成洞察報告丨日報AI
- [iOS]5 分鐘實現抖音 APPiOSAPP
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- 自動做遊戲(1):自動生成人物側面圖遊戲
- Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報特徵GPT音訊創業開發者日報
- 樹莓派語音互動--語音輸入識別樹莓派
- 使用 Hugging Face 推理終端搭建強大的“語音識別 + 說話人分割 + 投機解碼”工作流Hugging Face
- c語音實驗1作業
- 低延遲流式語音識別技術在人機語音互動場景中的實踐
- 米哈游去年創收50億,CEO蔡浩宇:想做10億人生活的虛擬世界虛擬世界
- 乾貨丨遊戲音訊與聲音設計相關書籍推薦遊戲音訊
- 尼爾森:2024年Q2美國人每天收聽音訊的時間為4小時5分鐘音訊
- Arctime自動分軸怎麼用? Arctime語音識別自動加字幕的技巧
- 海南話語音識別模型——模型訓練(一)模型
- 語音識別模型模型
- 玩遊戲居然還要分性別——玩家何時才能實現遊戲自由?遊戲
- 阿里通義實驗室語音團隊負責人鄢志傑離職;蘋果計劃在 AirPods 上配備實時對話翻譯功能丨日報阿里蘋果AI
- 智譜釋出端到端多模態模型 GLM-Realtime,2 分鐘記憶能力;訊飛星火同傳語音大模型釋出,5 秒時延大模型