米哈遊蔡浩宇新遊戲:角色語音、情緒、動作實時生成;Argmax 端側說話人分離框架:10M 大小 1 秒識別 4 分鐘音訊丨日報

RTE开发者社区發表於2025-03-17

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、騰訊官宣本週開啟「混元 3D 開源日」

近日,騰訊混元宣佈,分別在 3 月 18 日和 3 月 19 日兩天(都為上午 11 時)開啟「混元 3D 開源日」。今年 1 月,騰訊混元宣佈正式開源 3D 生成大模型 2.0 版本(Hunyuan3D-2.0),同時上線業界首個一站式 3D 內容 AI 創作引擎。據官方介紹,Hunyuan3D-2.0 相較於 1.0 版本,在 3D 模型生成效果上有顯著提升,在幾何結構上更加精細,紋理色彩更加豐富;根據 CLIP Maximum Mean Discrepancy(CMMD)、Frechet Inception Distance(FID)和 CLIP-score 指標,Hunyuan3D-2.0 模型的整體表現,在業界處於領先梯隊。

而一同上線的騰訊混元 3D AI 創作引擎,可透過提示詞或圖片,直接生成高質量 3D 模型,並且還有 3D 功能矩陣、3D 編輯、3D 生成工作流、創作素材庫等多種功能;混元 3D AI 創作引擎還支援設計 3D 生成工作流,使用者只需要輸入提示詞,或上傳圖片,調整節點生成引數,即可一鍵生成具有特定風格和特徵的 3D 資產。(@APPSO)

2、百度釋出首個原生多模態大模型文心大模型 4.5 和深度思考模型 X1

3 月 16 日,百度正式釋出文心大模型 4.5 及文心大模型 X1。據介紹,文心大模型 4.5 是百度首個原生多模態大模型,其多模態理解、文字和邏輯推理能力顯著提升,在多項測試中表現優於 GPT4.5,API 呼叫價格僅為 GPT4.5 的 1%;文心大模型 X1 為深度思考模型,效能對標 DeepSeek-R1,並增加多模態、多工具呼叫能力,API 呼叫價格約為 R1 的一半。

此前,百度曾宣佈文心一言將於 4 月 1 日免費,本次釋出不僅帶來兩款全新大模型,且將免費時間提前,全面提升使用者體驗。

同時,文心大模型 4.5 已在百度智慧雲千帆大模型平臺上線,輸入價格低至 0.004 元 / 千 tokens;文心大模型 X1 價格僅為 DeepSeek R1 一半,輸入價格 0.002 元 / 千 tokens。目前,在文心一言官網即可免費體驗文心大模型 4.5 和文心大模型 X1。(@APPSO)

3、Argmax 推出端側說話人分離推理框架,10M 大小 ,1 秒識別 4 分鐘音訊

https://www.argmaxinc.com/blog/speakerkit

為了響應開發者社群對裝置端說話人分離功能的強烈需求,Argmax 公司推出了 SpeakerKit。SpeakerKit 是 Argmax SDK 系列裝置推理框架的最新成員,旨在解決開發者在使用 WhisperKit 時最為迫切的功能需求:說話人分離,即識別「誰在何時說話」這一重要任務。

亮點

  • 速度: 在 iPhone 上,SpeakerKit 僅需約 1 秒即可識別 4 分鐘音訊中的說話人。經測試,該速度遠超其他任何系統,無論是在伺服器端還是裝置端。

  • 質量: 儘管速度提高了一個數量級,SpeakerKit 在 13 個資料集上的錯誤率與 Pyannote 等最先進的系統相媲美。

  • 大小: SpeakerKit 總大小約為 10 兆,可以輕鬆地與應用程式捆綁或快速下載。

  • 廣泛相容性: 該框架支援所有執行 iOS 16 或 macOS 13 及更新版本的裝置。Android 版本的支援也即將推出。

  • 模組化: SpeakerKit 可以與 WhisperKit 協同工作,生成帶有說話人標註的轉錄文字(「誰在何時說了什麼」)。此外,它還可以與其他任何轉錄引擎結合使用,提供了許多伺服器端 API 所不具備的靈活性。(@argmaxinc blog)

02 有亮點的產品

1、蔡浩宇的新遊戲,今天終於正式曝光了

近日,由米哈遊創始人蔡浩宇創立的 AI 遊戲公司「Anuttacon」,公佈首個遊戲專案《Whispers From The Star》。據介紹,《Whispers From The Star》主角是一個天體物理系女生 Stella,她意外墜落在了一個外星星球上,玩家是她唯一能聯絡的人,同時玩家的任務是幫助她生存下去,並離開 GAIA 星球。 該遊戲最大亮點就是 Stella 的對話是 AI 實時生成,根據玩家輸入的對話內容,Stella 會給出不固定的回答、情緒和動作。《Whispers From The Star》主打以 AI 驅動角色的實時對話,為玩家提供開放、個性化,並且身臨其境的遊玩體驗。該遊戲或為 Anuttacon 的實驗產品,旨在驗證多模態模型驅動下,實時互動的表現,因此《Whispers From The Star》的畫面為 100% 實時演算。

值得關注的是,《Whispers From The Star》主要平臺為手機,目前已向 iOS12 以上的 iPhone 開啟內測。《Whispers From The Star》的開發公司 Anuttacon,是由米哈遊創始人蔡浩宇宣佈從公司卸任「退休」後所打造的首個 AI 創業專案,於去年 8 月被曝光。該公司致力於用 AI 為玩家創造前所未有的體驗,突破互動娛樂的界限。團隊創立之初已有不少業內大牛加入,其中包括微軟圖形學大佬童欣、前 B 站遊戲和直播負責人王宇陽等。(@APPSO)

2、伴魚 AI 私教破解個性化教育難題

在國家全面推進「人工智慧 + 教育」的戰略背景下,伴魚智學正式釋出「AI 私教大模型系統」,憑藉「奈米級知識體系」「全場景督學服務」「探究式學習閉環」三大核心能力,重新定義智慧教育新正規化,打造極致的個性化教育,讓每個孩子發出獨特的光。該系統基於 3000 萬節課程、7000 萬使用者學習資料訓練,在 1 對 1 真人教學場景中多項指標超越 OpenAI GPT 等國際大模型,成為國內首個透過「新課標理解準確率 98.5%」認證的 AI 教育產品。

學、練、測、評、復一體實現全流程閉環

伴魚構建了覆蓋「課前 - 課中 - 課後」的完整學習生態,學習時 AI 私教 1 對 1 互動式答疑,支援語音、影片、圈選提問等多模態互動;練習基於錯題基因庫智慧推送母題,實現「做一題頂十題」;複習採用艾賓浩斯記憶演算法,個性化規劃每日複習計劃;督學方面獨創「三師服務」(AI 私教 + 班主任 + 名師),實時同步學情至家長端,解決「輔導依賴家長」的痛點。學生家長反饋,使用伴魚 AI 私教後,孩子作業完成效率提升 40%,主動提問頻率增長 210%。(@ 實況網)

03 有態度的觀點

1、GitHub CEO:真正的 AI Agent,還有很長的路要走

近日,GitHub CEO Thomas Dohmke 接受播客 No Priors 的採訪,其中 Thomas 在談話中深入討論了 AI Agent 對程式設計師的影響、AI 對軟體團隊的影響有多大等內容。開篇,Thomas 便定下了 AI Agent 廣泛採用的標準:對使用者來說,可預測的、可操控的、可驗證的和可容忍的。其解釋道,AI Agent 真正的目的在於提高使用者的效率,而不是浪費使用者的寶貴時間,同時 AI Agent 也需要一個好的推理模型,並弄清楚什麼是正確的開發流程。Thomas 也表示,目前人類離 AI Agent 真正足夠好還有很長的路要走,主要問題在於 AI Agent 沒辦法向人類一樣,將系統思維代入到實際的開發中去。Thomas 指出,人類在做事情的過程中不斷提出、解決新的問題,而目前 AI Agent 還是隻能將一件大事分成小塊而進行逐一解決。與其他人一樣,Thomas 也有自己對 AI Agent 的未來想象。他認為,未來的 AI Agent 將會更加個性化,能夠跟隨使用者的思路去給出符合使用者想法的解決方案,並讓解決結果更像使用者自己的風格,同時,AI 模型也將變得更加多元化、更多選擇。(@APPSO)

04 社群專案推薦

1、Talk to Computer:讓計算機聽懂人話

來自 @ 張銻:因為驚歎於 LLM 對語言的理解能力,我想要藉助它讓計算機聽懂人話。現在支援了語音輸入,有一句話直達搜尋/網頁/Steam 遊戲這些功能。當前支援功能還比較簡單,歡迎討論和提需求。

特性

  • 支援 Windows/Mac

  • 無需環境 直接下載 exe/dmg 使用

  • 算力使用雲服務(矽基流動),對自己電腦效能無要求

https://github.com/zhangti112358/TalktoComputer

05 有看點的活動

1、官宣!【B4B 大資料商業應用挑戰賽 2024-25】參賽者招募!


B4B 大資料商業應用挑戰賽 2024-25 載譽歸來!今年主題「碳科技於房地產 CarbonTech for Real Estate」和「從 AI 驅動的虛擬科技 Virtual Media Tech powered by AI」,我們期待透過這次命題,讓科技在推動環境、社會和治理(ESG)倡議中的成為重要角色。參賽者將利用創新解決方案,探索技術如何應對氣候變化和企業責任等全球性挑戰。這一主題鼓勵創造性思維和合作,激勵團隊開發不僅能推進商業目標,還能為社會和環境作出積極貢獻的方案。

立即報名:
https://forms.office.com/r/yikgCvK3Rp

截止報名日期:
2025年3月17日

🎯我們不限範圍和應用,只要您的解決方案能解決 ESG 問題,並符合公眾對資料獲取、儲存、使用和分析的道德期望,我們都歡迎您的參與,參賽隊伍可以免費參加香港會議展覽中心國際創科展(InnoEX)!此外,入圍的隊伍亦有機會跟同行頂尖及有豐富經驗的導師團隊學習,並有機會到國內,與內地的團隊及企業進行交流,這將是一個難得的學習和交流機會!

🏘️「碳科技於房地產 CarbonTech for Real Estate」:新建材、能源管理、設計與規劃、建築與拆除以及設施管理等方面,都需要大資料的幫助。房地產不僅僅是建築和磚塊,從工作場所到購物場所,交通運輸站點,甚至是我們的住所,它與我們的生活息息相關。我們期望能夠在大資料及物管科技的幫助下,進一步推動業界減少碳排放,為環保出一分力。

🌐和「從 AI 驅動的虛擬科技 Virtual Media Tech powered by AI」:虛擬技術將在轉變傳統實踐中發揮關鍵作用,但硬體進步、價格可負擔性和使用者舒適度等都是需要克服的障礙。我們期待您的創新解決方案,讓虛擬技術更加普及、易用和更具有成本效益。

🔥現在就與身邊的朋友前來挑戰,展現您的大資料技術和創新思維,一起創造更加美好的未來!🔥(@B4B 大資料挑戰賽)

更多 Voice Agent 學習筆記:

端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章