微軟 Muse 遊戲生成模型:理解遊戲環境,生成玩家動作;西工大 ASLP 實驗室開源語音理解模型 OSUM 丨日報

RTE开发者社区發表於2025-02-20

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、開局一張圖,AI 秒生超燃遊戲大片!微軟首個世界和人類行動模型登 Nature

智東西 2 月 20 日報導,今日凌晨,微軟 第一個世界和人類行動模型(WHAM)Muse 登上國際頂級學術期刊 Nature

Muse 是影片遊戲生成模型,其引數量最高達到 16 億 ,是基於接近 7 年的人類遊戲資料 進行訓練,其可以理解遊戲中的物理和 3D 環境,然後 生成對應玩家的動作以及視覺效果。

不過,因為研究工作仍處於早期,目前其僅限於以 300×180 畫素 的解析度生成遊戲視覺效果。

論文中顯示,其生成的遊戲影片效果能同時保持 一致性、多樣性和永續性 。具體來說,其生成的兩分鐘影片效果人類真實遊戲效果相近;會提供不同攝像機移動角度、不同角色、遊戲工具的多樣性效果;還支援新增新元素並自動合理融入畫面。

這一模型由微軟研究員遊戲智慧團隊、可教的 AI 體驗(Tai X,Teachable AI Experiences)團隊與微軟旗下游戲工作室 Xbox Games Studios 的電子遊戲製作公司 Ninja Theory 合作開發。

微軟正在 開源權重和樣本資料,並提供了一個視覺化的互動介面 WHAM Demonstrator 供開發者體驗,開發者可以在開發人員可以在 Azure AI Foundry 上學習試驗權重、示例資料和 WHAM Demonstrator。

Xbox 正在考慮基於 Muse 為使用者構建簡短的互動式 AI 遊戲體驗,將很快在 Copilot Labs 上試用。

論文地址:
https://www.nature.com/articles/s41586-025-08600-3@ 智東西)

2、MetaGPT X:首個 AI 開發團隊釋出,替代小型開發團隊

MetaGPT X 多智慧體開發團隊現已釋出。

這是一個多智慧體開發團隊,由 leader、product manager、architect、engineer 和 data analyst 共 5 位 AI 智慧體組成,能夠建立網站、部落格、商店、分析、遊戲等,目標是替代小型開發團隊。

現在可以在官網免費試用。官方還表示,METAGPT v1.0 將在晚些時候開源。(@ 三花 AI )

3、谷歌釋出全新視覺語言模型 PaliGemma 2 Mix 整合多種功能助力開發者

近日,谷歌宣佈推出一款全新的視覺 - 語言模型(Vision-Language Model, VLM),名為 PaliGemma2Mix。這款模型融合了影像處理與自然語言處理的能力,能夠同時理解視覺資訊和文字輸入,並根據需求生成相應的輸出,標誌著人工智慧技術在多工處理方面的進一步突破。

PaliGemma2Mix 的功能非常強大,它整合了影像描述、光學字元識別(OCR)、影像問答、目標檢測和影像分割等多種視覺 - 語言任務,適用於多種應用場景。開發者可以透過預訓練檢查點(checkpoints)直接使用這款模型,或根據自己的需求進行進一步微調。

該模型是基於先前的 PaliGemma2 進行最佳化而來,專門針對混合任務進行了調整,旨在讓開發者輕鬆探索其強大的能力。PaliGemma2Mix 提供三種引數規模供開發者選擇,包括 3B(30 億引數)、10B(100 億引數)和 28B(280 億引數),並支援 224px 和 448px 兩種解析度,適應不同計算資源和任務需求。

PaliGemma2Mix 的主要功能亮點包括:

  1. 影像描述:模型能夠生成短篇和長篇的影像說明,例如識別一張牛站在海灘上的圖片並提供詳細描述。

  2. 光學字元識別(OCR):該模型可以從影像中提取文字,識別標誌、標籤及文件內容,為資訊提取提供便利。

  3. 影像問答與目標檢測:使用者可透過上傳圖片並提出問題,模型會分析圖片並給出答案,此外,它還能準確識別影像中的特定物件,如動物、車輛等。

值得一提的是,開發者可以在 Kaggle 和 Hugging Face 上下載這款模型的混合權重,便於進行進一步的實驗與開發。如果你對這款模型感興趣,可以透過 Hugging Face 的演示平臺進行探索,瞭解其強大的能力與應用潛力。

隨著 PaliGemma2Mix 的推出,谷歌在視覺 - 語言模型領域的研究又向前邁進了一步,期待這項技術能夠在實際應用中展現更大的價值。(@AIbase 基地)

4、微軟團隊推多模態 AI 模型 Magma:整合視覺、語言和動作決策技能

近日,微軟研究團隊聯合多所高校的研究人員,釋出了一款名為「Magma」的多模態 AI 模型。這款模型的設計旨在處理和整合影像、文字和影片等多種資料型別,以便在數字和物理環境中執行復雜任務。隨著科技的不斷進步,多模態 AI 代理正在被廣泛應用於機器人技術、虛擬助手和使用者介面自動化等領域。

以往的 AI 系統通常專注於視覺 - 語言理解或機器人操作,難以將這兩種能力結合成一個統一的模型。許多現有模型雖然在特定領域內表現良好,但在不同應用場景中的泛化能力較差。例如,Pix2Act 和 WebGUM 模型在 UI 導航方面表現優異,而 OpenVLA 和 RT-2 則更適合機器人操控,但它們往往需要分別進行訓練,難以跨越數字和物理環境的界限。

「Magma」模型的推出,正是為了克服這些侷限性。它透過引入一套強大的訓練方法,整合多模態理解、動作定位和規劃能力,旨在讓 AI 代理在各種環境中無縫執行。Magma 的訓練資料集包含了 3900 萬樣本,包括影像、影片和機器人動作軌跡。此外,該模型還採用了兩項創新技術:「可標記集」(Set-of-Mark,SoM)和「軌跡標記」(Trace-of-Mark,ToM)。前者使模型能夠標記 UI 環境中的可操作視覺物件,後者則使其能夠追蹤物體隨時間的移動,提升未來行動的規劃能力。

「Magma」採用了先進的深度學習架構和大規模的預訓練技術,以最佳化其在多個領域的表現。模型使用 ConvNeXt-XXL 視覺主幹處理影像和影片,LLaMA-3-8B 語言模型負責處理文字輸入。這種架構使「Magma」能夠高效整合視覺、語言與動作執行。經過全面的訓練,模型在多個任務上都取得了優異的成績,顯示出強大的多模態理解和空間推理能力。(@AIbase 基地)

5、西北工業大學 ASLP 實驗室開源更新語音理解模型 OSUM

專案頁面:

https://github.com/ASLP-lab/OSUM

大型語言模型(LLMs)在各種下游任務中取得了顯著進展,啟發了業界對語音理解語言模型(speech understanding language models, SULMs)的研發,以期實現基於語音情感、性別等副語言的高表現力互動。然而,大多數先進的 SULM 是由行業頭部公司開發的,消耗大規模的資料和計算資源。而這些資源在學術界並不容易獲得。此外,雖然訓練好的模型和推理程式碼被開源了,但訓練框架和資料處理流程依然缺乏透明度,這也為進一步研究產生了障礙。

西北工業大學 ASLP 實驗室在研究中,提出了 OSUM,一個開放的語音理解模型,旨在探索在有限的學術資源下訓練 SLUM 的潛力。OSUM 模型將 Whisper 編碼器與 Qwen2 LLM 相結合,支援廣泛的語音任務,包括語音識別(ASR)、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話者性別分類(SGC)、說話者年齡預測(SAP)和語音轉文字聊天(STTC)。透過採用 ASR+X 訓練策略,OSUM 透過同時最佳化模態對齊和目標任務,實現了高效穩定的多工訓練。除了提供強大的效能,OSUM 還強調透明度,提供公開可用的程式碼,並詳細介紹了資料處理流程,以期為學術界提供有價值的參考,旨在加速先進 SULM 技術的研究和創新。

目前,技術報告已更新,程式碼和模型已開源,同時提供 HuggingFace 頁面線上體驗。本專案的訓練和推理同時支援華為昇騰 910B 平臺和英偉達平臺。 (@OSUM Team)

02 有亮點的產品

1、外語影片秒變普通話!這款超強 AI 外掛 YouTube Dubbing 讓你一鍵打破語言壁壘

YouTube Dubbing 是一款強大的瀏覽器外掛,它具有 AI 實時翻譯與配音功能,只需一鍵點選外掛按鈕,就能讓使用者用熟悉的語言進行影片播放,輕鬆暢享外文影片,告別繁瑣字幕。

它支援多種語言和主流影片平臺,適合不同語言背景的使用者。其主要優點包括精準的語音翻譯、多語言支援、多平臺相容以及豐富的音色選擇。產品提供免費基礎功能,同時有付費會員模式,解鎖更多高階功能,如保留背景音、說話人識別等。(@AIbase 基地)

2、傳音控股將於 MWC 2025 推出兩款智慧眼鏡產品

(圖片來源:傳音)

近日訊息,傳音控股宣佈參加今年 3 月 3~6 日舉行的 MWC 2025 世界行動通訊大會,並將於大會上釋出兩款新的智慧眼鏡產品。

這兩款眼鏡的具體規格尚未明確,但從預告圖片中可以推測出一些資訊:

一款可能整合了光學螢幕:這款智慧眼鏡可能採用了先進的光學顯示技術,為使用者提供清晰的視覺體驗;另一款則是常規 AI 眼鏡:這款眼鏡可能更注重 AI 功能,如語音識別、智慧提醒等,為使用者提供更加便捷的生活和工作體驗。

據悉,傳音控股的展區位於 Hall 6 Stand 6B11,參展者可以在此體驗傳音控股的最新產品和技術。除了兩款智慧眼鏡外,傳音控股還將展示其智慧手機和平板產品。這些產品可能搭載了最新的技術和功能,為使用者提供更加出色的使用體驗。

傳音控股是一家專注於海外智慧手機市場的國產手機廠商,被外界譽為「非洲手機之王」。其在全球手機市場佔有率高,特別是在非洲市場,傳音的智慧機市場佔有率穩居榜首。

此次參展 MWC 2025 並展出兩款智慧眼鏡,進一步體現了傳音控股在智慧穿戴裝置領域的佈局和實力。(@mwcbarcelona)

03 有態度的觀點

1、面壁智慧創始人:AGI 是一個持久戰,更需要速決

近日,AI 科技評論與面壁智慧創始人、清華大學副教授劉知遠博士進行深入對話,其中劉知遠博士表示,其中討論了一些關於 AGI 發展的思考。劉知遠博士提到,面壁智慧判斷 AGI 的到來,可能需要未來五年到十年的時間,將會是一個持久戰。但同時他還表示,戰略上是持久戰,但是在戰術上,需要去主動進攻。劉知遠博士稱,公司選擇了端側,就一定是在端側上迅速打出自己的聲音,從而壯大能力,並一場接一場的贏得戰略。同時,劉知遠博士還提到 AGI 需要滲透到每個人中。具體來看,需要 AI 企業把模型構造得質量足夠高,成本足夠低,真正讓每個人都能用得起,這應該是未來的一個發展方向。此外,劉知遠博士也談及近期大火的 DeepSeek,其透過 DeepSeek 得到啟示,認為只有一樣東西做出來了,被大家看到了,大家才能感知到它的革命性。(@APPSO)

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章