Hugging Face 釋出 Python WebRTC 庫:構建實時音影片應用;微軟 Magma:多模態跨數字物理世界丨日報

RTE开发者社区發表於2025-02-26

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、阿里深夜釋出重磅開源!暴擊 Sora 登頂榜首,消費級顯示卡就能跑

阿里雲旗下視覺生成基座模型萬相 2.1(Wan)重磅開源。

據悉,此次開源採用最寬鬆的 Apache2.0 協議,14B 和 1.3B 兩個引數規格的全部推理程式碼和權重全部開源,同時支援文生影片和圖生影片任務。

14B 萬相模型在指令遵循、複雜運動生成、物理建模、文字影片生成等方面表現突出。在評測集 VBench 中,萬相 2.1 以總分 86.22% 的成績大幅超越 Sora、Luma、Pika 等國內外模型,穩居榜首位置。

1.3B 版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯示卡執行,僅需 8.2GB 視訊記憶體就可以生成高質量影片,適用於二次模型開發和學術研究。

值得注意的是,萬相 2.1 還是首個具備支援中文文字生成能力,且同時支援中英文文字特效生成的影片生成模型。

技術創新

  • 基於 DiT 架構和 Flow Matching 正規化

  • 研發高效因果 3D VAE 和可擴充套件預訓練策略

  • 實現特徵快取機制,支援無限長 1080P 影片編解碼

  • 透過空間降取樣壓縮,減少 29% 記憶體佔用

實驗結果顯示,在運動質量、視覺質量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相表現出色,並且斬獲 5 項第一。

尤其在複雜運動和物理規律遵循上的表現上大幅提升,萬相能穩定呈現人物的旋轉、跳躍等高難度動作,並逼真模擬物體碰撞、反彈和切割等真實物理效果。

開源地址:

GitHub: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社群:https://modelscope.cn/organization/Wan-AI

(@APPSO)

2、DeepSeek-R2 曝 5 月前上線!第三彈 DeepGEMM 300 行程式碼暴擊專家最佳化核心

第三天,DeepSeek 釋出了 DeepGEMM。

這是一個支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法)計算庫,可為 V3/R1 的訓練和推理提供強大支援。

僅用 300 行程式碼,DeepGEMM 開源庫就能超越專家精心調優的矩陣計算核心,為 AI 訓練和推理帶來史詩級的效能提升!

DeepGEMM 庫具有以下特徵:

  • 在 Hopper GPU 上實現高達 1350+ FP8 TFLOPS 的算力

  • 極輕量級依賴,程式碼清晰易懂

  • 完全即時編譯,即用即跑

  • 核心邏輯僅約 300 行程式碼,卻在大多數矩陣規模下超越專家級最佳化核心

  • 同時支援密集佈局和兩種 MoE 佈局

總之,這個 DeepGEMM 聽起來簡直是數學界的超級英雄,比飛快的計算器還要快。

它改變了我們使用 FP8 GEMM 庫的方式,簡單、快速、開源。這就是 AI 計算的未來!

同時,外媒還曝出了另一個重磅訊息:原計劃在 5 月初發布的 DeepSeek-R2,現在釋出時間將再次提前!

在 DeepSeek-R2 中,將實現更好的編碼,還能用英語以外的語言進行推理。

業內人士預測,DeepSeek-R2 的釋出,將是 AI 行業的一個關鍵時刻。目前 DeepSeek 在建立高成本效益模型上的成功,已經打破了該領域少數主導玩家的壟斷。

DeepSeek 開源兩天,前兩個專案爆火程度難以想象。FlashMLA 已在 GitHub 斬獲近 10k 星標,DeepEP 的星標已有 5k。(@ 新智元)

3、新突破!微軟開源多模態 AI Agent

微軟在官網開源了多模態 AI Agent 基礎模型——Magma。

與傳統 Agent 相比,Magma 具備跨數字、物理世界的多模態能力,能自動處理影像、影片、文字等不同型別資料,例如,你可以用 Magma 來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者下真實象棋時獲得幫助。

此外,Magma 還能內建了心理預測功能,增強了對未來影片幀中時空動態的理解能力,能夠準確推測影片中人物或物體的意圖和未來行為。

開源地址:

https://huggingface.co/microsoft/Magma-8B

github:

https://github.com/microsoft/Magma

@AIGC 開放社群)

02 有亮點的產品

1、Perplexity 宣佈進軍 AI 瀏覽器

近日,AI 搜尋引擎 Perplexity 宣佈將要推出 AI 瀏覽器,命名為「comet」。據 Perplexity 官方介紹,comet 將基於 Agentic(智慧體)打造,暫無其他更多細節透露。目前,comet 已開放報名預約。

此外,Perplexity 還發文表示,公司正在積極招聘加入建設 comet 的職位,具體顯示,Perplexity 現已開放了高階搜尋工程師、AI 推理工程師等職位。近期,Perplexity 推出了「Deep Research(深度研究)」功能,主打深度檢索、專業輸出。在 Humanity's Last Exam 上獲得了 21.1% 的準確率,遠高於 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和許多其他領先模型。而該功能已全量推送,能為免費使用者每天提供五次試用。(@APPSO)

2、醫療 AI 助手 OpenEvidence 獲 7500 萬美元,估值 10 億美元

CNBC 訊息,醫療 AI 初創公司 OpenEvidence,從紅杉資本獲得了新一輪 7500 萬美元的融資,估值達到 10 億美元。

OpenEvidence 的創始人是 Daniel Nadler,此前曾創立專注於華爾街業務的 AI 公司 Kensho Technologies,在 2018 年以 7 億美元的價格出售給了標準普爾。

2021 年,Nadler 自掏腰包為 OpenEvidence 提供啟動資金,2023 年又獲得了來自朋友和家人的投資,目前總融資額已超過 1 億美元。

產品方面,OpenEvidence 開發的是一款為醫生服務的 AI 聊天機器人,旨在幫助醫生在診療過程中做出更優決策。據公司稱,目前美國約四分之一的醫生都在使用這款產品。Nadler 將其形容為 AI 助手,雖說使用體驗與 ChatGPT 有些相似,實則大不相同。

OpenEvidence 僅以《新英格蘭醫學雜誌》等經過同行評審的醫學期刊資料訓練模型,訓練時也未連線公共網際網路,並且與眾多醫學期刊簽有許可協議。 這樣的訓練方式讓其避免了 AI「幻覺」問題,在準確性上遠超同類產品。

OpenEvidence 的商業模式是免費提供聊天機器人服務,透過廣告盈利。這款產品能在醫生群體中快速傳播,靠的是醫生之間的口口相傳。(@AIGC 開放社群)

3、微軟 Copilot 已免費開放

智東西 2 月 26 日報導,今日,微軟宣佈面向所有 Copilot 使用者推出 免費、無限制訪問的 Voice(語音)和 Think Deeper(深度思考) 功能,由 OpenAI 的 o1 模型提供支援。

在 DeepSeek 帶飛 AI 推理模型熱潮後,近期 OpenAI、谷歌、xAI、Anthropic、阿里等多家 AI 巨頭上新深度推理/深度思考模型。

微軟在兩年前推出了 Copilot,專注於幫助人們獲取知識、獲得答案、思考、集思廣益和創造。從今天起,所有 Copilot 使用者都可以用 Voice 功能與 Copilot 進行長時間對話,並隨時用 Think Deeper 的高階推理模型來解決更復雜的問題或任務。(@ 智東西)

4、商湯小浣熊家族全面升級:多模態融合

https://xiaohuanxiong.com

商湯科技在 2025 全球開發者先鋒大會上宣佈了其 AI 生產力工具——商湯小浣熊家族的全面升級,強化了多模態能力,推動 AI 應用加速落地,向 AI Agent 演進。這次升級不僅提升了工具的效能,還使 AI 更好地服務於生產力。

亮點提要

  • 升級後的商湯小浣熊家族實現了多模態能力的全面提升,能夠高效整合資訊和分析資料。

  • 辦公小浣熊透過自動化工具支援,輕鬆應對複雜任務,並提升團隊協作效率。

  • 程式碼小浣熊 2.0 實現了多維度資料融合,增強了程式設計效率,支援實時檢索技術文件。(@AIbase 基地)

5、Hugging Face 釋出 Python WebRTC 開源庫 FastRTC,方便構建實時音訊影片應用

https://huggingface.co/blog/fastrtc

背景與問題

  • 近期語音模型領域發展迅速:OpenAI 和 Google 釋出了實時多模態 API;Kyutai、Alibaba 和 Fixie ai 推出了開源音訊 LLM;ElevenLabs 獲得了 1.8 億美元 C 輪融資

  • 儘管模型和資金豐富,但在 Python 中構建實時音訊/影片應用仍然困難:

    • 機器學習工程師可能缺乏 WebRTC 等相關技術經驗
    • 甚至程式碼輔助工具也難以為實時應用編寫有效程式碼

FastRTC 核心功能

  • 自動語音檢測和輪流發言功能

  • 內建 WebRTC 支援的 Gradio UI

  • 免費電話號碼服務(fastphone)

  • 支援 WebRTC 和 Websocket

  • 可自定義並與任何 FastAPI 應用整合

  • 提供 STT、TTS 等語音實用工具(@meng shao@X)

03 有態度的觀點

1、OpenAI 早期員工:DeepSeek 並未改變 AI 技術的敘事

近日,播客「Unsupervised Learning」採訪了 OpenAI 早期員工(目前已離職)David Luan,採訪中雙方探討了 DeepSeek 給大模型領域帶來的研究和實踐所呈現的啟示,並對未來 AI 模型的突破做出了預測分享。

David 表示,DeepSeek 表現出色,並且它體現了一個重要轉折點:在降低成本的同時獲得更高智慧,並非意味著停止追求智慧,這反而會激發大家使用更多智慧。David 還提到,開發者應該首先學會如何打造更智慧的大模型,再探索如何讓它們執行得更高效,而 DeepSeek 在這一整體發展方向上,只是作為了一個轉折點。

此外,David 認為 AI 的未來不僅在於模型本身的規模提升,更在於構建一個「能可靠產出模型的工廠」。他還指出,未來的人機互動將從傳統的命令列和聊天轉向多模態、環境感知的體驗,而優秀的組織文化與年輕人才的激勵,則是推動長期技術突破的重要保障。(@APPSO)

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章