Hugging Face 釋出 Python WebRTC 庫:構建實時音影片應用;微軟 Magma:多模態跨數字物理世界丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、阿里深夜釋出重磅開源!暴擊 Sora 登頂榜首,消費級顯示卡就能跑
阿里雲旗下視覺生成基座模型萬相 2.1(Wan)重磅開源。
據悉,此次開源採用最寬鬆的 Apache2.0 協議,14B 和 1.3B 兩個引數規格的全部推理程式碼和權重全部開源,同時支援文生影片和圖生影片任務。
14B 萬相模型在指令遵循、複雜運動生成、物理建模、文字影片生成等方面表現突出。在評測集 VBench 中,萬相 2.1 以總分 86.22% 的成績大幅超越 Sora、Luma、Pika 等國內外模型,穩居榜首位置。
1.3B 版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯示卡執行,僅需 8.2GB 視訊記憶體就可以生成高質量影片,適用於二次模型開發和學術研究。
值得注意的是,萬相 2.1 還是首個具備支援中文文字生成能力,且同時支援中英文文字特效生成的影片生成模型。
技術創新
基於 DiT 架構和 Flow Matching 正規化
研發高效因果 3D VAE 和可擴充套件預訓練策略
實現特徵快取機制,支援無限長 1080P 影片編解碼
透過空間降取樣壓縮,減少 29% 記憶體佔用
實驗結果顯示,在運動質量、視覺質量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相表現出色,並且斬獲 5 項第一。
尤其在複雜運動和物理規律遵循上的表現上大幅提升,萬相能穩定呈現人物的旋轉、跳躍等高難度動作,並逼真模擬物體碰撞、反彈和切割等真實物理效果。
開源地址:
GitHub: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社群:https://modelscope.cn/organization/Wan-AI
(@APPSO)
2、DeepSeek-R2 曝 5 月前上線!第三彈 DeepGEMM 300 行程式碼暴擊專家最佳化核心
第三天,DeepSeek 釋出了 DeepGEMM。
這是一個支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法)計算庫,可為 V3/R1 的訓練和推理提供強大支援。
僅用 300 行程式碼,DeepGEMM 開源庫就能超越專家精心調優的矩陣計算核心,為 AI 訓練和推理帶來史詩級的效能提升!
DeepGEMM 庫具有以下特徵:
在 Hopper GPU 上實現高達 1350+ FP8 TFLOPS 的算力
極輕量級依賴,程式碼清晰易懂
完全即時編譯,即用即跑
核心邏輯僅約 300 行程式碼,卻在大多數矩陣規模下超越專家級最佳化核心
同時支援密集佈局和兩種 MoE 佈局
總之,這個 DeepGEMM 聽起來簡直是數學界的超級英雄,比飛快的計算器還要快。
它改變了我們使用 FP8 GEMM 庫的方式,簡單、快速、開源。這就是 AI 計算的未來!
同時,外媒還曝出了另一個重磅訊息:原計劃在 5 月初發布的 DeepSeek-R2,現在釋出時間將再次提前!
在 DeepSeek-R2 中,將實現更好的編碼,還能用英語以外的語言進行推理。
業內人士預測,DeepSeek-R2 的釋出,將是 AI 行業的一個關鍵時刻。目前 DeepSeek 在建立高成本效益模型上的成功,已經打破了該領域少數主導玩家的壟斷。
DeepSeek 開源兩天,前兩個專案爆火程度難以想象。FlashMLA 已在 GitHub 斬獲近 10k 星標,DeepEP 的星標已有 5k。(@ 新智元)
3、新突破!微軟開源多模態 AI Agent
微軟在官網開源了多模態 AI Agent 基礎模型——Magma。
與傳統 Agent 相比,Magma 具備跨數字、物理世界的多模態能力,能自動處理影像、影片、文字等不同型別資料,例如,你可以用 Magma 來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者下真實象棋時獲得幫助。
此外,Magma 還能內建了心理預測功能,增強了對未來影片幀中時空動態的理解能力,能夠準確推測影片中人物或物體的意圖和未來行為。
開源地址:
https://huggingface.co/microsoft/Magma-8B
github:
https://github.com/microsoft/Magma
(@AIGC 開放社群)
02 有亮點的產品
1、Perplexity 宣佈進軍 AI 瀏覽器
近日,AI 搜尋引擎 Perplexity 宣佈將要推出 AI 瀏覽器,命名為「comet」。據 Perplexity 官方介紹,comet 將基於 Agentic(智慧體)打造,暫無其他更多細節透露。目前,comet 已開放報名預約。
此外,Perplexity 還發文表示,公司正在積極招聘加入建設 comet 的職位,具體顯示,Perplexity 現已開放了高階搜尋工程師、AI 推理工程師等職位。近期,Perplexity 推出了「Deep Research(深度研究)」功能,主打深度檢索、專業輸出。在 Humanity's Last Exam 上獲得了 21.1% 的準確率,遠高於 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和許多其他領先模型。而該功能已全量推送,能為免費使用者每天提供五次試用。(@APPSO)
2、醫療 AI 助手 OpenEvidence 獲 7500 萬美元,估值 10 億美元
CNBC 訊息,醫療 AI 初創公司 OpenEvidence,從紅杉資本獲得了新一輪 7500 萬美元的融資,估值達到 10 億美元。
OpenEvidence 的創始人是 Daniel Nadler,此前曾創立專注於華爾街業務的 AI 公司 Kensho Technologies,在 2018 年以 7 億美元的價格出售給了標準普爾。
2021 年,Nadler 自掏腰包為 OpenEvidence 提供啟動資金,2023 年又獲得了來自朋友和家人的投資,目前總融資額已超過 1 億美元。
產品方面,OpenEvidence 開發的是一款為醫生服務的 AI 聊天機器人,旨在幫助醫生在診療過程中做出更優決策。據公司稱,目前美國約四分之一的醫生都在使用這款產品。Nadler 將其形容為 AI 助手,雖說使用體驗與 ChatGPT 有些相似,實則大不相同。
OpenEvidence 僅以《新英格蘭醫學雜誌》等經過同行評審的醫學期刊資料訓練模型,訓練時也未連線公共網際網路,並且與眾多醫學期刊簽有許可協議。 這樣的訓練方式讓其避免了 AI「幻覺」問題,在準確性上遠超同類產品。
OpenEvidence 的商業模式是免費提供聊天機器人服務,透過廣告盈利。這款產品能在醫生群體中快速傳播,靠的是醫生之間的口口相傳。(@AIGC 開放社群)
3、微軟 Copilot 已免費開放
智東西 2 月 26 日報導,今日,微軟宣佈面向所有 Copilot 使用者推出 免費、無限制訪問的 Voice(語音)和 Think Deeper(深度思考) 功能,由 OpenAI 的 o1 模型提供支援。
在 DeepSeek 帶飛 AI 推理模型熱潮後,近期 OpenAI、谷歌、xAI、Anthropic、阿里等多家 AI 巨頭上新深度推理/深度思考模型。
微軟在兩年前推出了 Copilot,專注於幫助人們獲取知識、獲得答案、思考、集思廣益和創造。從今天起,所有 Copilot 使用者都可以用 Voice 功能與 Copilot 進行長時間對話,並隨時用 Think Deeper 的高階推理模型來解決更復雜的問題或任務。(@ 智東西)
4、商湯小浣熊家族全面升級:多模態融合
https://xiaohuanxiong.com
商湯科技在 2025 全球開發者先鋒大會上宣佈了其 AI 生產力工具——商湯小浣熊家族的全面升級,強化了多模態能力,推動 AI 應用加速落地,向 AI Agent 演進。這次升級不僅提升了工具的效能,還使 AI 更好地服務於生產力。
亮點提要
升級後的商湯小浣熊家族實現了多模態能力的全面提升,能夠高效整合資訊和分析資料。
辦公小浣熊透過自動化工具支援,輕鬆應對複雜任務,並提升團隊協作效率。
程式碼小浣熊 2.0 實現了多維度資料融合,增強了程式設計效率,支援實時檢索技術文件。(@AIbase 基地)
5、Hugging Face 釋出 Python WebRTC 開源庫 FastRTC,方便構建實時音訊影片應用
https://huggingface.co/blog/fastrtc
背景與問題
近期語音模型領域發展迅速:OpenAI 和 Google 釋出了實時多模態 API;Kyutai、Alibaba 和 Fixie ai 推出了開源音訊 LLM;ElevenLabs 獲得了 1.8 億美元 C 輪融資
-
儘管模型和資金豐富,但在 Python 中構建實時音訊/影片應用仍然困難:
- 機器學習工程師可能缺乏 WebRTC 等相關技術經驗
- 甚至程式碼輔助工具也難以為實時應用編寫有效程式碼
FastRTC 核心功能
自動語音檢測和輪流發言功能
內建 WebRTC 支援的 Gradio UI
免費電話號碼服務(fastphone)
支援 WebRTC 和 Websocket
可自定義並與任何 FastAPI 應用整合
提供 STT、TTS 等語音實用工具(@meng shao@X)
03 有態度的觀點
1、OpenAI 早期員工:DeepSeek 並未改變 AI 技術的敘事
近日,播客「Unsupervised Learning」採訪了 OpenAI 早期員工(目前已離職)David Luan,採訪中雙方探討了 DeepSeek 給大模型領域帶來的研究和實踐所呈現的啟示,並對未來 AI 模型的突破做出了預測分享。
David 表示,DeepSeek 表現出色,並且它體現了一個重要轉折點:在降低成本的同時獲得更高智慧,並非意味著停止追求智慧,這反而會激發大家使用更多智慧。David 還提到,開發者應該首先學會如何打造更智慧的大模型,再探索如何讓它們執行得更高效,而 DeepSeek 在這一整體發展方向上,只是作為了一個轉折點。
此外,David 認為 AI 的未來不僅在於模型本身的規模提升,更在於構建一個「能可靠產出模型的工廠」。他還指出,未來的人機互動將從傳統的命令列和聊天轉向多模態、環境感知的體驗,而優秀的組織文化與年輕人才的激勵,則是推動長期技術突破的重要保障。(@APPSO)
更多 Voice Agent 學習筆記:
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Hugging News #0414: Attention 在多模態情景中的應用、Unity API 以及 Gradio 主題構建器UnityAPI
- 使用 Hugging Face 微調 Gemma 模型Hugging FaceGemma模型
- 微軟Microsoft To Do釋出:支援Face ID功能微軟ROS
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Transformers - Hugging Face LibraryORMHugging Face
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- 基於模擬的數字孿生系統構建與應用
- OpenAI工程師親自修訂:用ChatGPT實時語音API構建應用OpenAI工程師ChatGPTAPI
- 影片豪橫時代,應用如何快速構建影片點播能力?
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- Hugging Face NLP課程學習記錄 - 2. 使用 Hugging Face TransformersHugging FaceORM
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- Data Guard備庫日誌的實時應用與非實時應用
- 微軟向HoloLens使用者推送1804更新:同時釋出兩款混合現實應用微軟
- 產業網際網路:構建智慧+時代數字生態新圖景 | 重磅釋出(附全文下載)產業
- 僅用250美元,Hugging Face技術主管手把手教你微調Llama 3Hugging Face
- 融合資料庫生態:利用 EventBridge 構建 CDC 應用資料庫
- 使用汽車應用庫構建應用
- Hugging Face ZeroGPU 計劃正式釋出—提供價值一千萬美元的免費共享 GPUHugging FaceGPU
- Google 釋出最新開放大語言模型 Gemma 2,現已登陸 Hugging Face HubGo模型GemmaHugging Face
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- 音數協敖然釋出《超級數字場景源動力——遊戲科技與創新應用研究》報告遊戲
- 【活動報名】re:Invent - AI 應用助力企業構建數字戰略AI
- 使用SvelteKit構建實時websocket應用程式 - IngestWeb
- 使用laravel-websockets 構建實時應用(一)LaravelWeb
- 使用webpack構建多頁應用Web
- 視覺理解 + 實時語音,打造你的多模態實時 AI 丨 TEN+ 亞馬遜雲科技開源工作坊視覺AI亞馬遜
- Hugging Face 與 TruffleHog 合作,實現風險預警Hugging FaceHOG
- Hugging Face Transformers 萌新完全指南Hugging FaceORM
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 法律諮詢行業知識庫構建:數字化與智慧工具的應用行業
- 行業分析| 實時音影片的多種用法行業
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- OpenAI「草莓」兩週內釋出?網傳不是多模態,反應慢了10多秒OpenAI