小紅書開源 FireRedASR 語音識別模型,3.05% 字錯誤率;Meta AI 腦電波打字模型:32% 字錯誤率
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、小紅書開源 FireRedASR 語音識別模型,取得中文語音識別新突破
近日,小紅書 FireRed 團隊開源了基於大模型的語音識別模型 FireRedASR,該模型在中文普通話語音識別領域取得了新的 SOTA(State of the Art,最佳效能)。FireRedASR 包含兩種核心結構:FireRedASR-LLM 和 FireRedASR-AED,分別針對極致精度和高效推理需求設計。其中,FireRedASR-LLM(8.3B 引數)在公開測試集上取得了 3.05% 的字錯誤率(CER),成為新的 SOTA,相比此前的 SOTA 模型 Seed-ASR(12B+ 引數)降低了 8.4% 的錯誤率;FireRedASR-AED(1.1B 引數)則在保持高準確率的同時,顯著提升了推理效率,其 CER 為 3.18%。
此外,FireRedASR 在中文方言、英語以及歌詞識別等場景中也展現了卓越的效能,顯著優於此前的開源 SOTA 模型。FireRed 團隊已開源模型和程式碼,旨在推動語音識別技術的發展和應用。(@ 機器之心)
2、Meta AI 推腦機介面模型 Brain2Qwerty:可透過腦電波解碼打字內容
Meta AI 最新推出的 Brain2Qwerty 模型為腦機介面(BCI)技術帶來了新的希望。該模型旨在透過非侵入性方式,從腦電圖(EEG)或腦磁共振成像(MEG)捕捉到的腦活動中解碼出參與者輸入的句子。在研究中,參與者在 QWERTY 鍵盤上輸入短暫記憶的句子,同時其腦活動被實時記錄。與傳統方法相比,Brain2Qwerty 利用自然的打字運動,提供了一種更直觀的腦電波解讀方法。
Brain2Qwerty 的架構分為三個主要模組:
卷積模組 :提取 EEG 或 MEG 訊號中的時間和空間特徵。
變換器模組 :處理輸入的序列,最佳化理解和表達。
語言模型模組 :預訓練的字元級語言模型,用於修正和提升解碼結果的準確性。
在效能評估中,基於 EEG 的解碼字元錯誤率(CER)為 67%,而使用 MEG 的解碼效果顯著改善,CER 降低至 32%。在實驗中,表現最好的參與者達到了 19% 的 CER,顯示出該模型在理想條件下的潛力。
儘管 Brain2Qwerty 在非侵入性 BCI 領域展現了積極的前景,但仍面臨幾項挑戰。首先,當前模型需要處理完整句子,而不是逐個按鍵進行實時解碼。其次,雖然 MEG 的效能優於 EEG,但其裝置尚不便攜且普及性不足。最後,本研究主要在健康參與者中進行,未來需要深入探討其對運動或言語障礙者的適用性。(@ AIbase 基地)
3、豆包大模型團隊開源 VideoWorld:無需語言模型即可認知世界的影片生成模型
2025年2月10日,豆包大模型團隊聯合北京交通大學和中國科學技術大學釋出了 VideoWorld,這是一種創新的影片生成模型,能夠僅透過視覺資訊學習複雜知識。VideoWorld 的推出標誌著在無需依賴語言模型的情況下,AI 可以透過觀察影片資料掌握推理、規劃和決策等能力。
VideoWorld 模型透過潛在動態模型(Latent Dynamics Model, LDM)高效壓縮影片幀間變化資訊,顯著提升了知識學習效率和效果。在只有 300M 引數量的情況下,VideoWorld 已展現出可觀的效能,達到了專業 5 段的 9x9 圍棋水平,並能在多種環境中執行機器人任務。
下圖為模型架構概覽,左側為整體架構,右側為潛在動態模型。
目前,VideoWorld 的專案程式碼與模型已經開源,供公眾體驗和交流。
論文連結為:
https://arxiv.org/abs/2501.09781
程式碼連結為:
https://github.com/bytedance/VideoWorld
專案主頁為:
https://maverickren.github.io/VideoWorld.github.io@ 豆包大模型團隊)。(
4、智元機器人在深圳成立新「靈犀」產品線
智元機器人近日宣佈在深圳成立新的「靈犀」產品線,作為公司三大事業部之一,目前正處於招聘階段。智元機器人此前進行了組織架構調整,新設立了遠征、靈犀和 Genie 三大產品線,分別位於上海、深圳和北京。靈犀產品線目前由稚暉君暫代,正在尋找合適的一號位人選。靈犀系列產品主要面向養老方向的消費者市場。智元機器人自成立以來一直致力於全棧自研,包括軟體、硬體、大腦、小腦和雲系統等,並提出了具身智慧 G1 到 G5 的演進路徑和技術框架,目前正處於 G2 和 G3 階段。2024 年 12 月,智元機器人宣佈開啟機器人量產工作,並於2025年1月6日下線了第 1000 臺通用具身機器人。(@ AI 科技評論)
5、Meta 推出 VideoJAM 框架:大幅提升影片生成中的運動一致性
2025年2月10日,Meta GenAI 團隊釋出了 VideoJAM 框架,旨在解決影片生成中的運動一致性問題。該框架基於 DiT 路線,透過引入聯合外觀 - 運動表示,顯著提升了影片生成中的運動連貫性和視覺質量。
VideoJAM 框架的關鍵特點包括:
聯合外觀 - 運動表示:在訓練階段,VideoJAM 不僅預測影片的畫素,還預測影片的運動資訊,透過將影片和運動資訊合併為一個聯合表示,模型能夠同時學習外觀和運動。
動態引導機制:在推理階段,VideoJAM 利用模型自身不斷演化的運動預測作為動態引導訊號,確保生成的影片在運動上更加合理和連貫。
通用性和適配性:VideoJAM 可以無縫整合到任何影片生成模型中,無需修改訓練資料或擴大模型規模。
VideoJAM 在多個複雜運動場景中表現出色,例如倒立動作的流暢生成、雙人舞的完美同步、吹滅蠟燭時火苗的晃動及熄滅過程、書法中毛筆的運動及筆跡同步、雜技表演中拋物線軌跡的精準呈現等。(@ 量子位)
6、DreamTech 釋出 Neural4D 2.0:3D 生成技術取得重大突破
2025年2月10日,由牛津大學和南京大學研究者組成的 AI 團隊 DreamTech 宣佈推出 Neural4D 2.0,這是一款創新的 3D 生成平臺,透過全新的 3D Assembly Generation 演算法和高效的模型架構,顯著提升了 3D 內容生成的效率和質量。
Neural4D 2.0 的核心亮點包括:
算力需求降低 80% :透過專有的三維資料處理鏈路和強化學習策略,最佳化了 Transformer 結構,大幅減少了演算法的時間和空間複雜度,算力需求僅為同型別演算法模型的 1/5 左右。
分部件可裝配生成 :採用分部件生成思路,模擬真實世界的 3D 拓撲結構,將複雜的 3D 內容分解為多個部件,解決了複雜、高精細、可互動 3D 內容生成的質量瓶頸。
AnimeArt 功能: 基於 Neural4D 2.0 推出 AnimeArt 功能,這是業內首款成熟的二次元 3D AIGC 平臺,支援實時生成與驅動頭髮、服裝、手指動作和麵部表情,可用於數字人直播和 MMD 動畫製作等應用。
開源推動行業發展 :DreamTech 已開源其前期研究成果 Neural4D 1.0(原 Direct3D),程式碼和論文均面向公眾開放。
Neural4D 2.0 的推出標誌著 3D 生成技術在效率、精細度和應用範圍上的重大突破,有望在遊戲開發、動畫製作、虛擬現實體驗等多個領域帶來深遠影響。(@ Z Potentials)
02 有亮點的產品
1、崑崙萬維天工 AI:上線 DeepSeek R1+ 聯網搜尋功能
2 月 8 日,崑崙萬維集團旗下的天工 AI 正式上線了「DeepSeek R1+ 聯網搜尋」功能,為使用者帶來了一次重大更新。這一升級不僅解決了 DeepSeek 聯網功能無法使用的問題,還最佳化了 R1 版本偶爾崩潰的困擾,極大地提升了 AI 的穩定性和使用者體驗。
自 2025 年 1 月下旬釋出以來,DeepSeek R1 模型迅速在全球 AI 領域引起關注。然而,其聯網搜尋功能的缺失一直是使用者關注的焦點。此前,DeepSeek R1 只能根據 2024 年 10 月前的資訊進行思考,且「深度思考」模式時常出現伺服器繁忙的問題。如今,天工 AI 的 PC 端網頁為使用者提供了無縫的聯網搜尋體驗,實時獲取最新資訊,進一步增強了 AI 在複雜場景下的推理和思考能力。
使用者現在可以在天工 AI 的 PC 端網頁上,透過勾選「深度思考 R1」按鈕,輕鬆呼叫聯網搜尋功能,獲得更加精準和全面的結果。無論是學術研究、商業分析、文章寫作,還是日常問題的搜尋和解答,天工 AI 都能提供強大的支援。
在實際應用中,天工 AI 的「深度思考 R1」模式展現了強大的聯網搜尋能力。例如,當被問及《哪吒 2》的最終票房時,天工 AI 透過聯網搜尋,捕捉到截至 2 月 7 日的票房資料,併合理預測其全球總票房將突破 100 億人民幣。在問答領域,天工 AI 也能夠以詼諧幽默且帶有諷刺意味的口吻回答問題,展現出 DeepSeek R1 模型的獨特風格。(@ AIbase 基地)
2、OpenAI 新專案 Sora 內測影像生成器,或將推出 DALL-E 4
OpenAI 最近宣佈其內部測試專案 Sora 正在研發影像生成功能,使用者可以在影片和影像生成之間快速切換。新功能旨在簡化使用者操作,提升內容生成的相關性和質量。此外,Sora 還對影片推送進行了重新分類,推出了「Best」和「Top」類別,以便使用者更好地篩選內容。
亮點提要:
Sora 將推出影像生成功能,使用者可快速切換影片與影像生成。
新的影片推送分類「Best」和「Top」將最佳化內容篩選。
Sora 的影像生成器代號為「papaya」,或將引入 DALL-E4。(@ AIbase 基地)
03 有態度的觀點
1、OpenAI CEO 山姆·奧特曼釋出對 AGI 的三項觀察
2025年2月10日,OpenAI 執行長山姆·奧特曼在其部落格中發表文章《Three Observations》,分享了他對人工智慧(AI)和通用人工智慧(AGI)的三項觀察。
奧特曼指出,AGI 是一種能夠在多個領域以人類水平解決複雜問題的系統。他提出了以下三點觀察:
AI 能力與資源投入的對數關係: AI 模型的智慧水平大致與用於訓練和執行的資源總量的對數成正比。這些資源主要包括訓練算力、資料和推理算力。透過持續投入資源,AI 能力可以實現可預測的增長。
AI 使用成本的指數級下降: 使用 AI 的成本每 12 個月大約降低 10 倍。例如,從 2023 年初的 GPT-4 到 2024 年中的 GPT-4o,單詞的價格下降了約 150 倍。這種成本下降速度遠超摩爾定律。
AI 的社會經濟價值呈超級指數增長: 隨著智慧水平的線性增長,AI 的社會經濟價值呈超級指數增長。因此,未來幾年內對 AI 的指數級投資沒有理由停止。
奧特曼還提到,AI 代理(Agent)最終將像虛擬同事一樣與人類協作,例如軟體工程 Agent 可以完成大多數頂尖公司中有幾年經驗的工程師能夠完成的任務。未來,這樣的 Agent 可能會在各個工作領域普及。
儘管短期內(如 2025 年)人類的生活方式不會發生顯著變化,但長期來看,AI 將帶來不可忽視的變革。AGI 的影響將是不均衡的,科學進步的速度可能會大幅加快,而商品價格可能會大幅下降,稀缺資源的價格可能會顯著上升。
奧特曼強調,確保 AGI 的益處能夠廣泛分佈是至關重要的,這可能需要新的政策和理念來實現。到 2035 年,每個人都應該能夠調動相當於 2025 年所有人智慧總和的能力,這將極大地釋放人類的創造力,為社會帶來巨大的福祉。(@ 量子位)
2、李飛飛:AI 政策必須基於「科學而不是科幻小說」
在即將於巴黎舉行的 AI 行動峰會前夕,史丹佛大學電腦科學家李飛飛就 AI 政策制定發表了重要觀點。李飛飛強調,AI 政策的制定必須建立在科學基礎之上,而非科幻小說。 她指出,決策者應當關注 AI 的現實發展狀況,避免陷入過於理想化或末日論的未來設想。特別是在理解當前的聊天機器人和 AI 助手程式時,需要明確認識到它們並不具備主觀意圖、自由意志或意識,這樣才能使政策制定更加務實,聚焦於當前亟待解決的實際挑戰。
在政策取向方面,李飛飛主張採取務實而非意識形態化的方針,既要防範可能出現的負面影響,又要為創新發展提供激勵。同時,她特別強調了開放獲取的重要性,認為政策制定應當為包括開源社群和學術界在內的整個 AI 生態系統賦能。她表示,如果限制對 AI 模型和計算工具的訪問,將會阻礙創新發展,尤其會對資源相對匱乏的學術機構和研究人員造成不利影響。(@ APPSO)
04 有看點的活動
1、APPLE 生態愛好者集合,「LET’S VISION 2025」將在 3 月 1 日 -2 日上海開啟
Apple 生態愛好者們,LET'S VISION 2025 大會即將回歸,將於「2025年3月1日至 2 日」在「上海浦東鮮花港」舉行。本次大會將聚焦技術前沿、創意實踐、資源共享和未來展望,為參與者提供與行業領袖深入交流的機會。大會內容豐富,包括訊號發射臺、創意實操艙、共享空間站和未來展映臺等環節,涵蓋從技術趨勢到商業模式的多角度探討。
購票資訊可透過關注小紅書官方賬號@XReality.Zone 或訪問官網:
https://letsvisionos.swiftgg.team/
工作坊預約對 BASIC、PRO、PREMIUM 使用者開放,全程免費,但席位有限,建議儘早預約。更多嘉賓陣容及演講專題內容將陸續公佈,敬請期待。
更多 Voice Agent 學習筆記:
對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA
- 是誰在說話?谷歌多人語音識別新系統錯誤率降至2%谷歌
- 語音識別模型模型
- win10錯誤提示音怎麼關 win10電腦錯誤提示音怎麼取消Win10
- IIS瀏覽器422、500等錯誤提示:自定義錯誤模組不能識別此錯誤瀏覽器
- Meta AI 開源萬物可分割 AI 模型(SAM)AI模型
- 5 款不錯的開源語音識別/語音文字轉換系統
- 海南話語音識別模型——模型訓練(一)模型
- [BUG反饋]獨立模型-刪除錯誤模型除錯
- 錯誤和異常 (一):錯誤基礎知識
- dns配置錯誤網頁打不開 電腦dns配置錯誤無法上網怎麼辦DNS網頁
- 開發時犯得小錯誤
- [BUG反饋]1.1版本錯誤,新建模型,無法使用,出現SQLSTATE[23000]:錯誤模型SQL
- 電腦dns配置錯誤無法上網怎麼辦 dns配置錯誤不能上網DNS
- 一個拖拉且錯誤的猜數字程式
- MySQL主從複製錯誤——列型別轉換錯誤MySql型別
- 資源分享 | PyTea:不用執行程式碼,靜態分析pytorch模型的錯誤行程PyTorch模型
- 【常見錯誤】--Nltk使用錯誤
- iis7.5錯誤 配置錯誤
- 六西格瑪如何幫助保險公司降低錯誤率?
- Go 語言常見錯誤——資料型別Go資料型別
- Mac電腦開啟應用程式提示錯誤的處理方法?Mac
- 小程式錯誤:Component is not found in path
- Go語言之錯誤處理Go
- 雷朋 Meta 眼鏡視覺識別功能開放測試;Ultravox 新版語音模型 :語音理解超 GPT-4o 和 Gemini視覺模型GPT
- 蘋果OpenELM:開源小語言模型蘋果模型
- mybatis引數型別錯誤MyBatis型別
- nginx 錯誤除錯Nginx除錯
- 01整合學習-概述、Bagging-隨機森林、袋外錯誤率隨機森林
- 錯字修改 | 佈署1箇中文文文字拼蟹糾錯模型模型
- PbootCMS錯誤提示:執行SQL發生錯誤!錯誤:no such column: def1bootSQL
- 公司網站證書錯誤怎麼解決,快速排除公司網站SSL證書錯誤網站
- Llama 3:Meta新AI模型AI模型
- DB2字符集,查詢中文錯誤DB2
- kali更新源數字簽名錯誤解決辦法
- Meta開源其類似GPT-3的語言模型 - RedditGPT模型
- 跨域資源共享配置錯誤跨域
- 計量經濟學導論11:波動率模型模型