雷朋 Meta 眼鏡視覺識別功能開放測試;Ultravox 新版語音模型 :語音理解超 GPT-4o 和 Gemini
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、Ultravox v0.5 釋出:端到端語音模型,語音理解超越 GPT-4o 和 Gemini 1.5 Flash
Ultravox v0.5 開源語音語言模型在去年釋出 v0.4.1 的基礎上,v0.5 大幅提升了語音理解能力、多語言支援以及在真實場景中的適應能力。該版本在語音理解基準測試中超越了 OpenAI 的 GPT-4o Realtime 和 Google 的 Gemini 1.5 Flash,同時保留了開源模型的靈活性和透明性。模型權重現已釋出,可透過 Hugging Face 獲取。
技術亮點:
CoVoST-2 & Big Bench Audio 領先: 在多語言語音翻譯和基於語音的推理任務中表現卓越。
轉錄效能大幅提升: 在 LibriSpeech、CommonVoice 和 Fleurs 的 82 個評估集上,單詞錯誤率(WER)降低 60%。
語音問答能力增強: 在命名實體識別等任務中,效能提升 18%。
廣泛的多語言支援: 支援 42 種語言,並具備動態語言切換能力。
端到端處理: 直接處理原始語音輸入,避免了傳統級聯絡統(ASR → LLM → TTS)的誤差累積,在嘈雜環境或低質量麥克風條件下表現更佳。
Ultravox Realtime 服務已上線: 立即構建和擴充套件實時語音 AI 應用。定價: $0.05/分鐘 ( 新使用者 30 分鐘免費試用) 。(@ultravox.ai)
2、位元組跳動突破高解析度影片生成瓶頸,FlashVideo 引領高效生成新時代
近年來,文字到影片(T2V)生成技術取得了顯著進展,尤其是擴散模型(Diffusion Models)的應用。然而,高質量的影片生成依然面臨以下挑戰:
高計算成本: 生成高解析度影片需要大模型引數和大量函式評估(NFEs),導致計算資源消耗巨大。
細節與運動一致性: 在保持內容與運動對齊的同時,生成豐富的視覺細節是一個難題。
實時性差: 現有方法生成 1080p 影片可能需要數百秒甚至上千秒,使用者體驗受限。
為了解決這些問題, 香港大學、香港中文大學與位元組跳動聯合團隊 提出了一種全新的兩階段框架—— FlashVideo ,在保證高質量生成的同時,大幅提升了計算效率。
核心亮點:
兩階段設計: 透過將生成任務分為「低解析度優先」和「高解析度增強」,有效平衡了生成質量和計算效率。
流匹配技術: 創新性地使用流匹配(Flow Matching)技術,僅需 4 步即可完成高解析度細節生成,相比傳統方法提速顯著。
使用者友好: 支援快速預覽功能,使用者可以在 30 秒內獲得初步結果,再決定是否繼續生成高解析度影片。(@Safphere)
02 有亮點的產品
1、雷朋 Meta 眼鏡視覺識別功能開放測試
海外博主實測 Meta AI 的最新功能, Live AI Video 。當博主指著一個東西說「告訴我這是什麼」時, Live AI Video 能夠馬上準確回答出這是一個「棕色皮包」;當博主問「牆上寫的是什麼」時,它能識別牆上寫的文字並回答牆上寫的是「嗨爸爸,我愛你」。除此之外,說出畫裡有什麼和識別檯燈的顏色等都不在話下。(@XR-Vision)
2、Resend 推出 new.email:用自然語言構建電子郵件的新方式
Resend 團隊今日宣佈推出 new.email,這是一個全新的電子郵件構建平臺。它允許使用者使用自然語言建立美觀、響應式且跨平臺的電子郵件。
核心亮點:
自然語言生成:使用者無需編寫程式碼,只需使用自然語言描述,即可生成電子郵件模板。
面向所有人:不僅僅是開發人員,市場營銷、產品或設計團隊也能輕鬆使用。
一致性與美觀:確保電子郵件在外觀和風格上與產品保持一致,提升品牌形象。
響應式和跨平臺:自動適配不同裝置和郵件客戶端,提供最佳閱讀體驗。
基於 LLM:利用大型語言模型技術,結合 Resend 在郵件傳送方面的經驗,實現智慧化生成。
高質量元件庫:訓練 LLM 生成基於包含 54 個高質量電子郵件元件的庫。
使用者現在可以加入等待名單,以獲得早期訪問許可權。https://new.email/
(@Resend@X)
3、曝國行蘋果 AI 敲定與阿里合作, DeepSeek 曾被考慮
據 The Information 報導,蘋果公司已經與阿里巴巴達成合作,為國行版的 iPhone 使用者提供 AI 功能,訊息來源為一位知情人士。
據悉,蘋果與阿里巴巴共同開發的國行 AI 功能已提交給國內相關部門稽核。兩位對該專案有直接瞭解的人士稱,蘋果在 2023 年開始測試來自中國開發者的不同 AI 模型,並一度選擇百度作為主要合作物件,但由於百度在為蘋果智慧開發模型方面的進展未達到美國公司的標準,因此該合作後來被取消。蘋果最近幾個月開始考慮其他選項,評估騰訊、位元組跳動、阿里巴巴以及 Deepseek 開發的模型。報導還提到,蘋果最終放棄了最近呼聲很高的 DeepSeek ,因為 DeepSeek 團隊缺乏支援像蘋果這樣的大客戶所需的人力和經驗。
日前,蘋果向開發者傳送了關於「利用蘋果智慧的力量」開發者活動的相關郵件。值得關注的是,本次活動將於 3 月 25 日 10:00 至 12:00 在上海舉行,活動主題將圍繞蘋果智慧和機器學習兩個方面。而這一舉動,也暗示在中國大陸的蘋果智慧 AI 功能或將上線。(@APPSO)
03 有態度的觀點
1、百川智慧 CEO:AGI 的盡頭是生命科學
近日,百川智慧創始人兼 CEO 王小川接受晚點對話的採訪,表示「不是文字創作、不是物理模型,AGI 的盡頭是生命科學」。採訪中,王小川提到,之所以堅定了公司方向聚焦醫療,是因為大模型是造人的,而醫生是人類職業中最複雜的之一,所以它可以成為一個標尺。並且他認為,大模型能造出醫生時,就是達到了 AGI。同時,王小川對 DeepSeek 的「火爆全球」表示振奮,一方面他認為 DeepSeek 改變了行業格局,中國離實現 AGI 和應用爆發更近,另一方面,他覺得 DeepSeek 的出圈讓更多人體驗到了 AI,教育了整個行業。在談及訓練醫療大模型費用時,王小川認為醫療模型有更高的價值,它關係生命健康,因此不能按 token 來算錢。王小川還預測了未來的技術發展趨勢。AI 透過學會使用工具,一步步學習製造工具,最後形成迴圈,AI 寫完程式碼自己執行,AI 自己造工具自己用。(@APPSO)
04 社群專案推薦
1、Peeches:實時系統音訊轉錄與翻譯
來自@leon7hao:因為想方便一邊打程式碼一邊聽別的應用的英文播客,純 Rust 弄了一個本地的實時轉錄應用 Peeches。監聽系統音訊並翻譯為中文。如果有英文會議應該也很有用。
Peeches:實時系統音訊轉錄與翻譯
主要特性
🎙️ 實時轉錄系統音訊
🤖 完全本地化的 AI 模型
🎵 歌詞式文字顯示
🦀 純 Rust 編寫
🍎 目前僅支援 macOS
🌐 目前僅支援英文轉中文
模型
Whisper: https://huggingface.co/ggerganov/whisper.cpp
Opus-MT-en-zh: https://huggingface.co/Helsinki-NLP/opus-mt-en-zh
致謝
Tauri: 用於構建更小、更快、更安全的桌面和移動應用程式,並提供 Web 前端。
Whisper-rs: https://github.com/ggerganov/whisper.cpp 的 Rust 繫結。
Candle: 極簡 Rust 機器學習框架。
更多 Voice Agent 學習筆記:
a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)
對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 語音識別模型模型
- 語音識別 (ASR) 模型測試 之 評估指標探索模型指標
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 不戴眼鏡聽不清?Google用視覺訊號分離語音 | 附論文Go視覺
- 海南話語音識別模型——模型訓練(一)模型
- JavaScript的語音識別JavaScript
- 語音識別技術
- 語音情感識別--RNNRNN
- 語音識別CTC演算法原理解釋演算法
- 樹莓派語音互動--語音輸入識別樹莓派
- 通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型GPT視覺大模型
- 使用 SpeechT5 進行語音合成、識別和更多功能
- Windows10系統如何禁用語音識別功能Windows
- 5 款不錯的開源語音識別/語音文字轉換系統
- 新一代 Kaldi: 支援 JavaScript 進行本地語音識別和語音合成啦!JavaScript
- 帶你讀論文 | 端到端語音識別模型模型
- Amazon SageMaker新玩法——定製你的語音識別模型模型
- Swift-語音識別、翻譯Swift
- Python語音識別終極指南Python
- 人工智慧 (08) 語音識別人工智慧
- ASR-使用whisper語音識別
- 人工智慧之語音識別(ASR)人工智慧
- [譯] 使用 WFST 進行語音識別
- 百度API---語音識別API
- 語音識別2 -- Listen,Attend,and Spell (LAS)
- 深度瞭解語音識別之發音詞典及語音資料採集標註
- 小紅書開源 FireRedASR 語音識別模型,3.05% 字錯誤率;Meta AI 腦電波打字模型:32% 字錯誤率模型AI
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- 怎麼關閉win10語音識別 win10如何關閉電腦的語音識別Win10
- python語音識別入門及實踐Python
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- 用python呼叫百度語音識別api批量處理本地語音檔案PythonAPI
- win10系統怎麼開啟語音控制功能_win10開啟語音控制功能教程Win10
- Spotify開始測試語音搜尋技術,或將打造智慧音響
- 谷歌手機輸入法可以離線語音識別了!模型精度遠超經典CTC谷歌模型
- 重磅公開!阿里語音識別模型端核心技術,讓你「聽」見未來阿里模型
- 重磅公開!阿里語音識別模型端核心技術,讓你“聽”見未來阿里模型