Zoom 全線產品引入 Agent,實現語音轉錄總結和語音客服等功能;谷歌雲推出 TTS 模型 Chirp 3 丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、小米大模型團隊登頂音訊推理 MMAU 榜
3 月 17 日,小米技術官方賬號宣佈,小米大模型團隊透過遷移 DeepSeek 演算法,讓 7B 模型登頂音訊推理 MMAU 榜。小米也公佈了其訓練的目的之一:透過一段汽車行駛中的座艙錄音,利用 AI 判斷出汽車是否存在潛在的故障。據小米大模型團隊介紹,其嘗試將 DeepSeek-R1 的 GRPO 演算法(強化學習演算法)遷移到通義千問的 Qwen2-Audio-7B 模型上。結果顯示,在僅使用由清華大學釋出的 AVQA 的 3.8 萬條訓練樣本情況下,強化學習微調後的模型在 MMAU 評測集上實現了 64.5% 的準確率,這一成績比目前榜單上第一名的商業閉源模型 —— OpenAI 的 GPT-4o 有近 10 個百分點的優勢。小米方面還提到了一點有趣的實驗結果:當團隊在訓練中強制要求模型輸出 < thinking >< /thinking > 推理過程時(類似傳統思維鏈方法),準確率反而下降至 61.1%。
團隊表示,這說明顯式的思維鏈結果輸出可能並不利於模型的訓練。本次使用的 MMAU 評測集是這種音訊推理能力的量化標尺,它透過一萬條涵蓋語音、環境聲和音樂的音訊樣本,結合人類專家標註的問答對,測試模型在 27 種技能的表現。作為基準上限,人類專家在 MMAU 上的準確率為 82.23%,而本次小米所選用的 Qwen2-Audio-7B 模型在此評測集上的準確率為 49.2%。
小米大模型團隊表示,此次實驗驗證了強化學習在音訊推理領域的獨特價值,也為後續研究開啟了一扇新的大門,同時小米預測,當機器不僅能「聽見」聲音,還能「聽懂」聲音背後的因果邏輯時,真正的智慧聽覺時代將會來臨。目前該專案的訓練程式碼、模型引數、技術報告均已公開,同時還公佈了互動 Demo:http://120.48.108.147:7860/Demo。(比較有趣的是, 點開來是小米創始人雷軍的「名場面」— Are U OK)(@ APPSO)
2、阿里雲啟動「T 專案」,加速 AI 研發
據科創板日報獲悉,阿里雲已啟動了「T 專案」,主要指面向下一代 AI 技術,做 AI 引擎、LLM、多模態等未知領域探索,員工以類似專案「借調」的方式加入。知情人士透露,專案是為了加速 AI 的研發。而阿里巴巴 CEO 吳泳銘上個月為進一步提振投資者的信心,他宣佈阿里準備在未來三年內投入 3,800 億元建設其 AI 基礎設施,這一金額超過了過去十年的總投入。據知情人士透露,阿里今年計劃投入 390 億元採購 AI 晶片,比去年高出近 50%。如果增長超出預期,這一數額還有可能在年內上調。
此外,據金融時報昨日釋出深度文章資訊顯示,吳泳銘主張在阿里現有業務中全面實現「AI 化」。知情人士透露,阿里所有部門已被告知,他們 2025 年的績效將透過如何利用 AI 促進增長來評估。文章中還指出,阿里在 2023 年 3 月首次嘗試戰略轉型,但因早期投資者聲音及市場環境的影響,阿里在六個月後被迫改變了策略,也在這時,阿里巴巴創始人馬雲及現任阿里巴巴董事長蔡崇信決定,將阿里重塑為一家 AI 公司。同年 9 月,此前曾在多個阿里部門擔任領導職務的吳泳銘,被選中接替張勇擔任 CEO,並同時宣佈其領導雲業務。在吳泳銘的領導下,阿里及其管理層的局勢開始好轉。
吳泳銘開始出售阿里旗下大部分陷入困境的零售業務,以便將資源重新配置到 AI 領域的發展上,並尋求新的投資機會。與此同時,阿里還將通義千問模型訓練團隊的規模擴大至 100 人左右,成為中國規模最大的團隊之一,並且開始推出越來越多具有競爭力的模型。得益於通義千問的競爭力,阿里還深受蘋果公司的信任。蔡崇信在上個月透露,蘋果已選擇阿里作為其合作伙伴,在今年晚些時候在中國的 iPhone 上推出 AI 功能。(@ APPSO)
3、通義千問:QwQ-32B 登頂全球最強開源模型
據通義千問官方微博訊息,3 月 17 日,阿里通義千問最新開源的推理模型 QwQ-32B,在國際權威測評榜 LiveBench 中,超越 OpenAI-GPT-4.5-preview、Google-Gemini2.0、DeepSeek-R1 等國內外頂尖模型,衝進全球前五,成為」全球效能 No.1 的開源模型。
LiveBench 是由圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)領銜發起的大模型評測榜,對 QwQ-32B 的推理、程式設計、數學、資料分析、語言理解和指令遵循等能力進行綜合全面評估,採用自動評分。(@ 通義千問微博)
4、谷歌雲重磅推出高畫質語音模型 Chirp 3,支援 248 種聲音
谷歌雲在位於倫敦的 DeepMind 總部舉行了一場會,正式推出其高畫質語音模型 Chirp3。該模型透過 Vertex AI 統一機器學習平臺向開發者開放,提供了豐富的開發工具,助力程式的創新。
Chirp3 支援 248 種不同的聲音,並可用 31 種語言進行語音合成。開發者可以利用這一模型建立多種應用,如智慧語音助手、有聲讀物和影片配音等。谷歌表示,Chirp3 的語音功能能夠捕捉人類語調的細微差別,使得對話更加生動和引人入勝。
除了使用現成的語音,使用者還可以透過谷歌雲的文字轉語音 API 建立自定義語音。然而,谷歌為了確保負責任的使用,限制了這一語音克隆功能的訪問許可權,以防止潛在的濫用行為,並確保符合倫理 AI 的實踐。
在釋出會上,谷歌雲執行長托馬斯・庫裡安(Thomas Kurian)強調,谷歌的總體願景是提供一系列廣泛的模型,除了 Chirp3 外,還包括 Gemini、Imagen、Veil 等多款產品。谷歌還推出了一個名為 Agent Space 的新產品,專為商業使用者設計,以滿足其特定需求。(@ AIbase 基地)
02 有亮點的產品
1、Zoom 釋出全平臺 Agent,智慧體大爆發
今天凌晨,全球視訊會議領導者 Zoom 在官網宣佈,釋出一系列 AI Agent 產品來增強全平臺功能,同時 Zoom 進入全新的智慧體自動化時代。
本次透過 Agent 增強的產品包括 Zoom Meetings、Zoom Phone、Zoom Team Chat、Zoom Docs、Zoom Contact Center、Zoom Workplace 等。
其中最重要的就是 Zoom 的類 ChatGPT 助手 AI Companion,將從一個簡單的 AI 助手演變成智慧體搭建平臺, 具備記憶、推理、任務執行和協調四大功能,幫助使用者從重複、繁瑣的工作中解脫出來,節省大量時間提升效率。
AI Companion 獲得 Agent 增強後擁有了記憶、推理、任務執行和協調四大功能,也是幫助其他功能自動執行重複、複雜數字化業務的基石。
AI Companion 增強了 Zoom Phone 功能,能夠生成語音郵件總結,並支援 Zoom for Microsoft Teams 應用程式。
使用者可以在 Microsoft Teams 中直接接收 Zoom Phone 的通話總結,並優先處理語音郵件中的任務。此外,移動應用上的新語音記錄器功能將允許使用者在面對面交流時無需手動做筆記,AI Companion 會自動轉錄、總結並捕捉行動內容。
在客戶體驗方面,Zoom Contact Center 引入了 Agent 功能,能夠自動處理複雜的客戶查詢並代表客戶執行任務。這些虛擬 Agent 不僅支援聊天渠道,還將擴充套件到語音渠道,提供無縫的 7*24 小時全天候服務。(@ AIGC 開放社群)
2、WarpTuber:快手 LivePortrait 驅動的即時 VTubing 工具
WarpTuber 是一個基於快手 LivePortrait 的即時 VTubing 工具。它允許使用者透過攝像頭,將自己的臉部表情和麵部動作即時「套」到一張照片或角色影像上,從而創造出會動的虛擬形象。(@ 三花 AI )
03 有態度的觀點
1、李飛飛:在 AI 前沿,要保持好奇心
近日,李飛飛接受微軟總裁 Brad Smith 的對話採訪,前者回顧了自己的個人經歷,講述了她如何在 AI 中找到方向。李飛飛回顧了自己的青年時期:那段時間教會她要保持好奇心,同時更要保持上進與學習的心態,而且還要選擇自己所熱愛的。李飛飛表示,也正因為自己的青年時期,才有了後來的自己,以及對 AI 的探索心。同時李飛飛也談及了自己的 ImageNet 專案。其透過 ImageNet 發現,創業需要獨立、自主。當時 ImageNet 並不被認可,而李飛飛堅持自己的想法——機器也需要類似的視覺資料進行學習,最後 ImageNet 成為了深度學習革命的關鍵資料集。由此,李飛飛也表示,AI 前沿需要保持自己的熱愛與好奇心。最後,李飛飛還分享了她目前專注的創業專案 World Labs。她透過強大的好奇心與意識能力,預測著計算機視覺領域正經歷一場新的革命,因此李飛飛也提出了自己經典的「空間智慧(Spatial Intelligence)時代」,她認為,空間智慧是一項基礎技術,能夠讓 AI 理解並生成三維世界,併為使用者帶來前所未有的互動體驗。(@ APPSO)
04 Real-Time AI Demo 分享
1、一個實時雙向傳輸二維碼資料,實現 Agent 之間通訊的協議 demo
來自@Orion Reed:開發了一個巧妙的協議,可以透過 QR 碼實現雙向資料傳輸。它透過要求每個裝置確認收到前一個資料塊來確保資料傳輸的可靠性,從而優雅地處理中斷。這個協議是為 WebRTC 信令等場景設計的,也是與 @chrisshank23 合作的 Folk Canvas 專案的一部分。
2、debdeb.io:一個 AI 語音辯論專案
來自@rtilleard:分享了一個週末做的 AI 教育專案,結合了文字和音訊,非常有意思!基於 @elevenlabsio 和 @lovable_dev 構建,立即體驗:https://debdeb.io
你可以:
建立任何主題的辯論
選擇你的立場,參與其中
構建你的論據
獲得實時聽眾反饋 (興奮還是冷場?)
這展示了我們在文字、音訊、影像和影片中可以實現的互動式「思考」潛力。
更多 Voice Agent 學習筆記:
ElevenLabs 33 億美元估值的秘密:技術驅動 + 使用者導向的「小熊軟糖」團隊丨 Voice Agent 學習筆記
端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- C# TTS-文字轉語音C#TTS
- 前端語音轉文字實踐總結前端
- 文字到語音(tts)TTS
- Coqui TTS合成語音UITTS
- TTS 擂臺: 文字轉語音模型的自由搏擊場TTS模型
- AVFoundation 文字轉語音和音訊錄製 播放音訊
- 開源語音合成庫 coqui TTS 使用記錄UITTS
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- 手機上的實時語音轉錄,谷歌為聽障人士連線世界谷歌
- Cartesia 升級 TTS 模型,可在音訊中無縫填充內容;索尼 AI 遊戲角色原型:結合語音與動畫,與玩家實時對話丨日報TTS模型音訊AI遊戲原型動畫
- Llama 4 即將釋出,引入語音能力;AI 智慧運動眼鏡 BleeqUp:實時對講、AI 自動成片等功能丨日報AI
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-ttsTTS模型微軟
- 語音轉文字工具,語音轉文字怎樣轉?
- 『1/3的智慧音響使用者不知道語音錄音儲存在雲端』今日資料行業日報(2019.07.30)行業
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 接入語音盒子,廣東成人玩偶公司走紅;AI 語音訪談員 Chikka 登頂 PH 日榜:AI 語音收集反饋,即時生成洞察報告丨日報AI
- 語音喚醒實現
- 語音識別模型模型
- 如何用Python語音合成,以及文字轉語音~Python
- aardio實現語音閱讀文字【包含選擇語音庫】
- YouGov:1/3的智慧音響使用者不知道語音錄音儲存在雲端Go
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型
- 全離線,無延遲!谷歌手機更新語音識別系統,模型大小僅80M谷歌模型
- 通用模型、全新框架,WavLM語音預訓練模型全解模型框架
- C# 實現語音聊天C#
- 實現語音社交原始碼介面效能優化,從索引入手原始碼優化索引
- GPT-SoVITS語音合成模型實踐GPT模型
- open policy agent 語法總結
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 快速實現語音轉文字,還自帶翻譯
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- F5-TTS語音克隆漢化整合包1016TTS