Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
一、有話題的技術
1、阿里 Qwen 首個推理模型亮相!擅長數學和程式設計,支援聯網搜尋
阿里 Qwen 團隊在 Qwen Chat 釋出了推理模型——深度思考(QwQ)。
深度思考(QwQ)由 QwQ-Max-Preview 支援,這是一個基於 Qwen2.5-Max 的推理模型,不過仍然是預覽版,擅長數學理解、程式設計、AI 智慧體等,與 Qwen2.5-Max 相比,更加智慧,也更具創造力。
從預覽版看,深度思考(QwQ)同時支援深度思考和聯網搜尋。
深度思考(QwQ)具有類似 Claude Artifacts 的介面,在主聊天視窗之外,以獨立的模組形式展示建立的內容。
並且,深度思考(QwQ)可以呼叫圖片生成、二維碼生成、天氣服務等工具,同時可以選擇多個工具。
Qwen 團隊表示,即將釋出 QwQ-Max 的正式版,同步釋出 Android 和 iOS 端的 APP,並將基於開源軟體許可證 Apache 2.0,開放 QwQ-Max 和 Qwen2.5-Max 的權重。
另外,Qwen 還將釋出更小的模型,比如可以部署在本地裝置的 QwQ-32B。
預覽版連結: https://chat.qwen.ai (@APPSO)
2、Anthropic 釋出全球首個混合推理模型
今天凌晨,Anthropic 正式釋出 Claude 3.7 Sonnet,成為全球首款雙模式混合推理模型;同時 Anthropic 還發布了一款智慧程式設計工具「Claude Code」。Claude 3.7 Sonnet 在標準模式能夠快速響應,而切換到擴充套件思考(Extended Thinking)模式,能進行深度自我反思,在數學、物理和程式設計等複雜任務上表現卓越,注重實用導向,不必要拒絕減少 45%,強化程式碼協作能力。從基準測試結果來看,Claude 3.7 Sonnet(擴充套件思維版)適用於強邏輯推理和數學任務。具體來看,在評估 AI 解決真實軟體問題能力的 SWE-bench Verified 基準測試中,Claude 3.7 Sonnet 達到了行業領先水平。同時,該模型在 TAU-bench 測試中也表現不錯,超越其舊版本與 OpenAI o1。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 內部的 Pokémon 遊戲測試中超越了所有前代模型,展現了更強的決策與規劃能力。與 DeepSeek R1 展示的思考過程相比,Claude 3.7 Sonnet 公開的思考過程相對客觀、缺乏個性化表達。
Anthropic 表示,未對模型的思維過程進行標準角色訓練,希望給予 Claude 最大自由度進行自主思考;並且其認為所謂「思考」過程不一定真實反映了 AI 的內部決策邏輯,因此,Anthropic 未來將基於使用者反饋和研究決定是否繼續公開 Claude 的思維鏈。而 Claude Code 支援直接在終端理解並操作程式碼庫,能一次完成需 45 分鐘以上的人工程式設計任務,專長於測試驅動開發、複雜除錯和大規模程式碼重構,全面支援程式碼編輯、測試執行等核心開發流程。
目前,Claude 3.7 Sonnet 已適用於所有 Claude 訂閱計劃,包括免費版、專業版、團隊版和企業版,同時也可透過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問。
除免費版外,所有平臺均支援擴充套件思考模式。價格方面,定價與前代模型保持一致,輸入 100 萬 token/3 美元,輸出 100 萬 token/15 美元(包括思考過程中使用的 token)。此外,Claude Code 的預覽研究版本也已上架官方網站。(@APPSO)
3、DeepSeek 釋出開源專案 FlashMLA
2 月 24 日,DeepSeek 開源周第一個專案 FlashMLA 正式釋出。據官方介紹,FlashMLA 的靈感來自 FlashAttention 2&3 和 cutlass 專案。具體來說,FlashMLA 是一個針對 Hopper GPU 最佳化的高效 MLA(Multi-Head Latent Attention)解碼核心,支援變長序列處理,現在已經投入生產使用。FlashMLA 專門針對多層注意力機制進行了最佳化,能夠加速 LLM 的解碼過程,從而提高模型的響應速度和吞吐量,而這對於實時生成任務(如聊天機器人、文字生成等)尤為重要。
簡而言之,FlashMLA 是一個能讓 LLM 模型在 H800 上跑得更快、更高效的最佳化方案,尤其適用於高效能 AI 任務。目前,FlashMLA 已釋出版本支援「BF16」與「分頁 KV 快取,塊大小為 64」兩個特徵,其在 H800 上能實現 3,000 GB/s 的記憶體頻寬與 580 TFLOPS 的計算效能。FlashMLA 現已上架 GitHub。並且其在上線 6 小時,便收穫超 5,000 的 Star 收藏,擁有 188 個 Fork(副本建立)。(@APPSO)
4、DeepSeek 釋出開源第二彈!推理效率起飛了
DeepSeek 開源專案 DeepEP 正式釋出。
DeepSeek 官方在 X 平臺發文稱:
「很高興向大家介紹 DeepEP——首個專為 MoE(專家混合)模型訓練和推理打造的開源 EP 通訊庫。
高效最佳化的全對全(all-to-all)通訊
支援節點內(intranode)和節點間(internode)通訊,相容 NVLink 和 RDMA
訓練與推理預填充(prefilling)階段的高吞吐率計算核
推理解碼(decoding)階段的低延遲計算核
原生支援 FP8 資料排程
靈活的 GPU 資源控制,實現計算與通訊的重疊處理」
據介紹,DeepEP 是專為專家混合(MoE)和專家並行(EP)設計的通訊庫,提供高吞吐、低延遲的全對全(all-to-all)GPU 計算核,也被稱為 MoE dispatch 和 MoE combine。
此外,該庫還支援包括 FP8 在內的低精度計算操作。
說人話就是,DeepEP 是 MoE 模型的「通訊管家」,透過軟硬體協同最佳化,讓專家之間的資料傳遞又快又省資源,大幅提升訓練和推理效率。
另外,DeepEP 為支援 DeepSeek-V3 論文中的組限門控(group-limited gating)演算法,開發了專門的計算模組,這些模組能夠高效處理不同網路連線之間的資料傳輸,比如從 GPU 之間的 NVLink 連線傳輸到伺服器之間的 RDMA 連線。
附上 GitHub 專案地址:
https://github.com/deepseek-ai/DeepEP (@APPSO)
二、有亮點的產品
1、AI 影片創作平臺 PixVerse V4 正式上線
2 月 24 日,愛詩科技宣佈旗下 AI 影片創作平臺 PixVerse V4 版本正式上線。官方介紹,在 PixVerse V4 中,能夠實現智慧生成影片音效、一鍵匹配人聲臺詞、多種影片風格實時重繪等多種功能。
據悉,PixVerse V4 的 AI 影片生成速度最快可達 5s。官方表示,在本次 PixVerse V4 的更新中,底模再次進行大幅度升級,透過對影片內容中的物理規律和人物情緒的表達進行更細節化的處理,來進一步提升 AI 影片的「真實感」,為創作者們更好的內容表達提供支援。
目前,PixVerse 技術服務產品已經正式開通運營,不論是企業端使用者、影片創作者亦或是想嘗試影片創作的任何人,均可透過愛詩科技官網進行體驗。(@APPSO)
2、1x 釋出家庭機器人 NEO Gamma:能衝咖啡、洗衣和吸塵等
1X 公司最新推出的家居機器人 Neo Gamma 具備多項家務功能,如衝咖啡、洗衣和吸塵,同時也能為使用者提供陪伴。與傳統家用機器人不同,Neo Gamma 的設計更為溫和親切,易於引發情感依賴。
亮點提要:
Neo Gamma 是一款新型家居機器人,能夠完成家務併為使用者提供陪伴。
其設計更為親切溫和,與傳統家用機器人截然不同,易於讓人產生情感依賴。
Neo Gamma 具備自然運動能力和語言互動功能,未來將與家庭生活緊密結合。
詳情入口: https://www.1x.tech/neo (@AIbase 基地)
3、Perplexity 的 iOS APP 推出新的語音模式,包含 6 種音色
(@TestingCatalog News@X)
4、Grok 3 語音功能上線,「髒話冒犯」(unhinged 18+)模式引熱議
埃隆·馬斯克旗下 xAI 公司宣佈,其人工智慧聊天機器人 Grok3 的語音功能已正式上線。這一備受期待的功能現已透過 Grok 應用程式向使用者開放,目前支援英語互動。根據 X 平臺上的最新訊息,使用者只需更新 Grok 應用,即可在介面右上角「新對話」按鈕旁發現新增的語音標誌,點選即可體驗這一全新功能。
據 xAI 透露,Grok3 語音功能提供多達 10 種不同的模式,其中包括兩種標記為「18 禁」的選項,引發了使用者的廣泛討論。儘管具體模式細節尚未完全公開,但這一設計顯示出 Grok3 在互動多樣性上的突破,延續了馬斯克對「最大化真實性」AI 的承諾。X 使用者@canlee886 在帖子中稱讚道:「動動嘴就能和 Grok 對話,複雜問題一句話解決,效率直接拉滿!」另一位使用者@baravannrway 則確認,該功能現為早期測試版,可能仍存在一些小問題,但 xAI 團隊承諾將迅速修復。
目前,Grok3 的語音功能似乎僅支援英文,尚不清楚是否會很快擴充套件至其他語言。使用方法簡單:更新後的應用中,點選語音標誌即可進入語音模式,使用者可根據需求選擇不同模式進行互動。X 上的反饋顯示,這一功能的推出讓 Grok3 更具人性化互動感,與 OpenAI 的 ChatGPT 語音模式及谷歌 Gemini Live 形成直接競爭。
此次更新還伴隨著 Grok3 其他效能的提升,包括更強的理解力和智慧應答能力。xAI 此前宣稱,Grok3 在數學、科學和編碼基準測試中已超越多個主流模型,而語音功能的加入無疑為其增添了更多實用性和吸引力。感興趣的使用者可立即更新 Grok 應用,親自體驗這一「聰明到可怕」的 AI 新特性。(@AIbase 基地)
三、有態度的觀點
1、風投巨頭 a16z 創始人:AI 大戰的贏家將會是使用者
近日,著名風投機構 a16z 創始人 Marc Andreessen 接受播客 Invest Like the Best 訪談,並表示在近期的 AI 開源大戰中,使用者將會是贏家。主持人詢問 Marc Andreessen 如何看待近日大火的 DeepSeek-R1 時,Marc 表示 DeepSeek 做了一件了不起的事情,那就是以開源的形式將大模型提供給全世界。
Marc 強調,這實際上相當令人驚歎,因為 DeepSeek 逆轉了多數大模型都是封閉的這一局面。Marc 在採訪中提到,在這一場 AI 開源大戰中,贏家將是所有的 AI 消費者,輸者則是那些擁有專有模型的公司。Marc 提到,OpenAI 等眾多此前封閉的 AI 公司,都在近期內解釋上述的現象,而 Marc 認為這種解釋意味著企業已經在大戰中,宣佈「認輸」。(@APPSO)
四、Voice Agent Demo 分享
1、實時 AI 解說員(來自 X 上的 @cerebriumai)
更多 Voice Agent 學習筆記:
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 人類級別語音 AI 路線圖丨 Voice AI 學習筆記AI筆記
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 豆包 APP 上線端到端語音能力,低時延、可打斷;OpenAI 實時 Agent 原始碼:20 分鐘開發 Voice AgentAPPOpenAI原始碼
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- 活動報名:Voice Agent+ 硬體分享會,深圳專場丨 RTE Meetup 007
- 幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記AI筆記
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- DeepL Voice:會議、對話實時語音翻譯工具;吳佳俊團隊:場景語言,智慧補全文字到 3D 的場景理解3D
- 谷歌釋出 Android XR 整合 Gemini 語音對話;Voice Agent 平臺 Vapi 獲 2000 萬美元融資谷歌AndroidAPI
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- 豆包全新端到端語音功能上線!智商情商雙線上,中文語音對話斷崖式領先
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場AI音訊
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- AI 重塑宗教體驗,語音 Agent 能否成為突破點?AI
- 2 行程式碼,15 分鐘部署對話式 AI Agent!丨社群來稿行程AI
- Product Hunt 金喵獎 Voice AI 專案一覽;AI 招聘平臺 Mercor 再融資,估值 20 億美元 丨日報AI
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 趣味AI語音電話——鼠年拜年新姿勢AI
- 基於環信實現實時視訊語音通話功能
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- lol內建語音win10不能說話怎麼辦_lol內建語音win10不能說話修復方法Win10
- 聲網Agora Lipsync 技術揭祕:通過實時語音驅動人像模擬真人說話Go
- AI語音電話,打給異鄉的自己AI
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 視覺理解 + 實時語音,打造你的多模態實時 AI 丨 TEN+ 亞馬遜雲科技開源工作坊視覺AI亞馬遜
- win10語音通話時麥克風有雜音怎麼回事_win10電腦語音通話麥克風有雜音解決教程Win10