Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、商湯「日日新融合大模型互動版」開放商用
商湯科技日日新融合大模型互動版(SenseNova-5o)宣佈正式對外提供實時音影片對話服務。現階段 APP 將供免費測試使用,不限使用次數。
今年早些時候,商湯曾於 1 月 10 日正式推出「日日新」融合大模型,實現原生融合模態,深度推理能力與多模態資訊處理能力均大幅提升,並在兩大權威評測榜單奪得第一,成為「雙冠王」——國內權威大模型測評機構 SuperCLUE 最新發布的《中文大模型基準測評 2024 年度報告》中,「日日新」融合大模型以總分 68.3 的成績與 DeepSeek V3 一起並列國內榜首,成為年度第一;在近期另一個權威綜合評測機構 OpenCompass 的多模態評測中,商湯以同一款模型同樣取得了榜單第一,分數大幅領先 GPT-4o。
作為商湯「日日新」融合大模型的互動版本,「SenseNova-5o」擁有強大的實時互動、視覺識別、記憶思考、持續對話和複雜推理等能力,能幫助 AI 與人類更自然、更流暢地交流。同時,透過整合商湯大裝置基礎設施能力,商湯還為「SenseNova-5o」提供了配套的 Realtime API 的服務最佳化,實現與 RTC 網路的深度結合,令音影片對話服務在多種環境下穩定、實時、流暢、無延遲。
例如,「SenseNova-5o」記憶力進一步增強,能夠精確牢記每一輪與使用者的對話,支援超長多模態互動記憶不少於 5 分鐘,同時超越了短期對話,能夠持續跟蹤和積累與使用者的互動資訊,不斷完善和最佳化對使用者需求的理解。
與此同時,「SenseNova-5o」當前的互動延遲已縮短至 2 秒以內,與人類自然交流幾乎無差。透過個性化設定功能,該產品還可以支援根據使用者偏好,個性化設定交流風格與使用習慣,從人設到語氣都能自由調整。例如,其在《射鵰英雄傳》中扮演的「郭靖」不僅可以接受使用者的提問,還能與另一位「SenseNova-5o」扮演的「黃蓉」一起對話探討楊過的教育問題。(@ 財經塗鴉)
2、智譜正式推出清影 2.0 影片模型
1 月 21 日,智譜正式宣佈推出清影 2.0 影片模型,其帶來了一系列 AI 生成影片的新驚喜。
據官方介紹,清影 2.0 的模型結構、訓練方法、資料工程全面更新,圖生影片基礎模型能力大幅度提升 38%;生成更可控,支援畫面主體進行大幅度運動,同時保持畫面穩定性;指令遵從能力行業領先,能夠理解和實現各種複雜 prompt;能夠駕馭各種藝術風格,畫面美感大幅提升。目前,清影 2.0 影片模型現已在智譜清言網頁端和 App 全量上線,普通使用者可免費試用,會員享受快速通道,且為不扣積分的無限模式。(@APPSO)
3、Perplexity 推出人工智慧搜尋 API Sonar
Perplexity 推出了名為 Sonar 的 API 服務,企業和開發者可藉此將該初創公司的生成式 AI 搜尋工具整合進自己的應用程式。
Perplexity 為開發者提供了兩個層級的選擇:基礎版 Sonar 價格更便宜、速度更快;Sonar Pro 則更適合處理複雜問題,價格更高,Perplexity 表示,Sonar API 能讓企業和開發者自定義 AI 搜尋引擎提取資訊的來源。
隨著 API 的推出,Perplexity 將其 AI 搜尋引擎推廣到更多地方,不再侷限於自身的應用程式和網站。例如,Zoom 等公司已經開始使用 Sonar 為其視訊會議平臺提供 AI 助手,Sonar 能讓 Zoom 的 AI 聊天機器人依據帶引文的網路搜尋實時作答,且無需使用者離開影片聊天視窗。
Sonar 還能為 Perplexity 開闢新的收入來源,這對初創公司的投資者而言可能非常重要。Perplexity 目前僅提供訂閱服務,使用者可無限制使用其 AI 搜尋引擎及一些附加功能。不過,科技行業去年大幅降低了透過 API 訪問 AI 工具的價格,Perplexity 卻聲稱 Sonar 將提供市場上最便宜的 AI 搜尋 API。
Sonar 基礎版採用固定價格,運用輕量級模型,每 1000 次搜尋收費 5 美元,每輸入 75 萬個單詞(約 100 萬個輸入標記)收費 1 美元,每輸出 75 萬個單詞(約 100 萬個輸出標記)收費 1 美元。
Sonar Pro 價格更高,答案更詳細,可處理更復雜的問題。該版本會根據使用者提示執行多個搜尋,所以定價較難預測。Perplexity 表示,Sonar Pro 提供的引用量是基礎版的兩倍。Sonar Pro 每 1000 次搜尋收費 5 美元,每在 AI 模型中輸入 75 萬個單詞(約 100 萬個輸入標記)收費 3 美元,每模型輸出 75 萬個單詞(約 100 萬個輸出標記)收費 15 美元。
Perplexity 宣稱,在衡量 AI 聊天機器人答案事實正確性的 SimpleQA 基準測試中,Sonar Pro 的表現優於 Google、OpenAI 和 Anthropic 的領先模型。(@ 中鯨社)
4、騰訊混元 3D 生成大模型 2.0 開源釋出
該技術宣稱一句話、一張圖,甚至畫個草圖都能生成一個 3D 模型,甚至還能加動作、換紋理、捏人物、做動畫。
騰訊混元 3D-2.0 版本主要是對 3D 生成過程中的 幾何和紋理 兩個大模型進行了升級。
幾何大模型的任務就是捕捉 3D 物體的形狀和結構。騰訊雲採用 Hunyuan3D-DiT 和 Hunyuan ShapeVAE 技術 ,讓生成的「白模」(沒上色的模型)效果「堪比設計師手工建模」;
紋理大模型 Hunyuan3D-Paint 可以根據文字或圖片描述,為「白模」穿上各種紋理。
此外,騰訊混元透過 「解耦生成」 新方法,讓幾何大模型和紋理大模型能夠實現「1+1>2」的生成效果。
目前,騰訊混元 3D 生成技術已經應用於 UGC 3D 創作、商品素材合成、遊戲 3D 資產生成等場景。騰訊地圖就基於混元 3D 大模型,生成個性化 3D 導航車標,號稱速度提升了 91%。
開發者可在 GitHub、Hugging Face 等技術社群下載混元 3D 2.0 模型,使用者也可以直接在混元 3D 官網上申請體驗功能。(@IT 之家)
5、豆包大模型 1.5Pro 正式釋出
今天,豆包大模型 1.5Pro 版本正式和大家見面。新模型綜合能力顯著增強,低訓練/推理成本,高效模型結構,全面提升多模態能力、推理能力,多項公開評測基準上全球領先。
目前,Doubao-1.5-pro 已在豆包 APP 灰度上線,接受海量請求效果出色,同時,開發者也可在火山引擎直接呼叫 API 。
多模態能力全面提升:
新版豆包視覺理解模型 Doubao-1.5-vision-pro,視覺理解能力全球領先。
全新的豆包實時語音模型 Doubao-1.5-realtime-voice-pro,採用 Speech2Speech 端到端框架,表現力實現質的飛躍,真正做到會哭會笑、能說方言會唱歌。火山引擎將在上半年透過方舟平臺推出對應 API 服務。
更強的深度思考能力:
基於豆包 1.5 基座模型,透過 RL 演算法的突破和工程最佳化,在未使用其他模型資料的情況下,研發豆包深度思考模型。階段性進展 Doubao-1.5-Pro-AS1-Preview 在 AIME 上已取得了業內領先的成績。(@ 豆包)
02 有亮點的產品
1、騰訊混元推出 3D AI 創作引擎:號稱業界首個一站式的 3D 內容創作平臺。
該平臺支援:
文 / 圖生 3D 模型: 只需輸入中 / 英文提示詞或上傳一張圖片,就能生成 4 個 3D 模型,還能挑選不同紋理風格;
低多邊形 low-poly 模型生成: 可根據物體複雜程度,自適應生成幾百至數千面的三角 mesh,面數更低的同時保證模型細節效果,特別適合遊戲引擎渲染;
一站式流程管理: 從建模到動畫到素材管理,像流水線一樣高效。
具體效果方面:
3D 動畫生成: 選個動作模版,角色可以跑步、揮手、跳舞;
3D 紋理生成: 透過文字或圖片描述,一鍵生成高畫質紋理;
3D 草圖生成: 隨手塗鴉的簡筆畫,加上簡單描述就能生成 3D 模型;
3D 人物生成: 上傳一張照片,立刻生成虛擬形象,還能隨意調整發型、服飾等細節;
3D 小遊戲創作: 用頭像生成角色,再配上一段動畫,一鍵製作小遊戲,直接分享給朋友。
不僅如此,混元 3D AI 創作引擎還能幫助專業使用者 搭建 3D 生成工作流 ,透過模組化設計,一鍵生成符合需求的角色或道具。(@IT 之家)
03 有態度的觀點
1、Anthropic 計劃為 Claude 釋出「雙向」語音模式
在華爾街日報對 Anthropic CEO Dario Amodei 的專訪中,關於「語音模式—一即實現與 Claude 的語音對話功能」,
Dario Amodei 表示:「這項功能最終也會實現。目前的情況是,Claude 已經具備語音轉文字和文字轉語音的能力。至於雙向語音互動模式,這是我們未來規劃中的一項內容。不過從企業使用者和部分深度使用者的角度來看,對這項功能的需求相對較低,但它確實會在未來推出。」(@AI 深度研究員)
2、Pytorch 華人負責人押注複合 AI:行業已經從依賴 Scaling Law 逐漸轉向強調模型的推理能力
(圖片來源:Latent Space)
Lin Qiao 表示親眼見證了資料量的爆炸式增長以及行業的鉅額投入。「當時就很明顯,AI 是推動這些資料增長背後的關鍵動力。那是一個非常有趣的時刻——Meta 正在完成「移動優先」的過渡,開始邁向「AI 優先」。 這個轉變的根本原因是移動優先策略提供了前所未有的全方位使用者互動,隨之產生了大量資料,而這些資料也為 AI 提供了動力。」
除此之外,他還說: 「單一模型的知識是有限的,因為它的訓練資料是有限的,不具備實時資訊,也無法獲取企業的專有資訊。因此,要真正構建一個能夠解決實際問題的應用,我們需要一個複合 AI 系統。 複合 AI 系統的核心,是透過多個跨模態的模型、API(無論是公共還是專有)、儲存系統、資料庫系統以及知識庫等協同工作,共同提供最優答案。」
未來的趨勢是開源模型和閉源模型之間的效能差距會逐漸縮小,甚至趨於消失。「一旦兩者在同一水平線上,我們的早期推理最佳化投資將展現出巨大的優勢。透過圍繞質量、延遲和成本平衡的長期探索,我們積累了豐富的經驗。這些積累讓我們有能力釋出一個接近高質量閉源模型水準的新產品。」(@Z Potentials)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報