Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報

RTE开发者社区發表於2025-01-22

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、商湯「日日新融合大模型互動版」開放商用

商湯科技日日新融合大模型互動版(SenseNova-5o)宣佈正式對外提供實時音影片對話服務。現階段 APP 將供免費測試使用,不限使用次數。

今年早些時候,商湯曾於 1 月 10 日正式推出「日日新」融合大模型,實現原生融合模態,深度推理能力與多模態資訊處理能力均大幅提升,並在兩大權威評測榜單奪得第一,成為「雙冠王」——國內權威大模型測評機構 SuperCLUE 最新發布的《中文大模型基準測評 2024 年度報告》中,「日日新」融合大模型以總分 68.3 的成績與 DeepSeek V3 一起並列國內榜首,成為年度第一;在近期另一個權威綜合評測機構 OpenCompass 的多模態評測中,商湯以同一款模型同樣取得了榜單第一,分數大幅領先 GPT-4o。

作為商湯「日日新」融合大模型的互動版本,「SenseNova-5o」擁有強大的實時互動、視覺識別、記憶思考、持續對話和複雜推理等能力,能幫助 AI 與人類更自然、更流暢地交流。同時,透過整合商湯大裝置基礎設施能力,商湯還為「SenseNova-5o」提供了配套的 Realtime API 的服務最佳化,實現與 RTC 網路的深度結合,令音影片對話服務在多種環境下穩定、實時、流暢、無延遲。

例如,「SenseNova-5o」記憶力進一步增強,能夠精確牢記每一輪與使用者的對話,支援超長多模態互動記憶不少於 5 分鐘,同時超越了短期對話,能夠持續跟蹤和積累與使用者的互動資訊,不斷完善和最佳化對使用者需求的理解。

與此同時,「SenseNova-5o」當前的互動延遲已縮短至 2 秒以內,與人類自然交流幾乎無差。透過個性化設定功能,該產品還可以支援根據使用者偏好,個性化設定交流風格與使用習慣,從人設到語氣都能自由調整。例如,其在《射鵰英雄傳》中扮演的「郭靖」不僅可以接受使用者的提問,還能與另一位「SenseNova-5o」扮演的「黃蓉」一起對話探討楊過的教育問題。(@ 財經塗鴉)

2、智譜正式推出清影 2.0 影片模型

1 月 21 日,智譜正式宣佈推出清影 2.0 影片模型,其帶來了一系列 AI 生成影片的新驚喜。

據官方介紹,清影 2.0 的模型結構、訓練方法、資料工程全面更新,圖生影片基礎模型能力大幅度提升 38%;生成更可控,支援畫面主體進行大幅度運動,同時保持畫面穩定性;指令遵從能力行業領先,能夠理解和實現各種複雜 prompt;能夠駕馭各種藝術風格,畫面美感大幅提升。目前,清影 2.0 影片模型現已在智譜清言網頁端和 App 全量上線,普通使用者可免費試用,會員享受快速通道,且為不扣積分的無限模式。(@APPSO)

3、Perplexity 推出人工智慧搜尋 API Sonar

Perplexity 推出了名為 Sonar 的 API 服務,企業和開發者可藉此將該初創公司的生成式 AI 搜尋工具整合進自己的應用程式。

Perplexity 為開發者提供了兩個層級的選擇:基礎版 Sonar 價格更便宜、速度更快;Sonar Pro 則更適合處理複雜問題,價格更高,Perplexity 表示,Sonar API 能讓企業和開發者自定義 AI 搜尋引擎提取資訊的來源。

隨著 API 的推出,Perplexity 將其 AI 搜尋引擎推廣到更多地方,不再侷限於自身的應用程式和網站。例如,Zoom 等公司已經開始使用 Sonar 為其視訊會議平臺提供 AI 助手,Sonar 能讓 Zoom 的 AI 聊天機器人依據帶引文的網路搜尋實時作答,且無需使用者離開影片聊天視窗。

Sonar 還能為 Perplexity 開闢新的收入來源,這對初創公司的投資者而言可能非常重要。Perplexity 目前僅提供訂閱服務,使用者可無限制使用其 AI 搜尋引擎及一些附加功能。不過,科技行業去年大幅降低了透過 API 訪問 AI 工具的價格,Perplexity 卻聲稱 Sonar 將提供市場上最便宜的 AI 搜尋 API。

Sonar 基礎版採用固定價格,運用輕量級模型,每 1000 次搜尋收費 5 美元,每輸入 75 萬個單詞(約 100 萬個輸入標記)收費 1 美元,每輸出 75 萬個單詞(約 100 萬個輸出標記)收費 1 美元。

Sonar Pro 價格更高,答案更詳細,可處理更復雜的問題。該版本會根據使用者提示執行多個搜尋,所以定價較難預測。Perplexity 表示,Sonar Pro 提供的引用量是基礎版的兩倍。Sonar Pro 每 1000 次搜尋收費 5 美元,每在 AI 模型中輸入 75 萬個單詞(約 100 萬個輸入標記)收費 3 美元,每模型輸出 75 萬個單詞(約 100 萬個輸出標記)收費 15 美元。

Perplexity 宣稱,在衡量 AI 聊天機器人答案事實正確性的 SimpleQA 基準測試中,Sonar Pro 的表現優於 Google、OpenAI 和 Anthropic 的領先模型。(@ 中鯨社)

4、騰訊混元 3D 生成大模型 2.0 開源釋出

該技術宣稱一句話、一張圖,甚至畫個草圖都能生成一個 3D 模型,甚至還能加動作、換紋理、捏人物、做動畫。

騰訊混元 3D-2.0 版本主要是對 3D 生成過程中的 幾何和紋理 兩個大模型進行了升級。

  • 幾何大模型的任務就是捕捉 3D 物體的形狀和結構。騰訊雲採用 Hunyuan3D-DiT 和 Hunyuan ShapeVAE 技術 ,讓生成的「白模」(沒上色的模型)效果「堪比設計師手工建模」;

  • 紋理大模型 Hunyuan3D-Paint 可以根據文字或圖片描述,為「白模」穿上各種紋理。

此外,騰訊混元透過 「解耦生成」 新方法,讓幾何大模型和紋理大模型能夠實現「1+1>2」的生成效果。

目前,騰訊混元 3D 生成技術已經應用於 UGC 3D 創作、商品素材合成、遊戲 3D 資產生成等場景。騰訊地圖就基於混元 3D 大模型,生成個性化 3D 導航車標,號稱速度提升了 91%。

開發者可在 GitHub、Hugging Face 等技術社群下載混元 3D 2.0 模型,使用者也可以直接在混元 3D 官網上申請體驗功能。(@IT 之家)

5、豆包大模型 1.5Pro 正式釋出

今天,豆包大模型 1.5Pro 版本正式和大家見面。新模型綜合能力顯著增強,低訓練/推理成本,高效模型結構,全面提升多模態能力、推理能力,多項公開評測基準上全球領先。

目前,Doubao-1.5-pro 已在豆包 APP 灰度上線,接受海量請求效果出色,同時,開發者也可在火山引擎直接呼叫 API 。

多模態能力全面提升:

新版豆包視覺理解模型 Doubao-1.5-vision-pro,視覺理解能力全球領先。

全新的豆包實時語音模型 Doubao-1.5-realtime-voice-pro,採用 Speech2Speech 端到端框架,表現力實現質的飛躍,真正做到會哭會笑、能說方言會唱歌。火山引擎將在上半年透過方舟平臺推出對應 API 服務。

更強的深度思考能力:

基於豆包 1.5 基座模型,透過 RL 演算法的突破和工程最佳化,在未使用其他模型資料的情況下,研發豆包深度思考模型。階段性進展 Doubao-1.5-Pro-AS1-Preview 在 AIME 上已取得了業內領先的成績。(@ 豆包)

02 有亮點的產品

1、騰訊混元推出 3D AI 創作引擎:號稱業界首個一站式的 3D 內容創作平臺。

該平臺支援:

文 / 圖生 3D 模型: 只需輸入中 / 英文提示詞或上傳一張圖片,就能生成 4 個 3D 模型,還能挑選不同紋理風格;

低多邊形 low-poly 模型生成: 可根據物體複雜程度,自適應生成幾百至數千面的三角 mesh,面數更低的同時保證模型細節效果,特別適合遊戲引擎渲染;

一站式流程管理: 從建模到動畫到素材管理,像流水線一樣高效。

具體效果方面:

3D 動畫生成: 選個動作模版,角色可以跑步、揮手、跳舞;

3D 紋理生成: 透過文字或圖片描述,一鍵生成高畫質紋理;

3D 草圖生成: 隨手塗鴉的簡筆畫,加上簡單描述就能生成 3D 模型;

3D 人物生成: 上傳一張照片,立刻生成虛擬形象,還能隨意調整發型、服飾等細節;

3D 小遊戲創作: 用頭像生成角色,再配上一段動畫,一鍵製作小遊戲,直接分享給朋友。

不僅如此,混元 3D AI 創作引擎還能幫助專業使用者 搭建 3D 生成工作流 ,透過模組化設計,一鍵生成符合需求的角色或道具。(@IT 之家)

03 有態度的觀點

1、Anthropic 計劃為 Claude 釋出「雙向」語音模式

在華爾街日報對 Anthropic CEO Dario Amodei 的專訪中,關於「語音模式—一即實現與 Claude 的語音對話功能」,

Dario Amodei 表示:「這項功能最終也會實現。目前的情況是,Claude 已經具備語音轉文字和文字轉語音的能力。至於雙向語音互動模式,這是我們未來規劃中的一項內容。不過從企業使用者和部分深度使用者的角度來看,對這項功能的需求相對較低,但它確實會在未來推出。」(@AI 深度研究員)

2、Pytorch 華人負責人押注複合 AI:行業已經從依賴 Scaling Law 逐漸轉向強調模型的推理能力

(圖片來源:Latent Space)

Lin Qiao 表示親眼見證了資料量的爆炸式增長以及行業的鉅額投入。「當時就很明顯,AI 是推動這些資料增長背後的關鍵動力。那是一個非常有趣的時刻——Meta 正在完成「移動優先」的過渡,開始邁向「AI 優先」。 這個轉變的根本原因是移動優先策略提供了前所未有的全方位使用者互動,隨之產生了大量資料,而這些資料也為 AI 提供了動力。」

除此之外,他還說: 「單一模型的知識是有限的,因為它的訓練資料是有限的,不具備實時資訊,也無法獲取企業的專有資訊。因此,要真正構建一個能夠解決實際問題的應用,我們需要一個複合 AI 系統。 複合 AI 系統的核心,是透過多個跨模態的模型、API(無論是公共還是專有)、儲存系統、資料庫系統以及知識庫等協同工作,共同提供最優答案。」

未來的趨勢是開源模型和閉源模型之間的效能差距會逐漸縮小,甚至趨於消失。「一旦兩者在同一水平線上,我們的早期推理最佳化投資將展現出巨大的優勢。透過圍繞質量、延遲和成本平衡的長期探索,我們積累了豐富的經驗。這些積累讓我們有能力釋出一個接近高質量閉源模型水準的新產品。」(@Z Potentials)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章