亞馬遜將釋出新一代 Alexa,引入 Claude;頂尖 AI 科學家許主洪加入阿里,負責多模態基礎模型丨 RTE 開發者日報

RTE开发者社区發表於2025-02-06

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、谷歌釋出新一代 Gemini 2.0 系列模型,全面升級 AI 效能與價效比

2025年2月6日,谷歌正式釋出其新一代 AI 模型套件 Gemini 2.0,包括 Gemini 2.0 Pro 實驗版本、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite。這些模型在程式設計、物理模擬、推理等複雜任務上表現出色,效能大幅提升,同時谷歌還推出了 Gemini 2.0 Flash Thinking 推理模型,並在 Gemini App 中開放試用。

Gemini 2.0 系列模型亮點

Gemini 2.0 Pro 實驗版本: 作為谷歌目前最強大的旗艦模型,Gemini 2.0 Pro 專注於編碼效能和處理複雜提示的能力,在知識理解和邏輯推理方面表現出色。該模型支援 200 萬 tokens 的上下文視窗,能夠處理海量資訊,並支援呼叫 Google 搜尋和程式碼執行等工具。

Gemini 2.0 Flash: 被稱為「主力模型」,適用於高容量、高頻率任務,支援多模態輸入和輸出,包括文字、影像和音訊。其響應速度比上一代提高了兩倍。

Gemini 2.0 Flash-Lite: 谷歌稱其為「最具成本效益的模型」,在保持高效能的同時,進一步最佳化了成本和響應速度。該模型每百萬 tokens 的處理成本僅為 0.75 美分。

Gemini 2.0 Flash Thinking 推理模型

Gemini 2.0 Flash Thinking 模型在推理能力上進行了強化,能夠將複雜的提示資訊分解為清晰的步驟,並展示其思考過程。這一透明度的提升極大地增強了使用者對 AI 助手的信任度。

Gemini App 試用

Gemini App 現已更新為 2.0 Flash 模型,為使用者提供更快的響應和更強的效能。使用者可以透過該應用體驗 Gemini 2.0 的強大功能,包括影像生成和多模態互動。(@ 機器之心)

2、多模態版 DeepSeek-R1:評測表現超 GPT-4o,模態穿透反哺文字推理能力!北大港科大出品,已開源

https://github.com/PKU-Alignment/align-anything

此前 DeepSeek 自家的 Janus-Pro-7B 沒有結合推理能力,但現在,國內有研究團隊先做到了——

基於自研全模態框架 Align-Anything, 北大聯合港科大團隊推出多模態版 DeepSeek-R1: Align-DS-V,它在部分視覺理解表現評測集上超越 GPT-4o。

當圖文結合地詢問它減肥時更適合喝哪一款飲品時,Align-DS-V 精確地指出圖中飲品的款數、飲品名稱,以及減脂時最適合飲用的是「低糖原味豆奶」。

不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。

在讓 DeepSeek-R1「長眼睛」的過程中,研究人員還發現了 模態穿透對於模型文字模態推理能力的提升效果。

具體來說,團隊在 DeepSeek-R1 的全模態化嘗試中發現,多模態訓練之後,模型不僅在文字模態任務上的表現有所提升,在科學任務、複雜推理、數學程式碼等方面的表現亦均有提升。

尤為顯著的是,在 ARC-Challenge(5-shot)上,成績從單模態的 21.4 提升到了多模態的 40.5。

基於此,團隊認為 當下多模態大模型已具備強大的跨模態穿透與融合的感知能力 ,能夠透過結合世界知識與上下文學習能力,實現多種模態(如影像、文字、音訊、影片等)的高效推理與協同輸出。(量子位)

3、世界級 AI 科學家加入阿里,出任集團副總裁

智東西 2 月 6 日訊息,記者從多方獲悉,全球頂尖人工智慧科學家許主洪教授(Steven Hoi)正式加入阿里巴巴,出任阿里集團副總裁,負責 AI To C 業務的多模態基礎模型及 Agents 相關基礎研究與應用解決方案。

據內部人士透露,許主洪教授將專注於 AI To C 業務的多模態基礎模型及 Agents 相關基礎研究與應用解決方案,大大提升阿里巴巴 AI 應用 C 端產品在模型結合應用的端對端閉環能力上的躍遷。同時,阿里 AI To C 業務正在組建頂級 AI 演算法研究和工程團隊,吸引大量業內優秀人才加盟。近期,阿里 AI To C 業務大動作頻頻,引入世界級頂尖人才,組建頂級 AI 演算法研究和工程團隊,將進一步重新整理國內 AI 應用賽道的產品正規化與競爭水位。(@ 智東西)

4、阿里雲旗下模型排名超越 DeepSeek V3

根據 Chatbot Arena LLM Leaderboard 最新一期的榜單顯示,1 月 29 日,阿里雲釋出的 Qwen2.5-Max 進入榜單前十,超越 DeepSeek V3, o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七。

阿里雲表示,Qwen2.5-Max 模型是阿里雲通義團隊對 MoE 模型的最新探索成果,預訓練資料超過 20 萬億 tokens。

新模型展現出極強勁的綜合效能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源 MoE 模型以及最大的開源稠密模型。目前,Qwen2.5-Max 已在阿里雲百鍊平臺上架,模型名稱 qwen-max-2025-01-25`,企業和開發者都可透過阿里雲百鍊呼叫新模型 API。同時也可以在全新的 Qwen Chat 平臺上中使用 Qwen2.5-Max,直接與模型對話,或者使用 artifacts、搜尋等功能。(@ APPSO)

02 有亮點的產品

1、AI 營養助手 Alma:用生成式模型重新定義健康追蹤

營養科技初創公司 Alma 於本週三正式推出其移動應用程式,旨在利用人工智慧技術幫助使用者追蹤飲食習慣並提供個性化營養建議。Alma 由健身科技公司 Whoop 前產品副總裁 Rami Alhamad 創立,整合了生成式 AI 模型與哈佛大學營養學知識庫,透過「對話式互動 + 智慧識別」技術,顛覆傳統卡路里追蹤模式。

應用功能

- 多模態互動記錄: 使用者可以透過語音、文字或拍照上傳營養標籤和食譜圖片等方式記錄飲食,AI 助手將自動估算食物分量與熱量。

- 個性化膳食建議: Alma 能夠根據使用者的健康目標和飲食偏好生成個性化的膳食攝入報告,並推薦合適的食譜。

- 營養評分系統: 應用內建的「營養評分系統」會基於每日資料生成健康指數,並推送改善方案。

未來規劃

Alma 計劃推出「智慧食品儲藏室」功能,透過識別使用者庫存食材自動生成適配食譜。該應用目前已在北美 iOS 平臺上線,使用者可以訂閱使用,費用為每月 19 美元或每年 199 美元。( @ Business Insider)

2、OpenAI 宣佈 ChatGPT 搜尋功能:無需註冊人人可用,分鐘級別解析全網資訊

2 月 6 日,OpenAI 宣佈,ChatGPT 現在無需登入賬戶即可使用其搜尋引擎。這項升級後的服務不僅能基於實時網路資訊生成答案,還會同步展示資訊來源清單,讓結果更具可信度。

OpenAI 最初於去年 10 月向付費使用者提供了搜尋引擎功能,並於同年 12 月向所有使用者開放。如今,使用者無需賬戶即可使用該功能,這意味著 ChatGPT 的搜尋將直接與谷歌和必應等傳統搜尋引擎展開競爭。

與谷歌等傳統收錄模式的搜尋引擎相比,ChatGPT 搜尋可以更快抓取網路資訊並實現分鐘級別的解析。OpenAI 表示:「像(之前的)登入版本一樣,ChatGPT 能夠搜尋網路,快速為您提供相關網頁來源的即時答案。」(@ IT 之家)

3、亞馬遜 2 月 26 日釋出新一代 Alexa :生成式 AI 服務

IT 之家 2 月 6 日訊息,今日,亞馬遜發出了人工智慧主題活動的邀請,該活動將於 2 月 26 日舉行。據路透社報導,亞馬遜計劃在此次活動中推出其下一代 Alexa 生成式人工智慧服務。

自 2014 年推出以來,Alexa 已成為應用最廣泛的語音助手之一。然而,隨著 ChatGPT、Claude 和 Gemini 等生成式人工智慧產品的大量湧現,Alexa 逐漸落後。
IT 之家注意到,將 Alexa 升級為生成式人工智慧服務,將是自其推出以來亞馬遜對該產品所做的最大變革。升級後的 Alexa 將能夠與使用者進行復雜的、具備情境感知能力的對話,並能處理多方面的請求。

亞馬遜沒有完全依賴其內部人工智慧技術, 而是採用了 Anthropic 公司的 Claude 人工智慧模型。 這是因為亞馬遜早期的人工智慧版本在及時響應方面存在問題。亞馬遜原本計劃在去年推出更新版的 Alexa,但最終推遲了其首次亮相的時間。

對亞馬遜來說,讓 Alexa 的變革取得成功至關重要,因為目前有超過 1 億的 Alexa 活躍使用者,且已售出超過 5 億臺支援 Alexa 的裝置。亞馬遜的目標是將部分 Alexa 使用者轉化為付費使用者,計劃最終對新版 Alexa 收取訂閱費用。在推出初期,亞馬遜將先對少數使用者進行新版 Alexa 的測試,且暫不收費。(@ 小訊 AI)

4、國家超算網際網路平臺重磅上線 deepseek:免費體驗

中國人工智慧初創公司 DeepSeek 受到了廣泛關注,為了讓更多使用者方便體驗

DeepSeek 的強大功能,國家超算網際網路平臺宣佈上線 DeepSeek Chatbot 視覺化介面功能。

使用者在這個平臺上可以輕鬆體驗 DeepSeek 的各項功能,無需複雜的部署或操作。只需進入平臺,使用者只需在輸入框中輸入想要諮詢的問題或指令,即可開啟對話。超算網際網路平臺還提供全天候、不間斷的免費體驗服務,方便使用者隨時使用。

據介紹,DeepSeek 目前已經在國家超算網際網路平臺上上線了多個系列模型,包括 Deepseek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B 等,後續還將不斷推出更高階別的版本。(@ AIbase 基地)

03 有態度的觀點

1、DeepSeek 獲蘇姿豐稱讚:為 AMD 創造了前所未有的增長機會

北京時間 2 月 5 日訊息,在 AMD 公司最近的財報電話會議上,AMD 執行長蘇姿豐就 DeepSeek 對行業的影響,發表了一些自己的看法和見解。蘇姿豐表示:「相對於 DeepSeek,我們認為模型和演算法的創新有利於 AI 的應用」,這種態度無疑反映出其對 DeepSeek 的創新表示歡迎。

同時她還強調,DeepSeek 開發大模型 DeepSeek-R1 和美國宣佈成立 5000 億美元「星際之門」專案,這些正是公司「希望看到的那種進步」,所有這些舉措都需要大量的新的計算,將為 AMD 在整個業務中創造前所未有的增長機會。

此外她還表示,她希望在更廣泛的市場中看到更多的 AI 計算部署,「事實上,有新的方法可以用更少的基礎設施實現訓練和推理能力,這實際上是件好事。」(@ cnBeta)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章