亞馬遜將釋出新一代 Alexa,引入 Claude;頂尖 AI 科學家許主洪加入阿里,負責多模態基礎模型丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、谷歌釋出新一代 Gemini 2.0 系列模型,全面升級 AI 效能與價效比
2025年2月6日,谷歌正式釋出其新一代 AI 模型套件 Gemini 2.0,包括 Gemini 2.0 Pro 實驗版本、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite。這些模型在程式設計、物理模擬、推理等複雜任務上表現出色,效能大幅提升,同時谷歌還推出了 Gemini 2.0 Flash Thinking 推理模型,並在 Gemini App 中開放試用。
Gemini 2.0 系列模型亮點
Gemini 2.0 Pro 實驗版本: 作為谷歌目前最強大的旗艦模型,Gemini 2.0 Pro 專注於編碼效能和處理複雜提示的能力,在知識理解和邏輯推理方面表現出色。該模型支援 200 萬 tokens 的上下文視窗,能夠處理海量資訊,並支援呼叫 Google 搜尋和程式碼執行等工具。
Gemini 2.0 Flash: 被稱為「主力模型」,適用於高容量、高頻率任務,支援多模態輸入和輸出,包括文字、影像和音訊。其響應速度比上一代提高了兩倍。
Gemini 2.0 Flash-Lite: 谷歌稱其為「最具成本效益的模型」,在保持高效能的同時,進一步最佳化了成本和響應速度。該模型每百萬 tokens 的處理成本僅為 0.75 美分。
Gemini 2.0 Flash Thinking 推理模型
Gemini 2.0 Flash Thinking 模型在推理能力上進行了強化,能夠將複雜的提示資訊分解為清晰的步驟,並展示其思考過程。這一透明度的提升極大地增強了使用者對 AI 助手的信任度。
Gemini App 試用
Gemini App 現已更新為 2.0 Flash 模型,為使用者提供更快的響應和更強的效能。使用者可以透過該應用體驗 Gemini 2.0 的強大功能,包括影像生成和多模態互動。(@ 機器之心)
2、多模態版 DeepSeek-R1:評測表現超 GPT-4o,模態穿透反哺文字推理能力!北大港科大出品,已開源
https://github.com/PKU-Alignment/align-anything
此前 DeepSeek 自家的 Janus-Pro-7B 沒有結合推理能力,但現在,國內有研究團隊先做到了——
基於自研全模態框架 Align-Anything, 北大聯合港科大團隊推出多模態版 DeepSeek-R1: Align-DS-V,它在部分視覺理解表現評測集上超越 GPT-4o。
當圖文結合地詢問它減肥時更適合喝哪一款飲品時,Align-DS-V 精確地指出圖中飲品的款數、飲品名稱,以及減脂時最適合飲用的是「低糖原味豆奶」。
不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。
在讓 DeepSeek-R1「長眼睛」的過程中,研究人員還發現了 模態穿透對於模型文字模態推理能力的提升效果。
具體來說,團隊在 DeepSeek-R1 的全模態化嘗試中發現,多模態訓練之後,模型不僅在文字模態任務上的表現有所提升,在科學任務、複雜推理、數學程式碼等方面的表現亦均有提升。
尤為顯著的是,在 ARC-Challenge(5-shot)上,成績從單模態的 21.4 提升到了多模態的 40.5。
基於此,團隊認為 當下多模態大模型已具備強大的跨模態穿透與融合的感知能力 ,能夠透過結合世界知識與上下文學習能力,實現多種模態(如影像、文字、音訊、影片等)的高效推理與協同輸出。(量子位)
3、世界級 AI 科學家加入阿里,出任集團副總裁
智東西 2 月 6 日訊息,記者從多方獲悉,全球頂尖人工智慧科學家許主洪教授(Steven Hoi)正式加入阿里巴巴,出任阿里集團副總裁,負責 AI To C 業務的多模態基礎模型及 Agents 相關基礎研究與應用解決方案。
據內部人士透露,許主洪教授將專注於 AI To C 業務的多模態基礎模型及 Agents 相關基礎研究與應用解決方案,大大提升阿里巴巴 AI 應用 C 端產品在模型結合應用的端對端閉環能力上的躍遷。同時,阿里 AI To C 業務正在組建頂級 AI 演算法研究和工程團隊,吸引大量業內優秀人才加盟。近期,阿里 AI To C 業務大動作頻頻,引入世界級頂尖人才,組建頂級 AI 演算法研究和工程團隊,將進一步重新整理國內 AI 應用賽道的產品正規化與競爭水位。(@ 智東西)
4、阿里雲旗下模型排名超越 DeepSeek V3
根據 Chatbot Arena LLM Leaderboard 最新一期的榜單顯示,1 月 29 日,阿里雲釋出的 Qwen2.5-Max 進入榜單前十,超越 DeepSeek V3, o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七。
阿里雲表示,Qwen2.5-Max 模型是阿里雲通義團隊對 MoE 模型的最新探索成果,預訓練資料超過 20 萬億 tokens。
新模型展現出極強勁的綜合效能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源 MoE 模型以及最大的開源稠密模型。目前,Qwen2.5-Max 已在阿里雲百鍊平臺上架,模型名稱 qwen-max-2025-01-25`,企業和開發者都可透過阿里雲百鍊呼叫新模型 API。同時也可以在全新的 Qwen Chat 平臺上中使用 Qwen2.5-Max,直接與模型對話,或者使用 artifacts、搜尋等功能。(@ APPSO)
02 有亮點的產品
1、AI 營養助手 Alma:用生成式模型重新定義健康追蹤
營養科技初創公司 Alma 於本週三正式推出其移動應用程式,旨在利用人工智慧技術幫助使用者追蹤飲食習慣並提供個性化營養建議。Alma 由健身科技公司 Whoop 前產品副總裁 Rami Alhamad 創立,整合了生成式 AI 模型與哈佛大學營養學知識庫,透過「對話式互動 + 智慧識別」技術,顛覆傳統卡路里追蹤模式。
應用功能
- 多模態互動記錄: 使用者可以透過語音、文字或拍照上傳營養標籤和食譜圖片等方式記錄飲食,AI 助手將自動估算食物分量與熱量。
- 個性化膳食建議: Alma 能夠根據使用者的健康目標和飲食偏好生成個性化的膳食攝入報告,並推薦合適的食譜。
- 營養評分系統: 應用內建的「營養評分系統」會基於每日資料生成健康指數,並推送改善方案。
未來規劃
Alma 計劃推出「智慧食品儲藏室」功能,透過識別使用者庫存食材自動生成適配食譜。該應用目前已在北美 iOS 平臺上線,使用者可以訂閱使用,費用為每月 19 美元或每年 199 美元。( @ Business Insider)
2、OpenAI 宣佈 ChatGPT 搜尋功能:無需註冊人人可用,分鐘級別解析全網資訊
2 月 6 日,OpenAI 宣佈,ChatGPT 現在無需登入賬戶即可使用其搜尋引擎。這項升級後的服務不僅能基於實時網路資訊生成答案,還會同步展示資訊來源清單,讓結果更具可信度。
OpenAI 最初於去年 10 月向付費使用者提供了搜尋引擎功能,並於同年 12 月向所有使用者開放。如今,使用者無需賬戶即可使用該功能,這意味著 ChatGPT 的搜尋將直接與谷歌和必應等傳統搜尋引擎展開競爭。
與谷歌等傳統收錄模式的搜尋引擎相比,ChatGPT 搜尋可以更快抓取網路資訊並實現分鐘級別的解析。OpenAI 表示:「像(之前的)登入版本一樣,ChatGPT 能夠搜尋網路,快速為您提供相關網頁來源的即時答案。」(@ IT 之家)
3、亞馬遜 2 月 26 日釋出新一代 Alexa :生成式 AI 服務
IT 之家 2 月 6 日訊息,今日,亞馬遜發出了人工智慧主題活動的邀請,該活動將於 2 月 26 日舉行。據路透社報導,亞馬遜計劃在此次活動中推出其下一代 Alexa 生成式人工智慧服務。
自 2014 年推出以來,Alexa 已成為應用最廣泛的語音助手之一。然而,隨著 ChatGPT、Claude 和 Gemini 等生成式人工智慧產品的大量湧現,Alexa 逐漸落後。
IT 之家注意到,將 Alexa 升級為生成式人工智慧服務,將是自其推出以來亞馬遜對該產品所做的最大變革。升級後的 Alexa 將能夠與使用者進行復雜的、具備情境感知能力的對話,並能處理多方面的請求。
亞馬遜沒有完全依賴其內部人工智慧技術, 而是採用了 Anthropic 公司的 Claude 人工智慧模型。 這是因為亞馬遜早期的人工智慧版本在及時響應方面存在問題。亞馬遜原本計劃在去年推出更新版的 Alexa,但最終推遲了其首次亮相的時間。
對亞馬遜來說,讓 Alexa 的變革取得成功至關重要,因為目前有超過 1 億的 Alexa 活躍使用者,且已售出超過 5 億臺支援 Alexa 的裝置。亞馬遜的目標是將部分 Alexa 使用者轉化為付費使用者,計劃最終對新版 Alexa 收取訂閱費用。在推出初期,亞馬遜將先對少數使用者進行新版 Alexa 的測試,且暫不收費。(@ 小訊 AI)
4、國家超算網際網路平臺重磅上線 deepseek:免費體驗
中國人工智慧初創公司 DeepSeek 受到了廣泛關注,為了讓更多使用者方便體驗
DeepSeek 的強大功能,國家超算網際網路平臺宣佈上線 DeepSeek Chatbot 視覺化介面功能。
使用者在這個平臺上可以輕鬆體驗 DeepSeek 的各項功能,無需複雜的部署或操作。只需進入平臺,使用者只需在輸入框中輸入想要諮詢的問題或指令,即可開啟對話。超算網際網路平臺還提供全天候、不間斷的免費體驗服務,方便使用者隨時使用。
據介紹,DeepSeek 目前已經在國家超算網際網路平臺上上線了多個系列模型,包括 Deepseek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B 等,後續還將不斷推出更高階別的版本。(@ AIbase 基地)
03 有態度的觀點
1、DeepSeek 獲蘇姿豐稱讚:為 AMD 創造了前所未有的增長機會
北京時間 2 月 5 日訊息,在 AMD 公司最近的財報電話會議上,AMD 執行長蘇姿豐就 DeepSeek 對行業的影響,發表了一些自己的看法和見解。蘇姿豐表示:「相對於 DeepSeek,我們認為模型和演算法的創新有利於 AI 的應用」,這種態度無疑反映出其對 DeepSeek 的創新表示歡迎。
同時她還強調,DeepSeek 開發大模型 DeepSeek-R1 和美國宣佈成立 5000 億美元「星際之門」專案,這些正是公司「希望看到的那種進步」,所有這些舉措都需要大量的新的計算,將為 AMD 在整個業務中創造前所未有的增長機會。
此外她還表示,她希望在更廣泛的市場中看到更多的 AI 計算部署,「事實上,有新的方法可以用更少的基礎設施實現訓練和推理能力,這實際上是件好事。」(@ cnBeta)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- GTC 2024 開幕,英偉達釋出新一代 GPU 架構;Apple ID 或將淘汰丨 RTE 開發者日報 Vol.168GPU架構APP開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報阿里模型視覺OpenAI機器人開發者日報
- 英偉達世界基礎模型 Cosmos,教 AI 理解物理世界;阿里通義與雷鳥合作推出 AI 眼鏡丨 RTE 開發者日報模型AI阿里開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 亞馬遜雲科技宣佈:Claude 3 Opus基礎模型在Amazon Bedrock上正式可用亞馬遜模型
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 亞馬遜Alexa是如何失敗的?亞馬遜
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- 亞馬遜雲科技展示Claude 3大模型能力,生成式AI落地正在加速亞馬遜大模型AI
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 亞馬遜以27.5億美元收購大模型Claude公司Anthropic亞馬遜大模型
- 甲骨文推出新一代雲端計算基礎設施,挑戰亞馬遜AWS亞馬遜
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報