阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、阿里史上最大規模開源釋出,超 GPT-4o 、Llama-3.1!
今日凌晨,阿里巴巴官宣了史上最大規模的開源釋出,推出了基礎模型 Qwen2.5、專用於編碼 Qwen2.5-Coder 和數學的 Qwen2.5-Math。這三大類模型一共有 10 多個版本,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B,適用於個人、企業以及移動端、PC 等不同人群不同業務場景的模型。
如果不想進行繁瑣的部署,阿里還開放了旗艦模型 Qwen-Plus 和 Qwen-Turbo 的 API,幫助你快速開發或整合生成式 AI 功能。
雖然 Qwen2.5 只有 720 億引數,但在多個基準測試中擊敗了 Meta 擁有 4050 億引數的最新開源 Llama-3.1 指令微調模型;全面超過了 Mistral 最新開源的 Large-V2 指令微調模型,成為目前最強大引數的開源模型之一。
Qwen2.5 系列支援中文、英文、法文、西班牙文、葡萄牙文、德文、義大利文、俄文、日文等超過 29 種主流語言。與 Qwen2 類似,Qwen2.5 語言模型支援高達 128K tokens,並能生成最多 8K tokens 的內容。
與 Qwen-2 相比,Qwen2.5 系列的預訓練資料大幅度增長達到了驚人的 18 萬億 tokens,超過了 Meta 最新開源 Llama-3.1 的 15 萬億,成為目前訓練資料最多的開源模型。(@AIGC 社群)
2、文生影片模型 Runway、Luma 同時開放 API
著名文生影片模型 Runway 宣佈開放最新文生影片模型 Gen-3AlphaTurbo 的 API,幫助開發者將該功能整合在應用中。
Runway 的 API 提供了兩個套餐:「Build」主要面向希望將文生影片整合在應用的個人和團隊;「Enterprise」則面向更大型的組織和企業。目前,Runway 的 API 需要申請候補名單。
幾乎在同一時間,Runway 的主要競爭對手 Luma 也宣佈開放了生成影片 API,同樣可以將文生影片功能整合在應用中。
Luma 的 API 提供的是最新模型 Dream Machine v1.6,在生成效率和質量方面同樣非常出色。(@AIGC 社群)
3、YouTubeVeo 引入 Google DeepMind 的 Veo 模型,創作者可使用 Veo 創作影片
YouTube Shorts 將引入 Google DeepMind 的 Veo 模型,它允許創作者製作 6 秒的獨立影片片段,並將 AI 生成的背景與現有影片結合,擴充套件視覺創意。
這些 AI 技術將整合到 YouTube Shorts 的 Dream Screen 功能中。
Dream Screen 首先使用 Imagen 3 生成四個不同的影像,創作者可以從這些選項中選擇符合他們偏好風格、構圖或美學的影像。選擇影像後,然後 Veo 模型將基於所選影像生成 6 秒長的高質量背景影片,以實現使用者的創意願景。
不過 AI 生成的內容將透過 SynthID 打上水印,清晰標識為 AI 生成。(@ 小互 AI)
4、位元組跳動:與臺積電合作 AI 晶片一事不實
此前,The Information 報導,有知情人士透露,位元組跳動正在計劃與臺積電合作,在 2026 年前量產自主設計的 AI 晶片,預計位元組將預定數十萬枚晶片的產量。
報導稱,生產自主設計的晶片將有利於位元組減少對價格高昂英偉達晶片的依賴,從而減少開發和執行 AI 模型的成本,在中國 AI 聊天機器人市場領先對手。
昨日,位元組方面就此事回應《科創板日報》表示,報導不實,位元組跳動在晶片領域確實有一些探索,但還處於初期階段,主要是圍繞推薦、廣告等業務的成本最佳化,所有專案也完全符合相關的貿易管制規定。
幾個月前也有訊息稱位元組跳動與博通公司合作開發 AI 晶片,由臺積電製造,不過位元組跳動否認了「與博通合作開發 AI 晶片」的傳聞。(@APPSO)
5、iPhone 15 Pro/Max 升級蘋果 iOS 18.1 Beta 4 後支援拍攝空間照片
科技媒體 9to5Mac 9 月 17 日釋出博文報導稱,蘋果 iPhone 15 Pro 和 iPhone 15 Pro Max 兩款機型在升級 iOS 18.1 Beta 4 更新之後,可以支援空間照片(Spatial Photos)。
iPhone 15 Pro 和 iPhone 15 Pro Max 兩款機型升級 iOS 18.1 Beta 4 之後,支援拍攝空間照片,意味著使用者可以拍攝沉浸式 3D 影像,後續可以在 Vision Pro 頭顯上觀看,讓其重溫他們喜愛的時刻。
要在 iPhone 15 Pro 上拍攝空間照片,使用者需開啟相機應用,選擇空間模式,並將 iPhone 旋轉至橫屏模式。隨後,根據蘋果官網的指示,使用者將看到錄製空間影片和拍攝空間照片的選項。使用者升級 iOS 18.1 Beta 4 更新之後,可以不再僅依賴第三方應用程式,就能拍攝空間照片。
值得注意的是,Spatialify 等第三方產品在某些領域仍提供了額外的功能。例如,Spatialify 應用允許使用者以 4K 解析度錄製空間影片,而蘋果內建的相機應用僅支援錄製 1080p 的空間影片。(@VRAR 星球)
02 有態度的觀點
1、阿里 CEO 吳泳銘:AI 算力需求滲透率超 50%,最大的想象力不在手機螢幕
2024 雲棲大會開幕式上,阿里巴巴集團董事兼 CEO、阿里雲智慧集團董事長兼 CEO 吳泳銘表示,「在新增的算力市場和算力需求中,超過 50% 以上的需求現在都由 AI 驅動產生,AI 算力的需求滲透已經超過 50%,已經佔據主導地位,未來這一趨勢還會持續地擴大。」
「AI 計算正在加速演進,成為整個計算體系的主導,無論是端側的計算還是雲端的計算,這都是一個非常明顯的趨勢,生成式 AI 對數字世界和物理世界的重構,將帶來計算架構的根本性變化。」吳泳銘表示,「過去幾十年 CPU 主導的計算體系,正在加速向 GPU 為主導的 AI 計算體系牽引,未來幾乎所有的軟硬體都會具備推理能力,他們的計算核心將會變成 GPU AI 算力為主,CPU 算力為輔助的計算模式。」
「在汽車、生物醫藥、工業模擬、氣象預測、教育企業軟體、移動 Anh、遊戲等行業,AI 計算正在加速滲透,在各行各業看不見的新興產業革命正在悄然演進,所有行業都需要效能更強,規模更大,更適應 AI 需求的算力基礎設施。」吳泳銘表示。
吳泳銘表示,「阿里雲正在以前所未有的強度投入 AI 技術研發和基礎設施的建設,我們的單網路叢集擴充已擴充套件到 10 萬卡的級別,正在從晶片、伺服器、網路儲存、供電資料中心等方方面面,重新打造面向未來的 AI 先進基礎設施」。
吳泳銘認為 AI 最大的想象力不在手機螢幕,而是改變物理世界。「過去 22 個月,AI 發展速度超過任何歷史時期,但依然處於 AGI 變革的早期。生成式 AI 最大的想象力,絕不是在手機螢幕上做一兩個新的超級 App,而是接管數字世界,改變物理世界。」(@IT 之家)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 阿里雲Qwen2.5釋出!再登開源大模型王座,Qwen-Max效能逼近GPT-4o阿里大模型GPT
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 創紀錄:英偉達市值一日增 2770 億美元;Xiaomi 14 Ultra 正式釋出丨 RTE 開發者日報 Vol.150開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 馬斯克回應蓋茨;谷歌反壟斷案開庭;蘋果釋出 3nm 晶片的 iPhone 15丨RTE開發者日報 Vol.48馬斯克谷歌蘋果晶片iPhone開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 蘋果歷時 13 年最終勝訴;谷歌釋出 Gemma 大模型;華為首超蘋果成中國平板市場第一丨 RTE 開發者日報 Vol.149蘋果谷歌Gemma大模型開發者日報