阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報

RTE开发者社区發表於2024-09-19

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、阿里史上最大規模開源釋出,超 GPT-4o 、Llama-3.1!

今日凌晨,阿里巴巴官宣了史上最大規模的開源釋出,推出了基礎模型 Qwen2.5、專用於編碼 Qwen2.5-Coder 和數學的 Qwen2.5-Math。這三大類模型一共有 10 多個版本,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B,適用於個人、企業以及移動端、PC 等不同人群不同業務場景的模型。

如果不想進行繁瑣的部署,阿里還開放了旗艦模型 Qwen-Plus 和 Qwen-Turbo 的 API,幫助你快速開發或整合生成式 AI 功能。

雖然 Qwen2.5 只有 720 億引數,但在多個基準測試中擊敗了 Meta 擁有 4050 億引數的最新開源 Llama-3.1 指令微調模型;全面超過了 Mistral 最新開源的 Large-V2 指令微調模型,成為目前最強大引數的開源模型之一。

Qwen2.5 系列支援中文、英文、法文、西班牙文、葡萄牙文、德文、義大利文、俄文、日文等超過 29 種主流語言。與 Qwen2 類似,Qwen2.5 語言模型支援高達 128K tokens,並能生成最多 8K tokens 的內容。

與 Qwen-2 相比,Qwen2.5 系列的預訓練資料大幅度增長達到了驚人的 18 萬億 tokens,超過了 Meta 最新開源 Llama-3.1 的 15 萬億,成為目前訓練資料最多的開源模型。(@AIGC 社群)

2、文生影片模型 Runway、Luma 同時開放 API

著名文生影片模型 Runway 宣佈開放最新文生影片模型 Gen-3AlphaTurbo 的 API,幫助開發者將該功能整合在應用中。

Runway 的 API 提供了兩個套餐:「Build」主要面向希望將文生影片整合在應用的個人和團隊;「Enterprise」則面向更大型的組織和企業。目前,Runway 的 API 需要申請候補名單。

幾乎在同一時間,Runway 的主要競爭對手 Luma 也宣佈開放了生成影片 API,同樣可以將文生影片功能整合在應用中。

Luma 的 API 提供的是最新模型 Dream Machine v1.6,在生成效率和質量方面同樣非常出色。(@AIGC 社群)

3、YouTubeVeo 引入 Google DeepMind 的 Veo 模型,創作者可使用 Veo 創作影片

YouTube Shorts 將引入 Google DeepMind 的 Veo 模型,它允許創作者製作 6 秒的獨立影片片段,並將 AI 生成的背景與現有影片結合,擴充套件視覺創意。

這些 AI 技術將整合到 YouTube Shorts 的 Dream Screen 功能中。

Dream Screen 首先使用 Imagen 3 生成四個不同的影像,創作者可以從這些選項中選擇符合他們偏好風格、構圖或美學的影像。選擇影像後,然後 Veo 模型將基於所選影像生成 6 秒長的高質量背景影片,以實現使用者的創意願景。

不過 AI 生成的內容將透過 SynthID 打上水印,清晰標識為 AI 生成。(@ 小互 AI)

4、位元組跳動:與臺積電合作 AI 晶片一事不實

此前,The Information 報導,有知情人士透露,位元組跳動正在計劃與臺積電合作,在 2026 年前量產自主設計的 AI 晶片,預計位元組將預定數十萬枚晶片的產量。

報導稱,生產自主設計的晶片將有利於位元組減少對價格高昂英偉達晶片的依賴,從而減少開發和執行 AI 模型的成本,在中國 AI 聊天機器人市場領先對手。

昨日,位元組方面就此事回應《科創板日報》表示,報導不實,位元組跳動在晶片領域確實有一些探索,但還處於初期階段,主要是圍繞推薦、廣告等業務的成本最佳化,所有專案也完全符合相關的貿易管制規定。

幾個月前也有訊息稱位元組跳動與博通公司合作開發 AI 晶片,由臺積電製造,不過位元組跳動否認了「與博通合作開發 AI 晶片」的傳聞。(@APPSO)

5、iPhone 15 Pro/Max 升級蘋果 iOS 18.1 Beta 4 後支援拍攝空間照片

科技媒體 9to5Mac 9 月 17 日釋出博文報導稱,蘋果 iPhone 15 Pro 和 iPhone 15 Pro Max 兩款機型在升級 iOS 18.1 Beta 4 更新之後,可以支援空間照片(Spatial Photos)。

iPhone 15 Pro 和 iPhone 15 Pro Max 兩款機型升級 iOS 18.1 Beta 4 之後,支援拍攝空間照片,意味著使用者可以拍攝沉浸式 3D 影像,後續可以在 Vision Pro 頭顯上觀看,讓其重溫他們喜愛的時刻。

要在 iPhone 15 Pro 上拍攝空間照片,使用者需開啟相機應用,選擇空間模式,並將 iPhone 旋轉至橫屏模式。隨後,根據蘋果官網的指示,使用者將看到錄製空間影片和拍攝空間照片的選項。使用者升級 iOS 18.1 Beta 4 更新之後,可以不再僅依賴第三方應用程式,就能拍攝空間照片。

值得注意的是,Spatialify 等第三方產品在某些領域仍提供了額外的功能。例如,Spatialify 應用允許使用者以 4K 解析度錄製空間影片,而蘋果內建的相機應用僅支援錄製 1080p 的空間影片。(@VRAR 星球)

02 有態度的觀點

1、阿里 CEO 吳泳銘:AI 算力需求滲透率超 50%,最大的想象力不在手機螢幕

2024 雲棲大會開幕式上,阿里巴巴集團董事兼 CEO、阿里雲智慧集團董事長兼 CEO 吳泳銘表示,「在新增的算力市場和算力需求中,超過 50% 以上的需求現在都由 AI 驅動產生,AI 算力的需求滲透已經超過 50%,已經佔據主導地位,未來這一趨勢還會持續地擴大。」

「AI 計算正在加速演進,成為整個計算體系的主導,無論是端側的計算還是雲端的計算,這都是一個非常明顯的趨勢,生成式 AI 對數字世界和物理世界的重構,將帶來計算架構的根本性變化。」吳泳銘表示,「過去幾十年 CPU 主導的計算體系,正在加速向 GPU 為主導的 AI 計算體系牽引,未來幾乎所有的軟硬體都會具備推理能力,他們的計算核心將會變成 GPU AI 算力為主,CPU 算力為輔助的計算模式。」

「在汽車、生物醫藥、工業模擬、氣象預測、教育企業軟體、移動 Anh、遊戲等行業,AI 計算正在加速滲透,在各行各業看不見的新興產業革命正在悄然演進,所有行業都需要效能更強,規模更大,更適應 AI 需求的算力基礎設施。」吳泳銘表示。

吳泳銘表示,「阿里雲正在以前所未有的強度投入 AI 技術研發和基礎設施的建設,我們的單網路叢集擴充已擴充套件到 10 萬卡的級別,正在從晶片、伺服器、網路儲存、供電資料中心等方方面面,重新打造面向未來的 AI 先進基礎設施」。

吳泳銘認為 AI 最大的想象力不在手機螢幕,而是改變物理世界。「過去 22 個月,AI 發展速度超過任何歷史時期,但依然處於 AGI 變革的早期。生成式 AI 最大的想象力,絕不是在手機螢幕上做一兩個新的超級 App,而是接管數字世界,改變物理世界。」(@IT 之家)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章