未來的大模型,或許都是 A 卡來算的?
從 PC 端到伺服器,AMD 一次釋出就完成了對 AI 計算的全覆蓋。
今天凌晨,AMD 執行長蘇姿豐(Lisa Su)在舊金山舉行的 Advancing AI 2024 活動上釋出了全新一代 Ryzen CPU、Instinct AI 計算卡、EPYC AI 晶片等一系列產品。
蘇姿豐表示,在未來,人工智慧將提高每個人的生產力。透過實時翻譯等功能,人與人的協作將變得更加高效,無論創作者還是普通使用者,生活都將變得更輕鬆。除此以外,更多的 AI 任務將在本地進行處理,以保護你的隱私。
基於這樣的願景,新一代 AMD Ryzen AI Pro PC 將支援 CoPilot+,並提供多至 23 小時的電池續航時間。
「我們一直與 AI PC 生態系統開發人員密切合作,」蘇姿豐說道,並指出到今年年底將有 100 多家公司致力於開發 AI 應用程式。
Ryzen AI Pro:AI PC 專用 CPU 問世
首先是 CPU。AMD 今天推出了專為 PC 設計的全新 Ryzen AI Pro 300 系列處理器。新款 CPU 採用 4nm 工藝打造,使用該公司最新的微架構,結合 GPU 與 Microsoft Copiliot+ 認證的神經處理單元 (NPU),可實現 55 TOPS 效能的 AI 算力。
AMD Ryzen AI Pro 300 系列 CPU 處理器代號為 Strix Point,最多有 12 個 Zen 5 核心、RDNA 3.5 GPU,最多 1024 個流處理器,包含最新的 XDNA 2 NPU,效能為 50 TOPS – 55 TOPS(8-bit),以及一組適用於商用 PC 的功能,如遠端管理、增強的安全功能(記憶體加密、安全啟動過程、AMD 安全處理器 2.0、TPM 2.0)、雲恢復和看門狗定時器。
目前,AMD 的 Ryzen AI Pro 300 系列產品線包括三種樣式:最高階的 12 核 Ryzen AI 9 HX Pro 375,配備 55 TOPS NPU;速度稍慢的 12 核 Ryzen AI 9 HX Pro 370,配備 50 TOPS 算力的 NPU;以及八核的 Ryzen AI 7 Pro 360,配備 50 TOPS 的 NPU。
與英特爾 Core Ultra 7 165U 相比,最高版本的 Ryzen AI 9 HX PRO 375 可提供高達 40% 的效能提升和高達 14% 的生產力提升。
與往常一樣,HX 版本的 TDP 高達 55W,面向高效能膝上型電腦(包括一體機),而常規處理器的 TDP 可以固定為低至 15W。
與上代 AMD Ryzen Pro 7040 系列處理器相比,Ryzen AI Pro 300 不僅具有顯著更高的通用和圖形效能,而且還支援微軟的 Copilot+ 功能,其將在 11 月的下一次 Windows 更新中推出。AMD 在釋出活動中宣傳了 Copilot+ 的實時字幕和實時翻譯、Cocreator 以及頗具爭議的 Recall 功能 —— 這些都是新 CPU 支援的關鍵能力。
除此之外,其中的 NPU 還支援各種第三方軟體供應商帶來的 AI 增強應用,例如來自 Adobe、Bitdefender、Blackmagic Design 和 Grammarly 等公司的產品。
AMD 表示,到 2025 年,Ryzen AI Pro 平臺將搭載於超過 100 款產品中,惠普和聯想將率先在其商用 PC 上採用 Ryzen AI Pro 300 系列處理器。
對標英偉達最強 AI 晶片:Instinct MI355X 加速卡
最近,全球 AI 晶片供不應求,AMD 已成為 GPU 領域的重要玩家,今天該公司宣佈了最新的 AI 加速器和用於 AI 基礎設施的網路解決方案。
具體而言,AMD 推出了 AMD Instinct MI325X 加速器、AMD Pensando Pollara 400 網路介面卡 (NIC) 和 AMD Pensando Salina 資料處理單元 (DPU)。
AMD 聲稱 AMD Instinct MI325X 加速器為 Gen AI 模型和資料中心樹立了新的效能標準。
AMD Instinct MI325X 加速器基於 AMD CDNA 3 架構構建,旨在為涵蓋基礎模型訓練、微調和推理等要求苛刻的 AI 任務提供效能和效率。
AMD Instinct MI325X 加速器提供了業界領先的記憶體容量和頻寬,256GB HBM3E 支援 6.0TB/s,比英偉達 H200 提供了高 1.8 倍的容量和 1.3 倍的頻寬。與 H200 相比,AMD Instinct MI325X 的峰值理論 FP16 和 FP8 計算效能提高了 1.3 倍。
這種領先的記憶體和計算效能,較於英偉達 H200,能夠在 FP16 精度下,為 Mistral 7B 模型提供高達 1.3 倍的推理效能,在 FP8 精度下為 Llama 3.1 70B 模型提供 1.2 倍的推理效能,同時在 FP16 精度下為 Mixtral 8x7B 模型提供 1.4 倍的推理效能。
AMD Instinct MI325X 加速器目前有望在 2024 年第四季度投入生產,預計從 2025 年第一季度開始將在包括戴爾、Eviden、技嘉、惠普、聯想等在內的眾多平臺提供商的系統中廣泛使用。
此外,AMD 還更新了其年度路線圖,即下一代 AMD Instinct MI350 系列加速器。基於 AMD CDNA 4 架構,AMD Instinct MI350 系列加速器的推理效能比基於 AMD CDNA 3 的加速器提高了 35 倍。
具體來說,MI300X 目前能提供 1.3 petaflops 的 FP16 算力和 2.61 petaflops 的 FP8。相比之下,MI355X 將分別將其提升至 2.3 和 4.6 petaflops。與上一代相比,這個數字提高了 77%。
MI355X 不僅擁有更多的原始計算能力。FP4 和 FP6 數字格式的引入使潛在算力相對於 FP8 再次翻倍,因此單個 MI355X 可提供高達 9.2 petaflops 的 FP4 計算能力。這是一個有趣的數字,因為英偉達 Blackwell B200 也提供了 9 petaflops 的密集 FP4 計算能力 —— 功率更高的 GB200 可以為每個 GPU 提供 10 petaflops 的 FP4。
僅基於該規格,AMD 的 MI355X 可能提供的 AI 計算能力與英偉達的 Blackwell 大致相同。然而,AMD 還將提供高達 288GB 的 HBM3E 記憶體,這比目前 Blackwell 的記憶體多出 50%。Blackwell 和 MI355X 的每塊 GPU 都將具有 8 TB/s 的頻寬。
AMD Instinct MI350 系列加速器有望在 2025 年下半年上市。
「毫無疑問,AMD 憑藉 EPYC 拉大了與英特爾之間的差距。目前,它在高階市場佔有 50-60% 的份額,而且我認為這一趨勢不會減弱。AMD 面臨的最大挑戰是獲得企業市場份額。AMD 需要在銷售和營銷方面投入更多資金,以加速其企業增長,」Moor Insights & Strategy 分析師 Patrick Moorhead 表示。「很難評估 AMD 與 NVIDIA 在資料中心 GPU 方面的地位。到處都有資料,兩家公司都聲稱自己更勝一籌。」
Moohead 補充道:「我可以毫不含糊地說,AMD 的新 GPU,尤其是 MI350,與前代產品相比,效率和效能都有所提高,對低位元率模型的支援也更好,這是一個巨大的進步。這是一場激烈的競逐,英偉達遙遙領先,AMD 正在迅速追趕並取得了有意義的成果。」
AMD 下一代 AI 網路互聯技術
AMD Pensando
AMD 正在利用可程式設計 DPU 為超大規模計算提供動力,為下一代 AI 網路提供支援。
AI 網路分為兩部分:前端(向 AI 叢集提供資料和資訊)和後端(管理加速器和叢集之間的資料傳輸)。
為了有效管理這兩個網路並推動整個系統朝著高效能、可擴充套件和高效率發展,AMD 推出了用於前端的 AMD Pensando Salina DPU 和用於後端的 AMD Pensando Pollara 400。
AMD Pensando Salina DPU 是全球效能最高、可程式設計性最強的第三代 DPU,與上一代相比,其效能、頻寬和規模提高了兩倍。AMD Pensando Salina DPU 支援 400G 吞吐量,可實現快速資料傳輸速率,是 AI 前端網路叢集中的關鍵元件。
AMD Pensando Pollara 400 搭載了 AMD P4 可程式設計引擎,是業界首款支援 UEC(Ultra Ethernet Consortium) 的 AI NIC。它支援下一代 RDMA 軟體,並由開放的網路生態系統提供支援。
AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 均於 2024 年第四季度向客戶提供樣品,並有望於 2025 年上半年上市。
用於生成式 AI 的 AI 軟體
AMD 在舊金山舉行的「Advancing AI 2024」活動。
AMD 將對軟體功能和開放生態系統進行投資,以在 AMD ROCm 開放軟體堆疊中提供強大的新特性和功能。
在開放軟體社群中,AMD 正在推動 AI 框架、庫和模型(包括 PyTorch、Triton、Hugging Face 等)對 AMD 計算引擎的支援。這項工作使得 AMD Instinct 加速器在流行的生成式 AI 模型(如 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2)以及 Hugging Face 上的一百多萬個模型上提供開箱即用的效能和支援。
除了社群之外,AMD 還繼續推進 ROCm 開放軟體堆疊,為使用者帶來最新功能以支援生成式 AI 工作負載的領先訓練和推理。
現在,ROCm 6.2 支援很多 AI 應用,例如 FP8 資料型別、Flash Attention 3、Kernel Fusion 等。與 ROCm 6.0 相比,ROCm 6.2 在推理方面提供了 2.4 倍的效能改進,在各種 LLM 的訓練方面提供了 1.8 倍的效能改進。
第五代 AMD Epyc CPU
在伺服器端,Zen 架構已經讓 AMD 的市場份額從 2017 年的零上升到 2024 年第二季度的 34%。
AMD 揭開了其全新 Zen 5 架構伺服器 CPU 系列的詳細細節。第五代 EPYC「Turin」處理器 CPU 適用於企業、AI 和雲服務用例。
AMD 已將其具有全功能 Zen 5 核心的標準擴充套件最佳化模型和具有密集 Zen 5c 核心的擴充套件最佳化模型統一為一個堆疊,該堆疊以 EPYC 9005 Turin 為名,與英特爾的競爭對手 Xeon 處理器相比,效能表現令人印象深刻。
AMD 聲稱,其旗艦產品 192 核 EPYC 9965 比英特爾競爭對手的旗艦產品 Platinum 8952+ 快 2.7 倍,速度提升顯著。在具體應用方向上,還包括影片轉碼速度提高 4 倍、HPC 應用程式效能提高 3.9 倍、虛擬化環境中每核效能提高 1.6 倍。AMD 還宣佈推出其新的高頻 5GHz EPYC 9575F,據稱在用於加速 AI GPU 工作負載時,它比 Zen 4 EPYC 型號要快 28%。
值得注意的是,AMD 並未在本代推出帶有堆疊 L3 快取的 X 系列型號,而是暫時依賴其 Milan-X 系列。AMD 表示,其 X 系列可能會隔代進行升級。
AMD 的新系列最高階是一款 14813 美元的 192 核 / 384 執行緒 EPYC 9965,這是一款 500W 功率的龐然大物,利用臺積電的 3nm 節點透過密集的 Zen 5c 核心實現極致的計算密度。還有另外五款 Zen 5c 驅動的型號,包括 96、128、144 和 160 核心的型號,適用於高密度應用。
標準型號的 Zen 5 核心在 4nm 節點上製造,最高可達 128 個核心和 256 個執行緒 —— 售價 12984 美元的 EPYC 9755。該堆疊共有 22 種型號,從僅僅 8 個核心開始,這是 AMD 為響應客戶需求而建立的全新小核心級別。AMD 在其產品堆疊中還散佈了四個單插槽「P」系列型號。
AMD 的標準 Zen 5 系列現在包括新的高頻 SKU,最高可達 5.0 GHz,這是 AMD 資料中心 CPU 系列的新高水準,可最大限度地提高 GPU 編排工作負載的效能。AMD 共有五種 F 系列型號,適用於不同級別的效能和核心數。
標準 Zen 5 型號採用多達 16 個 4nm CCD(核心計算晶片,又稱小晶片)。它們與大型中央 I/O 晶片配對,每個 CCD 提供多達 8 個 CPU 核心,TDP 範圍從 155W 到 500W。Zen 5c 型號採用多達 12 個 3nm CCD,每個小晶片有 16 個 Zen 5c 核心,與相同的 I/O 晶片配對。
AMD 聲稱,基於全新 Zen 5 架構的 RPYC 9005 系列的 IPC 增加了 17%。Zen 5 還顯著增加了對 AVX-512 的完整 512b 資料路徑支援,不過使用者也可以選擇在「雙泵」AVX-512 模式下執行晶片,將 512b 指令作為兩組 256b 發出,從而降低功率要求並提高某些工作負載的效率。
除了旗艦 192 核型號外,所有 Turin 處理器都可以放入現有的伺服器平臺採用 SP5 插槽。192 核型號也適用於 SP5 插槽,但需要特殊的電源配置,因此該高階型號需要較新的主機板。
Turin 系列僅提供 12 個 DDR5 記憶體支援通道,每臺伺服器的記憶體容量高達 12TB(每插槽 6TB)。AMD 最初將 Turin 的規格定為 DDR5-6000,但現在已將其提高到合格平臺的 DDR5-6400。AMD 的平臺僅支援每通道 1 個 DIMM(DPC)。
對於 AMD 來說,目前面臨的環境即是機遇也是挑戰,如何能將架構、製程上的優勢轉化為勝勢?從今天凌晨的釋出會上,我們或許已經看到端倪。
參考內容:
https://www.youtube.com/watch?v=vJ8aEO6ggOs
https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-reveals-core-specs-for-instinct-mi355x-cdna4-ai-accelerator-slated-for-shipping-in-the-second-half-of-2025
https://www.tomshardware.com/pc-components/cpus/amd-unveils-ryzen-ai-pro-300-cpus-zen-5-and-copilot-pcs-for-businesses-and-enterprise
https://venturebeat.com/ai/amd-unveils-ai-infused-chips-across-ryzen-instinct-and-epyc-brands/