都很貴。
AMD vs 英偉達絕對算是一個長盛不衰的話題 —— 從玩遊戲用哪家強到如今訓練 AI 哪個更高效?原因也很簡單:它們的 GPU 產品存在直接競爭關係。
當然,答案通常都偏向於英偉達,尤其是在 AI 算力方面,正如前些天李沐在上海交大演講時談到的那樣:「算力這塊,你可以用別的晶片,但是這些晶片用來做推理還 OK,做訓練的話還要等幾年的樣子,英偉達還是處在一個壟斷的地位。」
但基於實證的對比研究卻往往又會給出不一樣的答案,比如在同一個演講中,李沐還提到了這兩家 GPU 的記憶體情況,對此他表示:「在這一塊,雖然英偉達是領先者,但其實英偉達是不如 AMD 的,甚至不如 Google 的 TPU。」
實際上,不少業內人士都表達過對 AMD 佔據更大市場份額的信心,比如 Transformer 作者及生成式 AI 初創公司 Cohere 創始人之一艾丹・戈麥斯(Aidan Gomez)前些天說:「我認為 AMD 和 Tranium 這些平臺很快也將做好真正進入主流市場的準備。」
近日,專注計算硬體的科技媒體 The Information 釋出了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達 AI 叢集的基準評測。該報告的資料來自 MLCommons,這是一個由供應商主導的評測機構。
他們構建了一套 MLPerf AI 訓練和推理基準。AMD Instinct 「Antares」 MI300X GPU 以及英偉達的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評估。The Information 對比了這些評估資料。
結果表明:在 AI 推理基準上,MI300X GPU 絕對能比肩 H100 GPU,而根據 The Information 對 GPU 成本及系統總成本的估計,說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是,也需要說明這些測試存在侷限:僅使用了一種模型,即來自 Meta 的 Llama 2 70B。希望未來能看到這些測試中使用更多不同的 AI 模型。
對 MI300X 及 AMD 未來的 GPU 來說,這個結果很是不錯。
但到今年年底時,考慮到英偉達 Blackwell B100 和 B200 GPU 的預期價格,似乎英偉達將與 AMD MI300X 加速器開始比拼價效比。另外,也許 AMD 會在今年晚些時候推出 MI325X GPU。
重點關注推理
AMD 的資料直到上週才釋出。業內有傳言說 AMD 簽了一些大訂單,會把 MI300X 出售給超大規模計算公司和雲構建商,以支撐他們的推理工作負載。無怪乎 AMD 直到上週才釋出 MLPerf Inference v4.1 測試結果。
對 MLPerf 推理結果的分析表明,在使用 Llama 2 70B 模型執行推理任務時,MI300X 在效能和成本上確實能與 H100 比肩。但和 H200 相比就差點了,畢竟 H200 有更大的 HBM 記憶體(141GB)和更高的頻寬。如果 Blackwell 的定價符合預期,那麼今年晚些時候推出的 MI325 為了具備競爭力,就必須得擁有更大的記憶體、更高的頻寬和更激進的價格才行。
下面是最新發布的 MLPerf 基準評測結果:
英偉達的 MLPerf 基準評測結果來自英偉達自身,其中也包括使用 Llama 2 70B 模型在單臺 Blackwell B200 SXM 上的結果,詳情可訪問這篇部落格:https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/
The information 提取了所有英偉達的結果,並新增了 Juniper Networks 在包含 2 個和 4 個節點的 HGX H100 叢集上得到的結果(總共 8 和 16 臺 H100)。
AMD 在配備一對當前的「Genoa」Epyc 9004 系列處理器和八臺 Antares MI300X GPU 的伺服器節點中測試了標準通用基板(UBB),還測試了一臺將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機器,該系列 CPU 預計將在下個月左右推出。
AMD 還向 The Next Platform 提供了一張圖表,其中展示了在 Genoa 盒子上測試一臺 MI300X GPU 的效能,這可以顯示節點內 GPU 的擴充套件效能:
讓我們先看效能,然後再看價效比。
對於效能,我們想知道,在執行 Llama 2 推理時,AMD 和英偉達裝置所具備的潛在峰值浮點效能有多少會被實際用於生成 token。但並沒有這方面的具體資料,因為 GPU 利用率和記憶體利用率不在基準測試中。不過我們可以根據已有資料進行推斷。
AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟體庫和 runtimes,它類似於英偉達的 CUDA 堆疊。在 MI300X 的張量核心上的峰值 FP16 效能為 1307.4 TFlops,但這是在伺服器模式下執行的(也就是使用在現實世界中看到的一種隨機查詢),可知在執行 Llama 2 70B 模型時,單臺 MI300X 每秒生成 2530.7 個 token。因此,Llama 2 效能與假設峰值 Flops 之比為 1.94。當擴充套件到 8 臺 MI300X 裝置並換用更高速的 CPU,則這一比值會略微升至 2.01 到 2.11。
我們知道,H100 GPU 的 HBM 記憶體僅有 80GB,啟動頻寬也較低,這是因為缺少 HBM3 和 HBM3E 記憶體導致的記憶體配置不足。MI300X 也是類似。大家都在拉低 GPU 的記憶體配置,這樣不僅是為了多賣些裝置,而且也因為在 GPU 晶片附近堆疊 HBM 的難度很大,並且還有封裝製造工藝的問題。
再看看英偉達測試的 H100 系統,每秒伺服器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73,這比 AMD 的更好,這可能要歸結於軟體調整。針對 H100,CUDA 堆疊和 TensorRT 推理引擎進行了大量調整,現在你明白為什麼 AMD 如此渴望收購人工智慧諮詢公司 Silo AI 了吧?這筆交易幾周前剛剛完成。
由於切換到了 HBM3E,H200 的 HBM 記憶體將大幅提升至 141 GB,頻寬也將從 3.35 TB/s 提升至 4.8 TB/s。於是這個比值將增至 4.25,而英偉達自己的基準測試表明,只需在完全相同的 Hopper GH100 GPU 上新增記憶體容量和頻寬,AI 工作負載就能提升 1.6 至 1.9 倍。
MI300X 應該具有什麼樣的記憶體容量和頻寬才能平衡其在推理(可能還有訓練)工作負載方面的浮點效能呢?這一點很難估計。但 The Information 給出了一個直覺估計:MI325X 將具有 6 TB/s 的頻寬(MI300 為 5.3 TB/s)和 288 GB 的 HBM3E( HBM3 為 192 GB)—— 這是朝著正確方向邁出的一大步。另外,MI325X 的 FP16 浮點效能似乎還是 1.31 Pflops。
不過明年的 MI350 的浮點效能可能會大幅提升,據信其會有新迭代的 CDNA 架構:CDNA 4。其不同於 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構。MI350 將轉向臺積電的 3 奈米工藝,並增加 FP6 和 FP4 資料型別。據推測,將有一個全 GPU 的 MI350X 版本,也許還有一個帶有 Turin CPU 核心的 MI350A 版本。
你可能傾向於相信 AMD MI300X 和英偉達 H100 之間的效能差異是因為:一致性互連將 GPU 繫結到其各自 UBB 和 HGX 板上的共享記憶體複合體中。AMD 機器上的是 Infinity Fabric,而英偉達機器上的是 NVSwitch。Infinity Fabric 的每臺 GPU 的雙向頻寬為 128 GB/s,而 NVLink 4 埠和 NVSwitch 3 交換機的頻寬為 900 GB/s,因此英偉達機器在記憶體一致性節點結構上的頻寬高 7 倍。
這可能是 Llama 2 工作負載效能差異的一部分原因,但 The Information 認為不是。原因如下。
單臺 MI300X 的峰值效能為 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且沒有稀疏矩陣重新調整,吞吐量翻倍。MI300X 的記憶體是 H100 的 2.4 倍,但 Llama 2 推理工作效能僅比 H100 多 7%,並且推理負載僅為 H200 的 60%。根據英偉達進行的測試,相比於配備 180 GB 記憶體的 Blackwell B200,該裝置的工作效能僅為其 23.5%。
據信 B200 的記憶體也會受限,因此根據 6 月份釋出的英偉達路線圖,B200 和 B100(可能)將在 2025 年進行記憶體升級,容量可能會提升到 272 GB 左右。H200 的記憶體升級會領先於 MI300X,後者的升級將在今年晚些時候體現在 MI32X 上,並會在記憶體方面領先 B200 Blackwell Ultra 六到九個月。
The Information 表示:「如果我們要買 GPU,我們會等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的資料中心 GPU 更划算。」
當然,你也可以等,用你現有的 GPU 參加這場生成式 AI 大戰。
當然,上面的資料圍繞著推理,至於 AI 訓練方面的資料,AMD 可能會在今年秋季釋出。
實際應用的價效比
MI300X 與英偉達的 Hopper 和 Blackwell 的價效比如何呢?
今年早些時候,英偉達聯合創始人兼 CEO 黃仁勳在 Blackwell 釋出後表示:這些裝置的價格將在 3.5 至 4 萬美元之間。Hopper GPU 的價格可能為 2.25 萬美元,具體取決於配置。黃仁勳在 2023 年時曾表示,一套配置完成的 HGX H100 系統板的價格售價 20 萬美元。至於 H200,如果單獨購買,價格應該是 3 萬美元。MI300X 的售價大概是 2 萬美元,但這基本基於猜測。具體還要看消費者和市場情況。
當然,大量購買應該還有折扣,正如黃仁勳喜歡說的那樣:「買得越多,省得越多。」(The More You Buy, The More You Save)
粗略估計,將這些 GPU 變成伺服器(兩臺 CPU、大量主記憶體、網路卡和一些快閃記憶體)的成本約為 15 萬美元,並且可以插入英偉達的 HGX 板或 AMD 的 UBB 板來構建八路機器。考慮到之前計算的單臺 GPU 的效能,於是這裡便以這一成本的八分之一進行計算。
綜合這些成本,可以看到 MI300X 與 H100 一樣非常燒錢。
我們已經知道,對於 Llama 2 70B 推理任務,H100 系統中平均每臺 GPU 每秒可輸出 2700 個 token,這比 MI300X 好 7%。H200 的記憶體是 141 GB,是原來的兩倍多,而其推理效能提升了 56%,但 GPU 的價格僅上漲了 33%,因此其 GPU 和系統層面的價效比都得到了提升。
如果 B200 的價格如黃仁勳所說的那樣為 4 萬美元,那麼在 Llama 2 70B 測試中,其在 GPU 層面上每單位推理的成本將降低近一半,在系統層面上則會略多於一半。
考慮到 Blackwell 的短缺以及希望在給定空間和給定熱範圍內容納更多 AI 計算的需求,因此也可以推斷英偉達可能為每臺 B200 GPU 定價 5 萬美元 —— 很多人都這樣預計。
當然,具體如何,還要看今年晚些時候 AMD MI325 的定價以及產能。