AMD的GPU跑AI模型終於Yes了?PK英偉達H100不帶怕的

机器之心發表於2024-09-04
都很貴。

AMD vs 英偉達絕對算是一個長盛不衰的話題 —— 從玩遊戲用哪家強到如今訓練 AI 哪個更高效?原因也很簡單:它們的 GPU 產品存在直接競爭關係。

當然,答案通常都偏向於英偉達,尤其是在 AI 算力方面,正如前些天李沐在上海交大演講時談到的那樣:「算力這塊,你可以用別的晶片,但是這些晶片用來做推理還 OK,做訓練的話還要等幾年的樣子,英偉達還是處在一個壟斷的地位。」

但基於實證的對比研究卻往往又會給出不一樣的答案,比如在同一個演講中,李沐還提到了這兩家 GPU 的記憶體情況,對此他表示:「在這一塊,雖然英偉達是領先者,但其實英偉達是不如 AMD 的,甚至不如 Google 的 TPU。」

實際上,不少業內人士都表達過對 AMD 佔據更大市場份額的信心,比如 Transformer 作者及生成式 AI 初創公司 Cohere 創始人之一艾丹・戈麥斯(Aidan Gomez)前些天說:「我認為 AMD 和 Tranium 這些平臺很快也將做好真正進入主流市場的準備。」

近日,專注計算硬體的科技媒體 The Information 釋出了一份對比評測報告,聲稱是首個直接對比 AMD 和英偉達 AI 叢集的基準評測。該報告的資料來自 MLCommons,這是一個由供應商主導的評測機構。

他們構建了一套 MLPerf AI 訓練和推理基準AMD Instinct 「Antares」 MI300X GPU 以及英偉達的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評估。The Information 對比了這些評估資料。

結果表明:在 AI 推理基準上,MI300X GPU 絕對能比肩 H100 GPU,而根據 The Information 對 GPU 成本及系統總成本的估計,說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是,也需要說明這些測試存在侷限:僅使用了一種模型,即來自 Meta 的 Llama 2 70B。希望未來能看到這些測試中使用更多不同的 AI 模型。

對 MI300X 及 AMD 未來的 GPU 來說,這個結果很是不錯。

但到今年年底時,考慮到英偉達 Blackwell B100 和 B200 GPU 的預期價格,似乎英偉達將與 AMD MI300X 加速器開始比拼價效比。另外,也許 AMD 會在今年晚些時候推出 MI325X GPU。

重點關注推理

AMD 的資料直到上週才釋出。業內有傳言說 AMD 簽了一些大訂單,會把 MI300X 出售給超大規模計算公司和雲構建商,以支撐他們的推理工作負載。無怪乎 AMD 直到上週才釋出 MLPerf Inference v4.1 測試結果。

對 MLPerf 推理結果的分析表明,在使用 Llama 2 70B 模型執行推理任務時,MI300X 在效能和成本上確實能與 H100 比肩。但和 H200 相比就差點了,畢竟 H200 有更大的 HBM 記憶體(141GB)和更高的頻寬。如果 Blackwell 的定價符合預期,那麼今年晚些時候推出的 MI325 為了具備競爭力,就必須得擁有更大的記憶體、更高的頻寬和更激進的價格才行。

下面是最新發布的 MLPerf 基準評測結果:

圖片

英偉達的 MLPerf 基準評測結果來自英偉達自身,其中也包括使用 Llama 2 70B 模型在單臺 Blackwell B200 SXM 上的結果,詳情可訪問這篇部落格:https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

The information 提取了所有英偉達的結果,並新增了 Juniper Networks 在包含 2 個和 4 個節點的 HGX H100 叢集上得到的結果(總共 8 和 16 臺 H100)。

AMD 在配備一對當前的「Genoa」Epyc 9004 系列處理器和八臺 Antares MI300X GPU 的伺服器節點中測試了標準通用基板(UBB),還測試了一臺將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機器,該系列 CPU 預計將在下個月左右推出。

圖片

AMD 還向 The Next Platform 提供了一張圖表,其中展示了在 Genoa 盒子上測試一臺 MI300X GPU 的效能,這可以顯示節點內 GPU 的擴充套件效能:

圖片

讓我們先看效能,然後再看價效比。

對於效能,我們想知道,在執行 Llama 2 推理時,AMD 和英偉達裝置所具備的潛在峰值浮點效能有多少會被實際用於生成 token。但並沒有這方面的具體資料,因為 GPU 利用率和記憶體利用率不在基準測試中。不過我們可以根據已有資料進行推斷。

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟體庫和 runtimes,它類似於英偉達的 CUDA 堆疊。在 MI300X 的張量核心上的峰值 FP16 效能為 1307.4 TFlops,但這是在伺服器模式下執行的(也就是使用在現實世界中看到的一種隨機查詢),可知在執行 Llama 2 70B 模型時,單臺 MI300X 每秒生成 2530.7 個 token。因此,Llama 2 效能與假設峰值 Flops 之比為 1.94。當擴充套件到 8 臺 MI300X 裝置並換用更高速的 CPU,則這一比值會略微升至 2.01 到 2.11。

我們知道,H100 GPU 的 HBM 記憶體僅有 80GB,啟動頻寬也較低,這是因為缺少 HBM3 和 HBM3E 記憶體導致的記憶體配置不足。MI300X 也是類似。大家都在拉低 GPU 的記憶體配置,這樣不僅是為了多賣些裝置,而且也因為在 GPU 晶片附近堆疊 HBM 的難度很大,並且還有封裝製造工藝的問題。

再看看英偉達測試的 H100 系統,每秒伺服器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73,這比 AMD 的更好,這可能要歸結於軟體調整。針對 H100,CUDA 堆疊和 TensorRT 推理引擎進行了大量調整,現在你明白為什麼 AMD 如此渴望收購人工智慧諮詢公司 Silo AI 了吧?這筆交易幾周前剛剛完成。

由於切換到了 HBM3E,H200 的 HBM 記憶體將大幅提升至 141 GB,頻寬也將從 3.35 TB/s 提升至 4.8 TB/s。於是這個比值將增至 4.25,而英偉達自己的基準測試表明,只需在完全相同的 Hopper GH100 GPU 上新增記憶體容量和頻寬,AI 工作負載就能提升 1.6 至 1.9 倍。

MI300X 應該具有什麼樣的記憶體容量和頻寬才能平衡其在推理(可能還有訓練)工作負載方面的浮點效能呢?這一點很難估計。但 The Information 給出了一個直覺估計:MI325X 將具有 6 TB/s 的頻寬(MI300 為 5.3 TB/s)和 288 GB 的 HBM3E( HBM3 為 192 GB)—— 這是朝著正確方向邁出的一大步。另外,MI325X 的 FP16 浮點效能似乎還是 1.31 Pflops。

不過明年的 MI350 的浮點效能可能會大幅提升,據信其會有新迭代的 CDNA 架構:CDNA 4。其不同於 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構。MI350 將轉向臺積電的 3 奈米工藝,並增加 FP6 和 FP4 資料型別。據推測,將有一個全 GPU 的 MI350X 版本,也許還有一個帶有 Turin CPU 核心的 MI350A 版本。

你可能傾向於相信 AMD MI300X 和英偉達 H100 之間的效能差異是因為:一致性互連將 GPU 繫結到其各自 UBB 和 HGX 板上的共享記憶體複合體中。AMD 機器上的是 Infinity Fabric,而英偉達機器上的是 NVSwitch。Infinity Fabric 的每臺 GPU 的雙向頻寬為 128 GB/s,而 NVLink 4 埠和 NVSwitch 3 交換機的頻寬為 900 GB/s,因此英偉達機器在記憶體一致性節點結構上的頻寬高 7 倍。

這可能是 Llama 2 工作負載效能差異的一部分原因,但 The Information 認為不是。原因如下。

單臺 MI300X 的峰值效能為 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且沒有稀疏矩陣重新調整,吞吐量翻倍。MI300X 的記憶體是 H100 的 2.4 倍,但 Llama 2 推理工作效能僅比 H100 多 7%,並且推理負載僅為 H200 的 60%。根據英偉達進行的測試,相比於配備 180 GB 記憶體的 Blackwell B200,該裝置的工作效能僅為其 23.5%。

據信 B200 的記憶體也會受限,因此根據 6 月份釋出的英偉達路線圖,B200 和 B100(可能)將在 2025 年進行記憶體升級,容量可能會提升到 272 GB 左右。H200 的記憶體升級會領先於 MI300X,後者的升級將在今年晚些時候體現在 MI32X 上,並會在記憶體方面領先 B200 Blackwell Ultra 六到九個月。

圖片

The Information 表示:「如果我們要買 GPU,我們會等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的資料中心 GPU 更划算。」

當然,你也可以等,用你現有的 GPU 參加這場生成式 AI 大戰。

當然,上面的資料圍繞著推理,至於 AI 訓練方面的資料,AMD 可能會在今年秋季釋出。

實際應用的價效比

MI300X 與英偉達的 Hopper 和 Blackwell 的價效比如何呢?

今年早些時候,英偉達聯合創始人兼 CEO 黃仁勳在 Blackwell 釋出後表示:這些裝置的價格將在 3.5 至 4 萬美元之間。Hopper GPU 的價格可能為 2.25 萬美元,具體取決於配置。黃仁勳在 2023 年時曾表示,一套配置完成的 HGX H100 系統板的價格售價 20 萬美元。至於 H200,如果單獨購買,價格應該是 3 萬美元。MI300X 的售價大概是 2 萬美元,但這基本基於猜測。具體還要看消費者和市場情況。

當然,大量購買應該還有折扣,正如黃仁勳喜歡說的那樣:「買得越多,省得越多。」(The More You Buy, The More You Save)

粗略估計,將這些 GPU 變成伺服器(兩臺 CPU、大量主記憶體、網路卡和一些快閃記憶體)的成本約為 15 萬美元,並且可以插入英偉達的 HGX 板或 AMD 的 UBB 板來構建八路機器。考慮到之前計算的單臺 GPU 的效能,於是這裡便以這一成本的八分之一進行計算。

綜合這些成本,可以看到 MI300X 與 H100 一樣非常燒錢。

我們已經知道,對於 Llama 2 70B 推理任務,H100 系統中平均每臺 GPU 每秒可輸出 2700 個 token,這比 MI300X 好 7%。H200 的記憶體是 141 GB,是原來的兩倍多,而其推理效能提升了 56%,但 GPU 的價格僅上漲了 33%,因此其 GPU 和系統層面的價效比都得到了提升。

如果 B200 的價格如黃仁勳所說的那樣為 4 萬美元,那麼在 Llama 2 70B 測試中,其在 GPU 層面上每單位推理的成本將降低近一半,在系統層面上則會略多於一半。

考慮到 Blackwell 的短缺以及希望在給定空間和給定熱範圍內容納更多 AI 計算的需求,因此也可以推斷英偉達可能為每臺 B200 GPU 定價 5 萬美元 —— 很多人都這樣預計。

當然,具體如何,還要看今年晚些時候 AMD MI325 的定價以及產能。

相關文章