AMD的旗艦AI加速器推出MI325X對標Nvidia H200

redclay發表於2024-06-06

AMD計劃於今年晚些時候推出旗艦AI加速器MI325X,提供更高的頻寬。

這次釋出意味著AMD正在跟隨Nvidia的模式,轉向了“Instinct”加速器系列的年度釋出節奏。

據目前瞭解的資訊,Instinct MI325X與Nvidia的H200非常相似,是AMD在去年12月Advancing AI活動中詳細介紹的GPU的HBM3e增強版。該部件是由八個計算晶片、四個I/O晶片和八個記憶體晶片組成,透過2.5D和3D封裝技術組合而成,是迄今為止最複雜的部件之一。

儘管CDNA 3 GPU晶片推動著即將推出的晶片,但在FLOPS方面並沒有實質性的變化。該晶片仍然具有1.3 petaFLOPS的BF/FP16密集效能,或者在降至FP8時達到2.6 petaFLOPS。需要指出的是,MI325X在任何給定精度上都比H200更快。

AMD似乎在擴充套件其相對於Nvidia的記憶體優勢。釋出時,192GB的MI300X擁有比H100多兩倍的HBM3,比即將推出的H200多51GB。MI325X將加速器的容量提升至288GB,比H200多兩倍,比Nvidia在今年春季GTC上揭曉的Blackwell晶片多50%。

向HBM3e的轉移還將提升MI325X的記憶體頻寬至6TB/sec。雖然與MI300X的5.3TB/sec相比,增加了1.3倍,但最初希望達到8TB/sec的目標並沒有實現,這與Nvidia的Blackwell GPUs相比。

要了解MI325X的記憶體配置情況,需要等待今年晚些時候的釋出。

記憶體容量和頻寬已經成為AI推理的主要瓶頸。執行8位精度時,每十億引數需要約1GB的記憶體。因此,MI325X能夠容納2500億引數模型,或者在八個GPU系統中接近2萬億引數模型,並且仍然有空間儲存關鍵值快取。

儘管硬體支援FP8是MI300X釋出時的主要賣點之一,但AMD在其基準測試中通常專注於半精度效能。去年底,在與Nvidia爭論AMD基準測試真實性時,瞭解到原因。對於很多基準測試,AMD依賴於vLLM——一個對FP8資料型別沒有穩定支援的推理庫。這意味著對於推理,MI300X只能使用FP16。

除非AMD能夠克服這一限制,否則在H200上執行FP8模型將需要在MI325X上使用兩倍的記憶體,從而消除其巨大的288GB容量可能帶來的任何優勢。更重要的是,H200在FP8浮點效能上將比MI325X在FP16時更高。

儘管AMD更願意與Nvidia的Hopper一代產品進行比較,但更值得關注的是Blackwell系列,據稱將於今年晚些時候開始進入市場。在其B200配置中,1000W的Blackwell部件承諾提供高達4.5 petaFLOPS的密集FP8和2.25 petaFLOPS的FP16效能,192GB的HBM3e記憶體,以及8TB/sec的頻寬。

儘管如此,堅持使用FP/BF16資料型別進行訓練和推理仍然有一定的價值。今年春天早些時候釋出的Gaudi3擁有192GB的HBM2e記憶體和雙晶片設計,能夠輸出1.8 petaFLOPS的密集FP8和FP16。這使其比H100/200高出1.85倍,比MI300X/325X高出1.4倍。

當然,這可能並不總是這樣。相當多的努力已經投入到訓練稀疏模型中,特別是對於Nvidia和晶圓級競爭者Cerebras而言。至少對於推理來說,支援稀疏浮點數學最終可能對AMD和Nvidia有利。

MI300A屬於其自己的類別。Nvidia的Grace Hopper和Grace Blackwell超級晶片是完全不同的東西——它們不共享記憶體,也不太依賴先進封裝技術。與此同時,Intel的Falcon Shores XPUs原本計劃像AMD的MI300A一樣共同封裝CPU和GPU,但最終被改為Habana-Gaudi加上Xe圖形處理器。

人工智慧被炒的這麼熱,還沒有真正見到哪個公司因為人工智慧服務而掙錢。自動駕駛在2017年時,預測幾年後就可以商用,現在還沒有真正的商業化。做人工智慧,還不如賣GPU,比如這個商業模式Sell GPUs

Reference
AMD Reveals MI325X

相關文章