提供令人生畏的能源需求

說到技術趨勢,人工智慧將是2023年的流行語,未來十年也可能如此。有一家公司有望在這個市場上產生影響,那就是英偉達——它製造可以同時處理多個計算的先進GPU技術能夠很好地轉移到人工智慧系統中。英偉達的股票價值在2023年上半年驚人地上漲了185%。

基於英偉達 Hopper架構的英偉達 H100張量核心(tensor core)GPU最近引起了很多關注。TechInsights獲得了該技術的PCIe版本(見圖1)。關於GPU架構對人工智慧處理和神經網路的適用性,其他地方已經寫了很多文章;關於Hopper架構的一篇特別有趣的文章可以在TechInsights釋出的微處理器報告《Nvidia Hopper Leaps Ahead》[1]中找到。

圖1:英偉達 H100 PCIe加速卡

人工智慧應用對功率需求是極高的,在本篇文章中,我們將解決具體的問題——是什麼為這種尖端產品提供了功率需求?

如何安全地提供超過一兆瓦的功率

英偉達在2022年3月的春季“GTC”活動[2]上釋出的H100晶片證實,SXM5版本的熱設計功率(TDP)高達700 W (PCIe高達350 W),專為空氣和液體冷卻而設計。

雖然PCIe是一個更“標準”的介面,但SXM是英偉達自己設計的高頻寬插座。英偉達 DGX H100伺服器[3]是為8個加速卡而設計的,因此功率超過5千瓦。

英偉達 DGX SuperPOD架構採用英偉達的NVLink和NVSwitch系統,最多可連線32個DGX節點,共256個H100 GPU。這是一個真正的人工智慧基礎設施平臺;英偉達的DGX SuperPOD資料中心設計[4]讓我們對真正的企業人工智慧基礎設施的巨大功率和冷卻需求有了一些瞭解。

每臺DGX H100伺服器(8個GPU)的最大功率為10.2 kW,建議風冷以保持工作溫度在5 ~ 30℃。對於一個完整的32節點SuperPOD,無論機架配置如何,總功率需求為326.4 kW(不包括管理機架、儲存等的額外功率)。總預期峰值功率為1.3 MW,峰值熱負荷為4.42 MBTU/h,需要的最小氣流為4.445 m3/分鐘。

一兆瓦是很大的能量。在這篇“free energy[5]”的文章中可以找到一些關於兆瓦時的有趣背景。它可以為普通美國家庭提供1.2個月的電力,也就是說,可以得出一個粗略的等效-執行一個功率需求為326.4千瓦的SuperPOD一天多一點(30小時)可以為普通美國家庭提供一年的電力。在這些功率水平上,功率轉換效率的百分比改進可以對冷卻要求和環境後果產生重大影響。這就是氮化鎵(GaN)器件在資料中心功率網路中產生巨大影響的原因。

每個伺服器以及隨後的每個電路板的功率配置和分配非常複雜,在SuperPOD資料中心設計參考指南的第3章中有詳細介紹。簡而言之,功率分配單元中的每個機架將DGX H100的三相輸入電源分為三個單獨的單相電路。然後,這將進一步下放到電路板層面。

來自: TechInsights