英偉達競品來了,訓練比H100快70%,英特爾發最新AI加速卡

机器之心發表於2024-04-10
效能有優勢,可擴充套件性也更好。

英偉達的 AI 加速卡,現在有了旗鼓相當的對手。

今天凌晨,英特爾在 Vision 2024 大會上展示了 Gaudi 3,這是其子公司 Habana Labs 的最新一代高效能人工智慧加速器。

英偉達競品來了,訓練比H100快70%,英特爾發最新AI加速卡

Gaudi 3 將於 2024 年第三季度推出,英特爾現已開始向客戶提供樣品。憑藉 1835 TFLOPS 的 FP8 計算吞吐量,英特爾相信它足以在廣闊的(且昂貴的)AI 計算領域中分得一杯羹。

根據內部基準測試,英特爾估計 Gaudi 3 效能部分超過了英偉達的 H100,並且具有更好的能耗比。在一些關鍵的大型語言模型中,Gaudi 3 能夠擊敗英偉達的旗艦 H100/H200 Hopper 架構 GPU。

在當前這個科技領域搶購英偉達 GPU 的時刻,Gaudi 3 或許能為英特爾在 AI 加速器市場開啟一扇門。

Gaudi 3 的釋出也正值英特爾對其 AI 加速器產品的定位發生變化之際:當前,Gaudi 系列已升級為英特爾旗艦 AI 加速器。

圖片

Gaudi 3 是 Gaudi 2 硬體的直接演變。Habana Labs 在這一代沒有對架構進行大規模修改(這將在 Falcon Shores 中進行)。

上一代 Gaudi 2 加速器基於臺積電 7nm 工藝打造,在 Gaudi 3 上 Habana 引入了更先進的 5nm 工藝。Gaudi 3 晶片又新增了適量的計算硬體,從 2 個矩陣數學引擎和 24 個張量核心擴充套件到 4 個矩陣數學引擎和 32 個張量核心。鑑於 Gaudi 3 的架構變化有限,我們或許可以假設這些張量核心仍然是 256 位元組寬的 VLIW SIMD 單元。

圖片

圖片來自 Anandtech

Habana 團隊罕見地公開了 Gaudi 3 晶片 FP8 精度的總吞吐量:1835 TFLOPS,這讓 Gaudi 3 使用 8 位浮點計算產生的 AI 算力是 Gaudi 2 的兩倍,BFloat 16 格式的算力提升則達到了四倍。

在大語言模型的實際處理上,英特爾預計用 Gaudi 3 訓練 GPT-3 175B 大型語言模型的時間比 H100 要快 40%,Llama2 的 70 億和 80 億引數版本的訓練結果甚至比這個數字還要好。

在推理方面,兩者效能各有勝負,新晶片為兩個版本的 Llama 提供了 H100 95% 至 170% 的效能。而對於 Falcon 180B 型號來說,Gaudi 3 卻取得了四倍的優勢。不出所料,與 Nvidia H200 相比,英特爾晶片的優勢較小 ——Llama 為 80% 至 110%,Falcon 為 3.8 倍。

英特爾聲稱在測量能效時獲得了更引人注目的結果,預計 H100 在 Llama 上的優勢高達 220%,在 Falcon 上的數字則是 230%。

圖片

雖然英特爾沒有透露 Gaudi 3 晶片的電晶體總數,但新硬體的面積足夠小,以至於英特爾能夠將兩個 die 封裝到單個晶片上,從而使完整的 Gaudi 3 加速器成為雙芯配置。與英偉達最近釋出的 Blackwell 類似,兩塊相同的晶片被封裝在一起,並透過高頻寬鏈路連線,以便為晶片提供統一的記憶體地址空間。

英特爾稱,組合後的晶片將像單個晶片一樣工作,但英偉達沒有透露連線鏈路的任何重要細節。

圖片

奇怪的是,與晶片匹配的是有點「過時」的 HBM2e 記憶體控制器,與 Gaudi 2 支援的記憶體型別相同。由於堅持使用 HBM2e,可用的最高容量堆疊為 16GB,為加速器提供了總共 128GB 的記憶體。其時脈頻率為 3.7Gbps/pin,總記憶體頻寬為 3.7TB / 秒。每塊 Gaudi 3 晶片均提供 4 個 HBM2e PHY,使晶片總數達到 8 個記憶體堆疊。

圖片

同時,每個 Gaudi 3 晶片都具有 48MB 板載 SRAM,為整個晶片提供 96MB SRAM。英特爾稱,SRAM 總頻寬為 12.8TB / 秒。英特爾沒有透露 Gaudi 3 加速器的時鐘速度。鑑於現有硬體數量增加了一倍多,這裡或許會考慮整體較低的時鐘速度。

在這一點上,基本風冷式 Gaudi 3 加速器的 TDP 為 900 瓦,比其前身的 600 瓦限制高出 50%。英特爾在這裡使用 OAM 2.0 外形尺寸,它提供比 OAM 1.x (700W) 更高的功率限制。不過,英特爾還在開發並驗證 Gaudi 3 的液冷版本,它將提供更高的效能,以換取更高的 TDP。所有形式的 Gaudi 3 都將使用 PCIe 連線其主機 CPU。

網路連線

除了 Gaudi 3 的核心架構之外,Habana 對 Gaudi 3 的另一項重大技術升級是在 I/O 方面。回到 Gaudi 的早期,Habana 的晶片就依賴於全乙太網架構,使用乙太網進行節點內晶片到晶片連線和橫向擴充套件節點到節點連線。它本質上與英偉達所做的相反 —— 是將乙太網擴充套件到晶片級別,而不是將 NVLink 擴充套件到機架級別。

上一代的 Gaudi 2 每塊晶片提供 24 個 100Gb 乙太網鏈路,Gaudi 3 將這些鏈路的頻寬增加了一倍,達到 200Gb / 秒,使晶片的外部乙太網 I/O 總頻寬達到 8.4TB / 秒。

圖片

與此同時,每塊晶片的剩餘 3 個鏈路將用於為六組 800Gb 八路小型可插拔 (OSFP) 乙太網鏈路提供訊號。透過使用重定時器,埠將被分成兩個塊,然後在 5 個加速器上進行平衡。

最終,英特爾希望提升 Gaudi 3 的可擴充套件性。由於先進大語言模型需要將許多節點連結在一起形成一個叢集,以提供訓練所需的記憶體和計算效能,一直以來,英特爾都希望透過採用純乙太網配置來贏得那些不想投資 InfiniBand 等專有 / 替代互連技術的客戶。

圖片

英特爾已經開發了多達 512 個節點的網路拓撲,使用 48 個主幹交換機連線多達 32 個叢集,每個叢集包含 16 個節點。據英特爾稱,Gaudi 3 還可以進一步擴充套件,達到數千個節點。

效能對比

英特爾表示,與目前業內先進的 AI 加速器英偉達 H100 相比,Gaudi 3 在 16 個加速器叢集中以 FP8 精度訓練 Llama2-13B 時,效能比 H100 快 70%。儘管 H100 已經問世 2 年,但如果 Gaudi 3 成功的話,在任何訓練方面都大幅擊敗 H100 對於英特爾來說將是一個巨大的勝利。

圖片

圖片

與此同時,英特爾預計採用 Gaudi 3 的 H200/H100 的推理效能將提高 1.3 倍至 1.5 倍,也許最值得注意的是,功耗比將提高多至 2.3 倍。

當然,在這些推理工作負載中,英特爾有時仍然會輸給 H100,尤其是那些沒有 2K 輸出的工作負載,因此 Gaudi 3 還遠未橫掃一切。

不過值得讚揚的是,英特爾是迄今為止唯一一家提供 MLPerf 結果的主要硬體製造商。因此,無論 Gaudi 3 的表現如何(以及 Gaudi 2 目前的表現),他們在釋出行業標準測試結果方面比大多數人都光明正大得多。

樣品第二季度出貨

總而言之,英特爾將在下個季度釋出首款 Gaudi 3 產品。該公司已經在其實驗室中擁有風冷版本的 OEAM 加速器以進行資格認證,並向客戶提供樣品,同時液冷版本將於本季度提供樣品。

圖片

最後,對於 Gaudi 團隊來說,英特爾還將首次提供採用更傳統 PCIe 外形規格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高雙槽 PCIe 卡。它提供與 OAM Gaudi 3 相同的所有硬體,甚至可達到 1835 TFLOPS FP8 的峰值效能。然而,它將配備對 PCIe 插槽更友好的 600 瓦 TDP,比 OAM 卡低 300 瓦,因此持續效能應該會明顯降低。

圖片

儘管英特爾 Keynote 中未有展示,但 PCIe 卡提供了兩個 400Gb 乙太網埠,用於橫向擴充套件配置。與此同時,英特爾將為 PCIe 卡提供一個「頂板」,類似於英偉達的 NVLink 橋,可以連線最多 4 個 PCIe 卡以進行卡間通訊。OAM 外形尺寸仍將是實現每個加速器最高效能和最大化橫向擴充套件潛力的途徑,但對於需要在傳統 PCIe 插槽中即插即用的客戶來說,現在也有了一個選擇。

PCIe 版本的 Gaudi 3 將於今年第四季度推出,同時推出液冷版本的 OAM 模組。

參考內容:

https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-keynote-livestream-replay.html#gs.7pzjdw

https://spectrum.ieee.org/intel-gaudi-3

https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher

相關文章