一窺Habana的推理和訓練神經處理器​

半導體行業觀察發表於2019-12-16
Habana Labs是市面上為數不多的,有產品出貨的獨立AI初創公司之一。這家以色列初創公司成立於2016年,已獲得7500萬美元的A和B輪融資。Habana Labs主要專注於資料中心,邊緣和工作站市場。在不到三年的時間裡,該公司已經將產品交付市場,並進行了第二代產品送樣以及下一代產品的預研。

Habana的分叉產品線採用了兩種獨立的晶片設計–一種用於推理,另一種用於訓練。我們已經看到英特爾Nervana NNP等其他公司使用了這種方法。這使他們可以針對每種工作負載型別更好地進行優化。但是,Habana則宣稱,他們依靠相同的基礎架構進行訓練和推理,但是針對稍有不同的工作負載優化了這兩種設計。但如英特爾等其他公司都依靠兩種截然不同的晶片設計。

Goya

Goya是Habana的微體系結構,用於加速推理。Goya採用臺積電(TSMC)16奈米工藝製造,而這個產品實際上是Gaudi的簡化版本。晶片的兩個主要元件是TPC(Tensor Processor Core:張量處理器核心)和GEMM(通用矩陣乘法:general matrix multiply)引擎。

TPC是該公司基於VLIW SIMD的CPU / DSP設計。這些核心基於自定義的VLIW ISA,該功能具有專門的AI SIMD向量指令。Habana試水TPC的目的之一就是提高靈活性。這些核心是完全C可程式設計的,它們可以實現任何必要的AI功能,並且支援包括8位,16位和32位整數和浮點運算在內的整個混合精度資料型別。使用Habana的軟體堆疊,提供粗粒度(coarse-grained)和細粒度(fine-grained)控制旋鈕(control knobs),以將硬體的精度控制到張量級別。這對於某些您希望降低效能但又會獲得更好的精度的領域非常重要(This is important for certain fields where you’d rather take a small performance hit but get slightly better accuracy)。完整的Goya晶片具有一個叢集中的八個TPC。該晶片與TPC叢集一起整合了強大的GEMM(通用矩陣乘法)引擎。

一窺Habana的推理和訓練神經處理器​
晶片的另一個有趣方面是TPC沒有本地快取。相反,它們具有本地暫存器塊以及GEMM引擎和TPC共享的大型共享記憶體。快取可以由軟體管理,以便針對較低的資料移動進行優化。這使他們能夠更輕鬆地從大型快取池中傳輸資料,並改善TPC的確定性。Habana表示,大多數模型應適合快取記憶體並完全包含在晶片上。對於更大的記憶體池,為晶片提供兩個通道的DDR4記憶體,總容量為16 GiB。

Goya推理晶片HL-1000被封裝在PCIe Gen 4加速卡中。提供了兩個SKU、所提供的冷卻型別有被動和主動、卡儲存容量之間的差異在4到16 GiB之間。Habana說,卡的最大TDP為200 W,但我們可以預期典型功耗通常僅為該值的一半。

一窺Habana的推理和訓練神經處理器​

Gaudi

Gaudi是Habana用於加速訓練的微體系結構。與Goya一樣,它也是用TSMC 16奈米工藝設計,並具有非常相似的架構。該晶片將八個TCP與GEMM引擎整合在一個叢集中。由於Gaudi是根據Goya設計的,因此Habana確實設法植入了一些新功能。就支援的資料型別而言,隨著行業將bfloat16作為訓練的首選資料型別,Habana在Gaudi中增加了對其的支援。Habana說,在TPC和GEMM引擎中,它新增了ISA的一些新功能和硬體功能,以幫助加速某些較新的演算法。
一窺Habana的推理和訓練神經處理器​
但是,存在許多關鍵差異。高迪旨在允許大規模訓練。Habana說,在設計晶片時,關鍵的要求之一就是在小batch size時實現高吞吐量。另一個要求是使用標準乙太網作為通訊介質。這與專有介面(例如英特爾的ICL連結或用於其NPU和GPU的Nvidia Nvlink)完全不同。Habana希望為客戶提供使用現有硬體的自由,並利用標準乙太網交換機進行擴充套件,而不是將其引入並鎖定在其他專有介面中。為此,Gaudi整合了10個100 Gb乙太網埠以及RoCE RDMA。此外,由於訓練需要更高的頻寬和更大的儲存容量。因此這個雙通東的DDR4介面被四個HBM2代替,且擁有32 GiB的記憶體。
一窺Habana的推理和訓練神經處理器​
Habana提供兩種尺寸的HL-2000 Gaudi晶片:OCP加速器模組和標準PCIe卡。兩種尺寸都包含32 GiB的HBM2儲存器,總頻寬為1 TB / s。與Goya一樣,PCIe卡也有許多散熱選項。
一窺Habana的推理和訓練神經處理器​
Habana還提供了一個參考平臺,以允許不想打擾自己盒子設計的客戶使用。HL-1包含八張Gaudi HL-205 OAM卡。HLS-1的獨特之處在於他們沒有CPU。Habana安裝了八塊高Gaudi晶片,並將它們互連在一起,然後簡單地將連線性暴露給外界。公開了4個PCIe埠和6個QSFP-DD埠。客戶可以自由選擇最適合其工作負載的CPU型別和比率,並使用四個Mini-SAS HD埠進行連線。
一窺Habana的推理和訓練神經處理器​
Goya HL-1000推理晶片已經交付了將近一年。目前,Gaudi HL-2000訓練晶片正在提供樣品。Habana已經在著手開發其下一代推理和訓練晶片,該晶片將轉移到7奈米工藝進行。

相關文章