一窺Habana的推理和訓練神經處理器

半导体行业观察發表於2019-12-16

原文網址 : https://www.jiqizhixin.com/articles/2019-12-16-3

Habana Labs是市面上為數不多的，有產品出貨的獨立AI初創公司之一。這家以色列初創公司成立於2016年，已獲得7500萬美元的A和B輪融資。Habana Labs主要專注於資料中心，邊緣和工作站市場。在不到三年的時間裡，該公司已經將產品交付市場，並進行了第二代產品送樣以及下一代產品的預研。

Habana的分叉產品線採用了兩種獨立的晶片設計–一種用於推理，另一種用於訓練。我們已經看到英特爾Nervana NNP等其他公司使用了這種方法。這使他們可以針對每種工作負載型別更好地進行優化。但是，Habana則宣稱，他們依靠相同的基礎架構進行訓練和推理，但是針對稍有不同的工作負載優化了這兩種設計。但如英特爾等其他公司都依靠兩種截然不同的晶片設計。

Goya

Goya是Habana的微體系結構，用於加速推理。Goya採用臺積電（TSMC）16奈米工藝製造，而這個產品實際上是Gaudi的簡化版本。晶片的兩個主要元件是TPC（Tensor Processor Core：張量處理器核心）和GEMM（通用矩陣乘法：general matrix multiply）引擎。

TPC是該公司基於VLIW SIMD的CPU / DSP設計。這些核心基於自定義的VLIW ISA，該功能具有專門的AI SIMD向量指令。Habana試水TPC的目的之一就是提高靈活性。這些核心是完全C可程式設計的，它們可以實現任何必要的AI功能，並且支援包括8位，16位和32位整數和浮點運算在內的整個混合精度資料型別。使用Habana的軟體堆疊，提供粗粒度（coarse-grained）和細粒度（fine-grained）控制旋鈕（control knobs），以將硬體的精度控制到張量級別。這對於某些您希望降低效能但又會獲得更好的精度的領域非常重要（This is important for certain fields where you’d rather take a small performance hit but get slightly better accuracy）。完整的Goya晶片具有一個叢集中的八個TPC。該晶片與TPC叢集一起整合了強大的GEMM（通用矩陣乘法）引擎。

晶片的另一個有趣方面是TPC沒有本地快取。相反，它們具有本地暫存器塊以及GEMM引擎和TPC共享的大型共享記憶體。快取可以由軟體管理，以便針對較低的資料移動進行優化。這使他們能夠更輕鬆地從大型快取池中傳輸資料，並改善TPC的確定性。Habana表示，大多數模型應適合快取記憶體並完全包含在晶片上。對於更大的記憶體池，為晶片提供兩個通道的DDR4記憶體，總容量為16 GiB。

Goya推理晶片HL-1000被封裝在PCIe Gen 4加速卡中。提供了兩個SKU、所提供的冷卻型別有被動和主動、卡儲存容量之間的差異在4到16 GiB之間。Habana說，卡的最大TDP為200 W，但我們可以預期典型功耗通常僅為該值的一半。

Gaudi

Gaudi是Habana用於加速訓練的微體系結構。與Goya一樣，它也是用TSMC 16奈米工藝設計，並具有非常相似的架構。該晶片將八個TCP與GEMM引擎整合在一個叢集中。由於Gaudi是根據Goya設計的，因此Habana確實設法植入了一些新功能。就支援的資料型別而言，隨著行業將bfloat16作為訓練的首選資料型別，Habana在Gaudi中增加了對其的支援。Habana說，在TPC和GEMM引擎中，它新增了ISA的一些新功能和硬體功能，以幫助加速某些較新的演算法。

但是，存在許多關鍵差異。高迪旨在允許大規模訓練。Habana說，在設計晶片時，關鍵的要求之一就是在小batch size時實現高吞吐量。另一個要求是使用標準乙太網作為通訊介質。這與專有介面（例如英特爾的ICL連結或用於其NPU和GPU的Nvidia Nvlink）完全不同。Habana希望為客戶提供使用現有硬體的自由，並利用標準乙太網交換機進行擴充套件，而不是將其引入並鎖定在其他專有介面中。為此，Gaudi整合了10個100 Gb乙太網埠以及RoCE RDMA。此外，由於訓練需要更高的頻寬和更大的儲存容量。因此這個雙通東的DDR4介面被四個HBM2代替，且擁有32 GiB的記憶體。

Habana提供兩種尺寸的HL-2000 Gaudi晶片：OCP加速器模組和標準PCIe卡。兩種尺寸都包含32 GiB的HBM2儲存器，總頻寬為1 TB / s。與Goya一樣，PCIe卡也有許多散熱選項。

Habana還提供了一個參考平臺，以允許不想打擾自己盒子設計的客戶使用。HL-1包含八張Gaudi HL-205 OAM卡。HLS-1的獨特之處在於他們沒有CPU。Habana安裝了八塊高Gaudi晶片，並將它們互連在一起，然後簡單地將連線性暴露給外界。公開了4個PCIe埠和6個QSFP-DD埠。客戶可以自由選擇最適合其工作負載的CPU型別和比率，並使用四個Mini-SAS HD埠進行連線。

Goya HL-1000推理晶片已經交付了將近一年。目前，Gaudi HL-2000訓練晶片正在提供樣品。Habana已經在著手開發其下一代推理和訓練晶片，該晶片將轉移到7奈米工藝進行。

3.3 神經網路的訓練
2019-12-31
神經網路
面向統一的AI神經網路架構和預訓練方法
2023-05-08
AI神經網路架構
CANN訓練：模型推理時資料預處理方法及歸一化引數計算
2023-04-03
模型
訓練自己的Android TensorFlow神經網路
2020-10-25
Android神經網路
機器學習之訓練神經網路：最佳做法
2020-06-28
機器學習神經網路
面向推理訓練一體化的 MNN 工作臺
2022-02-08
使用Tensorflow Object Detection進行訓練和推理
2021-04-26
Object
模型訓練：資料預處理和預載入
2020-10-27
模型
用神經網路測量訓練集的半衰期
2020-11-14
神經網路
如何應對訓練的神經網路不工作？
2020-04-06
神經網路
機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力
2019-10-12
使用tf.estimator.Estimator訓練神經網路
2018-09-16
神經網路
深度神經網路的分散式訓練概述：常用方法和技巧全面總結
2018-11-05
神經網路分散式
大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
2023-04-06
模型OOM
【灰藍 Java 訓練】如何處理空值
2021-02-09
Java
從零開始：教你如何訓練神經網路
2019-02-16
神經網路
訓練神經網路時如何確定batch size？
2018-07-12
神經網路BAT
umich cv-5-1 神經網路訓練1
2023-10-28
神經網路
umich cv-5-2 神經網路訓練2
2023-10-28
神經網路
Batch Normalization: 如何更快地訓練深度神經網路
2019-04-18
BATORM神經網路
視覺化影像處理 | 視覺化訓練器 | 影像分類
2024-07-02
視覺化
基於訓練和推理場景下的MindStudio高精度對比
2022-12-06
多對一處理和一對多處理的處理
2020-06-20
從DDPM到DDIM(三) DDPM的訓練與推理
2024-07-25
【經理人領導力突破訓練營】經理人必修課，如何成為成功的經理人？
2020-10-19
神經網路訓練的三個基本概念Epoch, Batch, Iteration
2019-05-20
神經網路BAT
【python實現卷積神經網路】開始訓練
2020-04-18
Python卷積神經網路
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
CPU（中央處理器）和GPU（影像處理器）的區別
2024-07-24
GPU
如何入門Pytorch之四：搭建神經網路訓練MNIST
2020-09-13
PyTorch神經網路
【機器學習】李宏毅——類神經網路訓練不起來怎麼辦
2022-12-15
機器學習神經網路
關於訓練神經網路的諸多技巧Tricks(完全總結版)
2018-11-09
神經網路
Bert-vits2-v2.2新版本本地訓練推理整合包(原神八重神子英文模型miko)
2023-12-18
模型
Workshop：產品經理小姐姐手把手教你訓練機器學習模型
2018-10-25
機器學習模型
人工智慧研究：經典推理和非經典推理
2019-01-08
人工智慧
銳龍處理器和酷睿處理器哪個好電腦處理器銳龍和酷睿哪個好一點
2022-04-24
神經網路之反向傳播訓練(8行程式碼)
2018-05-23
神經網路反向傳播行程
深度學習與CV教程(6) | 神經網路訓練技巧 (上)
2022-06-01
深度學習神經網路

一窺Habana的推理和訓練神經處理器​

Goya

Gaudi

相關文章

一窺Habana的推理和訓練神經處理器