用Habana取代Nervana!英特爾為何這樣做?

半導體行業觀察發表於2020-02-03

Intel收購Nervana:Intel在AI領域的第一個大動作

我們首先分析一下Nervana Spring Crest系列產品的由來。為此,我們需要先介紹一下Nervana Systems這家三年前被Intel收購的公司。

Nervana Systems成立於2014年,是一家在AI尚未真正成為風口時就宣佈做AI底層架構的初創公司,其投資人包括DCVC、Lux等頂級矽谷風投。2015年,Nervana在深度學習領域釋出了其主要產品,即深度學習底層框架Neon。Neon是一個為深度學習仔細優化的底層框架,在運算元層級擁有很高的效率。Neon最初是執行在Nvidia GPU上,然而其效能比起Nvidia的親兒子CuDNN都要強不少。2015年正是Caffe等深度學習框架火熱的時候,而Neon憑藉其卓越的效能自然獲得了大家的關注。

用Habana取代Nervana!英特爾為何這樣做?
在憑藉Neon一炮而紅後,Nervana在2016年初宣佈了其更加野心勃勃的計劃,即Nervana Cloud。在Nervana Cloud中,Nervana將會把Neon框架執行在其為Neon專門優化的Nervana Engine晶片上。Nervana宣佈這樣的組合將會實現10倍於Nvidia Titan X的效能。可以說,在大多數半導體公司對於AI還持觀望態度的2016年初,Nervana宣佈這樣大計劃可謂是站在了時代的前沿。而且,Nervana對於市場的判斷非常準確:因為就在不久之後,AI晶片就成為了為整個行業公認的風口,而Nervana也在2016年下半年被Intel以4億美元收購。在收購的時候,Nervana並沒有釋出任何晶片細節:我們可以估計在收購時,大概率Nervana還只有一個晶片架構設計,並沒有真正的晶片原型,更沒有晶片產品。

在Nervana被Intel收購之後,其產品也逐漸融入Intel的產品路線圖。然而,Nervana預想中的Nervana Engine進度並不順利。在被收購後,Nervana Engine重新定名為Crest系列。2017年初,Intel釋出了Nervana Lake Crest的一些細節,並且宣佈2017年上半年將會有晶片成品。到了2018年中,Intel宣佈Lake Crest只是一個試用版的原型產品,而正式的晶片產品命名為Spring Crest,將會於2019年正式發售。在那個時候,Lake Crest的效能指標為12核,32GB HBM記憶體,峰值算力為38TOP/s。在2019年八月的Hot Chips,Intel又釋出了Nervana晶片的相關更新:Nervana將發售兩種晶片,一種是針對伺服器端訓練應用的Spring Crest NNP-T,它將具有119TOPS的峰值算力,並且通過CoWoS高階封裝技術實現多晶片互聯;而另一款則是針對邊緣計算的Spring Hill NNP-I,功耗10W,能效比為4.6TOPS/W。然而,在2019年我們並未得到Spring Crest系列真正商用的訊息,直到最近才得到它已經被取消的新聞。
用Habana取代Nervana!英特爾為何這樣做?
Intel在2017年釋出的Nervana Lake Crest架構,擁有Tensor-based architecture、Flexpoint、Silicon Interposer等多個熱門詞彙
靠譜的Habana

相比產品遲遲不能量產的Nervana,來自以色列的初創公司Habana可以說是實在也靠譜多了。
Habana的晶片分為兩個系列,即針對訓練的Gaudi系列和針對推理的Goya系列。與Nervana最大的不同在於,Habana的兩個晶片系列目前都已經有成品晶片供客戶使用,目前據悉已經收穫了一些資料中心客戶的青睞。

Habana的晶片架構可以用“實在”來概括。其架構並沒有用許多花哨的概念性技術——在技術白皮書中,Habana直接明瞭地告訴大家其架構就是VLIW SIMD,一種廣為人知的架構。
用Habana取代Nervana!英特爾為何這樣做?
VLIW和SIMD技術早在上世紀就已經提出,到今天已經擁有超過20年的歷史。其中,SIMD(單指令流多資料流)架構的核心是利用資料並行性,讓處理器只需要一條指令就能處理大量並行資料,該技術早已或多或少地應用在高效能運算處理器中(例如GPU使用的SIMT技術可以認為是SIMD技術的一種衍生)。SIMD對於存在大量資料並行的深度學習來說非常合適,這也是Habana在其深度學習加速晶片中使用SIMD的主要原因。

VLIW技術(超長指令字)則是另一個用於平行計算的重要技術,其核心是讓編譯器去找出在一個指令中能並行執行並充分利用處理器資源的多個計算操作。在通用計算時代,VLIW曾遭遇了一次失敗(本世紀初的Intel的Itanium系列),因為在通用計算時代程式中會有大量的分支判斷,從而造成靜態編譯器難以預測可以並行操作的指令,造成效能損失。然而,VLIW並未被人拋棄,在20年間VLIW在DSP等計算較為規整的應用領域獲得了一席之地,直到今天深度學習時代又重現江湖。在深度學習應用中,計算很規整,因此編譯器可以很好地預測操作並行性並作相應排程。而一旦使用VLIW,則用於深度學習加速的處理器可以省去傳統超標量處理器中複雜的片上硬體排程模組,從而可以把晶片面積留給真正用於計算的單元。

可以說Habana使用了兩個廣為人知(但是非常適合深度學習)的技術實打實地把晶片做了出來,並且在工程上把細節做到了完美。事實上,我們認為Habana晶片的工程量並不小,尤其是在硬體之外的軟體編譯器部分——因為VLIW需要一個非常高效的編譯器才能保證其效能,即使是在計算較規整的深度學習應用,做好這樣的編譯器也並不容易。

基於其紮實的產品,Habana已經開始了與多個雲端資料中心客戶的合作,並且於去年底被Intel收購。

Intel需要什麼樣的AI晶片產品

對於Intel來說,在錯過了移動計算之後,人工智慧時代不能再錯過了。目前來看,Intel在人工智慧領域的終端計算(收購Movidius)、邊緣計算和雲端計算都有佈局,但是重中之重還是利用Intel一直以來在雲資料中心的強勢地位來確保打下雲端計算人工智慧晶片市場。這也是它接連收購Nervana和Habana這兩家雲端人工智慧晶片公司原因。

那麼,Intel究竟需要什麼樣的晶片產品呢?首先,Intel需要一個能按時交付不跳票的產品。在這個時間點上,雲端人工智慧晶片在幾年內成為資料中心的剛需已成定局,如果Intel沒法在近期打破Nvidia的壟斷真正打入雲端人工智慧晶片市場,那麼未來想要打入會越來越困難。更關鍵的是,目前雲資料中心的幾大巨頭都在自己佈局晶片,例如Google已經有了TPU,Amazon、阿里巴巴自研的深度學習加速晶片也已經流片完成,騰訊也投資了本土的GPU初創公司燧原,因此如果等到幾年後雲資料中心都開始使用自研晶片的時候,Intel就更難打入這個市場了。這也是Intel使用已經有產品的Habana替代遲遲不能交付的Nervana最關鍵的原因。

其次,從技術上來說,雲端晶片最關鍵的門檻在於可擴充套件性,即如何能保證雲端晶片在大規模部署(包括一機多卡,多機等情形)的時候,其總體效能可以保持接近線性增長。可擴充套件性門檻高的原因是它是一個系統工程,並非是把單晶片效能做好就行了——要做到可擴充套件性,需要在設計晶片的同時就考慮其與其他晶片通訊的能力,同時需要在軟體上也給予大量的支援才能讓整個系統的效能充分發揮。這事實上需要非常高的工程量,同時也需要團隊能對於整個分散式系統有深入的理解才能把系統做好。我們看到,Habana在這方面交出了令人滿意的答卷:Habana的晶片上自帶RDMA模組,因此可以支援大規模的分散式計算;另外,在設計底層編譯器和軟體架構的時候也充分考慮了軟硬體協同系統設計,因此Habana的可擴充套件性非常好。根據官方公佈的數字,其分散式總體效能甚至在處理器數量大於600的時候也能接近線性,從而比起同樣處理器數量的Nvidia V100 GPU,其訓練效能提高了接近4倍,這是一個非常了不起的結果,其中必定包含了大量晶片和軟體/演算法工程師的努力。
用Habana取代Nervana!英特爾為何這樣做?
綜合以上的分析,我們認為Intel用Habana Gaudi系列產品代替原計劃中的Nervana Spring Crest可以概括為是“高質量系統工程的勝利”。之後Intel在雲端人工智慧晶片領域能否真正開啟市場,讓我們拭目以待。

相關文章