用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?

naojiti發表於2020-05-22

在2012年的ImageNet挑戰賽(ILSVRC)上,深度卷積神經網路AlexNet橫空出世,在影像分類識別領域實現了質的飛躍,被認為是AI時代的標誌性事件,代表著深度學習時代的正式開端。

在此之前,深度學習“如何出圈”的一大挑戰,就是深度神經網路訓練面臨算力不足的難題。而讓AlexNet實現算力突破的關鍵,就在於當時研究者使用了英偉達的GPU。

GPU一戰成名,成為伴隨AI技術一同進化的基礎設施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長,英偉達GPU產品系列也經歷了多輪的升級。

現在,英偉達的GPU家族又迎來一次 “史上最大”的效能升級。而此次升級距離上一次釋出“地表最強AI晶片”Tesla V100已經過去三年。

三年蟄伏,一鳴驚人。

(NVIDIA A100 GPU)

英偉達首次推出第8代安培GPU架構,以及首款基於安培架構的NVIDIA A100 GPU,採用7nm工藝,在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個電晶體,電晶體數量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓練和推理算力上,均較上一代Volta架構提升20倍,HPC效能提升到上一代的2.5倍。

A100 GPU的獨特之處在於,作為一個端到端機器學習加速器,第一次在一個平臺上面統一了AI訓練和推理,同時也將作為資料分析、科學計算和雲圖形設計等通用工作負載的加速器。簡單來說A100 GPU就是為資料中心而生的。

在A100 GPU的基礎上,英偉達同時釋出了全球最強AI和HPC伺服器平臺——HGX A100,全球最先進的AI系統——DGX A100系統,以及由140個DGX A100系統組成的DGX SuperPOD叢集。此外,還有涉及智慧網路卡、邊緣AI伺服器、自動駕駛平臺合作以及一系列軟體層面的平臺型產品的釋出。

可以說,英偉達這次不是放出一顆“核彈”,而是一個“核彈叢集”,還是飽和攻擊的那種。英偉達從雲端到邊緣再到端側,從硬體到軟體再到開源生態,幾乎建立起一個堅不可摧的AI計算的壁壘,同時也將AI晶片的競爭帶上了一個小玩家難以企及的高度。

英偉達的AI伺服器晶片業務正在發生哪些新變化?A100 GPU的釋出,對於AI伺服器晶片市場有哪些影響,以及對於雲端計算市場帶來哪些變化?這成為我們在“看熱鬧”之餘,要重點探討的幾個問題。

AI伺服器晶片:英偉達AI計算增長新極點

眾所周知,遊戲、資料中心、專業視覺化以及自動駕駛等新興業務是英偉達的四大核心業務板塊。其中,遊戲業務雖仍然是營收的支柱板塊,但是受到PC遊戲市場趨於飽和並向移動端轉移的影響,獨顯業務的比重正在逐步縮小;專業視覺化業務一直為英偉達貢獻著穩定營收,但受其他業務增長的影響,業務佔比也在持續下滑;自動駕駛等新興業務板塊,目前只佔整體應收的很小部分,且增速有限,但可以看作是英偉達未來的長線市場。

(Nvidia: Sequential Revenue Change)

最明顯的則是英特爾在資料中心業務板塊的增長。近幾年中其營收大部分時間處於高速增長狀態,且營收佔比逐步靠近遊戲業務。

根據英偉達最新的2020財年Q4財報資料顯示,”遊戲“收入高達14.9億美元,約佔總營收的47%;而增長強勁的資料中心板塊,AI伺服器晶片的營收達到9.68億美元,同比增長了42.6%,,逼近10億美元大關,遠遠超出市場預期的8.29億美元。

整體上,隨著全球資料中心,特別是超大型資料中心,對AI晶片需求的加速擴張,英偉達的AI伺服器晶片也迎來了高速增長,正在躍升為英偉達最具有市場擴充潛力的業務分支。

從業務增長的前景上看,英偉達推出A100 GPU伺服器晶片以及AI系統叢集,所要把守住的正是在當前資料中心中AI伺服器市場的霸主地位。

那麼,英偉達正在如何構建這一AI伺服器晶片的產品體系呢?

一般來說,對於深度神經網路演算法模型,其模型框架的訓練需要涉及非常龐大的資料計算,但運算方法要求又相對簡單,所以需要在雲端進行大量高並行、高效率和高資料傳輸的運算。因此相較於擅長複雜邏輯運算、但核心數較少的CPU,擁有多個計算單元的GPU更適合於進行深度神經網路的訓練任務。

這是英偉達的GPU在全球雲端AI伺服器晶片市場,尤其是訓練端,贏得市場先機的根本原因。與此同時,英偉達針對一系列AI服務開發的完備的TESLA GPU產品線以及成功布局針對GPU的“CUDA”開發平臺,才是英偉達在AI伺服器晶片市場一家獨大的主要原因。

從2016年推出第一個專為深度學習最佳化的Pascal GPU,到2017年又推出效能相比Pascal提升5倍的新GPU架構Volta,再到現在推出比Volta效能高20倍的Ampere(安培)架構,英偉達在資料中心的GPU產品一直成功實現高速且穩定的效能提升。

此外,英偉達推出了神經網路推理加速器TensorRT,可以為深度學習應用提供低延遲、高吞吐率的部署推理加速,相容目前幾乎所有主流的深度學習框架,使其能夠滿足超大資料中心從AI訓練到部署推理的完整的AI構建。

而在去年3月,英偉達宣佈以68億美金收購了以色列網路通訊晶片公司Mellanox。透過對Mellanox的加速網路平臺的整合,英偉達可以解決透過智慧網路結構連線大量快速計算節點,以形成巨大的資料中心規模計算引擎的整體架構。

就在釋出A100 GPU的同時,英偉達也基於Mellanox技術,推出全球第一款高度安全、高效的25G/50G以太智慧網路卡SmartNIC,將廣泛應用於大型雲端計算資料中心,大幅最佳化網路及儲存的工作負載,實現AI計算的更高安全性和網路連線效能。

當然,收購Mellanox的意義不止於此,除了解決高效能的網路連線和算力輸出問題,英偉達還將也擁有GPU、SoC、NPU面向不同細分領域的三大處理器,這意味著英偉達已基本具備了獨立打造 AI 資料中心的能力。

整體上,隨著雲端資料中心正在從傳統的資料儲存向著進行深度學習、高效能運算(HPC)和大資料分析的方向演變,英偉達也將在其中扮演著更加重要的AI計算服務商的角色。

跨越英偉達的堅壁高牆,AI計算競賽加劇

當然,雲端AI伺服器晶片市場還遠未到格局已定的地步,反而在2019年迎來最激烈的競爭態勢。

英偉達的GPU產品,因其高耗能和高價格一直制約著雲端計算資料中心的AI算力的成本。從伺服器晶片市場的另一位大佬英特爾,到AMD、高通,雲端計算服務商亞馬遜、谷歌、阿里、華為以及眾多新興的AI晶片創業公司,都在積極投入雲端AI伺服器晶片的研發,尋求替代GPU的解決方案。可見天下苦“GPU”久矣。

在2019年,相比英偉達的略顯沉寂,其他各家則紛紛推出了自己的AI伺服器晶片產品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續推出或宣佈推出自己的專用AI伺服器晶片,試圖在AI推理運算上實現對GPU和FPGA的替代。年中,我國的主要雲端AI廠商也集體發力,寒武紀在6月宣佈推出第二代雲端AI晶片思雲270;8月,華為正式釋出算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月,阿里推出當時號稱全球最強的AI推理晶片含光800,基本都在對標英偉達的T4系列產品。

在所有AI晶片的競爭者中,作為第二名的英特爾顯然是最想挑戰英偉達的霸主位置,也是最有可能挑戰英偉達的代表。

作為通用伺服器晶片的傳統巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態中,也就是把CPU和GPU部署在一起,雲服務商們只需購買一家的產品,就能更好地發揮AI計算的效能。

在All IN AI的英特爾那裡,他們是如何來構建這一AI計算策略的?

英特爾最先補足的就是AI硬體平臺版圖,而收購則是最快的方案。2015年,英特爾先是天價收購了FPGA的製造商Altera,一年後又收購了Nervana,為全新一代AI加速器晶片組奠定了基礎。

去年12月,英特爾再次花掉20億美元高價收購了成立僅3年的以色列資料中心AI晶片製造商Habana Labs。與英偉達收購Mellanox一樣異曲同工,透過收購Habana,英特爾也將補足資料中心場景下的通訊和AI兩種能力。

受到這一收購的激勵,英特爾宣佈停止去年8月才釋出的用於AI訓練的Nervana NNP-T,轉而專注於推進Habana Labs的Gaudi和Goya處理器產品,以對標英偉達的tesla V100和推理晶片T4。此外,一款基於Xe架構的GPU也將在今年中旬面世。

在軟體層面,為應對異構計算帶來的挑戰,英偉達在去年11月釋出了OneAPI公開發行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來簡化和統一這些跨SVMS架構的創新,以釋放硬體效能。

儘管英特爾以“全力以赴”的姿態投入到AI計算當中,透過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI晶片產品陣列,並建立了廣泛適用的軟硬體生態。但是在挑戰英偉達的通用GPU產品上面,仍然還有一定距離。

首先,英特爾透過CPU適用於AI計算的策略一直未能得到主要雲端計算廠商的青睞,大多數廠商仍然樂於選擇CPU+GPU或FPGA的方案來部署其AI訓練的硬體方案。而GPU仍然是英偉達的主場,V100和T4仍然是當下資料中心主流的通用GPU和推理加速器。

其次,英特爾在AI晶片的佈局才剛剛發力,受到Nervana AI晶片一再延遲的影響,Habana產品才剛剛開始進行整合,這將使得英特爾短期內難以挑戰英偉達的AI伺服器晶片的市場份額。

而現在英偉達最新的安培架構的A100 GPU以及AI系統叢集的釋出,更是給英特爾以及市場其他競爭對手一場飽和攻擊。儘管說,長期來看雲端計算廠商和AI伺服器晶片廠商開發的定製晶片會侵蝕一部分GPU的份額,而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高牆。

AI計算升級,帶來資料中心全新佈局方案

我們先看資料中心本身的變化。受到AI相關應用需求和場景的爆發式增長,中小型資料中心無法承受如此巨量的“AI計算之痛”,市場對超大型資料中心的需求越發強烈。

第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在佔據超大型資料中心的主要市場份額。一方面,超大型資料中心將帶來更多的伺服器及配套硬體的增長;另一方面,AI演算法的複雜度增加和AI處理任務的持續增長,又需要伺服器的配置以及結構得到持續升級。

在一些視覺識別為主的AI企業,建立一個超算中心就需要部署上萬塊GPU,對於那些TOP級雲服務商的雲端計算資料中心,為支援深度學習訓練任務,所需要的GPU量級也將是海量級別。

第二,雲服務廠商都在推出自研的晶片,來緩解因為價格昂貴和資料量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理晶片,以節省GPU的通用算力。但這些推理晶片只在通用性上面的不足,造成其很難突破自研自用的局面。

那麼,英偉達的A100 GPU晶片的釋出,對雲端計算資料中心帶來哪些新的變化呢?或者說為AI伺服器晶片的對手們設立了怎樣的門檻呢?

首先,作為採用全新的安培架構的A100 GPU,支援每秒1.5TB的緩衝頻寬處理,支援TF32 運算和FP64雙精度運算,分別帶來高達20倍FP32的AI計算效能和HPC應用2.5倍的效能提升。此外還包括MIG 新架構、NVLink 3.0以及AI運算結構的稀疏性等特性,這些使得 A100 加速卡不僅可用於AI訓練和AI推理,還可以用於科學模擬、AI對話、基因組與高效能資料分析、地震建模及財務計算等多種通用計算能力。而這一解決方案有可能緩解很多雲服務廠商在推理上面的計算壓力,也對其他廠商的推理晶片帶來一定的競爭壓力。

其次,英偉達釋出的第三代的DGX A100的AI系統在提高吞吐量同時,大幅降低資料中心的成本。由於A100內建了新的彈性計算技術,可以分散式的方式進行靈活拆分,多例項 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的例項來推斷任務,同時也可以將多個A100作為一個巨型 GPU 執行,以完成更大的訓練任務。

(“The more you buy,the more money you save!”)

用黃仁勳舉的例子來說,一個典型的AI資料中心有50個DGX-1系統用於AI訓練,600個CPU系統用於AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元;而完成同樣的工作,一個由5個DGX A100系統組成的機架,達到相同的效能要求,只用1個機架,消耗28kW功率,花費約100萬美元。

也就是說,DGX A100系統用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI資料中心。

總體而言,英偉達用一套效能驚人又極具創新性的AI計算架構與AI伺服器晶片硬體,帶來了AI資料中心計算平臺的全新升級。英偉達的野心將不再只是提供效能升級的GPU硬體產品,而是要重新定義資料中心的AI計算的規則,將資料中心視作基本的計算單元。

實際來講,一個DGX A100 GPU系統的單價就要20萬美元,對於要為了AI訓練而採購成千上萬塊企業級GPU的雲端計算廠商來說,可想而知成本將有多高。現在,也只有全球主要的雲端計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。

對於其他競爭對手而言,英偉達這次在AI伺服器晶片及AI資料中心計算平臺鑄就的堅壁高牆,似乎在短期內難以逾越。同時,也會成為未來幾年,AI伺服器晶片廠商努力去對標的效能標準。當然,對英偉達A100的挑戰,也自然就此開始。至於是英特爾、AMD還是AWS、谷歌,我們拭目以待。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2693756/,如需轉載,請註明出處,否則將追究法律責任。

相關文章