用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?
在2012年的ImageNet挑戰賽(ILSVRC)上,深度卷積神經網路AlexNet橫空出世,在影像分類識別領域實現了質的飛躍,被認為是AI時代的標誌性事件,代表著深度學習時代的正式開端。
在此之前,深度學習“如何出圈”的一大挑戰,就是深度神經網路訓練面臨算力不足的難題。而讓AlexNet實現算力突破的關鍵,就在於當時研究者使用了英偉達的GPU。
GPU一戰成名,成為伴隨AI技術一同進化的基礎設施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長,英偉達GPU產品系列也經歷了多輪的升級。
現在,英偉達的GPU家族又迎來一次 “史上最大”的效能升級。而此次升級距離上一次釋出“地表最強AI晶片”Tesla V100已經過去三年。
三年蟄伏,一鳴驚人。
(NVIDIA A100 GPU)
英偉達首次推出第8代安培GPU架構,以及首款基於安培架構的NVIDIA A100 GPU,採用7nm工藝,在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個電晶體,電晶體數量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓練和推理算力上,均較上一代Volta架構提升20倍,HPC效能提升到上一代的2.5倍。
A100 GPU的獨特之處在於,作為一個端到端機器學習加速器,第一次在一個平臺上面統一了AI訓練和推理,同時也將作為資料分析、科學計算和雲圖形設計等通用工作負載的加速器。簡單來說A100 GPU就是為資料中心而生的。
在A100 GPU的基礎上,英偉達同時釋出了全球最強AI和HPC伺服器平臺——HGX A100,全球最先進的AI系統——DGX A100系統,以及由140個DGX A100系統組成的DGX SuperPOD叢集。此外,還有涉及智慧網路卡、邊緣AI伺服器、自動駕駛平臺合作以及一系列軟體層面的平臺型產品的釋出。
可以說,英偉達這次不是放出一顆“核彈”,而是一個“核彈叢集”,還是飽和攻擊的那種。英偉達從雲端到邊緣再到端側,從硬體到軟體再到開源生態,幾乎建立起一個堅不可摧的AI計算的壁壘,同時也將AI晶片的競爭帶上了一個小玩家難以企及的高度。
英偉達的AI伺服器晶片業務正在發生哪些新變化?A100 GPU的釋出,對於AI伺服器晶片市場有哪些影響,以及對於雲端計算市場帶來哪些變化?這成為我們在“看熱鬧”之餘,要重點探討的幾個問題。
AI伺服器晶片:英偉達AI計算增長新極點
眾所周知,遊戲、資料中心、專業視覺化以及自動駕駛等新興業務是英偉達的四大核心業務板塊。其中,遊戲業務雖仍然是營收的支柱板塊,但是受到PC遊戲市場趨於飽和並向移動端轉移的影響,獨顯業務的比重正在逐步縮小;專業視覺化業務一直為英偉達貢獻著穩定營收,但受其他業務增長的影響,業務佔比也在持續下滑;自動駕駛等新興業務板塊,目前只佔整體應收的很小部分,且增速有限,但可以看作是英偉達未來的長線市場。
(Nvidia: Sequential Revenue Change)
最明顯的則是英特爾在資料中心業務板塊的增長。近幾年中其營收大部分時間處於高速增長狀態,且營收佔比逐步靠近遊戲業務。
根據英偉達最新的2020財年Q4財報資料顯示,”遊戲“收入高達14.9億美元,約佔總營收的47%;而增長強勁的資料中心板塊,AI伺服器晶片的營收達到9.68億美元,同比增長了42.6%,,逼近10億美元大關,遠遠超出市場預期的8.29億美元。
整體上,隨著全球資料中心,特別是超大型資料中心,對AI晶片需求的加速擴張,英偉達的AI伺服器晶片也迎來了高速增長,正在躍升為英偉達最具有市場擴充潛力的業務分支。
從業務增長的前景上看,英偉達推出A100 GPU伺服器晶片以及AI系統叢集,所要把守住的正是在當前資料中心中AI伺服器市場的霸主地位。
那麼,英偉達正在如何構建這一AI伺服器晶片的產品體系呢?
一般來說,對於深度神經網路演算法模型,其模型框架的訓練需要涉及非常龐大的資料計算,但運算方法要求又相對簡單,所以需要在雲端進行大量高並行、高效率和高資料傳輸的運算。因此相較於擅長複雜邏輯運算、但核心數較少的CPU,擁有多個計算單元的GPU更適合於進行深度神經網路的訓練任務。
這是英偉達的GPU在全球雲端AI伺服器晶片市場,尤其是訓練端,贏得市場先機的根本原因。與此同時,英偉達針對一系列AI服務開發的完備的TESLA GPU產品線以及成功布局針對GPU的“CUDA”開發平臺,才是英偉達在AI伺服器晶片市場一家獨大的主要原因。
從2016年推出第一個專為深度學習最佳化的Pascal GPU,到2017年又推出效能相比Pascal提升5倍的新GPU架構Volta,再到現在推出比Volta效能高20倍的Ampere(安培)架構,英偉達在資料中心的GPU產品一直成功實現高速且穩定的效能提升。
此外,英偉達推出了神經網路推理加速器TensorRT,可以為深度學習應用提供低延遲、高吞吐率的部署推理加速,相容目前幾乎所有主流的深度學習框架,使其能夠滿足超大資料中心從AI訓練到部署推理的完整的AI構建。
而在去年3月,英偉達宣佈以68億美金收購了以色列網路通訊晶片公司Mellanox。透過對Mellanox的加速網路平臺的整合,英偉達可以解決透過智慧網路結構連線大量快速計算節點,以形成巨大的資料中心規模計算引擎的整體架構。
就在釋出A100 GPU的同時,英偉達也基於Mellanox技術,推出全球第一款高度安全、高效的25G/50G以太智慧網路卡SmartNIC,將廣泛應用於大型雲端計算資料中心,大幅最佳化網路及儲存的工作負載,實現AI計算的更高安全性和網路連線效能。
當然,收購Mellanox的意義不止於此,除了解決高效能的網路連線和算力輸出問題,英偉達還將也擁有GPU、SoC、NPU面向不同細分領域的三大處理器,這意味著英偉達已基本具備了獨立打造 AI 資料中心的能力。
整體上,隨著雲端資料中心正在從傳統的資料儲存向著進行深度學習、高效能運算(HPC)和大資料分析的方向演變,英偉達也將在其中扮演著更加重要的AI計算服務商的角色。
跨越英偉達的堅壁高牆,AI計算競賽加劇
當然,雲端AI伺服器晶片市場還遠未到格局已定的地步,反而在2019年迎來最激烈的競爭態勢。
英偉達的GPU產品,因其高耗能和高價格一直制約著雲端計算資料中心的AI算力的成本。從伺服器晶片市場的另一位大佬英特爾,到AMD、高通,雲端計算服務商亞馬遜、谷歌、阿里、華為以及眾多新興的AI晶片創業公司,都在積極投入雲端AI伺服器晶片的研發,尋求替代GPU的解決方案。可見天下苦“GPU”久矣。
在2019年,相比英偉達的略顯沉寂,其他各家則紛紛推出了自己的AI伺服器晶片產品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續推出或宣佈推出自己的專用AI伺服器晶片,試圖在AI推理運算上實現對GPU和FPGA的替代。年中,我國的主要雲端AI廠商也集體發力,寒武紀在6月宣佈推出第二代雲端AI晶片思雲270;8月,華為正式釋出算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月,阿里推出當時號稱全球最強的AI推理晶片含光800,基本都在對標英偉達的T4系列產品。
在所有AI晶片的競爭者中,作為第二名的英特爾顯然是最想挑戰英偉達的霸主位置,也是最有可能挑戰英偉達的代表。
作為通用伺服器晶片的傳統巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態中,也就是把CPU和GPU部署在一起,雲服務商們只需購買一家的產品,就能更好地發揮AI計算的效能。
在All IN AI的英特爾那裡,他們是如何來構建這一AI計算策略的?
英特爾最先補足的就是AI硬體平臺版圖,而收購則是最快的方案。2015年,英特爾先是天價收購了FPGA的製造商Altera,一年後又收購了Nervana,為全新一代AI加速器晶片組奠定了基礎。
去年12月,英特爾再次花掉20億美元高價收購了成立僅3年的以色列資料中心AI晶片製造商Habana Labs。與英偉達收購Mellanox一樣異曲同工,透過收購Habana,英特爾也將補足資料中心場景下的通訊和AI兩種能力。
受到這一收購的激勵,英特爾宣佈停止去年8月才釋出的用於AI訓練的Nervana NNP-T,轉而專注於推進Habana Labs的Gaudi和Goya處理器產品,以對標英偉達的tesla V100和推理晶片T4。此外,一款基於Xe架構的GPU也將在今年中旬面世。
在軟體層面,為應對異構計算帶來的挑戰,英偉達在去年11月釋出了OneAPI公開發行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來簡化和統一這些跨SVMS架構的創新,以釋放硬體效能。
儘管英特爾以“全力以赴”的姿態投入到AI計算當中,透過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI晶片產品陣列,並建立了廣泛適用的軟硬體生態。但是在挑戰英偉達的通用GPU產品上面,仍然還有一定距離。
首先,英特爾透過CPU適用於AI計算的策略一直未能得到主要雲端計算廠商的青睞,大多數廠商仍然樂於選擇CPU+GPU或FPGA的方案來部署其AI訓練的硬體方案。而GPU仍然是英偉達的主場,V100和T4仍然是當下資料中心主流的通用GPU和推理加速器。
其次,英特爾在AI晶片的佈局才剛剛發力,受到Nervana AI晶片一再延遲的影響,Habana產品才剛剛開始進行整合,這將使得英特爾短期內難以挑戰英偉達的AI伺服器晶片的市場份額。
而現在英偉達最新的安培架構的A100 GPU以及AI系統叢集的釋出,更是給英特爾以及市場其他競爭對手一場飽和攻擊。儘管說,長期來看雲端計算廠商和AI伺服器晶片廠商開發的定製晶片會侵蝕一部分GPU的份額,而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高牆。
AI計算升級,帶來資料中心全新佈局方案
我們先看資料中心本身的變化。受到AI相關應用需求和場景的爆發式增長,中小型資料中心無法承受如此巨量的“AI計算之痛”,市場對超大型資料中心的需求越發強烈。
第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在佔據超大型資料中心的主要市場份額。一方面,超大型資料中心將帶來更多的伺服器及配套硬體的增長;另一方面,AI演算法的複雜度增加和AI處理任務的持續增長,又需要伺服器的配置以及結構得到持續升級。
在一些視覺識別為主的AI企業,建立一個超算中心就需要部署上萬塊GPU,對於那些TOP級雲服務商的雲端計算資料中心,為支援深度學習訓練任務,所需要的GPU量級也將是海量級別。
第二,雲服務廠商都在推出自研的晶片,來緩解因為價格昂貴和資料量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理晶片,以節省GPU的通用算力。但這些推理晶片只在通用性上面的不足,造成其很難突破自研自用的局面。
那麼,英偉達的A100 GPU晶片的釋出,對雲端計算資料中心帶來哪些新的變化呢?或者說為AI伺服器晶片的對手們設立了怎樣的門檻呢?
首先,作為採用全新的安培架構的A100 GPU,支援每秒1.5TB的緩衝頻寬處理,支援TF32 運算和FP64雙精度運算,分別帶來高達20倍FP32的AI計算效能和HPC應用2.5倍的效能提升。此外還包括MIG 新架構、NVLink 3.0以及AI運算結構的稀疏性等特性,這些使得 A100 加速卡不僅可用於AI訓練和AI推理,還可以用於科學模擬、AI對話、基因組與高效能資料分析、地震建模及財務計算等多種通用計算能力。而這一解決方案有可能緩解很多雲服務廠商在推理上面的計算壓力,也對其他廠商的推理晶片帶來一定的競爭壓力。
其次,英偉達釋出的第三代的DGX A100的AI系統在提高吞吐量同時,大幅降低資料中心的成本。由於A100內建了新的彈性計算技術,可以分散式的方式進行靈活拆分,多例項 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的例項來推斷任務,同時也可以將多個A100作為一個巨型 GPU 執行,以完成更大的訓練任務。
(“The more you buy,the more money you save!”)
用黃仁勳舉的例子來說,一個典型的AI資料中心有50個DGX-1系統用於AI訓練,600個CPU系統用於AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元;而完成同樣的工作,一個由5個DGX A100系統組成的機架,達到相同的效能要求,只用1個機架,消耗28kW功率,花費約100萬美元。
也就是說,DGX A100系統用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI資料中心。
總體而言,英偉達用一套效能驚人又極具創新性的AI計算架構與AI伺服器晶片硬體,帶來了AI資料中心計算平臺的全新升級。英偉達的野心將不再只是提供效能升級的GPU硬體產品,而是要重新定義資料中心的AI計算的規則,將資料中心視作基本的計算單元。
實際來講,一個DGX A100 GPU系統的單價就要20萬美元,對於要為了AI訓練而採購成千上萬塊企業級GPU的雲端計算廠商來說,可想而知成本將有多高。現在,也只有全球主要的雲端計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。
對於其他競爭對手而言,英偉達這次在AI伺服器晶片及AI資料中心計算平臺鑄就的堅壁高牆,似乎在短期內難以逾越。同時,也會成為未來幾年,AI伺服器晶片廠商努力去對標的效能標準。當然,對英偉達A100的挑戰,也自然就此開始。至於是英特爾、AMD還是AWS、谷歌,我們拭目以待。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2693756/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 不止 5G 和鴻蒙,華為最新大招,扔出 AI 計算核彈鴻蒙AI
- 什麼是資料中毒?如何防範攻擊者的AI和ML攻擊?AI
- AI和ML如何幫助對抗網路攻擊?AI
- AI攻擊技術和測試研究框架解鎖新視野~用技術對抗技術AI框架
- 英偉達的AI晶片霸主之路!AI晶片
- 三種使用AI攻擊網路安全的方法AI
- 深蘭科技的征途,AI的賽場與戰場AI
- 新火種AI|美光、英偉達大漲,AI引爆後,晶片行業寒冬已過?AI晶片行業
- 英:AI技術軍事化比核彈更加危險AI
- HPE和英偉達如何為企業AI提供一條龍服務?AI
- 模型被投毒攻擊,如今有了新的安全手段,還被AI頂刊接收模型AI
- 如何打贏一場 DevOps 阻擊戰dev
- 人類模仿AI新賽道,AI:論瘋癲,你是我爹AI
- 雲端計算pk本地:誰是生成式AI的未來戰場?AI
- 如何應對AI帶來的衝擊AI
- CNNIC:PC個人市場趨於飽和,何不轉攻企業市場?CNN
- 【AI晶片】AI晶片卡位戰:誰贏得自動駕駛處理器,誰就贏得了AI時代AI晶片自動駕駛
- 阿里雲視覺AI開發者創新應用賽十強誕生,看各路玩家如何“低程式碼”創作AI應用阿里視覺AI
- 探索ChatGPT和新的AI時代ChatGPTAI
- 華西證券:AI領強算力時代,GPU啟新場景落地(附下載)AIGPU
- AI新利器,英偉達推出新一代超強GPUAIGPU
- 5G時代下的AI應用場景展望(附下載)AI
- 英偉達與AI晶片的未來之戰AI晶片
- AI計算,風起歐洲AI
- 英偉達新技術引領AI市場,目標股價再創新高至350美元AI
- [計算機網路]網路攻擊計算機網路
- 用 JavaScript 對抗 DDOS 攻擊 (下)JavaScript
- ASC22世界超算大賽開戰,語言大模型和AI+Science尖端應用成賽題大模型AI
- 英偉達 GTC 大會不僅有 AI 晶片,還有 AI for ScienceAI晶片
- 剛剛,華為全場景 AI 計算框架MindSpore開源!AI框架
- RTE 大會報名丨 AI 時代新基建:雲邊端架構和 AI Infra ,RTE2024 技術專場第二彈!AI架構
- 【AI生圖贏獎】用函式計算繪出「少年江湖」,與熱播網劇夢幻聯動AI函式
- AI 白皮書:贏家、輸家AI
- 從頭設計「超難」癌症抗體,大衛貝克團隊AI生物計算方法的新應用AI
- 英偉達CEO黃仁勳:GPU是AI時代利器,釋出全球首款可程式設計AI引擎GPUAI程式設計
- 計算機視覺逼近賽點,高估值AI公司的焦慮與未來計算機視覺AI
- 攻擊JavaWeb應用————8、Server篇(下)JavaWebServer
- 【AI晶片】應用和架構創新雙輪驅動AI晶片發展報告;AI的豐富應用與晶片發展AI晶片架構