用“AI核彈”飽和攻擊的英偉達，如何贏下AI計算新賽場？

naojiti發表於2020-05-22

原文網址 : http://blog.itpub.net/31561483/viewspace-2693756/

在2012年的ImageNet挑戰賽(ILSVRC)上，深度卷積神經網路AlexNet橫空出世，在影像分類識別領域實現了質的飛躍，被認為是AI時代的標誌性事件，代表著深度學習時代的正式開端。

在此之前，深度學習“如何出圈”的一大挑戰，就是深度神經網路訓練面臨算力不足的難題。而讓AlexNet實現算力突破的關鍵，就在於當時研究者使用了英偉達的GPU。

GPU一戰成名，成為伴隨AI技術一同進化的基礎設施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長，英偉達GPU產品系列也經歷了多輪的升級。

現在，英偉達的GPU家族又迎來一次 “史上最大”的效能升級。而此次升級距離上一次釋出“地表最強AI晶片”Tesla V100已經過去三年。

三年蟄伏，一鳴驚人。

(NVIDIA A100 GPU)

英偉達首次推出第8代安培GPU架構，以及首款基於安培架構的NVIDIA A100 GPU，採用7nm工藝，在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個電晶體，電晶體數量增長了2.5倍，但尺寸卻僅大了1.3%，而在AI訓練和推理算力上，均較上一代Volta架構提升20倍，HPC效能提升到上一代的2.5倍。

A100 GPU的獨特之處在於，作為一個端到端機器學習加速器，第一次在一個平臺上面統一了AI訓練和推理，同時也將作為資料分析、科學計算和雲圖形設計等通用工作負載的加速器。簡單來說A100 GPU就是為資料中心而生的。

在A100 GPU的基礎上，英偉達同時釋出了全球最強AI和HPC伺服器平臺——HGX A100，全球最先進的AI系統——DGX A100系統，以及由140個DGX A100系統組成的DGX SuperPOD叢集。此外，還有涉及智慧網路卡、邊緣AI伺服器、自動駕駛平臺合作以及一系列軟體層面的平臺型產品的釋出。

可以說，英偉達這次不是放出一顆“核彈”，而是一個“核彈叢集”，還是飽和攻擊的那種。英偉達從雲端到邊緣再到端側，從硬體到軟體再到開源生態，幾乎建立起一個堅不可摧的AI計算的壁壘，同時也將AI晶片的競爭帶上了一個小玩家難以企及的高度。

英偉達的AI伺服器晶片業務正在發生哪些新變化?A100 GPU的釋出，對於AI伺服器晶片市場有哪些影響，以及對於雲端計算市場帶來哪些變化?這成為我們在“看熱鬧”之餘，要重點探討的幾個問題。

AI伺服器晶片：英偉達AI計算增長新極點

眾所周知，遊戲、資料中心、專業視覺化以及自動駕駛等新興業務是英偉達的四大核心業務板塊。其中，遊戲業務雖仍然是營收的支柱板塊，但是受到PC遊戲市場趨於飽和並向移動端轉移的影響，獨顯業務的比重正在逐步縮小;專業視覺化業務一直為英偉達貢獻著穩定營收，但受其他業務增長的影響，業務佔比也在持續下滑;自動駕駛等新興業務板塊，目前只佔整體應收的很小部分，且增速有限，但可以看作是英偉達未來的長線市場。

(Nvidia: Sequential Revenue Change)

最明顯的則是英特爾在資料中心業務板塊的增長。近幾年中其營收大部分時間處於高速增長狀態，且營收佔比逐步靠近遊戲業務。

根據英偉達最新的2020財年Q4財報資料顯示，”遊戲“收入高達14.9億美元，約佔總營收的47%;而增長強勁的資料中心板塊，AI伺服器晶片的營收達到9.68億美元，同比增長了42.6%，，逼近10億美元大關，遠遠超出市場預期的8.29億美元。

整體上，隨著全球資料中心，特別是超大型資料中心，對AI晶片需求的加速擴張，英偉達的AI伺服器晶片也迎來了高速增長，正在躍升為英偉達最具有市場擴充潛力的業務分支。

從業務增長的前景上看，英偉達推出A100 GPU伺服器晶片以及AI系統叢集，所要把守住的正是在當前資料中心中AI伺服器市場的霸主地位。

那麼，英偉達正在如何構建這一AI伺服器晶片的產品體系呢?

一般來說，對於深度神經網路演算法模型，其模型框架的訓練需要涉及非常龐大的資料計算，但運算方法要求又相對簡單，所以需要在雲端進行大量高並行、高效率和高資料傳輸的運算。因此相較於擅長複雜邏輯運算、但核心數較少的CPU，擁有多個計算單元的GPU更適合於進行深度神經網路的訓練任務。

這是英偉達的GPU在全球雲端AI伺服器晶片市場，尤其是訓練端，贏得市場先機的根本原因。與此同時，英偉達針對一系列AI服務開發的完備的TESLA GPU產品線以及成功布局針對GPU的“CUDA”開發平臺，才是英偉達在AI伺服器晶片市場一家獨大的主要原因。

從2016年推出第一個專為深度學習優化的Pascal GPU，到2017年又推出效能相比Pascal提升5倍的新GPU架構Volta，再到現在推出比Volta效能高20倍的Ampere(安培)架構，英偉達在資料中心的GPU產品一直成功實現高速且穩定的效能提升。

此外，英偉達推出了神經網路推理加速器TensorRT，可以為深度學習應用提供低延遲、高吞吐率的部署推理加速，相容目前幾乎所有主流的深度學習框架，使其能夠滿足超大資料中心從AI訓練到部署推理的完整的AI構建。

而在去年3月，英偉達宣佈以68億美金收購了以色列網路通訊晶片公司Mellanox。通過對Mellanox的加速網路平臺的整合，英偉達可以解決通過智慧網路結構連線大量快速計算節點，以形成巨大的資料中心規模計算引擎的整體架構。

就在釋出A100 GPU的同時，英偉達也基於Mellanox技術，推出全球第一款高度安全、高效的25G/50G以太智慧網路卡SmartNIC，將廣泛應用於大型雲端計算資料中心，大幅優化網路及儲存的工作負載，實現AI計算的更高安全性和網路連線效能。

當然，收購Mellanox的意義不止於此，除了解決高效能的網路連線和算力輸出問題，英偉達還將也擁有GPU、SoC、NPU面向不同細分領域的三大處理器，這意味著英偉達已基本具備了獨立打造 AI 資料中心的能力。

整體上，隨著雲端資料中心正在從傳統的資料儲存向著進行深度學習、高效能運算(HPC)和大資料分析的方向演變，英偉達也將在其中扮演著更加重要的AI計算服務商的角色。

跨越英偉達的堅壁高牆，AI計算競賽加劇

當然，雲端AI伺服器晶片市場還遠未到格局已定的地步，反而在2019年迎來最激烈的競爭態勢。

英偉達的GPU產品，因其高耗能和高價格一直制約著雲端計算資料中心的AI算力的成本。從伺服器晶片市場的另一位大佬英特爾，到AMD、高通，雲端計算服務商亞馬遜、谷歌、阿里、華為以及眾多新興的AI晶片創業公司，都在積極投入雲端AI伺服器晶片的研發，尋求替代GPU的解決方案。可見天下苦“GPU”久矣。

在2019年，相比英偉達的略顯沉寂，其他各家則紛紛推出了自己的AI伺服器晶片產品。比如去年上半年，英特爾、亞馬遜、Facebook以及高通都陸續推出或宣佈推出自己的專用AI伺服器晶片，試圖在AI推理運算上實現對GPU和FPGA的替代。年中，我國的主要雲端AI廠商也集體發力，寒武紀在6月宣佈推出第二代雲端AI晶片思雲270;8月，華為正式釋出算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月，阿里推出當時號稱全球最強的AI推理晶片含光800，基本都在對標英偉達的T4系列產品。

在所有AI晶片的競爭者中，作為第二名的英特爾顯然是最想挑戰英偉達的霸主位置，也是最有可能挑戰英偉達的代表。

作為通用伺服器晶片的傳統巨頭，英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態中，也就是把CPU和GPU部署在一起，雲服務商們只需購買一家的產品，就能更好地發揮AI計算的效能。

在All IN AI的英特爾那裡，他們是如何來構建這一AI計算策略的?

英特爾最先補足的就是AI硬體平臺版圖，而收購則是最快的方案。2015年，英特爾先是天價收購了FPGA的製造商Altera，一年後又收購了Nervana，為全新一代AI加速器晶片組奠定了基礎。

去年12月，英特爾再次花掉20億美元高價收購了成立僅3年的以色列資料中心AI晶片製造商Habana Labs。與英偉達收購Mellanox一樣異曲同工，通過收購Habana，英特爾也將補足資料中心場景下的通訊和AI兩種能力。

受到這一收購的激勵，英特爾宣佈停止去年8月才釋出的用於AI訓練的Nervana NNP-T，轉而專注於推進Habana Labs的Gaudi和Goya處理器產品，以對標英偉達的tesla V100和推理晶片T4。此外，一款基於Xe架構的GPU也將在今年中旬面世。

在軟體層面，為應對異構計算帶來的挑戰，英偉達在去年11月釋出了OneAPI公開發行版。不管是CPU、GPU、FPGA還是加速器，OneAPI都嘗試最大程度來簡化和統一這些跨SVMS架構的創新，以釋放硬體效能。

儘管英特爾以“全力以赴”的姿態投入到AI計算當中，通過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI晶片產品陣列，並建立了廣泛適用的軟硬體生態。但是在挑戰英偉達的通用GPU產品上面，仍然還有一定距離。

首先，英特爾通過CPU適用於AI計算的策略一直未能得到主要雲端計算廠商的青睞，大多數廠商仍然樂於選擇CPU+GPU或FPGA的方案來部署其AI訓練的硬體方案。而GPU仍然是英偉達的主場，V100和T4仍然是當下資料中心主流的通用GPU和推理加速器。

其次，英特爾在AI晶片的佈局才剛剛發力，受到Nervana AI晶片一再延遲的影響，Habana產品才剛剛開始進行整合，這將使得英特爾短期內難以挑戰英偉達的AI伺服器晶片的市場份額。

而現在英偉達最新的安培架構的A100 GPU以及AI系統叢集的釋出，更是給英特爾以及市場其他競爭對手一場飽和攻擊。儘管說，長期來看雲端計算廠商和AI伺服器晶片廠商開發的定製晶片會侵蝕一部分GPU的份額，而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高牆。

AI計算升級，帶來資料中心全新佈局方案

我們先看資料中心本身的變化。受到AI相關應用需求和場景的爆發式增長，中小型資料中心無法承受如此巨量的“AI計算之痛”，市場對超大型資料中心的需求越發強烈。

第一，以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭，正在佔據超大型資料中心的主要市場份額。一方面，超大型資料中心將帶來更多的伺服器及配套硬體的增長;另一方面，AI演算法的複雜度增加和AI處理任務的持續增長，又需要伺服器的配置以及結構得到持續升級。

在一些視覺識別為主的AI企業，建立一個超算中心就需要部署上萬塊GPU，對於那些TOP級雲服務商的雲端計算資料中心，為支援深度學習訓練任務，所需要的GPU量級也將是海量級別。

第二，雲服務廠商都在推出自研的晶片，來緩解因為價格昂貴和資料量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理晶片，以節省GPU的通用算力。但這些推理晶片只在通用性上面的不足，造成其很難突破自研自用的局面。

那麼,英偉達的A100 GPU晶片的釋出，對雲端計算資料中心帶來哪些新的變化呢?或者說為AI伺服器晶片的對手們設立了怎樣的門檻呢?

首先，作為採用全新的安培架構的A100 GPU，支援每秒1.5TB的緩衝頻寬處理，支援TF32 運算和FP64雙精度運算，分別帶來高達20倍FP32的AI計算效能和HPC應用2.5倍的效能提升。此外還包括MIG 新架構、NVLink 3.0以及AI運算結構的稀疏性等特性，這些使得 A100 加速卡不僅可用於AI訓練和AI推理，還可以用於科學模擬、AI對話、基因組與高效能資料分析、地震建模及財務計算等多種通用計算能力。而這一解決方案有可能緩解很多雲服務廠商在推理上面的計算壓力，也對其他廠商的推理晶片帶來一定的競爭壓力。

其次，英偉達釋出的第三代的DGX A100的AI系統在提高吞吐量同時，大幅降低資料中心的成本。由於A100內建了新的彈性計算技術，可以分散式的方式進行靈活拆分，多例項 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的例項來推斷任務，同時也可以將多個A100作為一個巨型 GPU 執行，以完成更大的訓練任務。

(“The more you buy，the more money you save!”)

用黃仁勳舉的例子來說，一個典型的AI資料中心有50個DGX-1系統用於AI訓練，600個CPU系統用於AI推理，需用25個機架，消耗630kW功率，成本逾1100萬美元;而完成同樣的工作，一個由5個DGX A100系統組成的機架，達到相同的效能要求，只用1個機架，消耗28kW功率，花費約100萬美元。

也就是說，DGX A100系統用一個機架，就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI資料中心。

總體而言，英偉達用一套效能驚人又極具創新性的AI計算架構與AI伺服器晶片硬體，帶來了AI資料中心計算平臺的全新升級。英偉達的野心將不再只是提供效能升級的GPU硬體產品，而是要重新定義資料中心的AI計算的規則，將資料中心視作基本的計算單元。

實際來講，一個DGX A100 GPU系統的單價就要20萬美元，對於要為了AI訓練而採購成千上萬塊企業級GPU的雲端計算廠商來說，可想而知成本將有多高。現在，也只有全球主要的雲端計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。

對於其他競爭對手而言，英偉達這次在AI伺服器晶片及AI資料中心計算平臺鑄就的堅壁高牆，似乎在短期內難以逾越。同時，也會成為未來幾年，AI伺服器晶片廠商努力去對標的效能標準。當然，對英偉達A100的挑戰，也自然就此開始。至於是英特爾、AMD還是AWS、谷歌，我們拭目以待。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561483/viewspace-2693756/，如需轉載，請註明出處，否則將追究法律責任。

英偉達的AI晶片霸主之路！
2019-11-25
AI晶片
英偉達與AI晶片的未來之戰
2021-06-22
AI晶片
HPE和英偉達如何為企業AI提供一條龍服務?
2018-05-07
AI
不止 5G 和鴻蒙，華為最新大招，扔出 AI 計算核彈
2020-04-04
鴻蒙AI
AI新利器，英偉達推出新一代超強GPU
2018-08-15
AIGPU
新火種AI|美光、英偉達大漲，AI引爆後，晶片行業寒冬已過？
2023-12-21
AI晶片行業
英偉達 GTC 大會不僅有 AI 晶片，還有 AI for Science
2024-03-19
AI晶片
AI晶片混戰，誰能挑戰英偉達？
2019-01-28
AI晶片
英：AI技術軍事化比核彈更加危險
2019-09-15
AI
英偉達新技術引領AI市場，目標股價再創新高至350美元
2018-09-17
AI
論PS的功力，英偉達的AI這次誰也不服
2018-04-25
AI
特斯拉自研AI晶片，要和英偉達說再見?
2018-08-03
AI晶片
英偉達在CES上推出AI處理平臺
2018-03-06
AI
什麼是資料中毒？如何防範攻擊者的AI和ML攻擊？
2021-04-29
AI
超算“猛將”英偉達
2020-11-19
AI和ML如何幫助對抗網路攻擊？
2019-02-25
AI
有英偉達新卡的安裝
2024-04-14
英偉達GPU顯示卡計算能力評估
2020-04-06
GPU
AI行業買英偉達GPU，花的錢比賺的多17倍
2024-04-01
AI行業GPU
英偉達CEO黃仁勳：GPU是AI時代利器，釋出全球首款可程式設計AI引擎
2018-04-18
GPUAI程式設計
華為AI晶片真能幹掉英偉達，顛覆現有格局？
2018-10-13
AI晶片
AMD釋出最強AI晶片，對標英偉達Blackwell，2025年上市
2024-10-11
AI晶片
巨量AI模型，為何微軟、浪潮、英偉達們都盯著它？
2021-10-16
AI模型微軟
英偉達RTX 5090評測解禁，天賦都點在了 AI 上
2025-01-25
AI
英偉達最新AI超級算力Blackwell GPU平臺即將登陸亞馬遜雲科技
2024-03-19
AIGPU亞馬遜
年僅16歲，攻擊微軟、三星、英偉達的幕後主使浮出水面
2022-03-25
微軟
亞馬遜雲科技與英偉達擴充套件合作持續推進生成式AI創新
2024-03-20
亞馬遜套件AI
蘇媽殺瘋了：移動端最強NPU算力達50TOPS，最強AI晶片挑戰英偉達
2024-06-04
AI晶片
AI攻擊技術和測試研究框架解鎖新視野~用技術對抗技術
2020-04-30
AI框架
在SIGGRAPH 2024上，英偉達開始引領下一波浪潮：物理AI
2024-07-30
AI
英偉達AI：修圖軟體千千萬，效果最牛的還是我這款
2019-03-01
AI
1.2萬億電晶體，史上最強AI晶片誕生：英偉達Titan V的57倍
2019-08-22
AI晶片
用AI反制AI詐騙，合合資訊獲全球AI攻防挑戰賽金融場景賽道冠軍
2024-11-21
AI
AMD的GPU跑AI模型終於Yes了？PK英偉達H100不帶怕的
2024-09-04
GPUAI模型
展現完美的自己英偉達AI演算法提升視訊會議體驗
2021-06-25
AI演算法
三種使用AI攻擊網路安全的方法
2020-11-12
AI
英偉達釋出 Hopper H100 新架構晶片：面向 AI、自動駕駛汽車及 Metaverse 領域
2022-03-30
架構晶片AI自動駕駛Metaverse
英偉達商店bug洩露使用者資訊；Pastebin新增功能或成攻擊者幫凶；揭祕刷量新“套路”
2020-09-28
AST

用“AI核彈”飽和攻擊的英偉達，如何贏下AI計算新賽場？

相關文章