AI晶片市場現狀及企業競爭狀況

dicksonjyl560101發表於2019-03-26

https://www.toutiao.com/a6672168138810851853/


隨著大資料的發展,計算能力的提升,AI演算法進一步成熟,誰搶佔了AI晶片高地,誰就擁有了市場主導權。縱觀AI晶片市場,可謂戰火紛紛,群雄逐鹿。

一、AI晶片整體規模

據前瞻產業研究院釋出的《中國人工智慧行業市場前瞻與投資戰略規劃分析報告》統計資料顯示,2015中國人工智慧市場規模已突破100億元,到了2016年人工智慧市場規模達到142億元,截止到2017年人工智慧市場規模達到了217億元,預計2018年人工智慧市場規模將達339億元,並預測在2019、2020年人工智慧市場規模將達500億元、710億元。2015-2020年複合年均增長率為44.5%。

麥肯錫(McKinsey)的預測顯示出驚人的資料:2017年至2025年,人工智慧類半導體將成為半導體市場的領頭羊,其年複合增長率將比其它所有半導體的總和高出5倍。Tractica的一項調查將進一步解讀了這種增長:將中央處理器(CPU)與圖形處理器、現場可程式設計門陣列、特定用途積體電路進行比較。到2019年,基於中央處理器的營業額將從30億美元左右起步,到2025年將增長到120億美元左右。基於圖形處理器的系統(GPU)的收入將在2019年接近60億美元,到2025年將增長到約200億美元。現場可程式設計門陣列(FPGA)的貢獻非常小,到2025年可能只有10億美元左右。但特定用途積體電路(ASIC)市場份額將從2019年的約20億美元增長到2025年的約300億美元。到2022年左右,基於特定用途積體電路的人工智慧將在份額上超過基於圖形處理器的人工智慧。

二、市場發展環境

我國人工智慧新一輪利好政策正密集落地。《經濟參考報》記者獲悉,2019年年初,包括成都、浙江在內的多個省市相繼出臺人工智慧產業發展規劃,著力加大智慧晶片、智慧感測器等基礎層技術攻關與資金支援,加快培育人工智慧產業集聚區和領軍企業。業內預計,以基礎層為核心的AI晶片投資空間廣闊。

三、AI晶片市場需求及企業競爭狀況

目前AI晶片的市場需求主要是三類:

1、面向於各大人工智慧企業及實驗室研發階段的Training需求(主要是雲端,裝置端Training需求尚不明確);

2、InferenceOnCloud,Face++、出門問問、Siri等主流人工智慧應用均透過雲端提供服務;

3、InferenceOnDevice,面向智慧手機、智慧攝像頭、機器人/無人機、自動駕駛、VR等裝置的裝置端推理市場,需要高度定製化、低功耗的AI晶片產品。如華為麒麟970搭載了"神經網路處理單元(NPU,實際為寒武紀的IP)"、蘋果A11搭載了"神經網路引擎(NeuralEngine)"。


AI晶片市場現狀及企業競爭狀況


(一)Training訓練

2007年以前,人工智慧研究受限於當時演算法、資料等因素,對於晶片並沒有特別強烈的需求,通用的CPU晶片即可提供足夠的計算能力。AndrewNg和JeffDean打造的GoogleBrain專案,使用包含16000個CPU核的平行計算平臺,訓練超過10億個神經元的深度神經網路。但CPU的序列結構並不適用於深度學習所需的海量資料運算需求,用CPU做深度學習訓練效率很低,在早期使用深度學習演算法進行語音識別的模型中,擁有429個神經元的輸入層,整個網路擁有156M個引數,訓練時間超過75天。

與CPU少量的邏輯運算單元相比,GPU整個就是一個龐大的計算矩陣,GPU具有數以千計的計算核心、可實現10-100倍應用吞吐量,而且它還支援對深度學習至關重要的平行計算能力,可以比傳統處理器更加快速,大大加快了訓練過程。


AI晶片市場現狀及企業競爭狀況


從上圖對比來看,在內部結構上,CPU中70%電晶體都是用來構建Cache(高速緩衝儲存器)和一部分控制單元,負責邏輯運算的部分(ALU模組)並不多,指令執行是一條接一條的序列過程。GPU由平行計算單元和控制單元以及儲存單元構成,擁有大量的核(多達幾千個)和大量的高速記憶體,擅長做類似影像處理的平行計算,以矩陣的分散式形式來實現計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規模平行計算。

人工智慧的通用計算GPU市場,NVIDIA現在一家獨大。2010年NVIDIA就開始佈局人工智慧產品,2014年釋出了新一代PASCALGPU晶片架構,這是NVIDIA的第五代GPU架構,也是首個為深度學習而設計的GPU,它支援所有主流的深度學習計算框架。2016年上半年,NVIDIA又針對神經網路訓練過程推出了基於PASCAL架構的TESLAP100晶片以及相應的超級計算機DGX-1。DGX-1包含TESLAP100GPU加速器,採用NVLINK互聯技術,軟體堆疊包含主要深度學習框架、深度學習SDK、DIGITSGPU訓練系統、驅動程式和CUDA,能夠快速設計深度神經網路(DNN),擁有高達170TFLOPS的半精度浮點運算能力,相當於250臺傳統伺服器,可以將深度學習的訓練速度加快75倍,將CPU效能提升56倍。

Training市場目前能與NVIDIA競爭的就是Google。今年5月份Google釋出了TPU2.0,TPU(TensorProcessingUnit)是Google研發的一款針對深度學習加速的ASIC晶片,第一代TPU僅能用於推理,而目前釋出的TPU2.0既可以用於訓練神經網路,又可以用於推理。據介紹,TPU2.0包括了四個晶片,每秒可處理180萬億次浮點運算。Google還找到一種方法,使用新的計算機網路將64個TPU組合到一起,升級為所謂的TPUPods,可提供大約11500萬億次浮點運算能力。Google表示,公司新的深度學習翻譯模型如果在32塊效能最好的GPU上訓練,需要一整天的時間,而八分之一個TPUPod就能在6個小時內完成同樣的任務。目前Google並不直接出售TPU晶片,而是結合其開源深度學習框架TensorFlow為AI開發者提供TPU雲加速的服務,以此發展TPU2的應用和生態,比如TPU2同時釋出的TensorFlowResearchCloud(TFRC)。

上述兩家以外,傳統CPU/GPU廠家Intel和AMD也在努力進入這Training市場,如Intel推出的XeonPhi+Nervana方案,AMD的下一代VEGA架構GPU晶片等,但從目前市場進展來看很難對NVIDIA構成威脅。初創公司中,Graphcore的IPU處理器(IntelligenceProcessingUnit)據介紹也同時支援Training和Inference。該IPU採用同構多核架構,有超過1000個獨立的處理器;支援All-to-All的核間通訊,採用BulkSynchronousParallel的同步計算模型;採用大量片上Memory,不直接連線DRAM。

總之,對於雲端的Training(也包括Inference)系統來說,業界比較一致的觀點是競爭的核心不是在單一晶片的層面,而是整個軟硬體生態的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨頭的競爭也才剛剛開始。

(二)InferenceOnCloud雲端推理

相對於Training市場上NVIDIA的一家獨大,Inference市場競爭則更為分散。若像業界所說的深度學習市場佔比(Training佔5%,Inference佔95%),Inference市場競爭必然會更為激烈。

在雲端推理環節,雖然GPU仍有應用,但並不是最優選擇,更多的是採用異構計算方案(CPU/GPU+FPGA/ASIC)來完成雲端推理任務。FPGA領域,四大廠商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收購)在雲端加速領域優勢明顯。Altera在2015年12月被Intel收購,隨後推出了Xeon+FPGA的雲端方案,同時與Azure、騰訊雲、阿里雲等均有合作;Xilinx則與IBM、百度雲、AWS、騰訊雲合作較深入,另外Xilinx還戰略投資了國內AI晶片初創公司深鑑科技。目前來看,雲端加速領域其他FPGA廠商與Xilinx和Altera還有很大差距。


AI晶片市場現狀及企業競爭狀況


ASIC領域,應用於雲端推理的商用AI晶片目前主要是Google的TPU1.0/2.0。其中,TPU1.0僅用於DatacenterInference應用。它的核心是由65,536個8-bitMAC組成的矩陣乘法單元,峰值可以達到92TeraOps/second(TOPS)。有一個很大的片上儲存器,一共28MiB。它可以支援MLP,CNN和LSTM這些常見的神經網路,並且支援TensorFLow框架。它的平均效能(TOPS)可以達到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5memory,這兩個數值可以達到大約GPU的70倍和CPU的200倍。TPU2.0既用於訓練,也用於推理,上一節已經做過介紹。

國內AI晶片公司寒武紀科技據報導也在自主研發雲端高效能AI晶片,目前與科大訊飛、曙光等均有合作,但目前還沒有詳細的產品介紹。

(三)InferenceOnDevice裝置端推理

裝置端推理的應用場景更為多樣化,智慧手機、ADAS、智慧攝像頭、語音互動、VR/AR等裝置需求各異,需要更為定製化、低功耗、低成本的嵌入式解決方案,這就給了創業公司更多機會,市場競爭生態也會更加多樣化。

1)智慧手機

華為9月初發布的麒麟970AI晶片就搭載了神經網路處理器NPU(寒武紀IP)。麒麟970採用了TSMC10nm工藝製程,擁有55億個電晶體,功耗相比上一代晶片降低20%。CPU架構方面為4核A73+4核A53組成8核心,能耗同比上一代晶片得到20%的提升;GPU方面採用了12核MaliG72MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升20%和50%;NPU採用HiAI移動計算架構,在FP16下提供的運算效能可以達到1.92TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務,有大約50倍能效和25倍效能優勢。

蘋果最新發布的A11仿生晶片也搭載了神經網路單元。據介紹,A11仿生晶片有43億個電晶體,採用TSMC10奈米FinFET工藝製程。CPU採用了六核心設計,由2個高效能核心與4個高能效核心組成。相比A10Fusion,其中兩個效能核心的速度提升了25%,四個能效核心的速度提升了70%;GPU採用了蘋果自主設計的三核心GPU圖形處理單元,圖形處理速度與上一代相比最高提升可達30%之多;神經網路引擎NPU採用雙核設計,每秒運算次數最高可達6000億次,主要用於勝任機器學習任務,能夠識別人物、地點和物體等,能夠分擔CPU和GPU的任務,大幅提升晶片的運算效率。

另外,高通從2014年開始也公開了NPU的研發,並且在最新兩代驍龍8xx晶片上都有所體現,例如驍龍835就整合了"驍龍神經處理引擎軟體框架",提供對定製神經網路層的支援,OEM廠商和軟體開發商都可以基於此打造自己的神經網路單元。ARM在今年所釋出的Cortex-A75和Cortex-A55中也融入了自家的AI神經網路DynamIQ技術,據介紹,DynamIQ技術在未來3-5年內可實現比當前裝置高50倍的AI效能,可將特定硬體加速器的反應速度提升10倍。總體來看,智慧手機未來AI晶片的生態基本可以斷定仍會掌握在傳統SoC商手中。

2)自動駕駛

NVIDIA去年釋出自動駕駛開發平臺DRIVEPX2,基於16nmFinFET工藝,功耗高達250W,採用水冷散熱設計;支援12路攝像頭輸入、鐳射定位、雷達和超聲波感測器;CPU採用兩顆新一代NVIDIATegra處理器,當中包括了8個A57核心和4個Denver核心;GPU採用新一代Pascal架構,單精度計算能力達到8TFlops,超越TITANX,有後者10倍以上的深度學習計算能力。Intel收購的Mobileye、高通收購的NXP、英飛凌、瑞薩等汽車電子巨頭也提供ADAS晶片和演算法。初創公司中,地平線的深度學習處理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平臺也是重點面向自動駕駛領域。

3)計算機視覺領域

Intel收購的Movidius是主要的晶片提供商,大疆無人機、海康威視和大華股份的智慧監控攝像頭均使用了Movidius的Myriad系列晶片。目前國內做計算機視覺技術的公司中,商湯科技、Face++、雲從、依圖等,未來有可能隨著其自身計算機視覺技術的積累漸深,部分公司向上遊延伸去做CV晶片研發。另外,國內還有如人人智慧、智芯原動等創業公司提供攝像頭端的AI加速IP及晶片解決方案。

4)其他

VR裝置晶片的代表為微軟為自身VR裝置Hololens而研發的HPU晶片,這顆由臺積電代工的晶片能同時處理來自5個攝像頭、一個深度感測器以及運動感測器的資料,並具備計算機視覺的矩陣運算和CNN運算的加速功能;語音互動裝置晶片方面,國內有啟英泰倫以及雲知聲兩家公司,其提供的晶片方案均內建了為語音識別而最佳化的深度神經網路加速方案,實現裝置的語音離線識別;在泛IOT領域,NovuMind設計了一種僅使用3×3卷積過濾器的AI晶片,第一款晶片原型預計今年底推出,預計可實現耗能不超過5瓦進行15萬億次浮點運算,可以廣泛應用於各類小型的網際網路"邊緣"裝置。

(四)新架構-類腦計算晶片

"類腦晶片"是指參考人腦神經元結構和人腦感知認知方式來設計的晶片,其目標是開發出打破馮·諾依曼架構體系的晶片。這一領域目前仍處於探索階段,如歐盟支援的SpiNNaker和BrainScaleS、史丹佛大學的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;國內Westwell、清華大學、浙江大學、電子科技大學等也有相關研究。

IBM的TrueNorth,2014年公佈。在一顆晶片上整合了4096個核心,100萬個神經元、2.56億個可程式設計突觸,使用了三星的28nm的工藝,共540萬個電晶體;每秒可執行460億次突觸運算,總功耗為70mW,每平方釐米功耗20mW。IBM的最終目標就是希望建立一臺包含100億個神經元和100萬億個突觸的計算機,這樣的計算機要比人類大腦的功都強大10倍,而功耗只有一千瓦,而且重量不到兩升。

國內AI初創公司西井科技Westwell是用FPGA模擬神經元以實現SNN的工作方式,有兩款產品:

1、仿生類腦神經元晶片DeepSouth(深南),第三代脈衝神經網路晶片SNN,基於STDP(spike-time-dependentplasticity)的演算法構建完整的突觸神經網路,由電路模擬真實生物神經元產生脈衝的仿生學晶片,透過動態分配的方法能模擬出高達5000萬級別的"神經元",功耗為傳統晶片在同一任務下的幾十分之一到幾百分之一。

2、深度學習類腦神經元晶片DeepWell(深井),處理模式識別問題的通用智慧晶片,基於線上偽逆矩陣求解演算法(OPIUMlite)對晶片中神經元間的連線權重進行學習和調整;擁12800萬個神經元,透過專屬指令集調整晶片中神經元資源的分配;學習與識別速度遠遠高於執行在通用硬體(如CPU,GPU)上的傳統方法(如CNN),且功耗更低。

總體來看,類腦計算晶片領域仍處於探索階段,距離規模化商用仍有比較遠的距離。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2639334/,如需轉載,請註明出處,否則將追究法律責任。

相關文章