登陸雲邊端,AI晶片產業打響全線戰爭

naojiti發表於2020-04-29

對於AI行業,演算法、算力和資料是三大基礎要素。深度學習模型的不斷優化帶來的演算法的成熟應用,5G網路以及邊緣、終端的普及讓海量資料的獲取和傳輸變得唾手可得,而將演算法和資料協調統一處理的算力資源就成為當前AI發展的關鍵制約因素了。

算力的提升在於晶片的效能是否得到飛躍。由於深度學習演算法對晶片效能有著極為苛刻的效率要求和超高的平行計算要求,傳統的通用CPU在AI計算當中價效比極低。因此,適合於深度學習要求的海量平行計算和計算加速的AI晶片就成為當前AI巨頭們角力的賽場。

廣義上來說,包括像GPU、FPGA以及 ASIC(專用晶片)這些提供AI算力的晶片都可以稱之為AI晶片。按照任務劃分,AI晶片可以分為訓練晶片和推理晶片;按部署位置劃分,可以分為雲端晶片、邊緣側和終端晶片。

其中,訓練晶片對算力、精度和通用性要求較高,一般部署在雲端,多采用“CPU+加速晶片”這類異構計算模式;推理晶片更加註重綜合效能,更考慮算力耗能、延時、成本等因素,在雲端和邊終端都可以部署。

雲端AI晶片部署在公有云、私有云和混合雲等大型資料中心,能滿足海量資料處理和大規模計算,可通過多處理器並行完成各類AI演算法的計算和傳輸,具有通用性。邊終端AI晶片要求體積小、能耗少、效能略低,主要用於攝像頭、手機、邊緣伺服器等終端裝置中,滿足有限的AI能力。

從2016年穀歌TPU專用晶片大放異彩之後,AI晶片快速經歷了2017年資本湧入、巨頭紛至沓來,2018年新玩家爭相入局、初露崢嶸,2019年至今,AI晶片進入全面商用落地的激烈競爭格局當中。

按照Gartner資料,伴隨著全球AI產業的快速增長,未來5年,AI晶片仍然會以每年50%的速度增長。在過去的一年當中,AI晶片在雲端、邊緣側以及終端領域都取得了明顯進展。

我們將通過梳理AI晶片在這三大細分市場的最新進展,來進入其行業縱深,找到AI晶片行業發展的最新動向。

新勢力入局,雲端AI晶片的搶灘爭奪戰

在雲端的資料中心,無論是深度學習的演算法訓練還是推理服務,都繞不開英偉達的GPU產品。AI演算法訓練的主要晶片配置是GPU+ASIC,全球主流的雲端硬體平臺都在使用英偉達的GPU 進行加速。而在推理服務上,主要還是採用CPU+GPU的方式進行異構計算,這得益於GPU強大的平行計算能力、通用性以及成熟的開發環境,但GPU的高能耗和昂貴成本,也成為眾多雲廠商的心中隱痛。

相比之下,FPGA的低延遲、低功耗、可程式設計性優勢和ASIC的特定優化和執行特定模型的效能優勢就非常突出了。因此,我們看到越來越多的雲廠商和晶片廠商開始嘗試CPU+FPGA或CPU+ASIC 這樣的異構方式,推出更符合自身雲端算力要求的AI晶片。

2019年4月,高通推出了面向資料中心推理計算的雲端AI晶片Cloud AI 100,峰值效能超過350TOPS,與其他商用方案相比,每瓦特效能提升10倍。

而早先雲服務巨頭亞馬遜也已推出了機器學習推理晶片AWS Inferentia,最高算力可以達到128 TOPS,在AI推理例項inf1可搭載16個Inferentia晶片,提供最高2000TOPS算力。

而在國內,阿里巴巴在去年9月推出自研架構和演算法的AI推理晶片含光800,主要用於和電商業務相關的雲端視覺場景,在RESNET50基準測試中獲得單晶片效能第一的成績。

華為則推出了全球最快的AI訓練叢集Atlas900,整合了數千顆昇騰910晶片,總算力可以輸出256-1024 PFLOPS@F16,相當於50萬臺PC計算能力的強勁算力。

去年底,騰訊投資的燧原科技推出面向雲端資料中心的AI訓練加速卡雲燧T10,單卡單精度算力達到20TFLOPS,可以為大中小型資料中心提供了單節點、單機櫃、叢集三種模式。此外,像寒武紀、位元大陸也在去年從細分市場進入雲端AI晶片市場,試圖搶佔一定的雲端AI晶片的市場份額。

Gartner資料顯示,全球AI伺服器及AI晶片市場規模自2016年到2020年都將保持持續的高速增長,而全球雲端AI晶片當中GPU的市場份額卻呈現出持續下滑的趨勢,預計到2022年雲端訓練GPU佔比將降至60%,雲端推理GPU佔比更是隻有30%。

這意味著雲端AI晶片的專用晶片的市場規模將進一步擴大,新入局玩家們特別是雲服務廠商的巨頭玩家們都會盡可能在自家的資料中心部署結合自身演算法的AI晶片。

2020年,隨著高通、英特爾等晶片巨頭、AWS、阿里、華為等雲廠商以及晶片初創公司產品的落地,雲端AI晶片市場的競爭將更趨激烈,未來將進一步削弱英偉達的話語權。

從雲端湧入的巨頭玩家,攪動邊緣AI晶片新戰場

隨著5G、自動駕駛、IoT等新技術普及和配套裝置的海量湧現,接下來將為邊緣側AI晶片提供更大的發揮空間。特別是5G網路的普及將帶來邊緣側資料處理方式的變革,為邊緣側AI的工作負載提供了更多需求。

邊緣計算正在被視為AI的下一個重要戰場,原有的在雲端、終端都有所積累的廠商,都希望通過邊緣AI晶片的佈局,完善雲、邊緣、終端生態,打造一體化的計算格局。

早在2018年,谷歌就釋出了用於邊緣推理的微型AI加速晶片——Edge TPU,專為企業在IoT裝置中的機器學習任務而設計。在去年3月,谷歌還推出了千元級搭載Edge TPU晶片的開發板,可以加速硬體裝置上的模型推理。

(谷歌Edge TPU開發板)

似乎為回應谷歌的這一挑戰,英偉達釋出了面向嵌入式物聯網的邊緣計算裝置Jetson Nano,適用於入門級網路硬碟錄影機、家用機器人以及具備全面分析功能的智慧閘道器等應用。而在去年11月,英偉達又釋出了邊緣AI超級計算機Jetson Xavier NX,能夠在功耗10W的模式下提供最高14TOPS,在功耗15W模式下提供最高21 TOPS的效能,為更小尺寸、更低功耗的嵌入式邊緣計算裝置提供了AI推理能力。

(英偉達Jetson Xavier NX)

同樣在去年底,寒武紀釋出用於深度學習的SoC邊緣加速晶片思元220,採用臺積電16nm工藝,最大算力32TOPS,功耗控制在10W,支援Tensorflow、Caffe、mxnet以及pytorch等主流程式設計框架。根據其公佈的資料,引數效能可以比肩英偉達去年釋出的 Jetson 系統級模組——AGX Xavier 和Jetson Xavier NX。

在去年7月的百度AI開發者大會,聯合三大運營商、中興、愛立信、英特爾等,發起百度AI邊緣計算行動計劃,旨在利用AI推理、函式計算、大資料處理和產業模型訓練,推動AI場景在邊緣計算的算力支撐和平臺支援,加速百度AI應用生態在5G、物聯網等新型場景下快速落地。

在自動駕駛這類專用邊緣場景上,AI晶片也出現加速勢頭。目前,由於自動駕駛演算法仍在快速更迭和進化,大多自動駕駛晶片使用 GPU+FPGA 的解決方案。最典型的產品如英偉達的DRIVE PX系列及後續的Xavier、Pegasus系列等。在去年 CES上,英偉達推出了全球首款商用L2+自動駕駛系統NVIDIA DRIVE AutoPilot。DRIVE AutoPilot的核心就是Xavier系統級晶片,其處理器算力高達每秒30萬億次。

英特爾雖然入局自動駕駛晶片市場較晚,但通過一系列大筆收購,很快推出了完整的自動駕駛雲到端的算力方案,包括英特爾凌動/至強+Mobileye EyeQ + Altera FPGA,其中,英特爾收購 Mobileye推出的 EyeQ5,可以支援 L4-L5 自動駕駛,預計在今年量產。

而在國內,國內初創企業如地平線、眼擎科技、寒武紀也都在積極參與。地平線去年正式宣佈量產國內首款車規級AI晶片“征程二代”,採用臺積電28nm工藝,可提供超過4TOPS的等效算力,典型功耗僅2瓦,延遲少於100毫秒,多工模式下可以同時執行超過60個分類任務,每秒鐘識別目標數超過2000個,面向車聯網對強實時響應的需求。

據預測,從2018年到2022年全球邊緣計算相關市場規模的年複合增長率將超過30%,到2022年,邊緣計算市場規模將超萬億,與雲端計算市場規模不相上下。正因為邊緣計算如此巨大的市場前景,國內外行業巨頭紛紛開始邊緣側AI晶片的佈局。

對於殺入邊緣側的AI晶片巨頭而言,實現雲-邊-端-網的多方協同,其中就必須要完成從雲端到邊緣的端到端解決方案的佈局。這一動作客觀上也加劇了邊緣側AI晶片的競爭態勢,為AI初創企業帶來更多的生存壓力。

效能功耗比拼:終端AI晶片的無限戰爭

移動端AI晶片市場目前主要是在智慧手機上。為實現差異化競爭,各手機廠商都加入了AI功能的開發,通過在手機SoC晶片中加入AI引擎,調配現有計算單元來實現AI計算,或者直接加入AI協處理器來實現AI功能的執行。

智慧手機作為一種多感測器融合的綜合資料處理平臺,要求AI晶片具備通用性,能夠處理多型別任務能力。而智慧手機又受制於電池容量大小和電池能量密度限制,AI晶片在追求算力的同時對功耗有著嚴格的限制。

目前主流廠商都開發專用的ASIC晶片或者是使用功耗較低的DSP作為AI處理單元。

根據一份最新的手機AI晶片排名,高通驍龍865、蘋果A13和華為麒麟990分列前三。

排在第一名的高通驍龍865,採用了全新的第五代AI Engine,可以實現高達每秒15 TOPS的運算,相比驍龍855提升了兩倍的運算能力。通過AI異構多核可程式設計架構的設計思路,整合了感測器中樞,利用多種不同引擎協同完成AI任務,在精度和功耗之間取得平衡。

蘋果A13處理器,採用第二代7nm工藝,專為高效能和低功耗而量身定製,擁有85億個電晶體。其GPU為四核心設計,速度提升20%,功耗降低40%,也就是在效能大幅提升的前提下續航並沒有降低。

華為去年推出的麒麟990 5G的NPU,採用雙大核+微核的方式,其大核負責效能,微核擁有超低功耗,其中微核在人臉檢測的應用場景下,能耗比大核工作降低24倍。

根據信通院報告統計,2017年全球手機AI晶片市場規模3.7億美元,佔據全球AI晶片市場的9.5%。預計2022年將達到38億美元,年複合增長率達到59%,未來五年有接近十倍的增長。而目前能夠在智慧手機Soc晶片中取得領先位置的仍然只有高通、蘋果、華為、三星等少數玩家,雄厚的資金實力和海量的銷售規模,使得每家都願意拿出真金白銀來投入到新一代的AI晶片研發上面,在晶片的效能和功耗平衡上面實現碾壓和趕超。

洗牌已至?AI晶片之戰才剛剛開始

有媒體分析,根據行業發展規律,AI晶片在經歷了短暫的資本狂歡和創業高峰之後,會在2020年之後,出現第一批出局者,開始行業的大洗牌。

這一結論自然具有一定的道理。由於AI晶片產業是一個高投入、長週期,依靠量產規模優勢才能艱難取勝的產業。同時由於AI技術發展迅猛,晶片的設計週期可能無法趕上演算法的迭代週期,這很容易造成AI晶片從設計到落地,已經無法趕上當前的計算需求。

此外,在對成本和能耗極為敏感的移動終端,還需要特別關注AI晶片的計算效能,達到低功耗、小體積、開發簡易,這些都需要探索架構上的創新。

實際上,2019年有不少商用的AI晶片,已經開始面臨晶片難以落地的困境,原因多種多樣,比如晶片本身帶來的效能提升不夠有吸引力,晶片不適配應用的需求,易用性不高,選擇的行業難以突破等等。

顯然,種種限制條件和不利因素會更有利於那些入局早、實力雄厚的晶片巨頭和網際網路巨頭,而對那些依靠融資存活的AI晶片初創企業們帶來巨大壓力。

但這並不意味著AI初創企業都會進入被洗的哪一陣營。除了少數巨頭把持的雲端晶片市場、日趨頭部化的智慧手機Soc晶片市場,未來AI晶片還將在智慧家居、智慧安防、自動駕駛等邊緣、終端上面有著巨大的市場空間,同時在醫療、教育、零售、交通等行業有著豐富的應用場景。當AI晶片的盤子足夠大的時候,多樣化生態仍然會保持一段時間。

當前全球AI晶片產業仍然處於產業化的早期階段,最新推出的AI晶片主要還是集中在專用晶片領域,AI晶片初創企業仍然可以在ASIC上取得獨有的優勢。例如在AI架構上的探索上面,國內的一些初創企業也已提出一些可以適用於多種演算法需求、多種場景需求的全新架構。可重構架構以及存算一體成為未來AI晶片實現效能突破的主要方向。

在未來,晶片的易用性、有效算力、能效比以及落地速度,都將成為影響AI晶片產品失敗與否的關鍵。在各個方面都持續做好迭代創新,才是考驗所有這些AI晶片玩家們能否在始終在場不掉隊的關鍵因素。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2689318/,如需轉載,請註明出處,否則將追究法律責任。

相關文章