為何巨頭紛紛投入伺服器AI晶片市場?

半導體行業觀察發表於2019-05-15

隨著人工智慧漸漸落地,人工智慧對於算力的需求逐漸增強。本輪人工智慧熱潮背後的基礎是大資料神經網路,需要海量的資料去訓練複雜的神經網路,而訓練完成後的神經網路也較為複雜,執行神經網路的推理操作相對於其他基於邏輯規則等智慧方案需要更大的計算力。因此,算力成為了人工智慧背後的基礎資源,而算力的提升則離不開晶片的支援。近日,高通寒武紀、依圖等來自不同背景的明星公司都發布了其用於伺服器端的人工智慧晶片方案,再加上谷歌、亞馬遜、Intel、Nvidia等早已在伺服器人工智慧晶片領域押注的大公司,我們看到了伺服器人工智慧晶片的熱潮。

伺服器AI晶片市場已經有明確需求

人工智慧計算一般可以分為兩類,即訓練推理。訓練是指使用收集到的大量資料去優化神經網路的各項引數,從而能實現最優的精確度。推理則是在訓練好的神經網路上將輸入資料在各層網路之間做正向傳遞去求得輸出。訓練任務和推理任務執行的計算對於計算精度和記憶體訪問的模式都有所不同,因此晶片上往往需要不同的優化。

人工智慧晶片根據應用場合也可以分為三個種類:伺服器、邊緣計算、終端。伺服器人工智慧晶片主要部署在資料中心的伺服器中,執行訓練和/或推理任務。伺服器人工智慧晶片對於晶片的首要需求就是單晶片算力(目前的主流算力在100TOPS級別),其次才會去考慮功耗和成本。邊緣計算是指部署在更接近資料來源頭的伺服器上執行的計算,以推理計算為主,典型應用場景包括在自動駕駛汽車上執行自動駕駛演算法、在智慧銷售領域無人店中執行監控和結賬操作等等。在邊緣計算中,晶片的功耗和成本相對於雲端有更嚴格的限制,而算力則還是多多益善(10TOPS以上)。終端計算則是指直接部署在手機、智慧音響等終端裝置上人工智慧計算,由於使用電池供電,其對於晶片的首要需求是能效比(1TOPS/W數量級),需要使用盡可能低的能量消耗去完成人工智慧計算以保證電池壽命。雖然終端計算對於算力的要求較低(0.1-1TOPS數量級),但是其功耗約束很強,可用的功耗在1W以下,甚至可以低至幾十毫瓦級別,同時終端裝置對於成本也很敏感。

目前上述三個人工智慧應用場景中,邊緣計算尚處於概念驗證階段,預計未來幾年隨著5G和無人駕駛、機器人、智慧零售等概念的興起會出現一批相關晶片公司,但是在今天市場規模還較小。終端人工智慧計算目前已經得到初步驗證,手機等智慧裝置都在爭相加入人工智慧專用處理模組,但是由於其市場對於成本的敏感性,我們預期未來人工智慧在終端裝置上的形態會以SoC上的IP模組為主,這也就意味著人工智慧要麼是由高通、海思等智慧裝置SoC廠商自研整合到自家的SoC中,要麼是由第三方以IP的形式授權給SoC廠商,總體來說該市場的利潤率並不會太高,還是要以量取勝。

相較而言,伺服器端人工智慧晶片市場目前已經得到了較好的驗證,業務模式和市場規模都已經獲得了認可,利潤率也較高,因此成為了主流晶片公司的必爭之地;而邊緣和終端市場在今天來看還主要是針對未來的前瞻性佈局。根據Barclays Research的研究報告,伺服器端人工智慧市場會在未來三年內快速增長,並預計於2021年達到100億美元的規模;而終端和邊緣計算市場則將在三年後才開始真正落地。所以,我們看到了巨頭紛紛在今年加碼伺服器端人工智慧晶片。

為何巨頭紛紛投入伺服器AI晶片市場?

進入伺服器AI晶片市場的幾種打法

目前來看,做雲端AI晶片的主要有兩種廠商,一種是晶片公司,另一種是網際網路公司,包括AI公司(如依圖)這樣的“新物種”。

對於晶片公司來說,伺服器AI市場的客戶往往比較分散,而且每個廠商都有自己獨特的訴求,因此需要一家一家談。由於不同的公司有不同的人工智慧技術棧,晶片公司需要能相容不同公司的需求,有時候甚至需要和客戶公司合作開發來確保能滿足需求。同時,晶片公司需要在各大公司的需求中尋找到最大公約數,來確保自己的晶片能進入儘可能多的客戶中。晶片公司可以直接進入終端客戶的伺服器中,或者與提供伺服器的系統整合商合作,為客戶設計滿足其需求的伺服器來完成銷售。例如,中國AI晶片獨角獸寒武紀據悉已經獲得了滴滴、海康威視等商業客戶的直接訂單,同時也與浪潮、聯想和曙光等伺服器系統整合商積極合作來完成伺服器的訂單。寒武紀於一周前披露的最新思元270晶片使用TSMC 16nm製造,額定功耗75W,其整數計算能力分別為256TOPS(int4)、128TOPS(int8)和64TOPS(int4),這樣的設計預計主要針對伺服器推理市場,其算力和功耗與Nvidia T4基本相當,基本可以作為Nvidia T4的國產替代,同時寒武紀有位於中國市場離客戶近以及價效比的優勢,因此想必還是能夠拿下大量訂單。另外,寒武紀的思元270還整合了視訊影象編解碼模組,估計其找到的客戶“最大公約數”仍然是計算機視覺相關領域,如視訊內容分析、安防等。

為何巨頭紛紛投入伺服器AI晶片市場?

除了晶片公司向上進入伺服器AI市場外,另一類公司則是網際網路以及AI公司親自入場做晶片,例如谷歌、亞馬遜以及剛釋出自研晶片的中國AI獨角獸依圖。傳統來說,網際網路和AI公司主要是伺服器和晶片的終端客戶,他們的需求是尋找市面上最合適的硬體來執行自己的應用。然而,當市面上的硬體都無法滿足這些終端客戶的需求時,他們也會親自做滿足自己需求的晶片。

網際網路和AI公司親自做晶片背後的邏輯主要在於建立競爭壁壘。隨著AI的落地以及AI對於算力的強烈需求,硬體已經成為AI背後重要的競爭要素。目前,隨著市場的充分競爭,各大AI巨頭在演算法和模型等方面都沒有和彼此拉開很大的差距,於是硬體就成為了差異化競爭的重要因素。當模型和演算法差距不大時,是否能使用較低的成本部署AI系統並提供良好的使用者體驗就成了能否拿到使用者訂單的重要因素了。另外,網際網路和AI公司是最清楚自己需求和演算法的,因此通過軟硬體協同優化可望能實現最優化的系統設計。

上週依圖公佈的求索就是AI公司入場AI晶片的最新動態。求索SoC完全結合依圖的演算法做優化,只支援int8操作,主要針對視覺應用,例如人臉識別、車輛檢測、視訊結構化分析等任務。配合依圖的演算法,使用四塊求索晶片的依圖原子伺服器算力和使用八塊Nvidia P4的伺服器相當,而體積僅為P4伺服器的一半,功耗則低至20%,從而能大大減少部署的難度。更關鍵的是,目前一塊Nvidia P4的市價為2000美元左右,而求索晶片板卡的成本我們預計可以做到100美元以下,因此可以幫助依圖進入更多的客戶。相比使用Nvidia GPU的其他競爭公司,依圖的演算法配合自研的晶片確實是一個很強的競爭優勢。

為何巨頭紛紛投入伺服器AI晶片市場?

未來伺服器AI晶片競爭格局預估

隨著伺服器端AI市場的真正落地,越來越多的廠商開始真正投入該市場,Nvidia的壟斷難度也越來越大。如前所述,新進入伺服器AI晶片戰場的廠商要麼擁有晶片背景,或者是網際網路/AI公司親自做晶片。伺服器AI市場的特殊性在於不同垂直應用對於晶片的需求有較大不同,而使用目前的主流晶片架構做一款能相容大多數應用的晶片往往效能不夠好,因此晶片廠商還是需要認準一些重要的垂直應用,並且在垂直應用中打下站穩腳跟之後再考慮去橫向擴充套件。對於網際網路/AI公司造芯來說,由於他們對於垂直應用的前景非常清楚,因此主要就是看自研晶片對於競爭壁壘的構建有多少幫助,是否值得投入資金真正做晶片。在設計服務行業越來越成熟的今天,造芯的成本會逐漸降低,因此我們預期看到越來越多的網際網路和AI公司加入自研晶片的行列。因此,伺服器AI晶片的競爭格局我們預期在未來幾年會看到Nvidia憑著CUDA生態的優勢仍然佔據通用晶片的主流地位,但是其市場份額將會被其他晶片公司和客戶公司慢慢蠶食,同時在雲端資料中心FPGA也會佔據一部分市場。

伺服器AI晶片競爭的變數在於下一代技術。目前馮諾伊曼架構的加速器的架構潛力已經被挖掘得很充分,之後難以再期待數量級上的提升,因此能帶來重大變革的當屬下一代技術。下一代技術還擁有不少不確定性,但是我們也看到了不少新技術擁有巨大的潛力,例如使用光技術做計算的LightIntelligence,可以實現超低延遲超低功耗計算。

相關文章