在比較成熟的AI平臺方面,在2012年出現了AlexNet,一直到最近,2018年出現了AlphaGo Zero,在短短的6年內,算力提高了20多萬倍,這完全不同於傳統計算硬體(如CPU、MCU等)的演進軌跡,速度之驚人令我們難以預測。
三種AI晶片的對比
從AI晶片的應用場景類別來看,主要分為雲端和終端。目前,AI在雲端應用的更多,相對成熟,而其在雲端應用又可分為訓練和推理兩種,其中訓練的市場規模佔比較高。另外,訓練需要的資料量和計算量較大,所用的處理器主要是GPU。至於推理,也以GPU為主,此外,還有FPGA,以及專用的AI晶片(ASIC),其中,ASIC還不是很成熟,量產的產品也不多,因此用量有限,還處於發展初期,如果能實現大規模量產,其效能和成本是最優的,主要推進廠商是Google,其標誌性產品就是TPU。
FPGA是典型的半定製化晶片,其功能可以透過程式設計來修改,平行計算能力很強,但是延遲和功耗遠低於GPU,而與ASIC相比,FPGA的一次性成本要低很多,但其量產成本很高。因此,在實際應用需求還未成規模,且演算法需要不斷迭代、改進的情況下,利用FPGA的可重構特性來實現半定製的AI晶片是最佳選擇。
目前來看,由於GPU具備強大的平行計算能力和完善的生態系統,現在雲端AI應用方面處於主導地位。FPGA方面,由於是半定製化的,可以透過程式設計來實現不同的功能電路,因此,其在通用性和效能之間取得了比較好的平衡,但是較高的開發門檻和量產成本,對其應用是個限制。
專用的AI晶片應該是未來的發展趨勢,無論是在雲端還是在邊緣側,隨著應用的逐漸落地,應用場景和各種專用功能會愈加清晰,市場需求也會越來越多。另外,與GPU和FPGA相比,ASIC的專利壁壘要小得多,而且其設計難度也是最小的。隨著AI應用場景的落地,專用的ASIC晶片量產成本低、效能高、功耗低的優勢會逐漸凸顯出來。
AI晶片案例
目前,在AI應用方面,全球資料中心用GPU市場基本被英偉達壟斷,這裡用到的都是高效能GPU,其門檻很高,又是用於AI,因此,還沒有什麼競爭對手。
除了GPU晶片本身之外,英偉達還有一個優勢,那就是其在AI計算方面,有CUDA軟體生態系統的配合。CUDA程式設計工具包讓開發者可以對每一個畫素輕鬆程式設計,在這之前,對程式設計師來說,GPU程式設計是一件很痛苦的事,CUDA成功將Java、C++等高階語言開放給了GPU程式設計,從而讓GPU程式設計變得簡單了許多,研究者也可以更低的成本快速開發他們的深度學習模型。以圖形處理器加速卡Tesla V100 PCIe/SXM2為例,其晶片採用臺積電的12nm製程工藝,透過與CUDA軟體和NVLink快速通道的配合,能達到近125兆次深度學習的浮點運算訓練速度,而以16bit的半精度浮點效能來看,可達到31Tera FLOPS。
FPGA方面,Altera被英特爾收購之後,賽靈思是目前的霸主,作為傳統的CPU廠商,英特爾近幾年正在AI領域大力佈局,收購相關公司自然是一個重要手段,透過收購全面佈局 FPGA和ASIC,除了Altera的FPGA之外,還透過收購Mobileye和視覺處理器公司Movidius,佈局無人駕駛和計算機視覺,這也是將來AI大有可為的兩個應用領域。
在收購Altera之後,英特爾的技術發展路線就出現了調整,例如,其原來的產品策略是做分立的CPU+FPGA加速器,而兩家公司整合後,由簡單的分立器件疊加改為了封裝整合,即將CPU和FPGA晶片封裝在一起,這還不算完,英特爾下一步還要將CPU和FPGA整合在同一晶片內,做成SoC。
賽靈思方面,該公司於2018年底推出了以低成本、低延遲、高能效深度神經網路(DNN)演算法為基礎的Alveo加速卡,基於該公司的UltraScale架構,採用了臺積電的16nm製程工藝,目標市場就是資料中心和雲端的AI推理市場。
AI專用ASIC方面,國內外已經有多家企業投入了研發,例如國內的寒武紀(正在開發NPU)、地平線(BPU系列),還有華為海思和位元大陸,也在專用AI晶片方面投入了不少資源。國外最為知名的就是谷歌的TPU了,這也是到目前為止,最為成熟的高效能AI專用晶片了。做ASIC需要對應用場景有深刻和精確到位的瞭解,而這方面卻是傳統晶片設計企業和IDM的短板,因此,目前做AI專用ASIC的,大多是系統產商,網際網路巨頭,或者以演算法起家的公司。
在中國,位元大陸的算豐 (SOPHON) BM1680和BM1682雲端安防及大資料AI推理系列產品已經上市,此外,還有其它幾家沒有量產的晶片,如華為海思的昇騰Ascend 910系列,據悉會採用臺積電的7nm製程工藝,預計會在今年年底量產。此外,百度的崑崙晶片(採用三星的14nm製程),以及阿里平頭哥的Ali-NPU等,也處在研發階段,距離量產還有一段時日。
結語