AI不僅是最大科技熱點,也是未來數十年科技發展趨勢。伴隨著這股熱潮,AI晶片成為了半導體行業的新風向,投資者的新寵。AI晶片經過了2018年的喧囂,在2019年得到了沉澱。伴隨著AI晶片企業的成長,7nm工藝也逐漸成熟,這兩者在多元化應用場景的催化之下,也為市場提供了更多的AI晶片產品。
人工智慧的運用分成兩個階段,一是學習訓練階段,二是推理階段。訓練晶片通常需要通過大量的資料輸入,或採取增強學習等非監督學習方法,訓練出一個複雜的深度神經網路模型,這其中以英偉達的GPU表現最為突出。推理晶片則是利用訓練好的模型,使用新的資料去“推理”出各種結論,此需求也促進GPU、FPGA和ASIC等不同硬體的發展。
經過幾年的發展,很多企業也開始圍繞著AI訓練晶片或AI推理晶片展開了競爭。在這場大戰背後,有幾個現象值得關注。
英特爾對英偉達虎視眈眈
伴隨著人工智慧時代的到來,海量資料的紅利,使得AI訓練晶片得到了快速發展。在這當中,GPU因其通用性和高效能的優勢,被AI訓練晶片市場所接受,據相關資料顯示,GPU在雲端訓練市場上佔比高達90%。而提到GPU就不得不提到,GPU行業的傳奇——英偉達。
英偉達在2006以及2007年,分別推出了Tesla架構以及CUDA系列程式設計環境,降低了將GPU用作於通用計算的難度。2012年,隨著人工智慧、深度神經網路技術的突破發展,英偉達也憑藉其在GPU領域的積累迅速崛起,股價一路飆升——2015年20美元的股價在2018年到達了292美元的高點。財富的積累,也為英偉達接下來的發展帶來了機會。這可以從英偉達在研發上的投入得以體現,英偉達在研發投入上一直保持著增長的趨勢,2016到2018財年中增長35%,2019財年前兩個季度就投入了11.2億美元,同比大漲36%。從營收上看,據其第三季度財報資料顯示,英偉達2020財年Q3營收達30.14億美元。
英偉達一路高歌猛進,也使得其他企業盯上了AI這塊大蛋糕。2016年英特爾宣佈了“以資料為中心”的戰略轉型,AI的發展離不開資料,從其戰略轉型中,也不難看出英特爾正在著力佈局AI領域。作為一家老牌半導體企業,英特爾雄厚的資金力量和技術積累,為其發展AI晶片奠定了基礎。
具體來看,自2016年以後,英特爾就開始陸續收購AI晶片企業——2016 年 8 月,英特爾以 4.08 億美元收購了 Nervana;2019年12月,英特爾在 AI 晶片領域又出手了,公司宣佈以 20 億美元收購以色列晶片製造商 Habana Labs。有了 Habana Labs的加持,使得英特爾在訓練晶片和推理晶片上能夠更上一層樓。(Habana Labs的明星產品是兩個AI專用晶片:AI 推理晶片 Goya(戈雅)和 AI 訓練晶片 Gaudi(高迪)。其中, Gaudi被英國資深晶片工程師James W. Hanlon,評為了當前十大AI訓練晶片之一。)
英特爾對AI晶片的未來十分看好。從英特爾公佈的訊息來看,2017年,英特爾的AI晶片部門收入達10億美元;2019年,AI收入預計將達到35億美元,這也意味著英特爾的AI營收兩年增長了250%。
在這種增長率的背後,自然離不開產品的支撐。據介紹,2017年英特爾AI收入來主要自於英特爾至強處理器在資料中心中的AI應用,而2019年則包含了其今年最新推出的AI晶片——NNP系列。2019 年 11 月在人工智慧峰會上,英特爾釋出了首款雲端 AI 專用晶片 Nervana 神經網路處理器(NNP)系列產品。NNP全稱 Nervana Neural Network Processor,這是英特爾推出的第一款面向資料中心客戶,針對複雜深度學習的專用 ASIC 晶片。Nervana NNP 並不是一枚晶片,而是一個晶片家族。據悉,NNP-T用於訓練,NNP-I主打推理。
NNP-T
NNP-T採用了16nm FF+製程工藝,有270萬個16nm電晶體,矽片面積680平方毫米,60mmx60mm 2.5D封裝,包含24個張量處理器組成的網格。核心頻率最高可達1.1GHz,60MB片上儲存器,4個8GB的HBM2-2000記憶體,它使用x16 PCIe 4介面,TDP為150~250W。
NNP-I
NNP-I採用了10nm工藝,基於Ice Lake處理器,在資料中心推理工作負載中,它的效率達4.8TOPs/W,功率範圍可以在10W到50W之間。在ResNet50上,NNP-I在10W的功率水平上每秒可以完成3600次推理,每瓦每秒可以處理360張圖片。
相較於英特爾,英偉達則選擇在今年的11月中低調地釋出了其GPU新品——基於Volta Tesla的新變種,Tesla V100s,來捍衛其在AI領域中的地位。據外媒報導顯示,在配置方面,Tesla V100S具有相同的GV100 GPU,該GPU基於12nm FinFET工藝而打造。規範包括5120個CUDA核心,640個Tensor核心和32 GB的HBM2記憶體。即使這些規格與現有的Tesla V100非常相似,但是GPU和記憶體時鐘速度都進行了一些重大更改。Tesla V100S採用250W設計,在300W的TDP下可提供14.75 TFLOP的最大FP32計算效能。
國內晶片公司蠢蠢欲動
AI新時代的到來,讓眾多企業站在了同一起跑線上。在這大爭之世中,不僅有老牌半導體巨頭的強勢參與,也有一些國產品牌開始初顯鋒芒。同時,我國龐大的電子市場所帶來的資料資源,也為AI訓練晶片的發展提供了肥沃的土壤。在這種環境的驅動下,國產廠商也開始試水訓練晶片市場。
華為曾在2018年10月舉辦了一場主題為AI的大會,2019年8,華為推出了華為昇騰910,該晶片昇騰 910 定位於雲端 AI 晶片,著重 AI 訓練能力。昇騰910是華為首款採用達芬奇架構的 AI 晶片,基於 7nm 增強版 EUV 工藝,其 AI 核整合了 3D 立方體計算引擎,可以在一個時鐘週期內完成 4096 的乘加運算。據悉,昇騰 910 是目前為止計算密度最大的單晶片,最大功耗為 350W。據infoq的報導稱,最新的測試結果表明:在算力方面,昇騰 910 完全達到了設計規格,即:半精度 (FP16) 算力達到 256 Tera-FLOPS,整數精度 (INT8) 算力達到 512 Tera-OPS,重要的是,達到規格算力所需功耗僅 310W,明顯低於設計規格的 350W。2019年10月,昇騰910也被James W. Hanlon評為當前十大AI訓練晶片之一。
除華為之外,我國網際網路巨頭也紛紛試水AI訓練晶片。在人工智慧時代之前,這些網際網路企業經過多年的積累,已經建立了生態優勢。待到深度學習熱潮的爆發,這些網際網路企業生態中的資料價值開始凸顯,而這就需要AI訓練晶片。網際網路企業跨界涉足AI訓練晶片領域,可以通過資本運作的方式來參與,也可以選擇建立新的部門或子公司,通過硬核技術切入AI訓練晶片的競爭。
騰訊於2018年8月投資了一家專攻於AI訓練晶片的初創企業——燧原科技。在此則訊息官宣的20個月後,燧原科技釋出了其首款AI訓練晶片“邃思”。據悉,邃思DTU主要應用於雲端人工智慧訓練,採用格羅方德12nm FinFET工藝,480平方毫米主晶片上承載141億個電晶體,算力可達20TFLOPS,最大功耗225W。該晶片基於通用 AI 處理器的設計,具備一定的可程式設計性,其計算核心擁有 32 個通用獨立自主設計的可擴充套件神經元處理器(SIP),每 8 個 SIP 可以組合成 1 個可擴充套件智慧計算群(SIC)。據燧原科技介紹,邃思 DTU 由 12nm FinFET 工藝打造,整合了 141 億個電晶體,採用 2.5D 封裝,具有 16Gbps 的 PCIe 4.0 介面和 25Gbps 的 ESL 高速互聯。
此外,百度也宣佈了其在訓練晶片上的最新進展——在2018百度AI開發者大會上,李彥宏釋出了中國首款雲端AI全功能AI晶片“崑崙”,據悉,崑崙系列晶片將由百度自主研發,其中包含訓練晶片崑崙818-300,推理晶片崑崙818-100。2019年12 月,三星和百度官方宣佈,百度首款 AI 晶片崑崙已經完成研發,將由三星代工,最早將於明年初實現量產。具體來說,崑崙晶片基於百度自主研發的,面向雲、邊緣和人工智慧的神經處理器架構 XPU 和三星的 14nm 工藝技術。在算力方面,崑崙晶片支援PCIe 4.0 x8,提供 512 GBps 的記憶體頻寬,在 150 W的功率下實現 260 TOPS 的處理能力;它支援針對自然語言處理的預訓練模型 Ernie,推理速度比傳統 GPU/FPGA 加速模型快 3 倍。
推理晶片市場百家爭鳴
相較於訓練晶片,推理的市場門檻相對較低,應用場景也更加廣泛。這也使得,很多初創公司在推理晶片方面展開了競爭——寒武紀、地平線、依圖科技、平頭哥、位元大陸等廠商均於今年推出了相關產品。
乘著AI的東風,國內崛起了一批AI獨角獸企業。寒武紀作為國內比較早的一批投入到AI晶片的企業,於2019年推出了“思元”系列兩款產品——思元270、思元220。其中,思元220是寒武紀在第21屆高交會正式釋出的邊緣AI系列產品。思元220(MLU220)晶片是寒武紀在邊緣智慧計算領域產品的代表。據悉,思元 220 是一款專門用於深度學習的 SOC 邊緣加速晶片,採用TSMC 16nm工藝,同時採用了FCCSP的封裝,尺寸15mmx15mm。客戶可以根據實際應用靈活的選擇運算型別來獲得卓越的人工智慧推理效能。思元220的推出也標誌寒武紀在雲、邊、端實現了全方位、立體式的覆蓋。
2019年2月27日,AI晶片初創企業地平線宣佈,公司獲得了6億美元(約合40億人民幣)左右的B輪融資,估值達30億美元,藉此,地平線也成為全球估值最高的人工智慧晶片獨角獸企業。在今年10月的深圳安博會上,地平線釋出了其新一代AIoT晶片“旭日二代”,這是“旭日”系列的第二款邊緣AI推理晶片。據悉,旭日二代整合了地平線第二代 BPU 架構(伯努利架構),在邊緣端即可實現全視訊結構化能力。它的功耗僅2W,算力達4TOPS,其算力利用率高達90%。
依圖科技作為我國“AI四小龍”之一,經過近8年的發展,其產品也被成功應用於智慧安防、依圖醫療、智慧金融、智慧城市、智慧硬體等領域。2019年5月,依圖推出了“釋出即商用”的自研AI晶片求索(QuestCore™),這是一款雲端AI推理專用晶片。據悉,依圖QuestCore™使用了16nm工藝,採用SoC解決方案、ARM+ManyCore™架構、LPDDR4X記憶體,而其64路全高清攝像機實時解碼、50路視訊解析成為備受矚目的功能。據介紹,作為雲端伺服器晶片,求索可以獨立執行,不依賴Intel x86 CPU。這也是依圖晶片與英偉達GPU、谷歌TPU和其他AI晶片公司研發的AI加速器產品一個很大的不同。
一股挖礦熱潮,讓位元大陸一舉成為最受關注的科技公司之一。而伴隨著這股熱潮過後,位元大陸也開始思考它的發展之路。眾所周知,“礦機”晶片主要以ASIC晶片為主,ASIC晶片的計算能力和計算效率都直接根據特定的演算法的需要進行定製的,所以具有體積小、功耗低、高可靠性、保密性強、計算效能高、計算效率高等優勢。而這種優勢與AI時代下所需要的晶片不謀而合。因而,位元大陸也將目光投向了AI晶片領域,並推出了算豐系列晶片。2019年9月,位元大陸在福州正式釋出其第三代AI晶片——城市大腦專用晶片BM1684,該晶片聚焦於雲端及邊緣應用的人工智慧推理。據悉,該晶片採用臺積電12nm工藝,在功耗16瓦的前提下,FP32 精度算力可達到2.2TFlops,INT8算力可高達17.6Tops,在Winograd卷積加速下INT8算力更提升至35.2Tops,並整合高清解碼和編碼演算法,實現了低功耗、高效能、全定製,是一顆低功耗、高效能的SoC晶片。
此外,在2019年雲棲大會上,阿里巴巴也重磅釋出了其AI推理晶片——含光800,引發了行業的關注。據悉,含光800採用臺積電12nm製程工藝,含170億電晶體,支援PCIe 4.0和單機多卡,今年第四季度開始量產。據官方介紹,在業界標準的ResNet-50測試中,含光800推理效能達到78563 IPS,比目前業界最好的AI晶片效能高4倍;能效比500 IPS/W,是第二名的3.3倍。相關媒體報導稱,含光 800 是阿里成立平頭哥晶片公司後第一款正式流片的晶片,是阿里裡巴巴第一次使用了自己的硬體架構,也是網際網路公司研發的第一款大晶片。
結語
從上述訊息中看,根據2019年各個企業釋出的新產品顯示,國外企業在AI訓練晶片市場佔有一定優勢。國內專注於AI訓練晶片的企業相對較少,實力比較雄厚的國內企業幾乎不約而同地均選擇了訓練晶片和推理晶片雙路線發展的策略,更多的本土公司則瞄準了AI推理晶片的發展。
而從2012年AI晶片初現崢嶸到現在的8年發展當中,AI早已經由一個概念逐漸落實到各個場景當中。在接下來優勝略汰的市場競爭中,這些企業或許將面臨著巨大的壓力,或許也會在未來經歷一番行業併購,但無論如何這些AI晶片的後續發展仍更令人期待。