英特爾AI晶片業務的現狀與未來

半导体行业观察發表於2019-06-04

近兩年來,在英偉達、高通、AMD、英特爾華為等科技公司加速佈局的戰略規劃下,晶片領域競爭愈演愈烈。如今隨著人工智慧時代的到來,再次為晶片市場激發新的活力,而與此同時,這意味著新一輪的晶片大戰也即將開啟。

其中,本就為晶片巨頭之一的英特爾在面對一眾挑戰者之際,不僅接連收購了現場可程式設計門陣列的製造商 Altera、Nervana、AI 模型套件的創業公司 Vertex.ai,還在以 AI 加速的光子電路和光學晶片方面展開了積極的探索。

顯而易見,對於英特爾而言,AI 晶片業務才是它的未來。

英特爾AI晶片業務的現狀與未來

以下為譯文:

AI晶片業務才是英特爾的未來。去年,英特爾的AI晶片部門創收高達10億美元,英特爾預計這一市場還會以每年30%的速度增長,有望從2017年的25億美元增長到2022年的100億美元。如此看來,英特爾目前以資料為中心的收入佔到了其所有部門所有業務的一半,比5年前上漲了大約1/3。

但儘管如此,英偉達(Nvidia)、高通、邁威爾(Marvell)和AMD等公司帶來的競爭也日益加劇;Hailo科技公司、Graphcore、Wave Computing、Esperanto和Quadric等創業公司也加入了這場角逐;甚至連亞馬遜也有可能威脅到英特爾的收益,因此,英特爾並沒沒有滿足於自己的成就。2015年,英特爾先是收購了現場可程式設計門陣列(Field Programmable Gate Array,簡稱FPGA)的製造商Altera,一年後又收購了Nervana,填補了其硬體平臺產品的空缺,為全新一代AI加速器晶片組奠定了基礎。去年8月,英特爾又拿下了Vertex.ai——這是一家開發平臺無關的AI模型套件的創業公司。

然而,英特爾的野心卻並未止步於此。在近日的採訪中,英特爾副總裁兼架構總經理Gadi Singer以及與英特爾人工智慧產品部門高階主管Casimir Wierzynski透露了英特爾在基於光並以AI加速的光子電路和光學晶片方面的積極探索。

Singer表示:“人工智慧硬體是一個價值數十億美元的商機。我們會投資幾個產品線,因為該領域的需求非常廣泛。其中一些產品(比如加速器等)將側重於節能,這是這些產品獨有的特點。因此,投資這個領域可以讓我們的投資組合相輔相成。”

軟體

Singer指出,如果硬體上相應軟體的開發難度太大,那麼硬體將毫無價值。因此,英特爾會絕對不會忽視AI領域的軟體生態系統。

去年4月,英特爾宣佈開源nGraph——這是一種神經網路模型編譯器,它能夠在多處理器架構上對彙編程式碼進行優化。大約在同一時期內,英特爾還推出了One API,這套工具可以將計算引擎對映到一系列的處理器、圖形晶片、FPGA以及其他加速器。5月份,英特爾新成立的人工智慧實驗室免費開放了一個用於自然語言處理的跨平臺庫NLP Architect,該庫可以為聊天助手提供名稱實體識別,意圖提取和語義分析等功能,同時提供相應的評測。

Singer指出,英特爾已開源的工具包遠不止這些。如今,英特爾還提供了神經網路壓縮庫Distiller,這個庫可以從AI模型中去除與目標任務無關的部分,從而達到縮小模型的目的。還有一個增強學習框架Coach,可以讓使用者將AI代理嵌入到機器人和自動駕駛車輛的訓練環境中。

2018年春季,英特爾推出了OpenVINO(Open Visual Inference & Neural Network Optimization,開放視覺推斷及神經網路優化),這是一個用於AI邊緣計算開發的工具套件,整合了用於目標檢測、面部識別以及目標跟蹤等一系列預先訓練好的AI模型。這套工具適用於傳統的CPU,(在使用訓練好的AI模型進行預測時)也可以用於FPGA等專門用於推斷的晶片,目前這套工具已經被美國通用電氣醫療集團等公司用於醫療成像,還被Dahua等公司用於智慧城市服務。

Singer表示,OpenVINO旨在打造英特爾的計算機視覺軟體開發套件(SDK),這套工具集視訊處理、計算機視覺、機器學習以及流水線優化於一身,其使用了Movidius Neural Compute SDK(該SDK中包含一套軟體,用於編譯、配置並檢查機器學習模型)。兩者與英特爾的Movidius神經計算API屬於同一個系列,目的是為了簡化C、C++和Python等程式語言的應用開發。

其中許多套件都執行在英特爾的AI DevCloud中,這是一個雲託管AI模型訓練及推斷平臺,其背後是強大的Xeon可擴充套件處理器。DevCloud提供可擴充套件的儲存和計算資源,因此開發人員能夠針對硬體(例如Aaeon Technologies等製造商提供的mini-PCIe開發板)遠端進行測試、優化以及模型驗證。

隱私

Singer表示,英特爾深知保護隱私是AI訓練以及推斷的重要發展趨勢之一,去年年底HE-Transformer的開源就是英特爾邁出的重要的第一步。從大的方面來說,HE-Transformer是一個建立在微軟研究院的簡單加密演算法庫(Simple Encrypted Arithmetic Library,簡稱SEAL)上的nGraph後端,允許模型對加密資料進行操作。

HE-Transformer中“HE”代表“同態加密”(homomorphic encryption),這種加密形式允許使用演算法加密的明文。它生成的加密計算結果經過解密後,與針對未加密文字執行的操作結果完全匹配。

HE-Transformer實際上是一個抽象層,該抽象層可應用於Google的TensorFlow、Facebook的PyTorch和MXNet等開源框架上的神經網路。

Singer表示:“我們相信安全和隱私極其重要。這實際上是大規模機器學習的基本條件。例如,如果你需要獲取多家醫院的很多患者的資訊,那麼隱私問題就會變得非常重要。即使你想了解這些人的行為和動作,但是如果你無法保護他們的隱私,那麼他們就不會允許你訪問這些資料。”

在談到英特爾是否會繼續開發類似於Google TensorFlow Privacy(這個庫採用了一系列統計技術來保證AI模型訓練的隱私)的機器學習庫時,Singer表示相關的工作正在進行中,他說:“現階段我們還不想討論這個問題,因為我們的深度學習能力還處於早期階段,但是我們非常有興趣,也願意投資這方面。”

加速器與FPGA

絕大多數AI系統核心的神經網路的構成元素是神經元,即近似模擬生物神經元而建模的數學函式。這些神經元分層排列,它們通過“突觸”(synapse)連線,將訊號傳遞給其他神經元。這些訊號(提供給神經網路的資料,或者叫輸入)在層與層之間傳播,並通過調整每個連線的突觸強度(權重)來逐步“調整”網路。經過一段時間後,神經網路就能從資料集中提取特徵,並識別出跨樣本趨勢,最終學會預測。

神經網路無法攝取原始的影象、視訊、音訊或文字。訓練資料集的樣本需要經過代數轉換後變成多維陣列,例如標量(單個數字)、向量(有序的標量陣列)以及矩陣(排列成多行多列的標量)。還有一種實體型別叫做張量(tensor),它概括了標量、向量和矩陣,並提供了線性變換(或線性關係)的功能。

例如,一張包含數百萬畫素的影象會轉換成超大的數字矩陣,而音訊記錄中的單詞和短語可以對映成向量,這種技術稱為嵌入。

毫無疑問,在處理這些統計操作時,有些硬體的效率更高。一般來說,處理器足以處理一些涉及到複雜順序計算的推斷和訓練,特別是像英特爾第二代Xeon可擴充套件CPU,它結合了向量神經網路指令以及名為DL Boost AI的深度學習軟體優化。因此,英特爾聲稱其第二代Xeon可擴充套件CPU可以將AI工作負載上的效能提高到2.4倍(這些工作負載佔資料中心推斷的60%),同時可以將推斷工作負載的效能提高到14倍,其中包括影象識別、目標檢測和影象分割等。英特爾還聲稱其即將推出的10nm Ice Lake 處理器能夠提供比市場上同類產品最多高8.8倍的AI推斷吞吐量。

然而,一些最苛刻的深度學習涉及張量操作,而顯示卡以及專用積體電路(Application Specific Integrated Circuit,簡稱ASIC)的晶片更有利於這些操作。這是因為這些晶片包含數千個能夠並行執行數百萬次數學計算的核心。

Singer表示:“儘管CPU對於推斷非常有效,但是有些情況下需要進行張量操作。深度學習中最苛刻的任務需要處理多維陣列,而且還需要進行張量上進行多種算術運算。從解決方案體系結構的角度來看,我們應該從優化軟體和其他硬體功能方面不斷強化CPU,然而僅靠CPU本身並不足以處理所有這類情形。” 

英特爾擁有16nm Myriad X VPU這樣的視覺處理器,它的優化影象訊號處理和推斷裝置具有立體聲模組,可以處理最高180Hz的雙720p視訊源,還擁有采用硬體編碼的可調訊號處理器流水線,能夠對來自8個感測器的最大4K解析度的視訊進行編碼。此外,它還配備了英特爾的神經計算引擎,這是一種專用的硬體加速器,具有本地 FP16支援和8位定點支援。

英特爾聲稱,這款晶片在全速運轉時可以達到每秒4萬億次計算和每秒1萬億次運算的專用神經網路計算,是其前身(Myriad 2)在深度神經網路推斷效能的10倍。

FPGA 與專用的加速器不太一樣,因為它們的硬體往往針對通用的、更廣泛的計算和資料功能。但它們在可程式設計性方面確實有優勢,因此開發人員能夠在成品上對它們進行配置和重新配置。這可能是微軟為Project Brain Wave選擇英特爾Stratix 10 FPGA的原因之一,Project Brainwave是一項針對加速深度神經網路訓練與部署而優化的雲服務。

英特爾在Agilex上提供了最先進的FPGA解決方案,其最新的10nm嵌入式晶片組旨在解決企業網路和資料中心的“以資料為中心”的難題。

Agilex產品具有可定製的異構3D系統級封裝,包括模擬、記憶體、計算和定製 I/O 元件——其中包括 DDR5、 HBM,還有一塊Intel Optane DC。它們得到了英特爾One API的全面支援,並且還提供了遷移到ASIC的解決辦法。

英特爾聲稱,與英特爾老式的14nm Stratix10FPGA相比,Agilex FPGA的效能提高了40%,總功耗則降低了40%,這部分要歸功於他們的第二代 HyperFlex 架構。

Nervana

早在2017年,英特爾首次宣佈其正在研發的兩款AI加速器晶片:一款用於推斷工作負載,另一款用於訓練。今年1月份,英特爾在消費電子展(Consumer Electronics Show,簡稱CES)新聞釋出會上進一步詳細介紹了這款推斷產品。它被稱為Nervana神經網路處理器(Nervana Neural Network Processor,即NNP-I),它適用於PCIe插槽(或基於OCP加速器模組規格的夾層板),採用10nm工藝製造,並涵蓋了基於英特爾Ice Lake架構處理器的一般性操作,以及神經網路加速。

NNP-I針對影象識別進行了優化,其架構與其他晶片截然不同;它沒有標準的快取層次結構,其處理器內嵌的記憶體由軟體直接管理。Singer表示,由於其高速的晶片內外互連,NNP-I 能夠將神經網路引數分散到多個晶片上,從而實現非常高的並行性。此外,它還使用了一種新的數字格式—— Flexpoint,這種格式可以提高推斷任務中至關重要的標量計算,讓晶片能夠適應大型機器學習模型,同時保持“行業領先”的功耗。

Singer表示,“影象可能是最適合加速器的情況,因為很多影象識別功能都是矩陣乘法。“自然語言處理和推薦系統需要更多的混合型別的計算,該CPU核心可以在本地執行大量的張量活動和 CPU 任務,而無需將資料移出晶片。”

NNP-I的量產仍然任重道遠,但Singer表示,它已經在英特爾的實驗室中執行了多種拓撲結構。他預計今年有望投入生產,支援Facebook的Glow Compiler——這是一款機器學習編譯器,旨在加速深度學習框架的效能。

上述代號為“Spring Crest”的加速晶片Nervana Neural Net L-1000可能與 NNP-I 一起出現。這種16nm 晶片的24個計算叢集提供的AI訓練效能是同類晶片的10倍,是英特爾首款NNP晶片Lake Crest的3-4倍。

Singer不願透露更多資訊,但他表示,有關Spring Crest 的更多細節將在未來幾個月內公佈。

光子積體電路

根據英特爾AI產品部門內負責矽光子組的Wierzynski所說,NNP-I和Spring Crest之外的晶片可能與如今的AI加速器晶片截然不同。目前,光子積體電路(光學晶片的基礎)的工作正在進行中,與同類電子積體電路相比,光子積體電路有許多優點。

Wierzynski表示:“幾年前,麻省理工學院出版的一篇論文吸引了我的注意。文中提到了在電子產品使用光子。光子具有非常好的特性,它們可以在物質中快速移動,而且你可以通過一些方式控制光,讓它為你做有意義的事請。”

Wierzynski指的是總部位於波士頓的光子技術創業公司Lightelligence執行長沈亦晨,與師從麻省理工學院物理系教授Marin Soljacic的一名光子材料的博士學生於2017年在《自然光子學》雜誌上發表的一篇研究論文,文中描述了一種利用光學干涉實現神經網路工作負載的新方法。

Wierzynski說:“加速深度學習的關鍵問題之一是,在晶片越來越小的情況下,如何滿足這種延遲越來越低的需求?我們在挑戰矽晶片的極限。這說明一方面你需要一定的計算效能,同時又需要在一定程度上控制功耗。”

為此,像Lightelligence這樣的光學晶片只需要有限的能量,因為光產生的熱量比電少。而且光也不易受環境溫度、電磁場和其他噪音的影響。

此外,採用光子的設計中,延遲比矽材料改善了10,000倍,同時功耗水平還降低了幾個數量級。在初步的測試中,與最先進的電子晶片相比,某些矩陣向量乘法運算速度提高了100倍。

Wierzynski說:“我們希望你能夠使用與人們現在使用的AI模型很相近的模型。我們也正在學習更多關於如何大規模構建光子電路的知識。這聽起來很像《星際迷航》。”

然而,這並非一件易事。正如Wierzynski所指出的那樣,除了矩陣乘法之外,神經網路還有第二個基本特徵:非線性。如果沒有非線性,那麼神經網路只能簡單地計算輸入的加權和,而不能做出預測。遺憾的是,關於在光學領域中可以執行何種非線性操作的問題仍然存在。一種可能的解決方案是,在同一晶片上結合矽和光學電路的混合方法。Wierzynski表示,神經網路的一些部分可以採用光學的方式執行,而其餘的部分則仍以電子的方式執行。

但是,這並不能解決光學晶片的縮放問題。速度非常快的光子電路需要快速的儲存器,而且還需要將所有元件(包括鐳射器、調製器和光學組合器)全部封裝在大約200毫米的晶圓上。

Wierzynski說:“任何製造過程中都存在不完善之處,這意味著晶片內部和晶片之間會有細微的變化,這些會影響計算的準確性。”

幸運的是,他和同事們正在努力尋找解決方案。在最近的一篇論文中,他們描述了在馬赫-曾德爾干涉儀(Mach–Zehnder interferometer,簡稱MZI)上構建AI系統的兩種架構,MZIs 是一種光子電路,經過設定後可以在兩束光的相位相關的量之間執行2×2矩陣乘法。

基準手寫數字識別(MNIST)的深度學習任務上,對這兩種體系結構進行模擬訓練後,研究人員發現,在雙精度浮點的精度下,GridNet 的準確度比FFTNet更高(98%對95%)。重要的是,FFTNet表現出強大的穩健性,即使加入了人工噪聲,它的準確率也從未低於50%。

Wierzynski表示,這項研究為人工智慧軟體訓練技術奠定了基礎,可以避免在製造後對光學晶片進行微調,因此省時省力。

他補充道:“這是英特爾在過去幾十年中為光電路開發的非常複雜的製造技術,同時英特爾也賦予了這種技術一個全新的目的。雖然目前這種技術還處於初期階段,這個領域內還有大量工作需要做,但我已然興奮不已了。”

原文連結:

https://venturebeat.com/2019/05/27/the-present-and-future-of-intels-ai-chip-business/

相關文章