一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

半导体行业观察發表於2018-11-20

2018年7月Google在其雲端服務年會Google Cloud Next上正式發表其邊緣(Edge)技術,與另兩家國際公有云服務大廠Amazon/AWS、Microsoft Azure相比,Google對於邊緣技術已屬較晚表態、較晚佈局者,但其技術主張卻與前兩業者有所不同。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

Google AI佈局逐漸走向邊緣

除了同樣提倡基礎的物聯網閘道器(IoT Gateway)軟體Edge IoT Core、人工智慧/機器學習(AI/ML)軟體Edge ML外,還針對人工智慧/機器學習推出專屬的加速運算晶片,稱為Google Edge TPU(圖1),成為此次盛會一大焦點。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖1 Google發表僅有1美分銅板面積不到的人工智慧加速運算晶片Edge TPU。資料來源:Google官網

在Google發表Edge TPU前已發表過Cloud TPU晶片,首次發表是在Google另一個更全面、更盛大的例行年會Google I/O 2016上。Cloud TPU顧名思義用於雲端機房,而TPU是TensorFlow Processing Unit的縮寫,言下之意是針對TensorFlow而設計的硬體加速運算器,TensorFlow則是Google於2015年11月提出的人工智慧框架,是目前諸多人工智慧框架中的一大主流,其他知名的框架如Caffe/Caffe 2、Apache MXnet等。

目前人工智慧框架百花齊放,其他常見的亦有Keras、PyTorch、CNTK、DL4J、Theano、Torch7、Paddle、DSSTNE、tiny-dnn、Chainer、neon、ONNX、BigDL、DyNet、brainstorm、CoreML等。若以簡單譬喻而言,人工智慧的開發撰寫如同文書撰寫,人工智慧框架就如同記事本、Word等文書處理器,功效在於協助與便利開發撰寫。

Google自行開發設計的Cloud TPU僅用於自家雲端機房,且已對多種Google官方雲端服務帶來加速效果,例如Google街景圖服務的文書處理、Google相簿的照片分析、乃至Google搜尋引擎服務等。Google Cloud TPU也改版快速,2016年首次發表後2017年推出第二代,2018年推出第三代晶片(圖2)。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖2 Google連續三年在Google I/O上揭露自研的Cloud TPU新技術動向。資料來源:Google官網

不過,Google之後對Cloud TPU的技術態度似有變化。2018年2月宣佈可申請租用TPU運算力,如同Google Cloud Platform(GCP)的公有云服務般,依據運算晶片的使用時間計費,每小時6.5美元(至2018年9月已降至4.5美元) ,與GCP的CPU租用服務相比相當昂貴,GCP的CPU租用服務,以臺灣彰化濱海工業區的機房(不同位置的機房費率不同)而言,標準型計價約在0.055至5.28美元間,且8種計費費率中有5種低於1美元/小時。

TPU租用費亦同樣高於GPU租用,GCP的NVIDIA GPU租用費率約在0.49至2.48美元間,視規格等級而異(Tesla K80/P100/V100)。Google Cloud TPU雖可租用,但Google是否願意單獨銷售Cloud TPU給系統商,讓系統商製造及銷售TPU運算系統,仍待進一步觀察。

在Google推出雲端用的Cloud TPU後,讓人未預料的是Google也針對邊緣提出專屬的TPU晶片,然在此前仍有些徵兆,即2017年11月Google提出輕量版的TensorFlow Lite(某種程度取代此前的TensorFlow Mobile),使電力有限的行動裝置也能支援TensorFlow,2018年推出的Edge TPU晶片即是以執行TensorFlow Lite為主,而非原宗的TensorFlow。

Google Edge裝置內的作業系統為Linux或Android Things,而後執行Google Edge IoT Core基礎功能軟體、Google Edge ML人工智慧軟體,並可選用配置Google Edge TPU。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

Google Edge軟硬體架構概觀

圖3左側為物聯網感測器,右側為Google雲端系統及服務。另外Edge TPU也支援Android Neural Networks 神經網路應用程式介面(API),簡稱NNAPI(圖4)。NNAPI於在2017年12月Android 8.1釋出時一同提出,NNAPI可視為TensorFlow Lite、Caffe2等框架的基礎層。由此可知Edge TPU所支援呼應並加速的軟體,於2017年便已先行到位。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖3 Google Edge裝置軟硬體架構圖 資料來源:Google官網

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖4 Google Android NNAPI系統架構圖,NNAPI可透過硬體抽象層與驅動程式,運用GPU、特定處理器或數位訊號處理器(DSP)等,使人工智慧運算加速。資料來源:Google官網

與Cloud TPU不同的是,Edge TPU估將由Google銷售給系統商,再由系統商配置於前端裝置內,包含感測器節點、裝置或閘道器內,Edge TPU不是自用或租用而是銷售。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

Edge TPU技術輪廓

雖然Google對Cloud TPU、Edge TPU的技術資訊揭露均不多,但仍有若干資訊可推測其背後意向與考量。

首先是Google很明白Edge定位的系統運算力有限,所以Edge TPU的運算任務僅在於執行已訓練完成的人工智慧模型,即推測運算、推算工作(Inference,今日多譯成「推論」),真正要大量耗費運算力的模型訓練(Training),依然由充沛運算力的系統事先進行,如工作站、伺服器、雲端等,透過CPU/GPU/TPU進行訓練。

其次,Edge TPU強調可同時執行處理多組每秒30張高清晰度畫質的人工智慧判別運算,顯示Edge TPU將用於視訊影像類的人工智慧應用,且為即時判別(30FPS)。

更進一步的說明,Edge TPU只負責人工智慧的加速判別、加速推算,僅為加速器、輔助處理器的角色。因此,必須與系統的主控晶片溝通聯絡,這方面Edge TPU提供了兩種介接的方式,一是PCI Express介面,另一是USB介面。兩種介面均適合嵌入式設計,然PCI Express傳輸率較高,可避免傳輸瓶頸,而USB介面較可能定位在後裝型運用,即前端裝置已經存在,但仍可透過USB連線Edge TPU,帶來加速效果。

也由於須與Edge裝置整合,因此Edge TPU設計之初已儘可能減少功耗,雖然Google官方並未正式揭露,但已表態將與Google合作的臺灣工控系統商也表示,其典型功耗(Thermal Design Power, TDP)僅在1.8瓦,很明顯只要現成晶片封裝即可散熱,幾乎可不加散熱片,更不需要馬達風扇,便可讓Edge TPU正常運作。

至於Edge TPU支援的運算格式則為int8、int16,即8位元整數、16位元整數的人工智慧模型推算,但無法進行更高位元數的整數,或者是浮點數的運算,如16位元浮點數(FP16)。

Google一發表Edge TPU即有合作伙伴與應用的揭露,如南韓樂金(LG)將用於產線製造上;另外紐西蘭、澳洲、英國的Smart Parking公司(顧名思義是與智慧停車相關的方案商)也表態採用,Smart Parking不單採用Edge TPU,其後端系統也大量採用GCP服務;還有Xee公司將Edge TPU用於汽車駕駛輔助上,對影像與雷達資料進行研判,而後給予駕駛潛在危險警告,如路況變差、輪胎過度磨損等。目前所知Google將Edge TPU訴求於三個目標,即製造、零售、汽車。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

Movidius與Edge TPU的瑜亮情結

在Google尚未推出Edge TPU晶片前,其實Google已有使用前端的人工智慧加速晶片,2011年Google購併Motorola Mobility,而後於2014年將Motorola Mobility售給Lenovo,但Google仍保留下2個原屬於Motorola Mobility的研究專案,而未移轉給Lenovo,一是模組化手機專案Ara,另一是擴增實境技術專案Tango(此專案於2018年3月結束,改由ARCore技術接手)。

Google在2014年對外揭露Tango研究,此專案所發展的平板、手機等行動裝置,即配置了Movidius公司的VPU晶片,VPU即Vision Processing Unit之意,更具體而言是視訊型別的人工智慧運算、推算加速晶片。

Movidius自身發展第一代VPU,而後在與Google合作Tango計畫時則為第二代VPU,稱為Myriad 2(晶片編號MA2150/MA2450,差別在於MA2150最高連線1Gbit記憶體,MA2450可至4Gbit)。不僅Google採用,包含多軸無人機大廠大疆亦用於無人機上。之後2016年英特爾(Intel)購併Movidius,接手後發展出第三代VPU,稱為Myriad X(晶片編號MA2085/MA2485,MA2085封裝內無記憶體,MA2485內含4Gbit記憶體)。

Movidius在被英特爾收購後,Google依然鍾愛Movidius技術。2017年底Google推出AIY Vision Kit的開發套件,該套件內仍可見MA2450晶片的蹤影。AIY Vision Kit是Google用來推行其影像人工智慧技術的評估套件,以樹莓派電腦(Raspberry Pi, RPi)為基礎提供擴充延伸的硬體配件,即可摸索與評估Google的影像人工智慧技術。

而所謂的AIY是Google自創的複合字,是以人工智慧(AI)與DIY(Do-It-Yourself自己動手做)二字疊合而成。事實上Google在推出Vision Kit的同時也有推出Voice Kit,可供摸索評估Google的語音人工智慧技術,但語音的人工智慧運算其運算負荷並不吃重,不需要專屬加速晶片。

從2014年的Tango到2017年底的AIY Vision Kit,Google均以第二代Movidius晶片為主,因此理論上順其發展,Google即便在Edge環節有其技術主張,認為可配置人工智慧硬體加速晶片,應也會屬意Movidius,而非自行研發Edge TPU。

不過,最終Google提出了Edge TPU,因此不得不推測,英特爾購併Movidius後,Google可能認為後續新發展並不完全合乎期待,過往Movidius為小型獨立企業時,可能提供Google高度支援,然英特爾可能對Movidius技術資產的後續延伸與新走向有不同的想法。

對此可若干比較第三代Movidius Myriad X與Edge TPU,前者支援FP16的16位元浮點數推測運算及8位元整數推算,而Edge TPU如前述僅支援8位元整數及16位元整數推算;Movidius Myriad系列仍可能顧及潛在市場機會最大化,雖未廣泛支援多種AI框架,但至少支援兩種現階段主流框架,即TensorFlow與Caffe。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖5 Google在Tango專案與AIY Vision套件上均使用Movidius MA2450晶片。資料來源:Google官網

由此而論,Google可能對TensorFlow Lite寄予厚望,因而有專屬設計的加速晶片Edge TPU,Edge TPU可能一直維持比Movidius Myriad系列更低規(無浮點數)、更專精(只支援TensorFlow Lite )的技術發展定位,更高階的需求仍會選用Movidius Myriad系列,兩者高低並用並行。

或者Google未來只屬意自家Edge TPU,只在雲端外推行Edge TPU,並一直維持低階定位,不往更高階發展,或Edge TPU僅是首發,未來將持續發展更高階的Edge TPU,如此將與英特爾Movidius競爭,甚在效能規格大幅強化後而與NVIDIA Xavier競爭。

認為Edge TPU將與Movidius競爭的另一支援,在於Edge TPU也將推出USB隨身碟型態的開發/運用套件,並同樣使用AIY之名推展。早於Movidius未被英特爾收購前,Movidius即有提供USB隨身碟型態的人工智慧評估/運用套件(圖6),英特爾收購Movidius套件產品仍持續,套件稱為NCS(Neural Compute Stick)。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

圖6英特爾、Google均以PCI Express介面開發板與USB介面隨身碟型加速器,來推行其人工智慧加速晶片。資料來源:英特爾、Google

另一需考量的是,雖然Google在技術佈局上已逐漸同時注重軟硬體的均衡與呼應,自身對於硬體發展的主導與涉入也日深,但就過往經驗而言Google的硬體技術策略仍經常搖擺,甚在短期內放棄,因此Edge TPU仍可能不是長期技術策略中的一環,而是一個技術嘗試,特別是Cloud TPU、Edge TPU均為加速作用的輔助處理器,為選擇性使用,必要時仍可由其他晶片實現相同運算效果,或在英特爾、NVIDIA等晶片商給予更多技術發展承諾後,仍可能停止自有晶片發展路線。

其他產業推測也包含,Google Edge TPU的技術授權來自於Movidius,有可能初始使用Movidius技術與架構之後獨立發展,也可能持續向英特爾Movidius取得授權,而始終與英特爾Movidius主力銷售晶片保持區隔與技術落差時間。

一文看懂谷歌的AI晶片佈局,邊緣端TPU將大發神威

Edge TPU後續策略、動向推測

展望未來,Edge TPU由於將提供給系統商,估計日後揭露的技術資訊將較Cloud TPU為多,Cloud TPU由於目前只在Google機房端配置,至多提供遠端租用,因此可以不揭露更多技術資訊,事實上Google對於第三代Cloud TPU所揭露的資訊,已明顯少於前二代。

倘若Edge TPU推展順遂,支援的系統夥伴日增,則可激勵Google更快速發展新版Edge TPU。若推展不如預期,則Google也可能自行推出官方版的Edge閘道器、Edge裝置,作為產業示範,或自始至終不投入官方版示範,直接停止Edge TPU後續發展。

相關文章