2018年7月Google在其雲端服務年會Google Cloud Next上正式發表其邊緣(Edge)技術,與另兩家國際公有云服務大廠Amazon/AWS、Microsoft Azure相比,Google對於邊緣技術已屬較晚表態、較晚佈局者,但其技術主張卻與前兩業者有所不同。
Google AI佈局逐漸走向邊緣
除了同樣提倡基礎的物聯網閘道器(IoT Gateway)軟體Edge IoT Core、人工智慧/機器學習(AI/ML)軟體Edge ML外,還針對人工智慧/機器學習推出專屬的加速運算晶片,稱為Google Edge TPU(圖1),成為此次盛會一大焦點。
圖1 Google發表僅有1美分銅板面積不到的人工智慧加速運算晶片Edge TPU。資料來源:Google官網
在Google發表Edge TPU前已發表過Cloud TPU晶片,首次發表是在Google另一個更全面、更盛大的例行年會Google I/O 2016上。Cloud TPU顧名思義用於雲端機房,而TPU是TensorFlow Processing Unit的縮寫,言下之意是針對TensorFlow而設計的硬體加速運算器,TensorFlow則是Google於2015年11月提出的人工智慧框架,是目前諸多人工智慧框架中的一大主流,其他知名的框架如Caffe/Caffe 2、Apache MXnet等。
目前人工智慧框架百花齊放,其他常見的亦有Keras、PyTorch、CNTK、DL4J、Theano、Torch7、Paddle、DSSTNE、tiny-dnn、Chainer、neon、ONNX、BigDL、DyNet、brainstorm、CoreML等。若以簡單譬喻而言,人工智慧的開發撰寫如同文書撰寫,人工智慧框架就如同記事本、Word等文書處理器,功效在於協助與便利開發撰寫。
Google自行開發設計的Cloud TPU僅用於自家雲端機房,且已對多種Google官方雲端服務帶來加速效果,例如Google街景圖服務的文書處理、Google相簿的照片分析、乃至Google搜尋引擎服務等。Google Cloud TPU也改版快速,2016年首次發表後2017年推出第二代,2018年推出第三代晶片(圖2)。
圖2 Google連續三年在Google I/O上揭露自研的Cloud TPU新技術動向。資料來源:Google官網
不過,Google之後對Cloud TPU的技術態度似有變化。2018年2月宣佈可申請租用TPU運算力,如同Google Cloud Platform(GCP)的公有云服務般,依據運算晶片的使用時間計費,每小時6.5美元(至2018年9月已降至4.5美元) ,與GCP的CPU租用服務相比相當昂貴,GCP的CPU租用服務,以臺灣彰化濱海工業區的機房(不同位置的機房費率不同)而言,標準型計價約在0.055至5.28美元間,且8種計費費率中有5種低於1美元/小時。
TPU租用費亦同樣高於GPU租用,GCP的NVIDIA GPU租用費率約在0.49至2.48美元間,視規格等級而異(Tesla K80/P100/V100)。Google Cloud TPU雖可租用,但Google是否願意單獨銷售Cloud TPU給系統商,讓系統商製造及銷售TPU運算系統,仍待進一步觀察。
在Google推出雲端用的Cloud TPU後,讓人未預料的是Google也針對邊緣提出專屬的TPU晶片,然在此前仍有些徵兆,即2017年11月Google提出輕量版的TensorFlow Lite(某種程度取代此前的TensorFlow Mobile),使電力有限的行動裝置也能支援TensorFlow,2018年推出的Edge TPU晶片即是以執行TensorFlow Lite為主,而非原宗的TensorFlow。
Google Edge裝置內的作業系統為Linux或Android Things,而後執行Google Edge IoT Core基礎功能軟體、Google Edge ML人工智慧軟體,並可選用配置Google Edge TPU。
Google Edge軟硬體架構概觀
圖3左側為物聯網感測器,右側為Google雲端系統及服務。另外Edge TPU也支援Android Neural Networks 神經網路應用程式介面(API),簡稱NNAPI(圖4)。NNAPI於在2017年12月Android 8.1釋出時一同提出,NNAPI可視為TensorFlow Lite、Caffe2等框架的基礎層。由此可知Edge TPU所支援呼應並加速的軟體,於2017年便已先行到位。
圖3 Google Edge裝置軟硬體架構圖 資料來源:Google官網
圖4 Google Android NNAPI系統架構圖,NNAPI可透過硬體抽象層與驅動程式,運用GPU、特定處理器或數位訊號處理器(DSP)等,使人工智慧運算加速。資料來源:Google官網
與Cloud TPU不同的是,Edge TPU估將由Google銷售給系統商,再由系統商配置於前端裝置內,包含感測器節點、裝置或閘道器內,Edge TPU不是自用或租用而是銷售。
Edge TPU技術輪廓
雖然Google對Cloud TPU、Edge TPU的技術資訊揭露均不多,但仍有若干資訊可推測其背後意向與考量。
首先是Google很明白Edge定位的系統運算力有限,所以Edge TPU的運算任務僅在於執行已訓練完成的人工智慧模型,即推測運算、推算工作(Inference,今日多譯成「推論」),真正要大量耗費運算力的模型訓練(Training),依然由充沛運算力的系統事先進行,如工作站、伺服器、雲端等,透過CPU/GPU/TPU進行訓練。
其次,Edge TPU強調可同時執行處理多組每秒30張高清晰度畫質的人工智慧判別運算,顯示Edge TPU將用於視訊影像類的人工智慧應用,且為即時判別(30FPS)。
更進一步的說明,Edge TPU只負責人工智慧的加速判別、加速推算,僅為加速器、輔助處理器的角色。因此,必須與系統的主控晶片溝通聯絡,這方面Edge TPU提供了兩種介接的方式,一是PCI Express介面,另一是USB介面。兩種介面均適合嵌入式設計,然PCI Express傳輸率較高,可避免傳輸瓶頸,而USB介面較可能定位在後裝型運用,即前端裝置已經存在,但仍可透過USB連線Edge TPU,帶來加速效果。
也由於須與Edge裝置整合,因此Edge TPU設計之初已儘可能減少功耗,雖然Google官方並未正式揭露,但已表態將與Google合作的臺灣工控系統商也表示,其典型功耗(Thermal Design Power, TDP)僅在1.8瓦,很明顯只要現成晶片封裝即可散熱,幾乎可不加散熱片,更不需要馬達風扇,便可讓Edge TPU正常運作。
至於Edge TPU支援的運算格式則為int8、int16,即8位元整數、16位元整數的人工智慧模型推算,但無法進行更高位元數的整數,或者是浮點數的運算,如16位元浮點數(FP16)。
Google一發表Edge TPU即有合作伙伴與應用的揭露,如南韓樂金(LG)將用於產線製造上;另外紐西蘭、澳洲、英國的Smart Parking公司(顧名思義是與智慧停車相關的方案商)也表態採用,Smart Parking不單採用Edge TPU,其後端系統也大量採用GCP服務;還有Xee公司將Edge TPU用於汽車駕駛輔助上,對影像與雷達資料進行研判,而後給予駕駛潛在危險警告,如路況變差、輪胎過度磨損等。目前所知Google將Edge TPU訴求於三個目標,即製造、零售、汽車。
Movidius與Edge TPU的瑜亮情結
在Google尚未推出Edge TPU晶片前,其實Google已有使用前端的人工智慧加速晶片,2011年Google購併Motorola Mobility,而後於2014年將Motorola Mobility售給Lenovo,但Google仍保留下2個原屬於Motorola Mobility的研究專案,而未移轉給Lenovo,一是模組化手機專案Ara,另一是擴增實境技術專案Tango(此專案於2018年3月結束,改由ARCore技術接手)。
Google在2014年對外揭露Tango研究,此專案所發展的平板、手機等行動裝置,即配置了Movidius公司的VPU晶片,VPU即Vision Processing Unit之意,更具體而言是視訊型別的人工智慧運算、推算加速晶片。
Movidius自身發展第一代VPU,而後在與Google合作Tango計畫時則為第二代VPU,稱為Myriad 2(晶片編號MA2150/MA2450,差別在於MA2150最高連線1Gbit記憶體,MA2450可至4Gbit)。不僅Google採用,包含多軸無人機大廠大疆亦用於無人機上。之後2016年英特爾(Intel)購併Movidius,接手後發展出第三代VPU,稱為Myriad X(晶片編號MA2085/MA2485,MA2085封裝內無記憶體,MA2485內含4Gbit記憶體)。
Movidius在被英特爾收購後,Google依然鍾愛Movidius技術。2017年底Google推出AIY Vision Kit的開發套件,該套件內仍可見MA2450晶片的蹤影。AIY Vision Kit是Google用來推行其影像人工智慧技術的評估套件,以樹莓派電腦(Raspberry Pi, RPi)為基礎提供擴充延伸的硬體配件,即可摸索與評估Google的影像人工智慧技術。
而所謂的AIY是Google自創的複合字,是以人工智慧(AI)與DIY(Do-It-Yourself自己動手做)二字疊合而成。事實上Google在推出Vision Kit的同時也有推出Voice Kit,可供摸索評估Google的語音人工智慧技術,但語音的人工智慧運算其運算負荷並不吃重,不需要專屬加速晶片。
從2014年的Tango到2017年底的AIY Vision Kit,Google均以第二代Movidius晶片為主,因此理論上順其發展,Google即便在Edge環節有其技術主張,認為可配置人工智慧硬體加速晶片,應也會屬意Movidius,而非自行研發Edge TPU。
不過,最終Google提出了Edge TPU,因此不得不推測,英特爾購併Movidius後,Google可能認為後續新發展並不完全合乎期待,過往Movidius為小型獨立企業時,可能提供Google高度支援,然英特爾可能對Movidius技術資產的後續延伸與新走向有不同的想法。
對此可若干比較第三代Movidius Myriad X與Edge TPU,前者支援FP16的16位元浮點數推測運算及8位元整數推算,而Edge TPU如前述僅支援8位元整數及16位元整數推算;Movidius Myriad系列仍可能顧及潛在市場機會最大化,雖未廣泛支援多種AI框架,但至少支援兩種現階段主流框架,即TensorFlow與Caffe。
圖5 Google在Tango專案與AIY Vision套件上均使用Movidius MA2450晶片。資料來源:Google官網
由此而論,Google可能對TensorFlow Lite寄予厚望,因而有專屬設計的加速晶片Edge TPU,Edge TPU可能一直維持比Movidius Myriad系列更低規(無浮點數)、更專精(只支援TensorFlow Lite )的技術發展定位,更高階的需求仍會選用Movidius Myriad系列,兩者高低並用並行。
或者Google未來只屬意自家Edge TPU,只在雲端外推行Edge TPU,並一直維持低階定位,不往更高階發展,或Edge TPU僅是首發,未來將持續發展更高階的Edge TPU,如此將與英特爾Movidius競爭,甚在效能規格大幅強化後而與NVIDIA Xavier競爭。
認為Edge TPU將與Movidius競爭的另一支援,在於Edge TPU也將推出USB隨身碟型態的開發/運用套件,並同樣使用AIY之名推展。早於Movidius未被英特爾收購前,Movidius即有提供USB隨身碟型態的人工智慧評估/運用套件(圖6),英特爾收購Movidius套件產品仍持續,套件稱為NCS(Neural Compute Stick)。
圖6英特爾、Google均以PCI Express介面開發板與USB介面隨身碟型加速器,來推行其人工智慧加速晶片。資料來源:英特爾、Google
另一需考量的是,雖然Google在技術佈局上已逐漸同時注重軟硬體的均衡與呼應,自身對於硬體發展的主導與涉入也日深,但就過往經驗而言Google的硬體技術策略仍經常搖擺,甚在短期內放棄,因此Edge TPU仍可能不是長期技術策略中的一環,而是一個技術嘗試,特別是Cloud TPU、Edge TPU均為加速作用的輔助處理器,為選擇性使用,必要時仍可由其他晶片實現相同運算效果,或在英特爾、NVIDIA等晶片商給予更多技術發展承諾後,仍可能停止自有晶片發展路線。
其他產業推測也包含,Google Edge TPU的技術授權來自於Movidius,有可能初始使用Movidius技術與架構之後獨立發展,也可能持續向英特爾Movidius取得授權,而始終與英特爾Movidius主力銷售晶片保持區隔與技術落差時間。
Edge TPU後續策略、動向推測
展望未來,Edge TPU由於將提供給系統商,估計日後揭露的技術資訊將較Cloud TPU為多,Cloud TPU由於目前只在Google機房端配置,至多提供遠端租用,因此可以不揭露更多技術資訊,事實上Google對於第三代Cloud TPU所揭露的資訊,已明顯少於前二代。
倘若Edge TPU推展順遂,支援的系統夥伴日增,則可激勵Google更快速發展新版Edge TPU。若推展不如預期,則Google也可能自行推出官方版的Edge閘道器、Edge裝置,作為產業示範,或自始至終不投入官方版示範,直接停止Edge TPU後續發展。