清華髮布《AI晶片技術白皮書》:新計算正規化,挑戰馮諾依曼、CMOS瓶頸

演算法與數學之美發表於2019-01-12

640?wx_fmt=jpeg

 近日,在由北京未來晶片技術高精尖創新中心和清華大學微電子學研究所聯合主辦的第三屆未來晶片論壇上,清華大學正式釋出了《人工智慧晶片技術白皮書(2018)》。

《白皮書》首次整合了國際化的學術和產業資源,緊扣學術研究和產業發展前沿,對人工智慧晶片技術進行了深入探討、專業闡述,完成了對AI晶片各種技術路線梳理及對未來技術發展趨勢和風險預判。

據悉,《白皮書》由史丹佛大學、清華大學、香港科技大學、臺灣新竹清華大學,北京半導體行業協會及新思科技的頂尖研究者和產業界資深專家,包括10餘位IEEE Fellow共同編寫完成。

 

 無晶片不AI,新計算正規化來襲 

近些年隨著大資料的積聚、理論演算法的革新、計算能力的提升及網路設施的發展,使得持續積累了半個多世紀的人工智慧產業,又一次迎來革命性的進步,人工智慧的研究和應用進入全新的發展階段。

實際上,人工智慧產業得以快速發展,都離不開目前唯一的物理基礎——晶片。可以說,“無晶片不AI”。

目前,關於AI晶片的定義沒有一個嚴格和公認的標準。較為寬泛的看法是面向人工智慧應用的晶片都可以稱為AI晶片。具體來說,報告中探討的AI晶片主要分為三類,一是經過軟硬體優化可高效支援AI應用的通用晶片,如GPU;二是側重加速機器學習(尤其是神經網路、深度學習)演算法的晶片,這也是目前AI晶片中最多的形式;三是受生物腦啟發設計的神經形態計算晶片。

AI晶片的計算既不脫離傳統計算,也具有新的計算特質,主要特點有三:處理內容往往是非結構化資料,如視訊、影象及語音等,需要通過樣本訓練、擬合基環境互動等方式,利用大量資料來訓練模型,再用訓練好的模型處理資料;處理過程需要很大的計算量,基本的計算主要是線性代數運算,大規模平行計算硬體更為適合;處理過程引數量大,需要巨大的儲存容量,高頻寬、低延時的訪存能力,及計算單元和儲存器件間豐富且靈活的連線。

AI晶片的新計算正規化,也為晶片提出了處理非結構化資料、計算量大及儲存和計算間的訪問連線等新問題。

 

 AI晶片發展現狀:雲、邊結合 

在應用場景上,AI晶片的應用主要分為雲端和終端,以深度學習的演算法來說,雲端人工智慧硬體負責“訓練+推斷”,終端人工智慧硬體負責“推斷”,因而終端的計算量更小,相對沒有傳輸問題。但從自動駕駛、智慧家庭,到loT裝置等,速度、能效、安全和硬體成本等是重要因素。

640?wx_fmt=jpeg

雲端AI計算:目前各大科技巨頭紛紛在自有云平臺基礎上搭載人工智慧系統,主要有IBM的waston、亞馬遜的AWS、以及國內的阿里雲、百度雲平臺等。其中英偉達的GPU採用更為廣泛,賽靈思、英特爾、百度等廠商也在積極採用FPGA在雲端進行加速,一些初創公司,如深鑑科技等也在開發專門支援 FPGA 的 AI 開發工具。另外,除GPU和FPGA外,AI領域專用架構晶片ASIC則因其更好的效能和功耗,成為雲端領域新的攪局者,如谷歌的TPU。

邊緣AI計算:隨著人工智慧應用生態的爆發,越來越多的AI應用開始在端裝置上開發和部署。

智慧手機是目前應用最為廣泛的邊緣計算裝置,包括蘋果、華為、高通、聯發科和三星在內的手機晶片廠商紛紛推出或者正在研發專門適應 AI 應用的晶片產品。另外,也有很多初創公司加入這個領域,如地平線機器人、寒武紀、深鑑科技、元鼎音訊等。傳統的IP 廠商,包括 ARM、Synopsys 等公司也都為包括手機、智慧攝像頭、無人機、工業和服務機器人、智慧音響以及各種物聯網裝置等邊緣計算裝置開發專用 IP 產品。

自動駕駛是未來邊緣AI 計算的最重要應用之一,MobileEye SOC 和 NVIDIA Drive PX 系列提供神經網路的處理能力可以支援半自動駕駛和完全自動駕駛。

目前雲和邊緣裝置在各種AI應用中往往是配合工作。最普遍的方式是在雲端訓練神經網路,然後在雲端(由邊緣裝置採集資料)或者邊緣裝置進行推斷。

 

 AI晶片的技術挑戰:馮·諾依曼、CMOS工藝和器件瓶頸 

由於前文所述的AI晶片需要滿足高效的資料訪問,以及深度學習下的新的計算正規化,AI晶片在發展上,也遇到了一些瓶頸問題,特別是馮·諾依曼瓶頸,及CMOS工藝和器件瓶頸。

640?wx_fmt=jpeg

馮·諾依曼瓶頸:在傳統“馮·諾依曼架構”中,計算模組和儲存單元互相分離,資料從處理單元外的儲存器提取,處理完之後再寫回儲存器。每一項任務,如果有十個步驟,那麼CPU會依次進行十次讀取、執行,再讀取、再執行,這就造成了延時,以及大量功耗花費在了資料讀取上。

可以不誇張地說,大部分針對AI,特別是加速神經網路處理而提出的硬體架構創新都是在和這個問題做鬥爭。概括來說,目前的解決思路包括減少訪問儲存器的數量,降低訪問儲存器的代價。

CMOS工藝和器件瓶頸:目前,人工智慧,特別都是機器學習的發展將需要更有力的、超過每秒百億次運算能力的計算系統,而構建這些系統的基礎是CMOS技術的晶片,而CMOS工藝能不斷提高系統效能主要得益於整合尺寸的縮小。過去30年,摩爾定律很好預測了這種計算進步,但由於基礎物理原理限制和經濟的原因,持續提高整合密度變得越來越困難。

目前的解決方案是通過開發提供大量儲存空間的片上儲存器技術,並探索利用片上儲存器去構建未來的智慧晶片架構。另外,近年來,可以儲存模擬數值的非易失性儲存器發展迅猛,能同時具有儲存和處理資料能力,可以破解傳統計算體系結構的一些基本限制,有望實現類腦突觸功能。

 

 AI晶片架構設計趨勢:雲端、邊緣裝置、軟體定義 

而針對以上AI晶片計算和應用上的需求,目前雲端和邊緣裝置的AI晶片都在進行新的研發。

AI雲端訓練和推斷:大儲存、高效能、可伸縮。從英偉達和谷歌的設計實踐可以看出雲端AI晶片在架構層面,技術發展的幾個特點和趨勢:儲存的需求(容量和訪問速度原來越高);處理能力推向每秒千萬億,並支援靈活伸縮和部署;專門針對推斷需求的FPGA和ASIC。

邊緣裝置:目前,衡量AI 晶片實現效率的一個重要指標是能耗效率——TOPs/W,這也成為很多技術創新競爭的焦點。

其中,降低推斷的量化位元精度是最有效的方法;除降低精度外,提升基本運算單元MAC的效率還可以結合一些資料結構轉換來減少運算量;另一個重要的方向是減少對儲存器的訪問,如把神經網路運算放在感測器或儲存器中;此外,在邊緣裝置的AI晶片中,也可以用各種低功耗設計方法來進一步降低整體功耗。最後,終端裝置AI晶片往往呈現一個異構系統,專門的AI加速器和CPU、GPU、ISP、DSP等協同工作以達到最佳效率。

軟體定義晶片:通用處理器如CPU、GPU,缺乏針對AI演算法的專用計算、儲存單元設計,功耗大;專用晶片ASIC功能單一;現場可程式設計陣列FPGA重構時間開銷過大,且過多的冗餘邏輯導致其功耗過高。以上傳統晶片都難以實現AI晶片所需要的“軟體定義晶片”。

可重構計算技術允許硬體架構和功能隨軟體變化而變化,具備處理器的靈活性和專用積體電路的高效能、低功耗,是實現“軟體定義晶片”的核心,被公認為是突破性的下一代積體電路技術,清華大學的AI晶片Thinker目前採用可重構計算框架,支援卷積神經網路、全連線神經網路和遞迴神經網路等多種AI演算法。

 

 AI晶片中的儲存技術、新興計算技術及神經形態晶片 

如前所述,提高AI晶片的效能和能效的關鍵之一在於資料訪問。而在傳統的馮·諾依曼體系結構中,資料從儲存器序列提取並寫入到工作記憶體,導致相當長的延遲和能量開銷。

近期,面向數字神經網路的極速器(GPU、FPGA和ASIC)迫切需要AI友好型儲存器;中期,基於存內計算的神經網路可以為規避馮·諾依曼瓶頸問題提供有效的解決方案;後期,基於憶阻器的神經形態計算可以模擬人類的大腦,是AI晶片遠期解決方案的候選之一。

而對應的新興計算技術包括近記憶體計算、存內計算,以及基於新型儲存器的人工神經網路和生物神經網路。

神經形態晶片,即“仿生電腦”。如前所說,對於馮·諾依曼、CMOS工藝和器件瓶頸形成的AI晶片儲存、計算間的問題,神經形態計算是一種新的路徑。

近些年,神經形態計算也用來指採用模擬、數字、數模混合VLSI以及軟體系統實現的神經系統模型。其將數字處理器當作神經元,把記憶體作為突觸,記憶體、CPU和通訊部件完全整合在一起,採用模擬人腦神經元結構來提升計算能力。每個神經元計算都是本地的,且從全域性來看神經元們是分散式在工作。受到腦結構研究的成果啟發,研製出的神經形態晶片具有低功耗、低延遲、高速處理、時空聯合等特點。

 

 人工智慧的未來:演算法、架構、器件的不斷探索 

“未來能否有一個終極演算法來實現通用人工智慧?”這個問題還沒有人能給出肯定的答案。晶片是人工智慧演算法的物理基礎,它與演算法脣齒相依。如果能有統一的終極演算法出現,那麼我們很可能會看到一個終極晶片出現。

但在未來很長一段時期,不同的應用仍然需要不同的演算法(也包括傳統演算法),因此我們還必須探索不同的架構,探索新的器件甚至材料。隨著底層晶片技術的進步,人工智慧演算法也將獲得更好的支援和更快的發展。

CMOS 技術與新興資訊科技的交叉融合,開源軟體到開源硬體的潮流漸顯,預示著將迎來一個前所未有的協同創新機遇期。

源:機器人

編輯 ∑ Gemini


微信公眾號“演算法數學之美”,由演算法與數學之美團隊打造的另一個公眾號,歡迎大家掃碼關注!

640?wx_fmt=jpeg


更多精彩:

如何向5歲小孩解釋什麼是支援向量機(SVM)?

自然底數e的意義是什麼?

費馬大定理,集驚險與武俠於一體

簡單的解釋,讓你秒懂“最優化” 問題

一分鐘看懂一維空間到十維空間

☞ 本科、碩士和博士到底有什麼區別?

小波變換通俗解釋

微積分必背公式

影響計算機演算法世界的十位大師

資料探勘之七種常用的方法



演算法數學之美微信公眾號歡迎賜稿

稿件涉及數學、物理、演算法、計算機、程式設計等相關領域,經採用我們將奉上稿酬。

投稿郵箱:math_alg@163.com


相關文章