存內計算能否成為下一代AI晶片的關鍵

半導體行業觀察發表於2019-12-23

隨著人工智慧的落地和大規模應用,AI晶片也成為了常見的晶片品類。AI晶片相比傳統晶片來說,主要的競爭優勢就在於高算力和高能效比。高算力是指能夠比傳統晶片更快地完成AI計算,而高能效比則是指能比傳統晶片用更少的能量完成計算。

在AI晶片誕生的初期,AI晶片架構主要是針對計算並行性做最佳化,從而加強計算能力。然而,隨著AI晶片競爭日益激烈,從並行性方面的潛力也已經被挖掘殆盡,這時候AI晶片的效能就遇到了“記憶體牆”這一瓶頸。

要理解記憶體牆,還需要從傳統的馮諾伊曼架構說起。馮諾伊曼架構是計算機的經典體系結構,同時也是之前處理器晶片的主流架構。在馮諾伊曼架構中,計算與記憶體是分離的單元:計算單元根據從記憶體中讀取資料,計算完成後存回記憶體。

存內計算能否成為下一代AI晶片的關鍵
馮諾伊曼架構在構建之初的假設就是處理器和記憶體的速度很接近。然而,隨著摩爾定律的演進,這一假設早已不再成立。計算單元的效能隨著摩爾定律高速發展,其效能隨著電晶體特徵尺寸的縮小而直接提升;另一方面,記憶體主要使用的是DRAM方案,而DRAM從摩爾定律電晶體尺寸縮小所獲得的益處並不大。這也造成了DRAM的效能提升速度遠遠慢於處理器速度,目前DRAM的效能已經成為了整體計算機效能的一個重要瓶頸,即所謂阻礙效能提升的“記憶體牆”。

記憶體牆對於處理器的限制是多方面的,不僅僅是限制了其計算效能,同時也是能效比的瓶頸 。在AI晶片追求極致計算能效比的今天,記憶體牆對於AI晶片能效比的限制效應尤其顯著。眾所周知,人工智慧神經網路模型的一個重要特點就是計算量大,而且計算過程中涉及到的資料量也很大,使用傳統馮諾伊曼架構會需要頻繁讀寫記憶體。目前的DRAM一次讀寫32bit資料消耗的能量比起32bit資料計算消耗的能量要大兩到三個數量級,因此成為了總體計算裝置中的能效比瓶頸。如果想讓人工智慧應用也走入對於能效比有嚴格要求的移動端和嵌入式裝置以實現“人工智慧無處不在”,那麼記憶體訪問瓶頸就是一個不得不解決的問題。

存內計算:翻越記憶體牆

記憶體牆之所以存在,從另一個角度看主要還是由於處理器/加速器晶片和主記憶體是兩個獨立的模組,或者換句話說,計算和記憶體之間距離太遠,因此來回搬運資料代價太高,無論是吞吐量還是能效比方面這種資料搬運都成為了瓶頸。那麼,如何讓記憶體和計算離得更近一些呢?一個最簡單有效的方法就是“存內計算”(in-memory computing)。

存內計算,顧名思義就是直接在儲存內做計算。其具體實現方式有若干條技術路徑。首先,最直接的就是在現有儲存的基礎上做一些電路上的改動。這類實現方法最簡單,例如2018年MIT Chandrakasan研究組在ISSCC上發表的研究就是這類技術的例子。該研究中,存內計算的主要用途是加速卷積計算,而卷積計算從數學上可以展開成帶權重的累加計算,或者說是多個數的加權平均。因此,存內計算的做法是把權重(1-bit)儲存在SRAM中,輸入資料經過DAC成為模擬訊號,並根據SRAM中的對應權重相乘,然後在模擬域做平均,最後由ADC讀出成為數字訊號。這類存內計算往往只是修改現有儲存的譯碼器/放大器模組,並不涉及儲存器件的重新設計,優勢是比較容易和現有工藝整合,但是缺點是能夠帶來的效能提升較為有限,尤其是基於SRAM的方案,一方面SRAM的整合度是有限的,另一方面單位元精度的權重也成為了其應用的限制。

存內計算能否成為下一代AI晶片的關鍵

另一種存內計算的技術路線是透過引入新的儲存器件來完成存內計算。如果說前一種存內計算的概念是“在SoC裡引入特殊的SRAM並在SRAM附近高效完成計算”,那麼這一種存內計算就是直接“在儲存陣列內完成計算”了。這種基於新儲存器件的存內計算往往要利用新儲存器件的一些特徵,並且在一塊特殊的儲存陣列內整合計算功能,在要做計算的時候主處理模組只需要給儲存陣列傳送輸入資料,過若干時鐘週期之後儲存陣列會把計算好的結果返回給主處理模組。與傳統的馮諾伊曼架構相比,傳統馮諾伊曼架構中處理器晶片給記憶體發請求,並讀回資料;而在這類存內計算晶片的計算正規化中,主處理模組給儲存陣列傳送請求和輸入資料,而儲存陣列則直接返回計算結果,這樣就省去了計算過程中主處理器和記憶體之間的大量資料搬運。通常來說,存內計算在處理人工智慧相關任務的時候,會把神經網路權重儲存在陣列中,而主處理模組直接給儲存陣列發去神經網路的輸入即可開始計算。

近年來,存內計算已經逐漸成為業界和學界公認的趨勢。拿半導體積體電路領域的“奧林匹克”——ISSCC為例,從2018年開始ISSCC開始設立與存內計算相關的專門session並收錄五篇相關論文,此後存內計算在ISSCC上的相關論文錄用勢頭一直不減,到2020年的ISSCC與存內計算相關的論文數量上升到了七篇。除此之外,半導體器件領域的頂級會議IEDM今年也給了存內計算足夠重視,有三個專門的session共二十多篇相關論文。有趣的是,ISSCC和IEDM上相關存內計算的論文正好對應了前文所說的存內計算的兩種技術路線——ISSCC對應從電路側做技術革新,而IEDM則主要對應器件方向的技術更新換代,透過引入新的儲存器件並基於其新特性來開發高效能的存內計算。其中,IEDM中顯示的正規化轉換更引人關注。今年,IEDM的一大看點就是對於摩爾定律到頭之後下一步方向的預測,有一個專門的panel session更是直接以“摩爾定律已死,但是AI永生”為名字,可見業界對於後摩爾定律時代的發展,最看好的是基於AI的新器件。而在AI相關的新器件/新正規化中,存內計算可謂是最有希望的一種,由此可見今年IEDM的關於後摩爾定律的主題和錄用數十篇存內計算相關的論文之間存在著緊密的聯絡。

目前,全球存內計算有不少玩家。例如,半導體巨頭TSMC正在推廣其基於ReRAM的存內計算方案,而IBM基於其獨特的相變儲存的存內計算也已經有了數年的歷史。初創公司中,Mythic基於Flash的方案也獲得了軟銀的首肯並獲取了其資金支援。然而,傳統存內計算有一個主要問題,就是計算精度和應用場景之間的矛盾。ReRAM通常只能做到2至3-bit,這即使對於終端用的神經網路來說也不太夠。Mythic的產品針對伺服器市場,然而伺服器市場對於計算精度的要求卻相比終端更高,這也成為了困擾存內計算的一個問題。

IEDM上的來自中國的論文可能成為解決存內計算瓶頸的關鍵

如上文所述,存內計算的一個關鍵瓶頸是精度和應用之間的矛盾。如果要解決這個矛盾,我們希望能有一款針對移動端的低功耗存內計算產品,且其計算精度能達到移動端神經網路的計算需求(>4bit)。

在今年的IEDM上,我們就看到了這樣的技術突破。一家初創公司閃億半導體,與浙江大學、北京大學、華虹宏力合作發表的論文《Programmable Linear RAM: A New Flash Memory-based Memristor for Artificial Synapses and Its Application to Speech Recognition System》恰恰解決了這個矛盾。該論文巧妙地利用電晶體線上性區的特性製備了新型儲存器PLRAM,併成功地設計出了一款可以用在移動終端的超低功耗存內計算晶片,並實現了8-bit精度操作。

存內計算能否成為下一代AI晶片的關鍵
當計算精度高於4-bit時,我們認為就可以執行一些神經網路計算,而該論文中的8-bit精度更是可以保證大多數神經網路計算可以高精度完成,而不會損失效能。該論文把相關器件應用到了語音識別中並且完成了晶片流片和測試,測試結果顯示該晶片可以以超低功耗(峰值9mW)執行語音識別相關的操作(MFCC特徵提取和深度神經網路前饋運算),峰值算力可達30GOPS,足夠IoT和可穿戴裝置相關的應用。相比而言,Mythic等國外初創存內計算公司僅能實現低精度計算且難以克服成本的門檻(因此Mythic選擇了對於成本不敏感的伺服器市場),閃億透過最新的器件技術突破實現的8-bit計算精度和較低的成本則是成功地撬動了體量更大的IoT市場。
存內計算能否成為下一代AI晶片的關鍵
除了器件上的突破之外,閃億在電路以及更高的指令集領域都有深厚的技術積累。如前所述,存內計算是橫跨器件和電路兩個領域的技術,通常的存內計算與數位電路之間的介面需要大量數字-模擬轉換和訊號驅動,而這些介面事實上需要大量的電路最佳化工作,否則容易成為整體效能的瓶頸。為了解決這個效率瓶頸,閃億開發了大規模阻性儲存陣列驅動技術,能實現高效率的存內計算電路介面;同時,也為存內計算的規模化鋪平了道路。在電路之上的架構層級,閃億也有自己獨特的指令集技術。事實上,編譯器和指令集一直是困擾所有人工智慧晶片設計的重要問題,AI晶片無法在實際應用中真正發揮全部算力的主要問題就在於指令集和編譯器設計不過關,導致晶片只能在demo中有高算力,而到了使用者提供的實際模型執行中就效率大幅下降。為此,閃億開發了一套存內計算的專用指令集,可望解決這個困擾AI晶片行業的通病。

該研究讓我們看到了中國半導體行業的崛起,因為在IEDM這樣強手如林的頂尖半導體器件會議上發表文章本身就是對相關技術的肯定。更可喜的是,該研究已經在閃億進行商業化,我們認為閃億擁有的技術首先能克服存內計算的計算精度和應用場景之間的矛盾,可以把存內計算低功耗的優勢發揮到極致,而同時其高精度計算又保證了可以相容大多數神經網路。同時,閃億選擇的IoT和可穿戴式市場也是一個正在蓬勃發展的市場,這些市場非常適合用全球領先的新技術去撬動新的應用,從而讓存內計算真正落地走向千家萬戶。我們希望能看到更多像閃億這樣的高精尖半導體技術商業化的案例,而當市場上出現眾多這樣的充滿活力的高新技術半導體公司時,中國半導體的春天也就到了。

相關文章