作者 | 清華大學微電子學研究所尹首一
來源 | 《微納電子與智慧製造》期刊
引言
人 工 智 能( aritificial intelligence ,AI )是 一 門融合了數學 、電腦科學 、統計學 、腦神經學和社會科學 的前沿綜合性技術。它的目標是希望計算機可以像 人一樣思考 ,替代人類完成識別 、分類和決策等多種 功能。在 2016 年 AlphaGo 擊敗李世石贏得人機圍棋 大戰後 ,人工智慧引發了全球熱潮。與此同時 , Google、FaceBook、Amazon、Intel等巨頭紛紛成立AI團隊 ,促進人工智慧技術的進一步發展。
人工智慧晶片概況
當前人工智慧的主流技術深度神經網路概念早在20世紀40年代就已經被提出,然而幾經起落,甚 至被 90 年代中期出現的支援向量機所全面壓制。主 要原因就是當時沒有可以用於大規模平行計算的諸 如圖形處理器(graphics processing unit,GPU)等晶片的硬體條件 ,神經網路的訓練仍然耗時太久 ,訓練成本過於高昂。隨著摩爾定律的不斷演進發展 ,高效能晶片大幅降低了深度學習演算法所需的計算時間和成本 ,人工智慧技術終於在語音識別 、計算機視覺等領域取得了重大突破。
然而 ,深度神經網路的計算量在不斷膨脹 ,讀寫的資料量日趨龐大,網路結構也越來越多樣化,這就要求作為硬體基礎的人工智慧 晶片必須不斷進行相應的發展,以應對效能、功耗、靈活性這 3 個方面的挑戰 。
當前實現人工智慧計算的技術路線可概括為 3 類:第 1 類是基於馮 · 諾依曼體系結構的通用處理器 ,諸如大家所知的CPU 、GPU 、DSP 等都屬於這一 型別。它以算術邏輯單元為計算核心 ,由於其通用性需要應對包括分支跳轉、中斷等複雜的指令處 理 ,需要消耗很多片上資源。
因此 CPU 的平行計算處理能力並不高,此外處理器本身頻繁的讀取操作會帶來大量的訪存功耗問題;第 2 類則是專用整合 電路(application specific integrated circuit,ASIC)。它針對特定的計算網路結構採用了硬體電路實現 的方式,能夠在很低的功耗下實現非常高的能效比。
在網路模型演算法和應用需求固定的情況下, ASIC 是一個不錯的選擇。但 ASIC 本身研發的週期 很長 ,通常在 1~2 年 ,這就使得 ASIC 本身存在對算 法迭代跟進的風險性問題;第 3 類是基於可重構架 構實現的處理器 ,該技術是將計算部分設計為可配 置的處理單元 ,並且通過相應的配置資訊來改變儲存器與處理單元之間的連線 ,從而達到硬體結構的 動態配置目標。
深度神經網路因為計算量大 、資料量大 、結構特點多樣 ,基於馮 · 諾依曼結構的通用處理器以及專用處理器很難在這樣的演算法上同時展 現出靈活性和高能效 ,可重構處理器在通用處理器 和專用處理器之間做了一定的折中和權衡 ,可以兼顧智慧應用演算法中的高效能 、低功耗 、高靈活度的特點。
人工智慧晶片發展階段
近幾年來,人工智慧技術的熱潮如火如荼,隨著人工智慧產品的大規模落地應用 ,面向不同場景的各類演算法紛紛湧現 ,計算資料呈爆炸式增長 ,晶片作為人工智慧技術的硬體基礎和產業落地的必然載體 ,吸引了眾多巨頭和初創公司紛紛入局 ,各類人工 智慧晶片陸續面世。針對不同應用場景 ,不同晶片的處理速度 、能耗 、支援的演算法也各有優勢。根據人工智慧產業的發展狀況和技術成熟度劃分 ,可以分 為4個階段[3] 。
2.1 人工智慧晶片初級階段
第一個階段 ,人工智慧晶片從 2016 年開始爆發 ,到目前在架構設計上已經比較穩定 ,相關的編譯器 的技術越來越成熟 ,整個產業格局基本成型。可以說 ,目前的人工智慧晶片軟硬體技術已經為大規模 商用做好了準備。這類晶片主要採用現有的以 CPU 、GPU 、DSP 、FPGA 為代表的傳統晶片架構來運 行深度學習演算法,主要部署在雲端。
在雲端訓練環節 ,深度神經網路的計算量極大 , 而且資料和運算是可以高度並行的,GPU具備進行 海量資料並行運算的能力 ,並且為浮點向量運算配 備了大量計算資源,與深度學習的需求不謀而合,成 為雲端訓練的主力晶片,以70%以上的市場佔有率 傲視群雄。但由於 GPU 不能支援複雜程式邏輯控 制 ,仍然需要使用高效能 CPU 配合來構成完整的計算系統 。
在雲端推理環節 ,計算量相比訓練環節少 ,但仍 然涉及大量的矩陣運算。雖然 GPU 仍有應用 ,但並 不是最優選擇 ,更多的是採用異構計算架構來完成 雲端推理任務。FPGA 提高了晶片應用的靈活性和 可程式設計性 ,與 GPU 相比具備更強的計算能力和更低 的功耗 ,在雲端加速領域優勢明顯。在產業應用沒 有大規模興起之時 ,使用這類已有的通用晶片可以 避免專門研發 ASIC 的高投入和高風險 ,但是 ,由於 這類通用晶片的設計初衷並非專門針對深度學習任 務,因而天然存在效能、功耗等方面的瓶頸,隨著人 工智慧應用規模的擴大,這類問題日益突出[4] 。
2.2 人工智慧晶片發展階段
新的計算模式往往會催生出新的專用計算晶片 ,面對人工智慧時代對算力的強大需求 ,學術界和 產 業 界 紛 紛 提 出 了 自 己 的 解 決 方 案 ,谷 歌 (Google)的TPU、麻省理工學院(MIT)的Eyeriss、韓 國科學技術院(KAIST)的 UNPU 和寒武紀的 1A 則 是其中具有代表性的晶片 ,這類晶片在大規模量產 的情況下具備效能更強 、體積更小 、功耗更低 、成本 更低等優點。目前一部分通過採用語音識別 、影像識別 、自動駕駛等演算法切入人工智慧領域的公司 , 也希望通過打造匹配演算法的定製晶片和產品來實現盈利。
當前深度學習部署呈現出從雲到端,賦能邊緣的趨勢 ,但應用於雲端的人工智慧晶片普遍存在功 耗高 、實時性低 、頻寬不足 、資料傳輸延遲等問題,難以滿足邊緣計算的需求。在邊緣端進行推理的應用場景較之雲端更為多樣化,智慧手機、可穿戴裝置、ADAS、智慧攝像頭、語音互動、VR/AR 、智慧製造等 邊緣智慧裝置需求各異 ,需要更為定製化、低功耗、 低成本的嵌入式解決方案 ,這就給了初創公司更多機會 ,針對不同的細分市場來設計差異化產品。就未來整體市場規模來說 ,邊緣計算晶片在智慧終端的帶動下將是雲端資料中心晶片市場的 5 倍以上。
未來幾年 ,我們應該可以看到“無晶片不 AI”的景象 , 隨著人工智慧應用場景的逐漸落地 ,底層技術和硬體方向也更加清晰 ,隨之而來的是各類晶片公司的 白熱化競爭[5] 。
2.3 人工智慧晶片進階階段
在這一階段 ,隨著深度學習演算法的不斷演進 ,當 前的晶片架構難以滿足越來越高的算力支援 、越來 越低的功耗需求和層出不窮的各類演算法 ,架構創新 是人工智慧晶片的必由之路 ,而可重構計算架構則 是其中最具代表性的技術之一。可重構計算架構是 一種介於通用處理晶片和專用積體電路之間的 、利 用可配置的硬體資源 ,根據不同的應用需求靈活重 構自身的新型體系結構 ,同時具備通用計算晶片兼 容性和專用積體電路高效性的優點 ,被《國際半導體 技術路線圖》(2015 版)評為“後摩爾”時代最具發展 前景的未來通用計算架構技術。
該技術也被美國國防部推動的“ 電子復興計劃 ”( ERI )列 為 未 來 芯 片 的 核心支柱性體系結構技術之一。可重構計算架構天 然契合各類人工智慧演算法對專用計算晶片的需求, 同時也能保證演算法和硬體的持續演進性 ,非常適合應用於人工智慧晶片的設計當中。採用可重構計算架構之後 ,軟體定義的層面不僅僅侷限於功能這一層面,演算法的計算精度 、效能和能效等都可以納入軟 件定義的範疇。可重構計算技術藉助自身實時動態配置的特點,實現軟硬體協同設計 ,為人工智慧晶片 帶來了極高的靈活度和適用範圍 。
美國 Wave Computing 公司推出的 DPU 晶片[6]和清華大學微電子學研究所設計的 Thinker 系列晶片[7] 是採用可重構計算架構的代表性工作 ,相比傳統架 構 ,它們具備較強的靈活性和計算能效,同時也具備處理器的通用性和ASIC的高效能和低能耗。
2.4 人工智慧晶片未來階段
在更遠的未來 ,隨著演算法演進 ,應用落地 ,會不斷給人工智慧晶片提出新的要求 ,加上底層半導體技術的進步 ,我們可以期待在 3~5 年內看到第二次 人工智慧晶片技術創新的高潮 ,諸如存內計算晶片 、 類腦仿生晶片 、光子晶片等前沿技術將會從實驗室 走向產業應用[8] 。
現有的人工智慧晶片主要採用“存、算分離”的計算架構 ,即記憶體訪問和計算是分開的 ,而神經網路 同時具有計算密集和訪存密集的特點 ,記憶體訪問的功耗和延遲等問題突出 ,因此記憶體成為了處理器效能和功耗的瓶頸。為了解決“儲存牆”問題 ,不少學者提出了存內計算的概念,在記憶體內直接採用類比電路實現模擬計算 ,從而不再需要在處理器和記憶體之間耗費大量時間和能量移動資料。相比傳統的數位電路人工智慧晶片 ,使用存內計算加模擬計算的電路能效比將大幅提高 。
類腦仿生晶片的主流理念是採用神經擬態工程 設計的神經擬態晶片。神經擬態晶片採用電子技術模擬已經被證明的生物腦的運作規則,從而構建類似於生物腦的電子晶片。神經擬態研究陸續在全世界範圍內開展 ,並且受到了各國政府的重視和支援,美國的腦計劃、歐洲的人腦專案 ,以及最近中國提出的類腦計算計劃等。受到腦結構研究的成果啟發,複雜神經網路在計算上具有低功耗、低延遲、高速處理以及時空聯合等特點[9] 。
矽光子技術目前在資料中心和 5G 的高速資料傳輸中獲得了越來越多的應用。除此之外 ,矽光子還可以用來以超低功耗直接加速深度學習計算,把深度學習的兩個輸入調製到兩束光上面 ,然後讓兩束光在光子晶片的器件上完成 SVD 分解和干涉相乘,最後再把光訊號轉化為數字訊號讀出結果。最後,這些光器件都可以整合到同一塊矽光子晶片上 , 從而實現高效能光計算模組。
人工智慧晶片未來趨勢
目前全球人工智慧產業還處在高速變化發展 中 ,廣泛的行業分佈為人工智慧的應用提供了廣闊的市場前景 ,快速迭代的演算法推動人工智慧技術快 速走向商用 ,人工智慧晶片是演算法實現的硬體基礎 , 也是未來人工智慧時代的戰略制高點 ,但由於目前的 AI 演算法往往都各具優劣,只有給它們設定一個合 適的場景才能最好地發揮它們的作用,因此,確定應用領域就成為發展人工智慧晶片的重要前提。但遺憾的是,當前尚不存在適應多種應用的通用演算法 ,因此哪家晶片公司能夠抓住市場痛點 ,最先實現應用落地 ,就可以在人工智慧晶片的賽道上取得較大優勢。
架構創新是人工智慧晶片面臨的一個不可迴避的課題。從晶片發展的大趨勢來看 ,現在還是人工智慧晶片的初級階段。無論是科研還是產業應用都有巨大的創新空間。從確定演算法 、應用場景的人工 智慧加速晶片向具備更高靈活性、適應性的通用智 能晶片發展是技術發展的必然方向,弱監督、自我監督、多工學習、對大型神經網路表現更好的智慧型 晶片將成為學術界和產業界研究的重要目標。計算架構的高度並行和動態可變性 ,適應演算法演進和應 用多樣性的可程式設計性 ,更高效的大卷積解構與複用,更少的神經網路引數計算位寬 ,更多樣的分散式儲存器定製設計,更稀疏的大規模向量實現 ,複雜異構環境下更高的計算效率 ,更小的體積和更高的能量效率 ,計算和儲存一體化將成為未來人工智慧晶片的主要特徵[10]。
站在 2019 年的起點 ,人工智慧晶片的架構創新除了關注神經網路計算 ,更要關注全晶片的架構創 新。以安防智慧晶片為例 ,這是一個典型的系統級問題,除了需要解決神經網路加速問題 ,還需要處理曝光 、白平衡 、視訊編解碼等 ,並不僅僅是做好一個 神經網路加速器就能解決的問題。除了神經網路計 算還需要很多計算密集型的模組 ,這些模組採用什麼計算架構,也是整個智慧晶片的核心問題。因此,人工智慧晶片的架構創新就不能只是神經網路計算架構創新 ,傳統計算架構也必須創新 ,這將是人工智慧晶片架構創新的真正內涵 。