AI 大模型的爆發帶動了 GPU 的強勁需求,從雲端到邊緣滲透的 AI 應用也將帶動邊緣 AI 伺服器及加速處理器的需求。透過對比 GPGPU、FPGA、NPU 和 ASIC,可重構計算架構 CGRA 成為最適合邊緣 AI 的平行計算架構。由芯動力提出的可重構並行處理器(RPP)是比傳統 CGRA 更適合大規模並行處理的計算架構,這不但透過試驗評測得到證實,而且也透過 ISCA 會議得到國際學術權威的認可。基於 RPP 架構的 R8 晶片及後續更高效能的迭代晶片將是邊緣 AI 伺服器和 AI PC 的理想 AI 加速處理器選擇。
目錄
一、什麼是邊緣 AI?
二、邊緣 AI 伺服器市場趨勢
三、適合邊緣 AI 的理想計算架構
四、RPP 架構詳解
五、RPP 處理器 R8 能效對比
六、RPP 處理器到國際學術權威認可
七、結語
一、什麼是邊緣 AI?
邊緣 AI(AI Edge)是人工智慧 (AI) 與邊緣計算交叉的先進技術,這一概念源於 AI 從雲端向邊緣下沉的分散式計算正規化轉變。邊緣 AI 的核心是將 AI 演算法直接嵌入到產生大量資料的本地環境中,例如智慧手機、物聯網裝置或本地伺服器,透過位於網路 “邊緣”(即更靠近資料來源)的裝置和系統進行實時資料處理和分析。
相對於傳統的資料中心或雲端計算平臺的 AI 訓練或推理,邊緣 AI 的主要優勢在於 “就地處理”,大大減少了資料傳輸和處理的延遲,這在智慧監控、自動駕駛、實時醫療診斷或工業自動化控制等應用場景中尤其重要。
實現邊緣 AI 計算的裝置和系統主要包括:
智慧終端:主要用於產生或收集資料的裝置,如智慧感測器、智慧手機、AI PC 或物聯網裝置等;
邊緣 AI 伺服器:直接對所收集資料進行處理和分析的邊緣裝置及軟硬體系統,比如專用的大語言模型(LLM)AI 推理伺服器、智慧駕駛區域計算中心伺服器等;
通訊網路裝置:儘管邊緣 AI 應用對通訊網路的頻寬和速率要求沒有云端那麼高,但也必須提供可靠的高速連線才能達到邊緣 AI 所需的低延遲和實時性要求。
本文主要討論邊緣 AI 伺服器及其市場發展趨勢、對 AI 加速處理器的要求,以及適合邊緣 AI 應用的平行計算架構和處理器實現。
二、邊緣 AI 伺服器市場趨勢
AI 伺服器是指專為人工智慧應用而設計的高效能運算機裝置,能夠支援大規模資料處理、模型訓練、推理計算等複雜任務。AI 伺服器通常配備高效能的處理器、高速記憶體、大容量高速儲存系統,以及高效的散熱系統,以滿足 AI 演算法對計算資源的極高需求。按不同的分類標準,AI 伺服器可以大致分為訓練伺服器、推理伺服器、GPU 伺服器、FPGA 伺服器、CPU 伺服器、雲端 AI 伺服器,以及邊緣 AI 伺服器等。
據 Gartner 預測,從現在到 2027 年,AI 伺服器市場規模將保持高速增長,年複合增長率高達 30%。該機構釋出的《2024 年第一季度全球伺服器市場報告》顯示,今年 Q1 全球伺服器市場銷售額為 407.5 億美元,同比增長 59.9%;出貨量為 282.0 萬臺,同比增長 5.9%。在眾多 AI 伺服器供應商中,浪潮資訊蟬聯全球第二,中國第一,其伺服器出貨量在全球市場佔比 11.3%,同比增長 50.4%,在 TOP5 廠商中增速第一。
另據中商產業研究院釋出的《2024-2029 年中國伺服器行業需求預測及發展趨勢前瞻報告》,2022 年末,國內市場總規模超過 420 億元,同比增長約 20%;2023 年約為 490 億元,市場增速逐步放緩;預計 2024 年市場規模將達 560 億元。從出貨量來看,2022 年中國 AI 伺服器市場出貨量約 28.4 萬臺,同比增長約 25.66%;2023 年約為 35.4 萬臺,預計 2024 年將達到 42.1 萬臺。
在 AI 大模型發展早期,AI 伺服器需求以模型訓練為主,因而訓練型伺服器佔據市場主導地位。目前,AI 伺服器市場中 57.33%為訓練型伺服器,推理型伺服器佔比達 42.67%。然而,隨著生成式 AI 應用往邊緣端滲透,預計未來推理型伺服器將逐漸成為市場主流,邊緣 AI 伺服器從出貨量上將超過雲端訓練和推理伺服器。
IDC 最新發布的《中國半年度邊緣計算市場(2023 全年)跟蹤》報告資料顯示,2023 年中國邊緣計算伺服器市場繼續保持穩步上升,同比增長 29.1%。IDC 預測,到 2028 年,中國邊緣計算伺服器市場規模將達到 132 億美元。
作為邊緣計算的重要組成部分,2023 年定製邊緣伺服器規模已達 2.4 億美元,相較 2022 年增長 16.8%。從廠商銷售額角度來看,邊緣定製伺服器市場中佔比較大的廠商分別是浪潮資訊、聯想、華為、新華三。隨著邊緣計算應用的多樣化發展,新興伺服器廠商在車路協同、邊緣 AI 和智慧終端等業務場景和應用市場將有較大突破,使得邊緣伺服器市場呈現出多樣化格局。
三、適合邊緣 AI 的理想計算架構
PC 時代由 WINTEL(微軟 Windows + 英特爾 CPU)聯盟主導、智慧手機時代由 Android+Arm 聯盟主導,AI 時代將由哪個聯盟主導呢?一個新的聯盟正初露端倪,那就是由英偉達和臺積電組成的 NT 聯盟(Nvidia+TSMC)。據華爾街投資專家預測,2024 年 NT 聯盟總營收預計將達到 2000 億美元,總淨利潤 1000 億美元,總市值有望突破 5 萬億美元。由雲端 AI 訓練和 AI 大模型應用驅動的英偉達 GPU 和臺積電 AI 晶片製造業務將成為今年最大的贏家。
儘管英偉達在雲端 AI 訓練和推理市場佔據了絕對主導地位,但在邊緣 AI 應用場景中英偉達的 GPGPU 卻不是最佳選擇,因為其計算架構固有的高功耗和高成本問題限制了其在更為廣泛而分散的邊緣 AI 應用中的作用。計算機架構領域的學者專家都在尋求能夠替代 GPGPU 的高能效並行技術架構,基於特定域專用架構(DSA)的 ASIC 設計是一種可行的關鍵思路,比如谷歌的張量處理單元 (TPU) ,這種專為加速機器學習工作負載而設計的處理器採用脈動陣列架構,可高效執行乘法和累加運算,主要面向資料中心應用。另外一個思路是以三星為代表的神經處理單元 (NPU) ,它專為移動場景而設計,具有節能的內積引擎,可利用輸入特徵圖稀疏性來最佳化深度學習推理的效能。
雖然 TPU 和 NPU 都能夠提供部分替代 GPGPU 的高效能和節能解決方案,但它們的專用設計屬性限制了其多功能性和廣泛的適用性。總部位於美國加州且在臺灣和大陸都有研發中心的邊緣 AI 晶片初創公司耐能(Kneron)提出了可重構 NPU 的方案,使得 NPU 晶片有 ASIC 高效能而又不犧牲資料密集型演算法的可程式設計性。憑藉獨特創新的架構和優異的效能,耐能團隊獲得 IEEE CAS 2021 年 Darlington 最佳論文獎。耐能第 4 代可重構 NPU 可以支援同時執行 CNN 和 Transformer 網路,既可做機器視覺,也可執行語義分析。與僅面向特定應用的普通 AI 模型不同,耐能的可重構人工神經網路(RANN)技術更加靈活,可滿足不同應用需求並適應各種計算體系架構。據該公司宣稱,其邊緣 GPT AI 晶片 KL830 可應用於 AI PC、USB 加速棒和邊緣伺服器,當與 GPU 配合使用時,NPU 可將裝置能耗降低 30%。
可重構硬體是另一種可提供高效能和節能計算的解決方案,現場可程式設計門陣列 (FPGA) 是可重構硬體計算的代表,其特點是細粒度可重構性。FPGA 利用具有可程式設計互連的可配置邏輯塊來實現自定義計算核心。這種定製的計算能力使得基於 FPGA 的加速器能夠部署在金融計算、深度學習和科學模擬等廣泛的大規模計算應用中。然而,FPGA 提供的位級可重構性會帶來明顯的面積和功率額外開銷,而且沒有規模成本效益,這極大地限制了其在需要低功耗和小尺寸的應用場景中的適用性。
粗粒度可重構架構 (CGRA) 代表另一類可重構硬體。與 FPGA 相比,CGRA 提供粗粒度的可重構性,例如字級可重構功能單元。由於 CGRA 內部的 ALU 模組已經構建完成,且其互聯也要比 FPGA 更簡單、規模更小,因此其延時和效能要顯著好於在門級上進行互連形成組合計算邏輯的 FPGA。CGRA 更適合 word-wise 型別 (32bit 為單位) 的可重構計算,而且可以緩解 FPGA 存在的時序、面積和功率開銷問題,是未來邊緣 AI 的理想高效能平行計算架構。
下面我們大致梳理一下 CGRA 的發展歷程:
早在 1991 年,國際學術界就開啟了可重構晶片的研究;
2003 年,歐洲宇航防務集團 (EADS) 率先在衛星上採用可重構計算晶片;
2004 年,歐洲 IMEC 提出動態可重構結構 ADRES,在三星的生物醫療、高畫質電視等系列產品中得到應用,日本的瑞薩科技也採用這種架構。
2006 年,清華大學微電子所魏少軍教授帶領的可重構計算團隊開始進行可重構計算理論和架構研究;
2017 年,美國國防高階研究計劃局(DARPA)宣佈啟動電子復興計劃(Electronics Resurgence Initiative,簡稱 ERI),將 “可重構計算” 技術列為美國未來 30 年的戰略技術之一;
2018 年,基於清華大學可重構計算技術的清微智慧成立,正式開啟商業化程序。2019 年,清微智慧量產全球第一款可重構智慧語音晶片 TX210,證明了可重構計算的商業價值。2020 年,清微智慧獲得中國電子學會技術發明一等獎;2023 年,國家大基金二期投資清微智慧。目前,清微智慧共有邊緣端 TX2、TX5 系列晶片,以及用於伺服器領域的 TX8 系列三大晶片產品。其中,TX2 和 TX5 系列晶片已應用於智慧安防、金融支付、智慧穿戴,智慧機器人等多個領域;面向雲端市場的 TX8 高算力晶片主要應用場景是 AI 大模型的訓練和推理。
國內另一家基於可重構計算技術的 AI 晶片初創公司珠海芯動力於 2017 年成立,其可重構並行處理器(RPP)架構是改進版的 CGRA。2021 年首顆晶片 RPP-R8 成功流片,2023 年進入金融計算、工業攝像和機器人等邊緣 AI 應用市場,並與浪潮資訊達成戰略合作進入邊緣 AI 伺服器市場。
國際計算機學術界和高科技產業界已形成共識,基於 CGRA 架構的可重構計算晶片具備廣泛的通用計算能力,可以應用於各種邊緣 AI 計算場景,是解決通用高算力和低功耗需求的必由之路。
四、RPP 處理器架構詳解
RPP 和 CGRA 都是屬於粗粒度的可重構陣列,都可以達到類似 ASIC 的面積密度和功率效率,而且都是可以用軟體程式設計的。但是,RPP 在可重構型別和程式設計模型方面跟 CGRA 還是不同的,具體表現為:
1. RPP 是準靜態可重構陣列,而傳統 CGRA 一般用於動態可重構陣列。靜態可重構整列是指每個指令在處理單元(PE)的執行不隨時間變化,資料流也是不變的。對於編譯器來講,靜態的可重構陣列不需要對指令在時間上進行安排,這樣就可以讓 RPP 構造更加簡單,指令的分配速度很低。因此,RPP 很容易實現一個大型的陣列,譬如 32x32 的陣列。RPP 比傳統 CGRA 更加適用於大規模平行計算。
2. RPP 使用的是多執行緒 SIMT 程式設計模型,而 CGRA 通常使用的是單執行緒語言程式設計。RPP 可以相容 CUDA 語言,更加適合平行計算。CUDA 語言要求程式設計人員從一開始就考慮資料的並行度,把並行演算法用 CUDA 語言表現出來;編譯器則不需要分析平行計算度,編譯器就非常簡單;CUDA 語言是 SIMT 型別,只用於資料並行的計算,而且並行度在一個程式裡保持不變。CGRA 則通常使用 C 語言 + 獨立的編譯器,雖然理論上可以覆蓋任意的計算型別,但是編譯器非常複雜,很難達到較高的編譯效率。
下面圖表對 RPP 及幾個主流的可重構加速架構做了對比。
RPP 架構的優勢可以總結為以下四點:
具有墊片暫存器(gasket memory)的環形可重構並行處理架構,允許在不同資料流之間高效地重用資料;
分層式記憶體設計具有多種資料訪問模式、地址對映策略和共享記憶體模式,可實現高效靈活的記憶體訪問;
各種硬體最佳化機制,如併發核心執行、暫存器拆分和重新填充,以及異構標量和向量計算,從而提高了整體硬體利用率和效能;
一個相容 CUDA 的端到端完整軟體棧,具有編譯器、執行時環境、高度最佳化的 RPP 庫,可實現邊緣 AI 應用的快速高效部署。
芯動力基於 RPP 架構提出了 RPP 硬體設計框圖,並透過 R8 晶片真實的展現出這種平行計算架構的優越性。這種硬體設計實現主要由一個環形可重構處理器(Circular Reconfigurable Processor)、一個記憶體單元和一個序列器組成,見下圖。
迴圈可重構處理器是大規模平行計算的核心計算元件。
記憶體單元被分成多個記憶體組,每個記憶體組都與一個快取配對,以利用程式的時間和空間區域性性實現高效的資料重用。只有當環形可重構處理器內的暫存器和緩衝區已滿時,中間資料才會被傳輸並儲存在記憶體單元中。
序列器用於解碼和分發指令到環形可重構處理器,並使用快取來儲存從 DDR 收到的指令。
環形可重構處理器包括 NPU 處理單元 (PE) 和一個墊片記憶體。每個 PE 都配備了一個記憶體埠,以方便對記憶體單元進行資料訪問。記憶體埠設計有模式控制器、地址計算單元和多個多路複用器,以支援不同的資料訪問模式和共享記憶體模式。為了實現靈活的處理器內通訊,每個 PE 都整合了一個開關盒 (SB) 和一個互連開關盒 (ICSB),以實現高效的資料轉發。這些 PE 按線性順序連線,墊片記憶體充當第一個和最後一個 PU 之間的橋樑,從而形成環形拓撲。
環形可重構處理器內的資料處理從第一個 PE 開始,並以流水線方式遍歷 PE,中間計算結果按順序輸出到後續 PE。墊片記憶體快取最後一個 PE 的輸出並將它們重新迴圈到第一個 PE,從而最大限度地提高資料區域性性並消除記憶體單元的記憶體流量。PE 中的關鍵計算元件是處理引擎。在每個 PE 中,都有多個算術邏輯單元 (ALU),其中每個 ALU 都與資料暫存器和地址暫存器耦合。這些資料暫存器聚合在一起形成一個資料緩衝區,便於在每個 PE 內快速訪問資料。
此外,線性交換網路和墊片儲存器的組合實現了靈活的資料流控制和高效的資料重用,同時消除了傳統基於網格的 CGRA 設計中複雜的網路路由。結合對記憶體單元的靈活高效資料訪問,RPP 可以最佳化資料流處理,最小化記憶體流量,從而最大限度地提高資源利用效率。
RPP 處理器採用 SIMT 程式設計模型來為靈活多執行緒管道啟用流式資料流處理。
為了確保與現有 GPGPU 軟體生態系統的相容性,芯動力的 RPP 處理器採用了擁有廣泛使用者群的 CUDA。CUDA 程式碼由基於 LLVM 的前端解析,為 RPP 後端生成 PTX 程式碼。RPP 編譯器將 CUDA 核心解釋為資料流圖並將它們對映到虛擬資料路徑(VDP)。然後根據硬體約束將 VDP 分解為多個物理資料路徑(PDP),每個 PDP 的配置由序列器在執行時生成。
RPP 的軟體堆疊可以支援廣泛的大規模並行應用,包括機器學習、影片 / 影像處理和訊號處理等。對於機器學習應用,該堆疊與不同的主流框架相容,例如 PyTorch、ONNX、Caffe 和 TensorFlow。此外,使用者可以靈活地使用 CUDA 定義他們的自定義程式。這些高階應用程式由 RPP 框架處理,該框架包含一個編譯器和不同領域特定的庫。在軟體堆疊的底部,採用 RPP 執行時環境和 RPP 驅動程式來確保使用工具鏈編譯的程式可以在底層硬體上無縫執行。
五、RPP 處理器 R8 能效對比
基於以上 RPP 處理器硬體設計和完整軟體堆疊實現的 RPP-R8 晶片在計算效能和能效上表現如何呢?
R8 晶片的效能引數如下表所示:
針對邊緣計算場景,芯動力將 RPP-R8 晶片與兩款英偉達邊緣 GPU 進行了比較:Jetson Nano 和 Jetson Xavier AGX。Jetson Nano 的晶片尺寸與 RPP 相似,可在物理面積限制內提供相關比較;選擇 Jetson Xavier AGX 是基於其與 RPP-R8 相當的理論吞吐量。芯動力在 ResNet-50 推理上評估了這三個 AI 加速平臺,其中 Jetson Nano 的吞吐量來自基準測試論文,而 Xavier AGX 的效能資料來自英偉達官方網站。
如上表所示,RPP-R8 的實測執行吞吐量分別是 Jetson Nano 和 Jetson Xavier AGX 的 41.3 倍和 2.3 倍。要知道,Jetson Xavier AGX 的晶片尺寸幾乎是 R8 的三倍,工藝也更先進(12 nm vs. 14 nm),但其效能低於 R8。在能效方面,R8 的能效分別是 Jetson Nano 和 Jetson Xavier AGX 的 27.5 倍和 4.6 倍。這些結果表明,在面積和功率預算有限的邊緣 AI 場景中,RPP-R8 的表現明顯優於 Jetson Nano 和 Jetson Xavier AGX。
深度學習推理是一種廣受認可的大規模並行工作負載,也是 RPP-R8 硬體的關鍵應用。鑑於 Yolo 系列模型與 ResNet-50 等分類模型相比表現出更高的計算複雜度,芯動力選擇英偉達 Jeston Nano Orin 作為 GPU 平臺,其峰值吞吐量比 Jetson AGX Xavier 更高,為 40 TOPS。由於 CPU 通常不是為高效能深度學習推理而構建的,因此選擇 Jetson Xavier Nx 作為比較低端的 GPU 平臺,具有 21 TOPS 的峰值吞吐量。評估批處理大小為 1、2 和 4 的工作負載,反映了真實的邊緣場景。上圖顯示了三個平臺的吞吐量效能比較,RPP-R8 在 Yolo-v5m 和 Yolo-v7 tiny 上展示了更高的吞吐量。在批次大小為 1 的情況下,RPP-R8 的吞吐量大約比 Jeston Nano Orin 高 1.5× ∼2.5 倍,比 Jeston Xavier Nx 高 2.6× ∼4.3 倍。
評估與測試結果表明,RPP 在延遲、吞吐量和能效方面優於傳統的 GPU、CPU 和 DSP 等架構。RPP 處理器的效能提升歸功於其獨特的硬體特性,主要包括:1) 迴圈資料流處理:中間結果流經 PE 之間的流水線暫存器和 FIFO,顯著減少了資料移動和到遠端記憶體儲存的記憶體流量;與 GPU 和 CPU 中的資料處理相比,這種模式效率更高。2) 分層記憶體系統:RPP 透過其分層記憶體系統最大化資料區域性性。RPP-R8 晶片面積的很大一部分(約 39.9%)專用於片上儲存器。這種設計選擇提供了廣泛的記憶體容量,增強了資料重用並減少了頻繁訪問外部儲存器的需求。3) 矢量化和多執行緒管道:RPP 的硬體架構和程式設計模型可實現有效的矢量化和多執行緒管道。這種設計充分利用了 RPP 進行並行處理的全部計算潛力,確保其資源得到最大程度的利用,從而提高效能。
除了在能耗、延遲和吞吐量方面的優勢外,RPP 還因其小面積而脫穎而出。只有 119 平方毫米的晶片面積消耗使得 RPP-R8 成為面積受限的邊緣計算的理想平臺。RPP 的另一個特點是其高可程式設計性,由全面的端到端軟體堆疊支援,可顯著提高部署效率。與 CUDA 的相容性使使用者能夠利用熟悉的 CUDA 生態系統,從而縮短學習曲線並促進更容易的採用。支援即時程式設計和圖形程式設計模式,為使用者提供了高度的靈活性,滿足各種計算需求。包括 OpenRT 和 RPP-BLAS 在內的不同庫支援也促進了各種場景中的高效能和高效部署。全棧解決方案,包括硬體架構和軟體支援,使 RPP 在各種邊緣計算硬體中脫穎而出。
六、RPP 架構得到國際學術權威認可
由芯動力攜手英國帝國理工、劍橋大學、清華大學和中山大學等頂尖學府的計算機架構團隊共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP 晶片架構)已成功被第 51 屆計算機體系結構國際研討會(ISCA 2024)的 Industry Track 收錄。芯動力創始人兼 CEO 李原博士與帝國理工博士畢業生 Hongxiang Fan(現在英國劍橋的三星 AI 中心做研究科學家)受邀在阿根廷布宜諾斯艾利斯舉行的 ISCA 2024 會議上發表演講,與 Intel 和 AMD 等國際知名企業的專家同臺交流。
本屆 ISCA 共收到來自全球 423 篇高質量論文投稿,經過嚴謹的評審流程,僅有 83 篇論文脫穎而出,總體接收率低至 19.6%。其中,Industry Track 的錄取難度尤為突出,接收率僅為 15.3%。
作為計算機體系結構領域的頂級學術盛會,ISCA 由 ACM SIGARCH 與 IEEE TCCA 聯合舉辦。自 1973 年創辦以來,一直是推動計算機系統結構領域進步的先鋒力量,其廣泛的影響力和卓越的貢獻使其成為谷歌、英特爾、英偉達等行業巨頭競相展示前沿研究成果的高階平臺。ISCA 與 MICRO、HPCA、ASPLOS 並稱為四大頂級會議,而 ISCA 更是其中的佼佼者,論文錄取率常年保持在 18% 左右。多年來,眾多在 ISCA 上發表的研究成果已成為推動半導體和計算機行業發展的關鍵動力。
本次入選的可重構並行處理器(RPP)論文為邊緣計算領域注入了強勁動力。實驗結果充分證實,作為一款平行計算的硬體平臺,RPP 的效能全面超越當前市場上的 GPU,特別是在對延遲、功耗和體積有著極高要求的應用場景中表現尤為出色。
六、結語
ChatGPT 引爆了 AI 大模型,從而帶動了 GPU 和 AI 加速器的巨大需求。AI 應用的發展趨勢將從雲端 AI 訓練和推理逐漸往邊緣和端側 AI 滲透,為各種 AI 應用提供軟硬體支援的 AI 伺服器也同樣遵循從資料中心到邊緣計算的分散式擴充套件趨勢。傳統 GPGPU 在邊緣 AI 應用場景中開始暴露出明顯的架構缺陷,其高成本、高功耗和高延遲問題迫使業界專家尋求更為高能效的平行計算架構。
在對比 CPU、GPU、ASIC、FPGA 和 NPU 等不同計算架構後,我們發現可重構計算架構 CGRA 是比較適合邊緣 AI 應用的,尤其是芯動力提出的可重構並行處理器(RPP)。透過與英偉達同類 GPU 對比分析,基於 RPP 架構的 R8 晶片在延遲、功耗、面積成本、通用性和快速部署方面都表現出色,我們認為這是目前最理想的邊緣 AI 平行計算架構。
在今年 7 月份阿根廷舉行的 ISCA2024 學術會議上,關於 RPP 處理器架構的論文得到國際學術權威認可。隨著邊緣 AI 的發展,AI 伺服器和 AI PC 將迎來快速增長的黃金時期,而支援這類邊緣 AI 裝置的 AI 加速器也將同步增長。由珠海芯動力科技提出的 RPP 處理器晶片也將得到業界認可,成為邊緣 AI 應用場景中最為理想的 AI 加速處理器。