2020年6月23日,鯤雲科技在深圳舉行產品釋出會,釋出全球首款資料流AI晶片CAISA,定位於高效能AI推理,已完成量產。鯤雲透過自主研發的資料流技術在晶片實測算力上實現了技術突破,較同類產品在晶片利用率上提升了最高11.6倍。第三方測試資料顯示僅用1/3的峰值算力,CAISA晶片可以實現英偉達T4最高3.91倍的實測效能。鯤雲科技的定製資料流技術不依靠更大的晶片面積和製程工藝,透過資料流動控制計算順序來提升實測效能,為使用者提供了更高的算力價效比。
深圳市人民政府副市長、黨組成員聶新平,福田區委副書記、區長黃偉,市科技創新委員會副主任鍾海、市工信局副局長徐志斌、市科協黨組成員、常務委員孫楠和福田區委常委、副區長舒毓民、原政協深圳市委員會副主席、黨組成員、深圳市源創力離岸創新中心理事長王學為等政府領導及山東產業技術研究院副院長雷斌,深圳市源創力離岸創新中心總裁周路明,英特爾PSG中國區總經理、銷售總監Tiffany Xia夏迎麗等合作伙伴出席釋出會。聶新平、舒毓民同志分別為活動致辭。中國科協黨組成員、書記處書記宋軍,鯤雲科技聯合創始人兼首席科學家、英國皇家工程院院士、美國電子電氣工程師學會(IEEE)會士、英國計算機學會(BCS)會士Wayne Luk陸永青院士,浪潮資訊副總裁、浪潮AI & HPC總經理劉軍,清華大學資訊科學技術學院副院長、電子工程系主任、深鑑科技聯合創始人汪玉教授,戴爾科技集團全球資深副總裁、大中華區企業解決方案總經理曹志平,鵬城實驗室高階顧問、黨委書記、清華大學計算機系教授、學位委員會主席、CCF會士楊士強,Intel Tiffany Xia夏迎麗,中國資訊通訊研究院雲大所人工智慧部主任、工信部人工智慧技術和應用評測實驗室常務副主任、中國人工智慧產業發展聯盟(AIIA)總體組組長、南京新一代人工智慧研究院院長孫明俊等嘉賓為鯤雲成功實現全球首款資料流AI晶片量產送上了祝福和寄語。
超高晶片利用率,定製資料流晶片架構完成3.0升級
此次釋出的CAISA晶片採用鯤雲自研的定製資料流晶片架構CAISA 3.0,相較於上一代晶片架構,CAISA3.0在架構效率和實測效能方面有了大幅的提升,並在運算元支援上更加通用,支援絕大多數神經網路模型快速實現檢測、分類和語義分割部署。CAISA3.0在多引擎支援上提供了4倍更高的並行度選擇,架構的可擴充性大大提高,在AI晶片內,每一個CAISA都可以同時處理AI工作負載,進一步提升了CAISA架構的效能,在峰值算力提升6倍的同時保持了高達95.4%的晶片利用率,實測效能線性提升。同時新一代CAISA架構對編譯器RainBuilder的支援更加友好,軟硬體協作進一步最佳化,在系統級別上為使用者提供更好的端到端效能。
CAISA3.0架構繼續保持在資料流技術路線的全球領先地位,指令集架構採用馮諾依曼計算方式,透過指令執行次序控制計算順序,並透過分離資料搬運與資料計算提供計算通用性。CAISA架構依託資料流流動次序控制計算次序,採用計算流和資料流重疊執行方式消除空閒計算單元,並採用動態配置方式保證對於人工智慧演算法的通用支援,突破指令集技術對於晶片算力的限制。此次升級,CAISA架構解決了資料流架構作為人工智慧計算平臺的三大核心挑戰:
- 高算力價效比:在保持計算正確前提下,透過不斷壓縮每個空閒時鐘推高晶片實測效能以接近晶片物理極限,讓晶片內的每個時鐘、每個計算單元都在執行有效計算;
- 高架構通用性:在保證每個演算法在CAISA上執行能夠實現高晶片利用率的同時,CAISA3.0架構通用支援所有主流CNN演算法;
- 高軟體易用性:透過專為CAISA定製的編譯工具鏈實現演算法端到端自動部署,使用者無需底層資料流架構背景知識,簡單兩步即可實現演算法遷移和部署,降低使用門檻。
具體來講,鯤雲CAISA3.0架構的三大技術突破主要透過以下的技術方式實現:
1.高算力價效比:時鐘級準確的計算
CAISA3.0架構由資料流來驅動計算過程,無指令操作,可以實現時鐘級準確的計算,最大限度的減少硬體計算資源的空閒時間。CAISA3.0架構透過資料計算與資料流動的重疊,壓縮計算資源的每一個空閒時鐘;透過算力資源的動態平衡,消除流水線的效能瓶頸;透過資料流的時空對映,最大化複用晶片內的資料流頻寬,減少對外部儲存頻寬的需求。上述設計使CNN演算法的計算資料在CAISA3.0內可以實現不間斷的持續運算,最高可實現95.4%的晶片利用率,在同等峰值算力條件下,可獲得相對於GPU 3倍以上的實測算力,從而為使用者提供更高的算力價效比。
2.高架構通用性:流水線動態重組
CAISA3.0架構可以透過流水線動態重組實現對不同深度學習演算法的高效能支援。透過CAISA架構層的資料流引擎、全域性資料流網、全域性資料流快取,以及資料流引擎內部的人工智慧運算元模組、區域性資料流網、區域性資料流快取的分層設計,在資料流配置器控制下,CAISA架構中的資料流連線關係和執行狀態都可以被自動化動態配置,從而生成面向不同AI演算法的高效能定製化流水線。在保證高效能的前提下,支援使用者使用基於CAISA3.0架構的計算平臺實現如目標檢測、分類及語義分割等廣泛的人工智慧演算法應用。
3.高軟體易用性:演算法端到端自動化部署
專為CAISA3.0架構配備的RainBuilder編譯工具鏈支援從演算法到晶片的端到端自動化部署,使用者和開發者無需瞭解架構的底層硬體配置,簡單兩步即可實現演算法快速遷移和部署。RainBuilder編譯器可自動提取主流AI開發框架(TensorFlow,Caffe,Pytorch,ONNX等)中開發的深度學習演算法的網路結構和引數資訊,並面向CAISA結構進行最佳化;工具鏈中的執行時(Runtime)和驅動(Driver)模組負責硬體管理併為使用者提供標準的API介面,執行時可以基於精確的CAISA效能模型,實現演算法向CAISA架構的自動化對映,同時提供可以被高階語言直接呼叫的API介面;最底層的驅動可以實現對使用者透明的硬體控制。RainBuilder工具鏈使用簡單,部署方便,通用性強,可以讓使用者快速和低成本的部署和遷移已有演算法到CAISA硬體平臺上。首款量產資料流AI晶片,CAISA帶來AI晶片研發新方向
作為全球首款採用資料流技術的AI晶片,CAISA搭載了四個CAISA 3.0引擎,具有超過1.6萬個MAC(乘累加)單元,峰值效能可達10.9TOPs。該晶片採用28nm工藝,透過PCIe 3.0×4介面與主處理器通訊,同時具有雙DDR通道,可為每個CAISA引擎提供超過340Gbps的頻寬。作為一款面向邊緣和雲端推理的人工智慧晶片,CAISA可實現最高95.4%的晶片利用率,為客戶提供更高的算力價效比。CAISA晶片具有良好的通用性,可支援所有常用AI運算元,透過資料流網路中運算元的不同配置和組合,CAISA晶片可支援絕大多數的CNN演算法。針對CAISA晶片,鯤雲提供RainBuilder 3.0工具鏈,可實現推理模型在晶片上的端到端部署,使軟體工程師可以方便的完成CAISA晶片在AI應用系統中的整合。
高算力價效比的AI計算平臺星空加速卡系列產品釋出
釋出會上,鯤雲科技創始人和CEO牛昕宇博士還發布了基於CAISA晶片的星空系列邊緣和資料中心計算平臺,X3加速卡和X9加速卡,並公佈了由人工智慧產業技術聯盟(AIIA)測試的包括ResNet-50, YOLO v3等在內的主流深度學習網路的實測效能。
星空X3加速卡是搭載單顆CAISA 晶片的資料流架構深度學習推斷計算平臺,為工業級半高半長單槽規格的PCIe板卡。得益於其輕量化的規格特點,X3加速卡可以與不同型別的計算機裝置進行適配,包括個人電腦、工業計算機、網路影片錄影機、工作站、伺服器等,滿足邊緣和高效能場景中的AI計算需求。相較於英偉達邊緣端旗艦產品Xavier,X3可實現1.48-4.12倍的實測效能提升。
CAISA X3 | Xavier | X3 vs Xavier | ||||||||||||
模型名稱 | 網路來源 | 資料集 | 吞吐(batch=4,FPS) | 延時(batch=4, ms) | 晶片利用率 | 模型名稱 | 網路來源 | 資料集 | 吞吐(batch=128,FPS) | 延時(batch=128, ms) | 晶片利用率 | 晶片利用率 | 延時降低 | 吞吐率 |
ResNet-50 | TensorFlow | ImageNet 50000 | 1306.93 | 3.06 | 92.3% | ResNet-50 | TensorFlow | ImageNet 50000 | 879.00 | 145.70 | 21.1% | 4.37 | 47.61 | 1.49 |
ResNet-152 | TensorFlow | ImageNet 50000 | 460.27 | 8.68 | 95.4% | ResNet-152 | TensorFlow | ImageNet 50000 | 310.90 | 411.66 | 21.9% | 4.35 | 47.43 | 1.48 |
YOLOv3 | DarkNet | COCO | 125.75 | 31.06 | 82.4% | YOLOv3 | GitHub* | COCO | 30.50 | 4190.86 | 6.8% | 12.10 | 134.93 | 4.12 |
SSD-ResNet50 | NVIDIA | COCO | 182.16 | 21.96 | 77.1% | SSD-ResNet50 | NVIDIA | COCO | DNR | DNR | - | - | - | - |
U-Net Industrial | NVIDIA | COCO2017 | 54.01 | 74.07 | 65.0% | U-Net Industrial | NVIDIA | COCO2017 | DNR | DNR | - | - | - | - |
*模型參考:
X3 vs Xavier 效能對比圖
星空X9加速卡為搭載4顆CAISA 晶片的深度學習推斷板卡,峰值效能43.6TOPS,主要滿足高效能場景下的AI計算需求。同英偉達旗艦產品T4相對,X9在ResNet-50, YOLO v3等模型上的晶片利用率提升2.84-11.64倍。在實測效能方面,X9在ResNet50可達5240FPS,與T4效能接近,在YOLO v3、UNet Industrial等檢測分割網路,實測效能相較T4有1.83-3.91倍效能提升。在達到最優實測效能下,X9處理延時相比於T4降低1.83-32倍。實測效能以及處理延時的大幅領先,讓資料流架構為AI晶片的發展提供了提升峰值效能之外的另一條技術路線。
CAISA X9 | T4 | X9 vs T4 | ||||||||||||
模型名稱 | 網路來源 | 資料集 | 吞吐(batch=16,FPS) | 延時(batch=16, ms) | 晶片利用率 | 模型名稱 | 網路來源 | 資料集 | 吞吐(batch=128,FPS) | 延時(batch=128, ms) | 晶片利用率 | 晶片利用率 | 延時降低 | 吞吐率 |
ResNet-50 | TensorFlow | ImageNet 50000 | 5227.72 | 3.06 | 92.3% | ResNet-50 | TensorFlow | ImageNet 50000 | 5415.00 | 23.64 | 32.1% | 2.88 | 7.73 | 0.97 |
ResNet-152 | TensorFlow | ImageNet 50000 | 1841.08 | 8.68 | 95.4% | ResNet-152 | TensorFlow | ImageNet 50000 | 1935.25 | 66.14 | 33.6% | 2.84 | 7.62 | 0.95 |
YOLOv3 | DarkNet | COCO | 503.00 | 31.06 | 82.4% | YOLOv3 | GitHub* | COCO | 128.80 | 993.78 | 7.1% | 11.64 | 32.00 | 3.91 |
SSD-ResNet50 | NVIDIA | COCO | 728.64 | 21.96 | 77.1% | SSD-ResNet50 | NVIDIA | COCO | 212.00 | 150.94 | 7.5% | 10.25 | 6.87 | 3.44 |
U-Net Industrial | NVIDIA | COCO2017 | 216.04 | 74.07 | 65.0% | U-Net Industrial | NVIDIA | COCO2017 | 118.00 | 135.59 | 11.9% | 5.46 | 1.83 | 1.83 |
*模型參考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt
鯤雲科技透過CAISA資料流架構提高晶片利用率,同樣的實測效能,對晶片峰值算力的要求可大幅降低3-10倍,從而降低晶片的製造成本,為客戶提供更高的算力價效比。目前星空X3加速卡已經實現量產,星空X9加速卡將於今年8月推出市場。鯤雲科技成為國內首家在釋出會現場披露Benchmark的AI晶片公司
商業落地先行,鯤雲加速卡實現多領域規模落地
作為技術驅動的AI晶片公司,鯤雲科技自成立以來一直注重商業落地,目前鯤雲科技已與多家行業巨頭達成戰略合作,成為英特爾全球旗艦FPGA合作伙伴,在技術培訓、營銷推廣以及應用部署等方面進行合作;與浪潮、戴爾達成戰略簽約,在AI計算加速方面開展深入合作;與山東產業技術研究院共建山東產研鯤雲人工智慧研究院,推進人工智慧晶片及應用技術的規模化落地。明星產品“星空”加速卡已在電力、教育、航空航天、智慧製造、智慧城市等領域落地。自2016年成立至今,鯤雲科技已經完成了天使輪,Pre-A輪及A輪融資,設有深圳、山東、倫敦研發中心。2018年成立人工智慧創新應用研究院,定位於建立人工智慧產業化技術平臺,支援人工智慧最新技術在各垂直領域快速實際落地,啟動鯤雲高校計劃,開展人工智慧課程培訓和科研合作。除與Intel合作進行人工智慧課程培訓外,鯤雲人工智慧應用創新研究院已同帝國理工學院、哈爾濱工業大學、北京航空航天大學、天津大學、香港城市大學等成立聯合實驗室,在定製計算、AI晶片安全、工業智慧等領域開展前沿研究合作。
對標晶片資料來源:
T4效能資料來源:https://developer.nvidia.com/deep-learning-performance-training-inference#resnet50-latency
Xavier效能資料來源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks
ResNet50,ResNet152演算法網路來源:https://github.com/tensorflow/models/tree/master/research/slim
YOLO演算法網路來源:
SSD-ResNet50演算法網路來源:https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16
UNet Industrial演算法網路來源:https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16