鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍

新聞助手發表於2020-06-25

2020年6月23日，鯤雲科技在深圳舉行產品釋出會，釋出全球首款資料流AI晶片CAISA，定位於高效能AI推理，已完成量產。鯤雲透過自主研發的資料流技術在晶片實測算力上實現了技術突破，較同類產品在晶片利用率上提升了最高11.6倍。第三方測試資料顯示僅用1/3的峰值算力，CAISA晶片可以實現英偉達T4最高3.91倍的實測效能。鯤雲科技的定製資料流技術不依靠更大的晶片面積和製程工藝，透過資料流動控制計算順序來提升實測效能，為使用者提供了更高的算力價效比。

深圳市人民政府副市長、黨組成員聶新平，福田區委副書記、區長黃偉，市科技創新委員會副主任鍾海、市工信局副局長徐志斌、市科協黨組成員、常務委員孫楠和福田區委常委、副區長舒毓民、原政協深圳市委員會副主席、黨組成員、深圳市源創力離岸創新中心理事長王學為等政府領導及山東產業技術研究院副院長雷斌，深圳市源創力離岸創新中心總裁周路明，英特爾PSG中國區總經理、銷售總監Tiffany Xia夏迎麗等合作伙伴出席釋出會。聶新平、舒毓民同志分別為活動致辭。中國科協黨組成員、書記處書記宋軍，鯤雲科技聯合創始人兼首席科學家、英國皇家工程院院士、美國電子電氣工程師學會（IEEE）會士、英國計算機學會（BCS）會士Wayne Luk陸永青院士，浪潮資訊副總裁、浪潮AI & HPC總經理劉軍，清華大學資訊科學技術學院副院長、電子工程系主任、深鑑科技聯合創始人汪玉教授，戴爾科技集團全球資深副總裁、大中華區企業解決方案總經理曹志平，鵬城實驗室高階顧問、黨委書記、清華大學計算機系教授、學位委員會主席、CCF會士楊士強，Intel Tiffany Xia夏迎麗，中國資訊通訊研究院雲大所人工智慧部主任、工信部人工智慧技術和應用評測實驗室常務副主任、中國人工智慧產業發展聯盟（AIIA）總體組組長、南京新一代人工智慧研究院院長孫明俊等嘉賓為鯤雲成功實現全球首款資料流AI晶片量產送上了祝福和寄語。

超高晶片利用率，定製資料流晶片架構完成3.0升級

此次釋出的CAISA晶片採用鯤雲自研的定製資料流晶片架構CAISA 3.0，相較於上一代晶片架構，CAISA3.0在架構效率和實測效能方面有了大幅的提升，並在運算元支援上更加通用，支援絕大多數神經網路模型快速實現檢測、分類和語義分割部署。CAISA3.0在多引擎支援上提供了4倍更高的並行度選擇，架構的可擴充性大大提高，在AI晶片內，每一個CAISA都可以同時處理AI工作負載，進一步提升了CAISA架構的效能，在峰值算力提升6倍的同時保持了高達95.4%的晶片利用率，實測效能線性提升。同時新一代CAISA架構對編譯器RainBuilder的支援更加友好，軟硬體協作進一步最佳化，在系統級別上為使用者提供更好的端到端效能。

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 CAISA3.0架構圖CAISA3.0架構繼續保持在資料流技術路線的全球領先地位，指令集架構採用馮諾依曼計算方式，透過指令執行次序控制計算順序，並透過分離資料搬運與資料計算提供計算通用性。CAISA架構依託資料流流動次序控制計算次序，採用計算流和資料流重疊執行方式消除空閒計算單元，並採用動態配置方式保證對於人工智慧演算法的通用支援，突破指令集技術對於晶片算力的限制。此次升級，CAISA架構解決了資料流架構作為人工智慧計算平臺的三大核心挑戰：

高算力價效比：在保持計算正確前提下，透過不斷壓縮每個空閒時鐘推高晶片實測效能以接近晶片物理極限，讓晶片內的每個時鐘、每個計算單元都在執行有效計算；
高架構通用性：在保證每個演算法在CAISA上執行能夠實現高晶片利用率的同時，CAISA3.0架構通用支援所有主流CNN演算法；
高軟體易用性：透過專為CAISA定製的編譯工具鏈實現演算法端到端自動部署，使用者無需底層資料流架構背景知識，簡單兩步即可實現演算法遷移和部署，降低使用門檻。

具體來講，鯤雲CAISA3.0架構的三大技術突破主要透過以下的技術方式實現：

1.高算力價效比：時鐘級準確的計算

CAISA3.0架構由資料流來驅動計算過程，無指令操作，可以實現時鐘級準確的計算，最大限度的減少硬體計算資源的空閒時間。CAISA3.0架構透過資料計算與資料流動的重疊，壓縮計算資源的每一個空閒時鐘；透過算力資源的動態平衡，消除流水線的效能瓶頸；透過資料流的時空對映，最大化複用晶片內的資料流頻寬，減少對外部儲存頻寬的需求。上述設計使CNN演算法的計算資料在CAISA3.0內可以實現不間斷的持續運算，最高可實現95.4%的晶片利用率，在同等峰值算力條件下，可獲得相對於GPU 3倍以上的實測算力，從而為使用者提供更高的算力價效比。

2.高架構通用性：流水線動態重組

CAISA3.0架構可以透過流水線動態重組實現對不同深度學習演算法的高效能支援。透過CAISA架構層的資料流引擎、全域性資料流網、全域性資料流快取，以及資料流引擎內部的人工智慧運算元模組、區域性資料流網、區域性資料流快取的分層設計，在資料流配置器控制下，CAISA架構中的資料流連線關係和執行狀態都可以被自動化動態配置，從而生成面向不同AI演算法的高效能定製化流水線。在保證高效能的前提下，支援使用者使用基於CAISA3.0架構的計算平臺實現如目標檢測、分類及語義分割等廣泛的人工智慧演算法應用。

3.高軟體易用性：演算法端到端自動化部署鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 RainBuilder架構圖專為CAISA3.0架構配備的RainBuilder編譯工具鏈支援從演算法到晶片的端到端自動化部署，使用者和開發者無需瞭解架構的底層硬體配置，簡單兩步即可實現演算法快速遷移和部署。RainBuilder編譯器可自動提取主流AI開發框架（TensorFlow，Caffe，Pytorch，ONNX等）中開發的深度學習演算法的網路結構和引數資訊，並面向CAISA結構進行最佳化；工具鏈中的執行時（Runtime）和驅動（Driver）模組負責硬體管理併為使用者提供標準的API介面，執行時可以基於精確的CAISA效能模型，實現演算法向CAISA架構的自動化對映，同時提供可以被高階語言直接呼叫的API介面；最底層的驅動可以實現對使用者透明的硬體控制。RainBuilder工具鏈使用簡單，部署方便，通用性強，可以讓使用者快速和低成本的部署和遷移已有演算法到CAISA硬體平臺上。

首款量產資料流AI晶片，CAISA帶來AI晶片研發新方向CAISA晶片作為全球首款採用資料流技術的AI晶片，CAISA搭載了四個CAISA 3.0引擎，具有超過1.6萬個MAC（乘累加）單元，峰值效能可達10.9TOPs。該晶片採用28nm工藝，透過PCIe 3.0×4介面與主處理器通訊，同時具有雙DDR通道，可為每個CAISA引擎提供超過340Gbps的頻寬。

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 CAISA晶片架構圖作為一款面向邊緣和雲端推理的人工智慧晶片，CAISA可實現最高95.4%的晶片利用率，為客戶提供更高的算力價效比。CAISA晶片具有良好的通用性，可支援所有常用AI運算元，透過資料流網路中運算元的不同配置和組合，CAISA晶片可支援絕大多數的CNN演算法。針對CAISA晶片，鯤雲提供RainBuilder 3.0工具鏈，可實現推理模型在晶片上的端到端部署，使軟體工程師可以方便的完成CAISA晶片在AI應用系統中的整合。

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍鯤雲科技創始人牛昕宇釋出全球首款資料流AI晶片高算力價效比的AI計算平臺星空加速卡系列產品釋出

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍星空加速卡系列產品圖釋出會上，鯤雲科技創始人和CEO牛昕宇博士還發布了基於CAISA晶片的星空系列邊緣和資料中心計算平臺，X3加速卡和X9加速卡，並公佈了由人工智慧產業技術聯盟（AIIA）測試的包括ResNet-50, YOLO v3等在內的主流深度學習網路的實測效能。

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍星空X3加速卡釋出星空X3加速卡是搭載單顆CAISA 晶片的資料流架構深度學習推斷計算平臺，為工業級半高半長單槽規格的PCIe板卡。得益於其輕量化的規格特點，X3加速卡可以與不同型別的計算機裝置進行適配，包括個人電腦、工業計算機、網路影片錄影機、工作站、伺服器等，滿足邊緣和高效能場景中的AI計算需求。相較於英偉達邊緣端旗艦產品Xavier，X3可實現1.48-4.12倍的實測效能提升。

CAISA X3						Xavier						X3 vs Xavier
模型名稱	網路來源	資料集	吞吐（batch=4，FPS）	延時（batch=4, ms）	晶片利用率	模型名稱	網路來源	資料集	吞吐（batch=128，FPS）	延時（batch=128, ms）	晶片利用率	晶片利用率	延時降低	吞吐率
ResNet-50	TensorFlow	ImageNet 50000	1306.93	3.06	92.3%	ResNet-50	TensorFlow	ImageNet 50000	879.00	145.70	21.1%	4.37	47.61	1.49
ResNet-152	TensorFlow	ImageNet 50000	460.27	8.68	95.4%	ResNet-152	TensorFlow	ImageNet 50000	310.90	411.66	21.9%	4.35	47.43	1.48
YOLOv3	DarkNet	COCO	125.75	31.06	82.4%	YOLOv3	GitHub*	COCO	30.50	4190.86	6.8%	12.10	134.93	4.12
SSD-ResNet50	NVIDIA	COCO	182.16	21.96	77.1%	SSD-ResNet50	NVIDIA	COCO	DNR	DNR	-	-	-	-
U-Net Industrial	NVIDIA	COCO2017	54.01	74.07	65.0%	U-Net Industrial	NVIDIA	COCO2017	DNR	DNR	-	-	-	-

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt 鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 X3 vs Xavier 晶片利用率對比圖

X3 vs Xavier 效能對比圖

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 X3 vs Xavier 延時對比圖

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍星空X9加速卡釋出

星空X9加速卡為搭載4顆CAISA 晶片的深度學習推斷板卡，峰值效能43.6TOPS，主要滿足高效能場景下的AI計算需求。同英偉達旗艦產品T4相對，X9在ResNet-50, YOLO v3等模型上的晶片利用率提升2.84-11.64倍。在實測效能方面，X9在ResNet50可達5240FPS，與T4效能接近，在YOLO v3、UNet Industrial等檢測分割網路，實測效能相較T4有1.83-3.91倍效能提升。在達到最優實測效能下，X9處理延時相比於T4降低1.83-32倍。實測效能以及處理延時的大幅領先，讓資料流架構為AI晶片的發展提供了提升峰值效能之外的另一條技術路線。

CAISA X9						T4						X9 vs T4
模型名稱	網路來源	資料集	吞吐（batch=16，FPS）	延時（batch=16, ms）	晶片利用率	模型名稱	網路來源	資料集	吞吐（batch=128，FPS）	延時（batch=128, ms）	晶片利用率	晶片利用率	延時降低	吞吐率
ResNet-50	TensorFlow	ImageNet 50000	5227.72	3.06	92.3%	ResNet-50	TensorFlow	ImageNet 50000	5415.00	23.64	32.1%	2.88	7.73	0.97
ResNet-152	TensorFlow	ImageNet 50000	1841.08	8.68	95.4%	ResNet-152	TensorFlow	ImageNet 50000	1935.25	66.14	33.6%	2.84	7.62	0.95
YOLOv3	DarkNet	COCO	503.00	31.06	82.4%	YOLOv3	GitHub*	COCO	128.80	993.78	7.1%	11.64	32.00	3.91
SSD-ResNet50	NVIDIA	COCO	728.64	21.96	77.1%	SSD-ResNet50	NVIDIA	COCO	212.00	150.94	7.5%	10.25	6.87	3.44
U-Net Industrial	NVIDIA	COCO2017	216.04	74.07	65.0%	U-Net Industrial	NVIDIA	COCO2017	118.00	135.59	11.9%	5.46	1.83	1.83

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍 X9 vs T4 晶片利用率對比圖X9 vs T4 效能對比圖X9 vs T4 延時對比圖鯤雲科技透過CAISA資料流架構提高晶片利用率，同樣的實測效能，對晶片峰值算力的要求可大幅降低3-10倍，從而降低晶片的製造成本，為客戶提供更高的算力價效比。目前星空X3加速卡已經實現量產，星空X9加速卡將於今年8月推出市場。鯤雲科技成為國內首家在釋出會現場披露Benchmark的AI晶片公司

商業落地先行，鯤雲加速卡實現多領域規模落地

作為技術驅動的AI晶片公司，鯤雲科技自成立以來一直注重商業落地，目前鯤雲科技已與多家行業巨頭達成戰略合作，成為英特爾全球旗艦FPGA合作伙伴，在技術培訓、營銷推廣以及應用部署等方面進行合作；與浪潮、戴爾達成戰略簽約，在AI計算加速方面開展深入合作；與山東產業技術研究院共建山東產研鯤雲人工智慧研究院，推進人工智慧晶片及應用技術的規模化落地。明星產品“星空”加速卡已在電力、教育、航空航天、智慧製造、智慧城市等領域落地。自2016年成立至今，鯤雲科技已經完成了天使輪，Pre-A輪及A輪融資，設有深圳、山東、倫敦研發中心。2018年成立人工智慧創新應用研究院，定位於建立人工智慧產業化技術平臺，支援人工智慧最新技術在各垂直領域快速實際落地，啟動鯤雲高校計劃，開展人工智慧課程培訓和科研合作。除與Intel合作進行人工智慧課程培訓外，鯤雲人工智慧應用創新研究院已同帝國理工學院、哈爾濱工業大學、北京航空航天大學、天津大學、香港城市大學等成立聯合實驗室，在定製計算、AI晶片安全、工業智慧等領域開展前沿研究合作。

對標晶片資料來源：

T4效能資料來源：https://developer.nvidia.com/deep-learning-performance-training-inference#resnet50-latency

Xavier效能資料來源：https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks

ResNet50，ResNet152演算法網路來源：https://github.com/tensorflow/models/tree/master/research/slim

YOLO演算法網路來源：

[官方] https://pjreddie.com/darknet/yolo/
[其他] https://github.com/pushyami/yolov3-caffe/

SSD-ResNet50演算法網路來源：https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16

UNet Industrial演算法網路來源：https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16

創新研發高通量晶片技術，JASMINER實現區塊鏈晶片大突破
2022-03-11
晶片ASM區塊鏈
資料加密新技術-實時雲渲染技術應用
2021-10-28
加密
醫療晶片的特殊戰爭：從微流體技術的新突破說起
2019-05-26
晶片
創新的力量天翼雲推動科技創新技術實踐落地
2022-03-17
技術集錦 | 大資料雲原生技術實戰及最佳實踐系列
2022-02-11
大資料
突破技術限制，實現Web端靜默列印
2021-12-28
Web
RangeBitmap提升Java流資料過濾效能
2022-03-14
Java
AI晶片新機遇 —— ISSCC 2019 人工智慧晶片技術前瞻
2018-12-10
AI晶片人工智慧
雲流送技術原理是什麼，如何實現多併發？
2022-06-24
應用流化技術是如何實現資料雲加密安全的？
2021-07-08
加密
車貸ABS迴歸實體經濟本質祺鯤科技用區塊鏈技術實現價值增值
2018-03-05
區塊鏈
JAVA + LR實現apache流媒體的效能測試
2019-08-15
JavaApache
隱私AI框架中的資料流動與工程實現
2020-11-12
AI框架
技術乾貨｜如何利用 ChunJun 實現資料實時同步？
2023-04-24
騰訊雲CDB的AI技術實踐：CDBTune
2018-06-05
AI
深度解讀資料庫引入LLVM技術後如何提升效能
2024-06-12
資料庫LVM
新基建技術新突破：騰訊釋出「雲深智藥」AI藥物研發平臺
2020-07-09
AI
如果通過流資料實現實時分析？
2022-03-14
系統效能提升利刃 | 快取技術使用的實踐與思考
2019-08-15
快取
北鯤雲助力生命科學，高效能運算突破屏障
2021-07-08
StartDT AI Lab | 資料增強技術如何實現場景落地與業務增值？
2019-12-19
AI
個推技術實踐 | Spark效能調優看這篇，效能提升60%↑ 成本降低50%↓
2021-09-25
Spark
突破獲客瓶頸，這家銀行如何利用資料探勘技術實現精準營銷？
2021-12-01
淘寶/天貓商品詳情實時資料API技術實現
2024-01-09
API
效能提升 57% ，SMC-R 透明加速 TCP 實戰解析 | 龍蜥技術
2022-05-19
TCP
突破效能瓶頸，實現流程自動化
2022-08-29
力軟敏捷開發框架工作流實現技術
2018-11-12
敏捷框架
通過sysbench工具實現MySQL資料庫的效能測試
2019-07-25
MySql資料庫
技術解讀資料庫如何實現“多租戶”？
2024-06-20
資料庫
史上首個實時AI影片生成技術：DiT通用，速度提升10.6倍
2024-06-28
AI
詳解API Gateway流控實現，揭開ROMA平臺高效能秒級流控的技術細節
2021-07-23
APIGateway
如何將AI技術與六西格瑪相結合實現智慧監測？
2023-12-05
AI
Presto + Alluxio：B站資料庫系統效能提升實踐
2022-11-24
RESTUX資料庫
全球首家！星環科技透過3TB TPCx-AI測試，實現大資料與AI的完美融合
2022-12-15
AI大資料
Flink SQL 如何實現資料流的 Join？
2019-12-24
SQL
GaussDB技術解讀系列：資料庫遷移創新實踐
2024-10-28
資料庫
騰訊資料治理技術實踐
2023-02-01
中國開源企業融資突破 52 億元，資料技術、雲原生、AI 成為熱門賽道
2022-01-28
AI

鯤雲科技CAISA資料流技術實現新突破，AI晶片實測效能提升3.91倍

相關文章