深度解讀昇騰CANN小shape運算元計算最佳化技術，進一步減少排程開銷

华为云开发者联盟發表於2024-08-07

原文網址 : https://www.cnblogs.com/huaweiyun/p/18346518

摘要：Host排程模式下，GE將模型中運算元的執行單元劃分為Host CPU執行與Device（昇騰AI處理器）執行兩大類。

本文分享自華為雲社群《深度解讀昇騰CANN小shape運算元計算最佳化技術，進一步減少排程開銷》，作者：昇騰CANN。

GE（Graph Engine）將模型的排程分為Host排程與下沉排程兩種模式。經過上期的介紹我們知道，在模型為靜態shape時，由於其輸入tensor shape固定不變，在編譯時就能確定所有運算元的輸入輸出shape，並能提前完成模型級記憶體編排、tiling計算等Host排程工作，因此採用模型下沉排程方式可以將整個模型下沉到Device側執行，從而提升模型排程效能。

與之對應的，在模型為動態shape的情況下，由於輸入tensor shape不確定，需要在上一個運算元完成shape推導後，才能確定下一個運算元的輸入shape等資訊，因此無法將整個模型下沉執行，只能採用Host排程模式。

1 Host排程簡介及最佳化背景

所謂Host排程，是指模型的排程主體位於Host CPU，由CPU完成逐運算元排程。一個運算元的排程任務為kernel執行準備必要引數，通常包含shape推導、tiling、記憶體分配、launch等。

Host排程模式下，GE將模型中運算元的執行單元劃分為Host CPU執行與Device（昇騰AI處理器）執行兩大類。對於卷積、MatMul等對算力要求高的運算元，會被劃分到Device執行；而由於shape資訊在Host CPU維護，Shape、Reshape等運算元更適合被劃分到Host CPU執行；除此之外，還有一些運算元，在shape較小時，計算量也很小，排程開銷往往大於運算元的實際計算開銷，就需要考慮如何儘可能減少排程開銷帶來的效能影響。

圖1 網路拓撲片段

圖1是一段網路拓撲片段示例，按照一般的排程機制，Gather、Concat運算元會下沉到Device側計算，Shape、Unsqueeze、Reshape運算元在Host側計算。其執行時序如圖2所示，模型E2E執行耗時除了包含運算元計算的時間外，還包含Host與Device之間的資料複製、運算元下沉排程、Stream同步等開銷，整體執行E2E耗時在毫秒級別。

圖2 最佳化前執行時序

而對於小shape（如shape size小於8）的Gather、Concat，運算元本身在Host側CPU的計算開銷上僅微秒級別，與Device側計算的效能相差無幾。此時下發帶來的額外開銷就顯得比較明顯。針對上述這種shape較小且輸入Tensor記憶體在Host的場景，GE識別將這部分運算元保留在Host側執行，可有效減少排程開銷帶來的效能影響。

2 小shape運算元計算最佳化實現

在圖編譯流程執行到引擎選擇之後，GE選擇在Host側執行的運算元並將其作為錨點，然後向後遞迴查詢計算資料個數小於8的運算元，並將這些運算元的執行引擎修改為Host CPU。針對圖1所示的網路片段，假設shape運算元的輸出的shape size小於8，則Gather、Concat運算元的執行引擎都會被重新整理成Host CPU。最佳化後執行時序如圖3所示，此時模型執行只有運算元計算帶來的開銷，經測試約為10微秒（3ms –> 10us），顯著的提高了E2E執行效能。

圖3 最佳化前後執行前後時序對比

3 最佳化效果

以LLaMA2大語言推理模型為例，符合上述執行引擎重新整理的運算元有Pack、Gather、Concat等約650+個，重新整理前模型E2E耗時約1.062S，重新整理後執行時間最佳化到了1.009S，吞吐提升5%。

4 更多介紹

GE小shape運算元計算最佳化技術的相關介紹就到這裡，歡迎大家關注後續技術分享。如需獲取更多學習資源請登入昇騰社群。

點選關注，第一時間瞭解華為雲新鮮技術~

深度解讀昇騰CANN模型下沉技術，提升模型排程效能
2024-07-15
模型
理論+實踐，揭秘昇騰CANN運算元開發
2023-02-17
深度解讀昇騰CANN多流並行技術，提高硬體資源利用率
2024-07-02
並行
深度解讀昇騰CANN記憶體複用技術，降低網路記憶體佔用
2024-07-09
記憶體
深度學習運算元最佳化-FFT
2021-09-09
深度學習FFT
華為昇騰訓練營筆記-Ascend C運算元開發
2024-07-11
筆記
Python 影像處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術
2020-06-29
PythonOpenCV
詳解 Python 的二元算術運算，為什麼說減法只是語法糖？
2020-09-10
Python
你真的知道計算機是如何進行減法運算的嗎？
2021-05-31
計算機
NumPy 簡單算術：加減乘除及其他運算
2024-06-11
Python 影像處理 OpenCV （13）： Scharr 運算元和 LOG 運算元邊緣檢測技術
2020-07-11
PythonOpenCV
【Flink】Deduplicate 去重運算元原始碼解讀
2023-05-08
原始碼
深度學習運算元優化-FFT
2021-08-10
深度學習優化FFT
昇騰CANN：為你開啟機器人開發的Buff 加成
2022-12-28
機器人
spark-運算元-分割槽運算元
2020-11-05
Spark
使用 Auto-scheduling 最佳化運算元
2023-02-20
運算元
2018-11-12
使用運算元控制公式運算
2021-01-05
公式
十六進位制減法計算
2024-10-14
技術解讀倚天 ECS 例項——Arm 晶片的 Python-AI 算力最佳化 | 龍蜥技術
2022-11-15
晶片PythonAI
openGauss都做了哪些運算元最佳化工作？
2023-04-13
雲端計算平臺上的大資料技術解讀！
2018-11-30
大資料
例項講解昇騰 CANN YOLOV8 和 YOLOV9 適配
2024-04-11
YOLO
二進位制運算加減乘除+快速冪
2024-11-15
技術解讀 | SD-WAN的多樣性策略排程
2021-03-12
「分散式技術專題」常用的 SQL 運算元介紹
2023-02-13
分散式SQL
RDD運算元
2020-11-10
shell加減乘除運算
2023-02-10
【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
CANN運算元：利用迭代器高效實現Tensor資料切割分塊處理
2022-07-04
遺傳演算法的改進——跳出區域性最優機制的研究（選擇運算元、交叉運算元、變異運算元的改進）
2024-06-01
演算法
Ascend C運算元開發指南
2024-07-28
使用位運算進行加法運算
2024-04-07
OpenCV 例項解讀：深度學習的計算與加速
2018-10-23
OpenCV深度學習
OPPO大資料計算叢集資源排程架構演進
2021-12-30
大資料架構
opencv 開運算、閉運算
2020-06-07
OpenCV
高效能運算-粒子狀態模擬計算最佳化
2024-12-10
JavaScript加減乘數運算
2018-05-31
JavaScript

深度解讀昇騰CANN小shape運算元計算最佳化技術，進一步減少排程開銷

1 Host排程簡介及最佳化背景

2 小shape運算元計算最佳化實現

3 最佳化效果

4 更多介紹

相關文章