Ascend C運算元開發指南

taixian發表於2024-07-28

原文網址 : https://www.cnblogs.com/taixian/p/18329141

Ascend C的特點
C/C++原生程式設計：Ascend C原生支援C和C++標準規範。
遮蔽硬體差異：程式設計模型遮蔽了硬體差異，提高了程式碼的通用性。
API封裝：類庫API封裝，既保證易用性，又兼顧高效性。
孿生除錯：支援在CPU側模擬NPU側的行為，便於除錯。
開發基本流程
環境準備：

安裝CANN開發套件包，根據機器CPU架構下載對應的版本。
示例（AArch64架構）：
bash
複製程式碼
wget -O Ascend-cann-toolkit_8.0.RC1.alpha002_linux-aarch64.run <下載連結>
chmod +x Ascend-cann-toolkit_8.0.RC1.alpha002_linux-x86_64.run
./Ascend-cann-toolkit_8.0.RC1.alpha002_linux-x86_64.run --check
sudo ./Ascend-cann-toolkit_8.0.RC1.alpha002_linux-x86_64.run --install
source /usr/local/Ascend/ascend-toolkit/set_env.sh
運算元分析：

分析運算元的數學表示式、輸入輸出資料型別和計算邏輯。
例如，Add運算元的數學表示式為 $z = x + y$，輸入輸出資料型別為half（float16），支援的shape為(8, 2048)。
核函式開發（以Add運算元為例）：

獲取樣例程式碼目錄quick-start，依次開發add_custom.cpp、main.cpp、gen_data.py三個檔案。

核函式實現（add_custom.cpp）：

cpp
複製程式碼
extern "C" global aicore void add_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z) {
KernelAdd op;
op.Init(x, y, z);
op.Process();
}

void add_custom_do(uint32_t blockDim, void* l2ctrl, void* stream, uint8_t* x, uint8_t* y, uint8_t* z) {
add_custom<<<blockDim, l2ctrl, stream>>>(x, y, z);
}
運算元類實現（KernelAdd）：

class KernelAdd {
public:
aicore inline KernelAdd() {}
aicore inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z) {
// 初始化程式碼
}
aicore inline void Process() {
// 核心處理函式
}
private:
// 各階段函式定義
aicore inline void CopyIn(int32_t progress) {}
aicore inline void Compute(int32_t progress) {}
aicore inline void CopyOut(int32_t progress) {}
private:
TPipe pipe;
TQue<QuePosition::VECIN, BUFFER_NUM> inQueueX, inQueueY;
TQue<QuePosition::VECOUT, BUFFER_NUM> outQueueZ;
GlobalTensor xGm, yGm, zGm;
};
Process函式：

aicore inline void Process() {
constexpr int32_t loopCount = TILE_NUM * BUFFER_NUM;
for (int32_t i = 0; i < loopCount; i++) {
CopyIn(i);
Compute(i);
CopyOut(i);
}
}
CopyIn函式：

aicore inline void CopyIn(int32_t progress) {
LocalTensor xLocal = inQueueX.AllocTensor();
LocalTensor yLocal = inQueueY.AllocTensor();
DataCopy(xLocal, xGm[progress * TILE_LENGTH], TILE_LENGTH);
DataCopy(yLocal, yGm[progress * TILE_LENGTH], TILE_LENGTH);
inQueueX.EnQue(xLocal);
inQueueY.EnQue(yLocal);
}
Compute函式：

aicore inline void Compute(int32_t progress) {
LocalTensor xLocal = inQueueX.DeQue();
LocalTensor yLocal = inQueueY.DeQue();
LocalTensor zLocal = outQueueZ.AllocTensor();
Add(zLocal, xLocal, yLocal, TILE_LENGTH);
outQueueZ.EnQue(zLocal);
inQueueX.FreeTensor(xLocal);
inQueueY.FreeTensor(yLocal);

Ascend C運算元開發指南2
2024-07-28
Ascend C 自定義PRelu運算元
2024-04-08
華為昇騰訓練營筆記-Ascend C運算元開發
2024-07-11
筆記
Ascend C 自定義運算元 Kernel Launch呼叫入門
2024-04-09
一文教你如何呼叫Ascend C運算元
2024-05-29
基於Ascend C的FlashAttention運算元效能最佳化最佳實踐
2024-06-12
Laplace分佈運算元開發經驗分享
2023-04-07
spark-運算元-分割槽運算元
2020-11-05
Spark
運算元
2018-11-12
使用運算元控制公式運算
2021-01-05
公式
理論+實踐，揭秘昇騰CANN運算元開發
2023-02-17
Python 影像處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術
2020-06-29
PythonOpenCV
RDD運算元
2020-11-10
【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
MaxCompute 圖計算開發指南
2019-04-18
運算元據庫
2020-07-23
python運算元據
2024-08-17
Python
JavaScript運算元組
2024-12-02
JavaScript
運算元據庫表
2019-01-23
MySQL DML運算元據
2024-10-22
MySql
jmeter運算元據庫
2024-08-23
JMeter
DDL:運算元據庫
2024-08-30
onnx 運算元定義
2024-07-04
什麼是運算元？
2022-06-25
Flink -- Operator操作運算元
2020-12-23
SIFT運算元總結
2020-12-14
opencv 開運算、閉運算
2020-06-07
OpenCV
CF1967C. Fenwick Tree-運算元展開，樹狀陣列的結構
2024-05-05
陣列
Spark常用Transformations運算元(一)
2018-11-05
SparkORM
Python運算元據庫（3）
2019-01-09
Python
Oracle OCP(10)：運算元據
2019-01-22
Oracle
sobel運算元，matlab實現
2018-09-11
Matlab
3.0 常見operators運算元
2024-04-16
C語言位運算
2024-08-28
C語言
javap -c 運算元棧區域性變數表執行過程
2024-08-20
Java變數
【技巧總結】位運算裝逼指南
2020-01-15
js 方法(運算元組為主
2019-03-21
JS
利用 Sequelize 來運算元據庫
2019-03-01

Ascend C運算元開發指南

相關文章