CUDA精講（1）

EdiosnMa發表於2020-10-09

原文網址 : https://blog.csdn.net/EdiosnMa/article/details/108979895

背景

隨著深度學習的發展，平行計算的需求也越來越多，不論是演算法工程師還是搞效能優化的，知道點cuda程式設計也是當前的必備技能之一。但是目前關於gpu資源很雜，重點不突出，我們需要在極短的時間內get到cuda的精華，本系列就由此而誕生。

文章框架

cuda精講系列文章主要由三部分構成：

cuda基礎
GPU架構
cuda程式設計優化
每一部分都是通過知識點的方式將重點提煉出來，方便快速檢視。

cuda基礎

cuda的基本概念
host: CPU
device: gpu
從軟體層面講：
（1）kernel：就是開發者開發的一個在gpu上要執行的函式程式碼
（2）thread：用來執行一個kernel的執行緒
（3）block：多個thread的組合
（4）grid：多個block的組合
（5）warp：block以一個warp為排程單位進行執行緒排程。因此block中的執行緒數儘量是32的整數倍。每32個連續執行緒號的執行緒被安排在同一個wrap裡
從硬體層面講：
（1）SP（core）：一個物理上的SP對應一個邏輯上的thread
（2）SM（multicore processor）：多個sp的組成，處於SM內的sp可以共享shared_mem，並且同一個block裡的執行緒可以被同步。一個物理上的SM可以對應一個或多個邏輯上的block
（3）Device：就是一個GPU裝置，一個GPU包括了多個SM。
cuda程式設計框架

__global__ void my_kernel(...){
    ...
}

int main() {
	...
	cudaMalloc(...)
	// host to device
	cudaMemcpy(...)
	...
	my_kernel<<<nblock, blocksize>>>(...)
	...
	// device to host
	cudaMemcpy(...)
	...
}

cuda程式設計常用語法：

kernel launch：就是gpu上執行的kernel函式，因為執行kernel通常要從cpu登入到gpu因此稱為launch，kernel函式語法為：

kernelFunc<<<nB, nT>>>

nB:block的數量
nT：thread的數量

內建變數
threadIdx;blockIdx;blockDim;gridDim
同步語句
__syncthreads()
生存週期生命：
global void kernelFunc(…)，執行在device中，在cpu中呼叫
device void GlobalVar; 裝置變數
shared void SharedVar; 定義每個block的shared memory中定義的變數

cuda函式的非同步性
cuda中的大部分函式其實都是非同步的，比如：

kernel launches
記憶體拷貝中可以指定option：cudaMemcpyAsync，cudaMemsetAsync
cudaEvent function

CPU與GPU的同步語句:

Device based: cudaDeviceSynchronize(),在某一個裝置GPUkernel執行結束後在執行cpu語句。
Context（Thread） based: cudaThreadSynchronize()，所有裝置的所有kernel都執行完畢後在執行。
Stream based: cudaStreamSynchronize(stream-id)
Event based：某個裝置的kernel事件執行完畢後cpu語句再執行。

多GPU程式設計，後續補上

單機多卡：利用pthread、openMP
多機多卡：MPI，計算交給GPU，具體的通訊細節交給MPI

GPU之間的資料共享
（1）直接拷貝 host to device

（2）零拷貝：將device的記憶體直接對映到host的記憶體當中，但是在host中被共享的資料需要被page-locked（pinned）：由此擴充套件的hostAPI有,

cudaMallocHost()，分配pinned的host mem

（3）p2p記憶體拷貝：
直接拷貝資料從GPUA到GPUB當中，API為：cudaMemcpyPeer(void dst, int
dstDevice, const void src, int srcDevice,size_t count)

動態並行（Dynamic parallelism, dp）
避免從cpu到gpu的多次kernel登入，可以實現從gpu到gpu之間進行kernel登入

通過dp可實現動態的blocksize與gridsize分配：

相關文章

Vue —— 精講 VueRouter（1）
2020-06-14
Vue
Vue —— VueX精講(1）
2020-06-11
Vue
方法精講-言語1筆記
2024-08-16
筆記
Synchronized 精講
2021-01-11
synchronized
CUDA學習筆記-1: CUDA程式設計概覽
2021-08-04
筆記程式設計
Mysql 索引精講
2019-05-08
MySql索引
精講Redis：持久化
2018-06-21
Redis持久化
CUDA教學（1）：前向轉播
2024-05-28
React高階元件精講
2018-09-14
React元件
Java設計模式精講
2019-05-20
Java設計模式
精講RestTemplate第1篇-在Spring或非Spring環境下如何使用
2020-07-31
RESTSpring
精講Redis記憶體模型
2018-06-19
Redis記憶體模型
【原創】HashMap複習精講
2019-08-05
HashMap
Flutter動畫之粒子精講
2019-07-16
Flutter動畫
精講Python中的requests方法
2021-09-11
Python
CUDA
2024-09-10
分散式之 Redis 複習精講
2018-05-28
分散式Redis
Mvvm 前端資料流框架精講
2018-04-01
MVVM前端框架
Django模型中的save方法精講
2024-07-27
Django模型
微信小程式開發精講
2024-10-15
微信小程式
c# System.Text.Json 精講
2021-11-29
C#JSON
《Java核心技術面試精講》27講學習總結
2021-01-03
Java面試
精講響應式webclient第1篇-響應式非阻塞IO與基礎用法
2020-08-20
Webclient
cuda 流
2024-03-31
【cuda】- 01
2020-10-17
cmake cuda
2024-08-04
2021李林精講精練880題【數學二解析分冊】
2020-10-18
精講Redis服務架構分析與搭建
2018-06-17
Redis架構
PHP 函式庫精講之類與物件
2020-02-07
PHP函式物件
精講Flutter官網的第一個例子
2019-01-29
Flutter
2024年10月精選技術演講
2024-10-27
Go runtime 排程器精講（七）：案例分析
2024-09-15
Go
【JAVA】筆記（8）--- java.lang.String 精講
2021-11-15
Java筆記
併發條件佇列之Condition 精講
2021-01-27
佇列
TensorFlow 報錯 CUDA driver version is insufficient for CUDA runtime version
2018-06-27
CUDA 技能樹
2022-04-12
cuda和cudatoolkit
2020-11-28
【CUDA】CUDA9.0+VS2017+win10詳細配置
2018-06-04
Win10