cuda 加速矩陣乘法

拾墨、發表於2024-03-15

原文網址 : https://www.cnblogs.com/algoshimo/p/18075392

對於一個m * n的矩陣a和一個n * k的矩陣b

因為最後得到一個m * k的矩陣c，那麼我們可以分配m * k個執行緒。

線上程(i,j)裡矩陣a的第i行和矩陣b的第j列進行點積運算得到c[i][j]

#include<iostream>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

# define BLOCK_SIZE 2

__global__ void gpu_matrix_mult(int* a, int* b, int* c, int m, int n, int k)
{
        //row和col是該執行緒所在行數和列數
	int row = blockIdx.y * blockDim.y + threadIdx.y;
	int col = blockIdx.x * blockDim.x + threadIdx.x;

	int sum = 0;
	if (col < k && row < m)
	{
		for (int i = 0; i < n; i++)
		{
			sum += a[row * n + i] * b[i * k + col];
		}
		c[row * k + col] = sum;
	}
}
int main()
{
	int m = 100, n = 100, k = 100;
	
	int* h_a, * h_b, * h_c;
	cudaMallocHost((void**)&h_a, sizeof(int) * m * n);
	cudaMallocHost((void**)&h_b, sizeof(int) * n * k);
	cudaMallocHost((void**)&h_c, sizeof(int) * m * k);

	for (int i = 0; i < m; ++i)
	{
		for (int j = 0; j < n; ++j) 
			h_a[i * n + j] = rand() % 1024;
	}
	for (int i = 0; i < n; ++i)
	{
		for (int j = 0; j < k; ++j)
			h_b[i * k + j] = rand() % 1024;
	}

	int* d_a, * d_b, * d_c;
	cudaMalloc((void**)&d_a, sizeof(int) * m * n);
	cudaMalloc((void**)&d_b, sizeof(int) * n * k);
	cudaMalloc((void**)&d_c, sizeof(int) * m * k);

	cudaMemcpy(d_a, h_a, sizeof(int) * m * n, cudaMemcpyHostToDevice);
	cudaMemcpy(d_b, h_b, sizeof(int) * n * k, cudaMemcpyHostToDevice);
	
        //BLOCK_SIZE是一個block邊的大小
        //grid_rows是一個grid有幾行block
        //grid_cols是一個grid有幾列block
        //dimGrid是一個grid一行有幾個block，一列有幾個block
        //dimBlock是一個block一行有幾個thread,一列有幾個thread
	unsigned int grid_rows = (m + BLOCK_SIZE - 1) / BLOCK_SIZE; 
	unsigned int grid_cols = (k + BLOCK_SIZE - 1) / BLOCK_SIZE;
	dim3 dimGrid(grid_cols, grid_rows);
	dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);

	gpu_matrix_mult<<<dimGrid , dimBlock>>>(d_a, d_b, d_c, m, n, k);
	cudaMemcpy(h_c, d_c, sizeof(int) * m * k, cudaMemcpyDeviceToHost);
	for (int i = 0; i < m*k; i++)
	{
		std::cout << h_c[i] << std::endl;
	}
	return 0;
}

CUDA 矩陣乘法終極優化指南
2021-09-15
矩陣優化
矩陣乘法
2024-11-07
矩陣
【Triton 教程】矩陣乘法
2024-10-31
矩陣
MKL庫矩陣乘法
2022-04-21
矩陣
巨大的矩陣（矩陣加速）
2024-08-16
矩陣
cuda矩陣練習（一）
2019-05-14
矩陣
【矩陣乘法】Matrix Power Series
2020-12-19
矩陣
【矩陣乘法】【快速冪】遞推
2020-12-19
矩陣
POJ 3613 Cow Relays 矩陣乘法Floyd+矩陣快速冪
2019-03-05
矩陣
【精選】矩陣加速
2024-06-07
矩陣
CUDA與架構矩陣概覽
2024-06-06
架構矩陣
演算法學習：矩陣快速冪/矩陣加速
2024-08-11
演算法矩陣
序列（dp+矩陣加速）
2024-08-18
矩陣
怎樣用python計算矩陣乘法？
2021-09-11
Python矩陣
torch中向量、矩陣乘法大總結
2020-12-10
矩陣
斐波那契數列Ⅳ【矩陣乘法】
2020-12-12
矩陣
矩陣快速冪加速最短路
2024-11-04
矩陣
矩陣加速線性遞推
2024-08-19
矩陣
雜項——矩陣加速（進階）
2024-09-17
矩陣
04 矩陣乘法與線性變換複合
2018-12-01
矩陣
幸運數（dp+矩陣加速）
2024-08-18
矩陣
動態dp & 矩陣加速遞推
2024-08-19
矩陣
巨大的數（dp+矩陣加速）
2024-08-16
矩陣
想學人工智慧，先從理解矩陣乘法開始
2018-10-26
人工智慧矩陣
bzoj2326: [HNOI2011]數學作業（矩陣乘法）
2018-04-07
矩陣
bzoj4547: Hdu5171 小奇的集合（矩陣乘法）
2018-03-14
矩陣
bzoj4887: [Tjoi2017]可樂（矩陣乘法+快速冪）
2018-04-16
矩陣
線性代數 - 矩陣形式下的最小二乘法
2020-10-01
矩陣
MPI矩陣向量乘法程式碼《並行程式設計導論》
2020-12-16
矩陣並行行程程式設計
矩陣的乘法運算與css的3d變換（transform）
2023-10-05
矩陣CSS3DORM
洛谷P3193 [HNOI2008]GT考試(dp 矩陣乘法)
2019-02-13
矩陣
bzoj2875: [Noi2012]隨機數生成器（矩陣乘法）
2018-03-24
隨機矩陣
脈動陣列在二維矩陣乘法及卷積運算中的應用
2018-04-15
陣列矩陣卷積
【矩陣基礎與維度分析】【公式細節推導】矩陣非線性最小二乘法泰勒展開
2022-02-28
矩陣公式
鄰接矩陣、度矩陣
2021-12-07
矩陣
奇異矩陣，非奇異矩陣，偽逆矩陣
2020-09-29
矩陣
資料結構：陣列，稀疏矩陣，矩陣的壓縮。應用：矩陣的轉置，矩陣相乘
2020-10-28
資料結構陣列矩陣
矩陣
2024-04-28
矩陣

cuda 加速矩陣乘法

相關文章