OpenMP 版本稀疏矩陣向量乘

URNOTJANET發表於2017-12-27

矩陣

說明：

1.轉載請聯絡本人

2.程式碼在最後

問題描述

稀疏矩陣向量乘法（Sparse Matrix-Vector Multiplication, SpMV）在許多科學計算程式中都有廣泛的應用。
如下所示，資料矩陣A是稀疏的，輸入向量x和輸出向量y是稠密的。

y = Ax

要求

根據記憶體大小測不同規模和不同稀疏程度的稀疏矩陣的處理速度（GFLOPS/s）和頻寬（GB/s），並給出計算公式。
請計算系統的理論峰值，如果沒有達到理論峰值，嘗試給出原因。

思路和方法

老師在/hw2目錄下提供的程式碼已經能夠達到比較好的儲存訪問了，所以在這個基礎上新增OpenMP程式碼以及嘗試其他的優化，如迴圈優化即可。

實驗

結果及分析

不同規模和不同稀疏程度矩陣處理速度公式：
假設稀疏矩陣中不為0的個數為k
處理速度公式 = 2*k/1000000000/time
頻寬計算公式 = (sizeof(int)*dim + sizeof(int)*k + sizeof(float)*k + sizeof(float)*dim*2)/1000000000/time

系統理論峰值(即浮點數理論峰值)
叢集理論浮點峰值
= CPU主頻（GHz）× CPU每時鐘週期執行浮點運算次數 × 節點數 × 8（每節點雙路四核）
=4.2*4*8=134.4GFLOPS/s

峰值頻寬： B=F×D/8=2133MHz*64bit/8=17.064GHz
沒有達到理論峰值的原因是，程式並不只是在做浮點數運算或只是在訪問記憶體，以及作業系統的執行緒排程，和伺服器本身的不穩定性等等...

1.嘗試parallel shared/private以及dynamic

問題1: 發現在initMatrix裡面加omp效果不佳.
解決: 可能會因為並行訪問同一數值，導致訪問錯誤和陣列越界等問題有關

問題2: 發現使用shared/private之後速度較慢，GFLOPS較低
解決: 與privaet是否使用無關，主要是這樣會導致並行區域開多，速度會下降

2.嘗試parallel guided 和減少for迴圈依賴
程式碼如下

for(int i=1; i<=dim; i++)
     tmp[i-1] = row[i]; // 迴圈分離，減少依賴
for(int numOfTimes=0; numOfTimes<ITERATIONS; numOfTimes++){
  #pragma omp parallel for num_threads(thread_num)schedule(guided)
      for(unsigned short i=0; i<dim; i++){
        float t = 0;
        for(int j=row[i]; j<tmp[i]; j++){
          unsigned short colNum = col[j];
          t += data[j] * vec[colNum];
        }
        result[i] = t;
      }}
複製程式碼

得到的資料結果如下：（執行緒數量:10，結果是實驗三次取平均）

Dim規模	GFLOPS/s	（CSR）GB/s	Time(s)
500	0.084	0.44	0.000063
1000	0.505	2.32	0.000040
5000	2.393	9.86	0.000209
10000	2.598	10.55	0.000770
20000	2.544	10.25	0.003087
30000	2.509	10.09	0.007173
40000	2.454	9.85	0.013037

3.嘗試採用三元組進行測試

結果：得到的速度較CSR儲存方式的速度要慢，雖然程式碼設計較CSR簡單

4.將部分變數改為unsigned short

結論

1.使用OpenMP中guided進行for迴圈排程能達到最好的效果。
2. CSR的儲存格式較三元組的儲存格式更優，訪問更快。
3. 採用迴圈分離等優化方式能夠提高GFLOPS的大小。
4. 變數如果提前定義，有可能會得出錯誤的結果。另外private的呼叫也會降低GFLOPS的大小

參考

[1]《稀疏矩陣儲存格式總結+儲存效率對比:COO,CSR,DIA,ELL,HYB》
[2]《稀疏矩陣向量乘法》

程式碼地址

個人GitHub：Icarusintheworld

稀疏矩陣
2020-10-15
矩陣
【scipy 基礎】--稀疏矩陣
2023-11-23
矩陣
資料結構(一)-稀疏矩陣
2020-09-13
資料結構矩陣
資料結構：陣列，稀疏矩陣，矩陣的壓縮。應用：矩陣的轉置，矩陣相乘
2020-10-28
資料結構陣列矩陣
基向量變換矩陣
2024-07-10
矩陣
機器學習中的矩陣向量求導(五) 矩陣對矩陣的求導
2019-05-27
機器學習矩陣求導
矩陣的特徵值和特徵向量
2024-05-07
矩陣特徵
機器學習中的矩陣向量求導(四) 矩陣向量求導鏈式法則
2019-05-07
機器學習矩陣求導
MKL稀疏矩陣運算示例及函式封裝
2023-04-23
矩陣函式封裝
向量和矩陣求導公式總結
2024-03-12
矩陣求導公式
torch中向量、矩陣乘法大總結
2020-12-10
矩陣
卷積運算元的矩陣向量乘積表示&一維離散降質模型
2019-04-15
卷積矩陣模型
202006-2 稀疏向量
2020-09-28
三維旋轉矩陣左乘和右乘分析
2019-10-02
矩陣
NYOJ 1409 快速計算【矩陣連乘】
2018-09-19
矩陣
向量和矩陣的座標變換7
2024-10-07
矩陣
OpenGL 學習 07 向量矩陣變換投影
2018-06-02
矩陣
【矩陣求導】關於點乘（哈達瑪積）的矩陣求導
2020-11-01
矩陣求導點乘
Unity開發中常用的基礎3D數學（向量，點乘，叉乘，矩陣，四元數，尤拉角）
2018-08-04
Unity3D點乘矩陣
稀疏陣列
2022-03-04
陣列
張量（Tensor）、標量（scalar）、向量（vector）、矩陣（matrix）
2023-05-10
矩陣
Eigen教程(3)之矩陣和向量的運算
2020-12-09
矩陣
CCF CSP202006-2 稀疏向量
2020-12-09
矩陣連乘（動態規劃演算法）
2020-10-10
矩陣動態規劃演算法
矩陣連乘問題 Python 動態規劃
2021-04-27
矩陣Python動態規劃
向量化實現矩陣運算最佳化(一)
2023-09-28
矩陣
稀疏矩陣之三元組壓縮儲存並且轉置
2020-11-12
矩陣
大規模 Transformer 模型 8 位元矩陣乘簡介
2023-05-02
ORM模型矩陣
20_稀疏陣列
2024-07-01
陣列
稀疏陣列、佇列
2020-11-20
陣列佇列
巨大的矩陣（矩陣加速）
2024-08-16
矩陣
鄰接矩陣、度矩陣
2021-12-07
矩陣
奇異矩陣，非奇異矩陣，偽逆矩陣
2020-09-29
矩陣
CCF 202006-2 稀疏向量【map的使用】
2020-12-11
向量和矩陣的座標變換(下標記法)7
2024-10-07
矩陣
社交網路分析的 R 基礎：（三）向量、矩陣與列表
2022-02-07
矩陣
OpenGL/OpenGL ES 入門：基礎變換 - 初識向量/矩陣
2019-05-19
矩陣
MPI矩陣向量乘法程式碼《並行程式設計導論》
2020-12-16
矩陣並行行程程式設計
golang實現稀疏陣列
2020-10-04
Golang陣列