向量化實現矩陣運算最佳化(一)

ChebyshevTST發表於2023-09-28

原文網址 : https://www.cnblogs.com/ChebyshevTST/p/17736015.html

xsimd簡介

xsimd是C++的一個開源simd庫，實現了對常見simd指令的封裝，從而使得simd的操作更為簡單。接下來先從兩個簡單的例子來入門xsimd。

void average(const std::vector<double>& v1, const std::vector<double>& v2, std::vector<double>& v) {
    int n = v.size();
    int size = xsimd::batch<double, xsimd::avx>::size;
    int loop = n - n % size;

    for (int i = 0; i < loop; i += size) {
        auto a = xsimd::batch<double>::load_unaligned(&v1[i]);
        auto b = xsimd::batch<double>::load_unaligned(&v2[i]);
        auto res = a + b; 
        res.store_unaligned(&v[i]);
    }
    for (int i = loop; i < n; ++i) 
        v[i] = v1[i] + v2[i];
}

上述demo實現了兩個向量相加的操作，由於每次都能從vector當中載入size個資料，因此對剩餘的不能進行vectorize的資料進行了分別處理。比如說，有一百個資料，每次處理8個資料，到最後剩下4個數不能湊到8，所以用樸素的迭代方式進行求和。這個demo是非對齊記憶體的處理方式。

using vector_type = std::vector<double, xsimd::default_allocator<double>>;
std::vector<double> v1(1000000), v2(1000000), v(1000000);
vector_type s1(1000000), s2(1000000), s(1000000);

void average_aligned(const vector_type& s1, const vector_type& s2, vector_type& s) {
    int n = s.size();
    int size = xsimd::batch<double>::size;
    int loop = n - n % size;

    for (int i = 0; i < loop; i += size) {
        auto a = xsimd::batch<double>::load_aligned(&s1[i]);
        auto b = xsimd::batch<double>::load_aligned(&s2[i]);
        auto res = a + b;
        res.store_aligned(&s[i]);
    }

    for (int i = loop; i < n; ++i) 
        s[i] = s1[i] + s2[i];
}

要實現對齊記憶體的操作方式，我們必須對vector指定特定的分配器，不然最後執行出來的程式碼會出現segment fault。

總之，要記住常用的api，load_aligned, store_aligned, load_unaligned, store_unaligned，它們分別對應了記憶體對齊與否的處理方式。接下來我們再講解另外一個demo，並且提供與openmp的效能對比。

auto sum(const std::vector<double>&v) {
    int n = v.size();
    int size = xsimd::batch<int>::size;
    int loop = n - n % size;

    double res{};
    for (int i = 0; i < loop; ++i) {
        auto tmp = xsimd::batch<int>::load_unaligned(&v[i]);
        res += xsimd::hadd(tmp);
    }

    for (int i = loop; i < n; ++i) {
        res += v[i];
    }

    return res;
}

auto aligned_sum(const std::vector<double, xsimd::default_allocator<double>>& v) {
    int n = v.size();
    int size = xsimd::batch<int>::size;
    int loop = n - n % size;

    double res{};
    for (int i = 0; i < loop; ++i) {
        auto tmp = xsimd::batch<int>::load_aligned(&v[i]);
        res += xsimd::hadd(tmp);
    }

    for (int i = loop; i < n; ++i) {
        res += v[i];
    }
    
    return res;
}

這個例子實現了對向量求和的功能。總體與前面基本一樣，這裡hadd是一個對向量求和的函式。

對於openmp的向量化實現，則較為簡單，只需要在for迴圈上面加上特定指令即可。不過需要注意的是，openmp支援C語法，有一些C++的新特性可能並不支援，而且需要把花括號放到下一行，我們來看具體操作。

auto parallel_sum(const std::vector<double>& v) {
    double res{};

    int n = v.size();
    #pragma omp simd
    for (int i = 0; i < n; ++i)
        res += v[i];

    return res;
}

不要忘記加上編譯選項-fopenmp和-march=native，為了效能測試，我開啟了O2最佳化，以下是簡單的測試結果，資料規模是一千萬。

一般情況下進行了記憶體對齊都會比沒有對齊的要快一些，同時可以看到openmp與xsimd也差了一個量級。當然不同平臺的結果可能會有差異，需要用更專業的工具進行測量比較。

VIVADO vhdl verilog 實現矩陣運算
2020-05-05
矩陣
verilog實現矩陣卷積運算
2019-05-24
矩陣卷積
Bert結構手動矩陣運算實現(Transform)
2024-11-19
矩陣ORM
c語言中實現4行3列矩陣和3行4列矩陣的運算
2024-10-28
C語言矩陣
Numpy中的矩陣運算
2019-02-16
矩陣
pytorch基礎七（矩陣運算）
2018-12-08
PyTorch矩陣
矩陣運算與相抵標準型
2024-06-15
矩陣
矩陣計算
2024-06-15
矩陣
什麼是新媒體矩陣運營？運營矩陣其實很簡單
2021-04-13
矩陣
Matlab矩陣運算的硬體資源分析
2024-11-08
Matlab矩陣
Eigen教程(3)之矩陣和向量的運算
2020-12-09
矩陣
矩陣快速冪最佳化
2024-12-06
矩陣
C++ 練氣期之二維陣列與矩陣運算
2022-07-05
C++陣列矩陣
MKL稀疏矩陣運算示例及函式封裝
2023-04-23
矩陣函式封裝
矩陣：如何使用矩陣操作進行 PageRank 計算？
2019-03-21
矩陣
計算矩陣的秩
2024-10-16
矩陣
快手矩陣運營工具，矩陣運營多個快手賬號，一鍵分發多個平臺
2020-08-10
矩陣
高效能運算&CUDA | 使用numba對三維矩陣在gpu上進行運算
2020-10-26
矩陣GPU
矩陣：橫向關係和縱向關係
2024-04-28
矩陣
頭條號矩陣運營工具，運營矩陣進行多賬號管理
2020-07-14
矩陣
「技美之路第04篇」圖形 1.2.3 MVP矩陣運算
2021-05-13
MVP矩陣
卷積運算元的矩陣向量乘積表示&一維離散降質模型
2019-04-15
卷積矩陣模型
矩陣的乘法運算與css的3d變換（transform）
2023-10-05
矩陣CSS3DORM
Max/MSP/Jitter 官方教程翻譯05 - 矩陣的數學運算
2021-09-09
矩陣
C語言實現矩陣螺旋輸出
2020-12-20
C語言矩陣
脈動陣列在二維矩陣乘法及卷積運算中的應用
2018-04-15
陣列矩陣卷積
集合-運算實現
2024-06-21
幸運數（dp+矩陣加速）
2024-08-18
矩陣
高效能運算-bgra2rgb轉換-向量化最佳化(15)
2024-11-30
位運算實現整數與位元組陣列轉換
2021-10-22
陣列
矩陣類及其常規運算（加、減、乘、轉置、求逆、行列式、代數餘子式、伴隨矩陣）
2020-12-24
矩陣
矩陣求導（一）
2024-04-19
矩陣求導
大魚號矩陣管理助手，矩陣管理賬號，高效運營平臺
2020-08-11
矩陣
自媒體矩陣運營是什麼意思？自媒體矩陣應該怎麼運營？
2021-04-13
矩陣
資料結構實驗二維矩陣的實現
2020-11-18
資料結構矩陣
巨大的矩陣（矩陣加速）
2024-08-16
矩陣
鄰接矩陣、度矩陣
2021-12-07
矩陣
NYOJ 1409 快速計算【矩陣連乘】
2018-09-19
矩陣

向量化實現矩陣運算最佳化(一)

xsimd簡介

相關文章