GPU：平行計算利器

發表於2015-06-28

1 GPU是什麼

如圖1所示，這臺PC機與普通PC機不同的是這裡插了7張顯示卡，左下角是顯示卡，在中間的就是GPU晶片。顯示卡的處理器稱為圖形處理器（GPU），它是顯示卡的“心臟”，與CPU類似，只不過GPU是專為執行復雜的數學和幾何計算而設計的。

GPU計算能力非常強悍，舉個例子：現在主流的i7處理器的浮點計算能力是主流的英偉達GPU處理器浮點計算能力的1/12。

圖1 顯示卡與GPU

2 為什麼GPU計算能力如此強悍？

圖2對CPU與GPU中的邏輯架構進行了對比。其中Control是控制器、ALU算術邏輯單元、Cache是cpu內部快取、DRAM就是記憶體。可以看到GPU設計者將更多的電晶體用作執行單元，而不是像CPU那樣用作複雜的控制單元和快取。從實際來看，CPU晶片空間的5%是ALU，而GPU空間的40%是ALU。這也是導致GPU計算能力超強的原因。

圖2 cpu和gpu硬體邏輯結構對比

那有人講了，為什麼cpu不像gpu那樣設計呢，這樣計算能力也強悍了！

為什麼？CPU要做得很通用。CPU需要同時很好的支援並行和序列操作，需要很強的通用性來處理各種不同的資料型別，同時又要支援複雜通用的邏輯判斷，這樣會引入大量的分支跳轉和中斷的處理。這些都使得CPU的內部結構異常複雜，計算單元的比重被降低了。而GPU面對的則是型別高度統一的、相互無依賴的大規模資料和不需要被打斷的純淨的計算環境。因此GPU的晶片比CPU晶片簡單很多。

舉個例子，假設有一堆相同的加減乘除計算任務需要處理，那把這個任務交給一堆（幾十個）小學生就可以了，這裡小學生類似於GPU的計算單元，而對一些複雜的邏輯推理等問題，比如公式推導、科技文章寫作等高度邏輯化的任務，交給小學生顯然不合適，這時大學教授更適合，這裡的大學教授就是CPU的計算單元了，大學教授當然能處理加減乘除的問題，單個教授計算加減乘除比單個小學生計算速度更快，但是成本顯然高很多。

3 GPU程式設計庫

GPU計算能力這麼強，被廣泛使用！比如挖礦（比特幣）、圖形影象處理、數值模擬、機器學習演算法訓練等等，那我們怎麼發揮GPU超強的計算能力呢？—程式設計！

怎麼進行GPU程式設計呢？現在GPU形形色色，比如Nvidia、AMD、Intel都推出了自己的GPU，其中最為流行的就是Nvidia的GPU，其還推出了CUDA並行程式設計庫。然而每個GPU生產公司都推出自己的程式設計庫顯然讓學習成本上升很多，因此蘋果公司就推出了標準OpenCL，說各個生產商都支援我的標準，只要有一套OpenCL的程式設計庫就能對各型別的GPU晶片適用。當然了，OpenCL做到通用不是沒有代價的，會帶來一定程度的效能損失，在Nvidia的GPU上，CUDA效能明顯比OpenCL高出一大截。目前CUDA和OpenCL是最主流的兩個GPU程式設計庫。

從程式語言角度看，CUDA和OpenCL都是原生支援C/C++的，其它語言想要訪問還有些麻煩，比如Java，需要通過JNI來訪問CUDA或者OpenCL。基於JNI，現今有各種Java版本的GPU程式設計庫，比如JCUDA等。另一種思路就是語言還是由java來編寫，通過一種工具將java轉換成C。

圖3 GPU程式設計庫

LWJGL (http://www.lwjgl.org/)

JOCL (http://www.jocl.org/)

JCUDA (http://www.jcuda.de /)

Aparapi (http://code.google.com/p/aparapi /)

JavaCL (http://code.google.com/p/javacl /）

4 CUDA程式流程

圖4 CUDA程式流程

5 實踐—以影象處理為例

假設我們有如下影象處理任務，給每個畫素值加1。並行方式很簡單，為每個畫素開一個GPU執行緒，由其進行加1操作。

圖5 例子

圖6 核函式

圖7 主流程函式

6 GPU加速效果

下圖是我實現的基於CUDA的P&D DEM影象預處理演算法使用GPU的加速效果，GeForce GT 330是塊普通桌上型電腦上的顯示卡，現在價格也就500人民幣左右，用它達到了20倍的加速比，Tesla M2075是比較專業的顯示卡，價格一萬左右，用它達到了將近百倍的加速比，這個程式i7 CPU單程式單執行緒要跑2個小時，而用Tesla M2075 GPU只花了一分多鐘就完成計算。

圖8 P&D DEM影象預處理演算法加速效果

附錄（發表的GPU演算法相關的SCI論文）：多流向演算法GPU並行化

cuda程式設計與gpu平行計算（四）：cuda程式設計模型
2020-12-31
程式設計GPU模型
平行計算π值
2019-01-21
springboot~CompletableFuture平行計算
2024-05-06
Spring Boot
cuda程式設計與gpu平行計算（六）：圖稀疏矩陣轉為CSR結構並傳入gpu
2021-01-04
程式設計GPU矩陣
java8平行計算
2024-09-27
Java
平行計算與Neon簡介
2024-08-16
大文字平行計算實現方式
2020-05-12
OpenCV使用ParallelLoopBody進行平行計算
2020-12-09
OpenCVParallelOOP
[python] Python平行計算庫Joblib使用指北
2024-08-10
Python
【1】Embarrassingly Parallel（易平行計算問題）
2021-12-09
Parallel
瞭解Flow -- elixir的平行計算庫
2022-05-10
[930]python平行計算框架pathos模組
2020-12-09
Python框架
後端請求中的非同步計算與平行計算
2021-04-19
後端非同步
一些開源的 GPU 加速和平行計算庫，涵蓋了不同的程式語言和用途：
2024-06-22
GPU
HPC高效能運算知識: 異構平行計算
2018-04-23
PostgreSQL11preview-平行計算增強彙總
2018-07-28
SQLView
Concurrent iHawk — 實時平行計算機模擬系統
2020-03-31
計算機
使用 QuTrunk+Amazon ParallelCluster3 進行平行計算
2022-12-27
Parallel
平行計算與並行程式設計課程內容介紹
2020-12-26
並行行程程式設計
探秘資料庫中的平行計算技術應用
2024-07-01
資料庫
PostgreSQLGPU加速(HeteroDBpg_strom)(GPU計算,GPU-DIO-NvmeSSD,列存,GPU記憶體快取)
2018-07-28
SQLGPU記憶體快取
Java併發基礎-Fork、Join方式的平行計算研究分析
2018-03-21
Java
[原始碼解析] PyTorch 流水線並行實現 (6)--平行計算
2021-10-10
原始碼PyTorch並行
兩行程式碼輕鬆讓 Java 實現大文字平行計算
2020-06-22
行程Java
簡單幾行程式碼輕鬆實現大文字平行計算
2020-05-12
行程
英偉達GPU顯示卡計算能力評估
2020-04-06
GPU
隱私計算：保護資料隱私的利器
2024-04-01
面試官：說說你對Fork/Join的平行計算框架的瞭解？
2019-05-01
面試框架
NVIDIA推出液冷GPU 助力實現可持續高效計算
2022-05-25
GPU
CUDA 高效能平行計算入門
2018-08-29
開源大模型佔GPU視訊記憶體計算方法
2024-09-08
大模型GPU記憶體
GPU程式設計--CPU和GPU的設計區別
2018-05-07
GPU程式設計
單顆GPU計算能力太多、太貴？阿里雲釋出雲上首個輕量級GPU例項
2019-04-15
GPU阿里
論文榮登計算機體系結構頂會ISCA，晶片架構成為邊緣AI最佳平行計算選擇
2024-08-13
計算機晶片架構AI
異構計算，GPU、FPGA、ASIC晶片將三分天下
2019-03-14
GPUFPGA晶片
NVIDIATeslaK80GPU助力精確計算生物分子電荷資訊
2018-03-06
GPU
TensorFlow——tensorflow指定CPU與GPU運算
2019-05-25
GPU
AI新利器，英偉達推出新一代超強GPU
2018-08-15
AIGPU
PowerShell中呼叫GPU命令通常涉及到與GPU相關的任務，如檢視GPU資訊、管理GPU驅動、執行GPU加速的計算任務等。以下是一些常見的PowerShell中呼叫GPU命令
2024-04-02
GPU