第二篇：從 GPU 的角度理解平行計算

穆晨發表於2016-12-06

GPU

前言

　　本文從使用 GPU 程式設計技術的角度來了解計算中並行實現的方法思路。

平行計算中需要考慮的三個重要問題

1. 同步問題

在作業系統原理的相關課程中我們學習過程式間的死鎖問題，以及由於資源共享帶來的臨界資源問題等，這裡不做累述。

　　2. 併發度

有一些問題屬於 “易並行” 問題：如矩陣乘法。在這型別問題中，各個運算單元輸出的結果是相互獨立的，這類問題能夠得到很輕鬆的解決 (通常甚至呼叫幾個類庫就能搞定問題)。

然而，若各個運算單元之間有依賴關係，那問題就複雜了。在 CUDA 中，塊內的通訊通過共享記憶體來實現，而塊間的通訊，則只能通過全域性記憶體。

CUDA 並行程式設計架構可以用網格 (GRID) 來形容：一個網格好比一隻軍隊。網格被分成好多個塊，這些塊好比軍隊的每個部門 (後勤部，指揮部，通訊部等)。每個塊又分成好多個執行緒束，這些執行緒束好比部門內部的小分隊，下圖可幫助理解：

3. 區域性性

在作業系統原理中，對區域性性做過重點介紹，簡單來說就是將之前訪問過的資料 (時間區域性性) 和之前訪問過的資料的附近資料 (空間區域性性) 儲存在快取中。

在 GPU 程式設計中，區域性性也是非常重要的，這體現在要計算的資料應當在計算之前儘可能的一次性的送進視訊記憶體，在迭代的過程中一定要儘可能減少資料在記憶體和視訊記憶體之間的傳輸，實際專案中發現這點十分重要的。

對於 GPU 程式設計來說，需要程式猿自己去管理記憶體，或者換句話來說，自己實現區域性性。

平行計算的兩種型別

1. 基於任務的並行處理

這種並行模式將計算任務拆分成若干個小的但不同的任務，如有的運算單元負責取數，有的運算單元負責計算，有的負責...... 這樣一個大的任務可以組成一道流水線。

需要注意的是流水線的效率瓶頸在於其中效率最低的那個計算單元。

　　2. 基於資料的並行處理

這種並行模式將資料分解為多個部分，讓多個運算單元分別去計算這些小塊的資料，最後再將其彙總起來。

一般來說，CPU 的多執行緒程式設計偏向於第一種並行模式，GPU 並行程式設計模式則偏向於第二種。

常見的並行優化物件

1. 迴圈

這也是最常見的一種模式，讓每個執行緒處理迴圈中的一個或一組資料。

這種型別的優化一定要小心各個運算單元，以及每個運算單元何其自身上一次迭代結果的依賴性。

2. 派生/彙集模式

該模式下大多數是序列程式碼，但程式碼中的某一段可以並行處理。

典型的情況就是某個輸入佇列當序列處理到某個時刻，需要對其中不同部分進行不同處理，這樣就可以劃分成多個計算單元對改佇列進行處理 (也即派生)，最後再將其彙總 (也即彙集)。

這種模式常用於併發事件事先不定的情況，具有 “動態並行性”。

3. 分條/分塊模式

對於特別龐大的資料 (如氣候模型)，可以將資料分為過個塊來進行平行計算。

4. 分而治之

絕大多數的遞迴演算法，比如快速排序，都可以轉換為迭代模型，而迭代模型又能對映到 GPU 程式設計模型上。

特別說明：雖然費米架構和開普勒架構的 GPU 都支援緩衝棧，能夠直接實現遞迴模型到 GPU 並行模型的轉換。但為了程式的效率，在開發時間允許的情況下，我們最好還是先將其轉換為迭代模型。

GPU：平行計算利器
2015-06-28
GPU
cuda程式設計與gpu平行計算（四）：cuda程式設計模型
2020-12-31
程式設計GPU模型
平行計算π值
2019-01-21
Oracle平行計算
2017-07-10
Oracle
平行計算cuda
2017-11-29
C++ AMP 加速大規模平行計算-GPU和CPU的效能比較
2013-09-21
C++GPU
cuda程式設計與gpu平行計算（六）：圖稀疏矩陣轉為CSR結構並傳入gpu
2021-01-04
程式設計GPU矩陣
從程式設計師的角度深入理解MySQL
2018-09-17
程式設計師MySql
從一切皆資料與計算的角度，理解程式與執行緒
2020-07-19
執行緒
淺談.NET下的多執行緒和平行計算（十四）平行計算前言
2010-05-19
執行緒
從前端角度理解快取
2019-01-17
前端快取
2、從引數估計的角度理解邏輯迴歸
2017-12-31
邏輯迴歸
瞭解Flow -- elixir的平行計算庫
2022-05-10
引文——平行計算的學習之殤
2015-06-09
多核平行計算時代的來臨
2008-11-13
java8平行計算
2024-09-27
Java
平行計算與Neon簡介
2024-08-16
一些開源的 GPU 加速和平行計算庫，涵蓋了不同的程式語言和用途：
2024-06-22
GPU
後端請求中的非同步計算與平行計算
2021-04-19
後端非同步
NVDIA CUDA ---------GPU計算的革命
2010-01-28
GPU
雲端計算分散式平行計算：系統架構
2011-03-24
分散式架構
JDK7的平行計算功能升級
2009-11-16
JDK
從大神的角度深入理解MySQL，值得收藏~
2018-11-18
MySql
從萌新的角度理解JVM記憶體管理
2018-09-14
JVM記憶體
大文字平行計算實現方式
2020-05-12
OpenCV使用ParallelLoopBody進行平行計算
2020-12-09
OpenCVParallelOOP
springboot~CompletableFuture平行計算
2024-05-06
Spring Boot
從Java角度深入理解Kotlin
2019-01-01
JavaKotlin
從XML配置角度理解Spring AOP
2024-05-13
XMLSpring
完數的OpenMP並行程式設計-平行計算
2016-11-19
並行行程程式設計
完數的MPI並行程式設計-平行計算
2016-11-19
並行行程程式設計
PostgreSQL11preview-ParallelAppend(多表平行計算)sharding架構平行計算核心功能之一
2018-02-28
SQLViewParallelAPP架構
從作業系統角度看錶空間計算方式
2023-11-27
作業系統
[索引]Oracle RAC資料庫平行計算的使用
2012-05-04
索引Oracle資料庫
從人類行為的角度理解狀態管理
2018-11-09
從萌新的角度理解 Java 類載入機制
2018-09-14
Java
從萌新的角度理解Mysql索引基本原理
2019-01-28
MySql索引
從查詢重寫角度理解elasticsearch的高亮原理
2022-03-30
Elasticsearch

第二篇：從 GPU 的角度理解平行計算

前言

平行計算中需要考慮的三個重要問題

平行計算的兩種型別

常見的並行優化物件

相關文章