[MetalKit]46-Introduction to compute using Metal 用 Metal 進行計算的簡介

蘋果API搬運工發表於2019-03-24

原文網址 : https://juejin.im/post/5c723f9cf265da2d8a55b7be

本系列文章是對 metalkit.org 上面MetalKit內容的全面翻譯和學習.

MetalKit系統文章目錄

在 GPU 程式設計的領域中，計算或者說GPGPU，是 GPU 程式設計中除渲染外的另一種用途。它們都涉及到了 GPU 並行程式設計，不同之處在於在計算中對執行緒的工作方式進行了更精細的控制。這樣，當你想要某些執行緒來處理問題的某一部分，同時其他執行緒去處理該問題的另一部分時，就會很有用。

本文是一系列關於計算的文章的開始篇。本文中的主題是關於影象處理，因為它是引入計算和執行緒管理的最簡單方法。

注意：本文假設您知道如何建立一個微型的Metal專案或playground，可以將螢幕清除為純色。

第一個不同點就是，你需要建立一個MTLComputePipelineState以取代以前渲染時用的MTLRenderPipelineState：

let function = library.makeFunction(name: "compute")
let pipelineState = device.makeComputePipelineState(function: function)
複製程式碼

第二件事是，你需要一個紋理，以供執行緒使用。如果你使用的是playground，那你只需要下面幾行：

let textureLoader = MTKTextureLoader(device: device)
let url = Bundle.main.url(forResource: "nature", withExtension: "jpg")!
let image = try textureLoader.newTexture(URL: url, options: [:])
複製程式碼

第三件事，你需要一個MTLComputeCommandEncoder物件，以便將先前建立的管線狀態物件和紋理，都附著上去：

commandEncoder.setComputePipelineState(pipelineState)
commandEncoder.setTexture(image, index: 0)
複製程式碼

第四件事，你需要一個kernel shader核心著色器，要記得，你之前開始時就為其建立了一個名為compute的函式。當然，你可以將核心程式碼放到 .metal檔案裡：

kernel void compute(texture2d<float, access::read> input [[texture(0)]],
                    texture2d<float, access::write> output [[texture(1)]],
                    uint2 id [[thread_position_in_grid]]) {
    float4 color = input.read(id);
    output.write(color, id);
}
複製程式碼

在著色程式碼中，輸入是你先前建立的MTLTexture物件，稱為image，輸出是一個可繪製紋理，你將向其中寫入資料，然後就可以被呈現到螢幕上了：

let drawable = view.currentDrawable
commandEncoder.setTexture(drawable.texture, index: 1)
複製程式碼

第五件事也是最後一件事是，你需要排程執行緒來幹活。有趣的事情就從現在開始了！你需要做的是在commandEncoder中結束編碼之前，加上幾句程式碼：

let threadsPerGroup = MTLSizeMake(100, 10, 1)
let groupsPerGrid = MTLSizeMake(15, 90, 1)
commandEncoder.dispatchThreadgroups(groupsPerGrid, threadsPerThreadgroup: threadsPerGroup)
複製程式碼

那麼這裡是怎麼做的呢？執行緒是以網格(grid)形式來排程處理資料的，網格可以是 1-，2-，或3-維的。在本例中，你用的是 2D 的網格，因為要處理的是一張圖片。不考慮維度的話，網格總是分割成多個執行緒組的，如下面的公式：

gridSize = groupsPerGrid * threadsPerGroup
複製程式碼

在本例中，你定義一個組有100 x10個執行緒，每個網格有15 x 90組。如果你執行你的 playground，你會看到類似下面的情況：

[MetalKit]46-Introduction to compute using Metal 用 Metal 進行計算的簡介

邊上的紅色是什麼東西？這是因為你試圖去猜測圖片的尺寸大小而導致的問題，執行緒數和組數應該用更“聰明”的方式獲取。

顯然，影象在兩個維度上都大於分派的執行緒數。您可以做的一件事是使用影象大小進行有根據的猜測，以獲得真正應該使用的組數量：

let width = Int(view.drawableSize.width)
let height = Int(view.drawableSize.height)
let w = threadsPerGroup.width
let h = threadsPerGroup.height
let groupsPerGrid = MTLSizeMake(width / w, height / h, 1)
複製程式碼

執行一下，圖片看起來會好很多了：

這裡又出現一個新的問題---利用不足。請看下圖的圖表：

通常，您會認為正確設計的網格是3 x 2組，每組4 x 4個執行緒，因此網格為12 x 8個執行緒。然而，底部和右側邊緣的一些螺紋未得到充分利用，因為它們沒有工作要做。

如果你製作一個較小的網格，比如8 x 4，它將會填滿整個組，又會產生你在開始時看到的紅色條帶。這意味著唯一可接受的解決方案是修復未充分利用問題。您可以通過在每個維度中新增額外的組來解決此問題，如下所示：

let groupsPerGrid = MTLSizeMake((width + w - 1) / w, (height + h - 1) / h, 1) 
複製程式碼

你所做的就是用(w-1, h-1, 1)來實際擴大網格尺寸。這又帶來了另一個風險 --- 訪問越界座標。要處理這個問題，您需要在讀取輸入影象之前向核心著色器新增邊界檢查：

if (id.x >= output.get_width() || id.y >= output.get_height()) {
    return;
}
複製程式碼

這將處理那些不應該做任何工作的執行緒，並處理越界的訪問。

那個執行緒組的大小怎麼樣 --- 無法優化嗎？到目前為止，你一直在猜這些尺寸。當然，還有一種方法可以獲得最佳的群組尺寸。硬體提供了一些可以通過管道狀態物件(pipeline state object)訪問的功能：

var w = pipelineState.threadExecutionWidth
var h = pipelineState.maxTotalThreadsPerThreadgroup / w
let threadsPerGroup = MTLSizeMake(w, h, 1)
複製程式碼

執行緒執行寬度（在其他API中也稱為wavefront或warp）是GPU組合在一起的執行緒數，因此它們可以並行地在不同的資料上執行相同的指令。組中的執行緒數應該是threadExecutionWidth的倍數，但絕不能大於maxTotalThreadsPerThreadgroup。

那太棒了！如何找到辦法，來避免做這些未充分利用和邊界檢查呢？Metal 也在這裡給你提供了幫助。無需使用dispatchThreadgroups()，API提供了更新的dispatchThreads()函式，它實現了兩件事：

通過自動建立非均勻執行緒組（例如3 x 4）來適應邊緣情況，這樣就避免讓你處理未充分利用的問題。
它甚至可以決定需要多少組，前提是您為其提供網格大小和您想要使用的組大小。

注意：dispatchThreads()函式適用於所有macOS裝置，但它不適用於使用A10或更舊處理器的iOS裝置。

你需要做的就是，就下面程式碼替換計算每個網格組數的程式碼：

w = Int(view.drawableSize.width)
h = Int(view.drawableSize.height)
let threadsPerGrid = MTLSizeMake(w, h, 1)
commandEncoder.dispatchThreads(threadsPerGrid, threadsPerThreadgroup: threadsPerGroup)

複製程式碼

但是等一下，我是不是說過：這裡是最好玩的地方？是的，然後來到 kernel shader 中，移除邊界檢查程式碼，因為現在已經不需要它了。然後在最後一行前，新增下面程式碼，倒轉顏色通道：

color = float4(color.g, color.b, color.r, 1.0);
複製程式碼

執行一下 playground，你會看到類似下面的影象：

將上一行用下面程式碼替換，它將灰度應用於影象：

color.xyz = (color.r * 0.3 + color.g * 0.6 + color.b * 0.1) * 1.5;
複製程式碼

執行一下 playground，你會看到類似下面的影象：

最後，將下面程式碼替換：

float4 color = input.read(id);
color.xyz = (color.r * 0.3 + color.g * 0.6 + color.b * 0.1) * 1.5;
複製程式碼

替換為下面的程式碼，這裡將圖片將影象畫素化為5畫素的正方形：

uint2 index = uint2((id.x / 5) * 5, (id.y / 5) * 5);
float4 color = input.read(index);
複製程式碼

執行一下 playground，你會看到類似下面的影象：

玩得開心麼？希望你玩得開心。如果你想要學習更多關於影象處理的知識，Simon Gladman有一本好書，Core Image For Swift。本文只是一個對 GPGPU 和GPU計算功能的簡短介紹。請繼續關注新主題。

原始碼已經發布在Github上。本文基於書籍Metal by Tutorials的第 16 章完成。

下次見！

[MetalKit]47-Introducing Metal 3 Metal 3簡介
2019-06-15
[MetalKit]45-Using eGPUs with Metal 在 eGPU上使用 Metal
2019-01-03
GPU
[MetalKit]43-Metal By Tutorials book! Metal教程書籍
2018-05-30
[MetalKit]44-Raytracing with Metal射線追蹤
2018-07-14
Metal入門教程（四）灰度計算
2018-07-14
metal
2020-11-06
Compute Shader 簡介
2021-04-24
Flutter在iOS上採用Metal驅動GPU
2020-05-07
FlutteriOSGPU
[譯]Metal 渲染管線教程
2018-10-05
在 SwiftUI 中使用 Metal Shader
2024-03-22
SwiftUI
metal2的四個新features
2019-02-20
Metal日記：使用步驟指南
2019-01-14
LoadBalancer for bare metal Kubernetes cluster-MetalLB
2024-10-14
使用JDK 17執行IntelliJ IDEA以獲得更好的Metal渲染效能
2021-12-25
JDKIntelliJIdea
Metal入門教程（一）圖片繪製
2018-07-07
Metal入門教程（二）三維變換
2018-07-07
JVM的GC理論知識 – Bare.Metal.Dev
2022-02-08
JVMGCdev
Metal新特性：大幅度提升iOS端效能
2020-07-20
iOS
裸金屬伺服器（Bare Metal Server，BMS）
2019-06-19
伺服器Server
Metal入門教程（三）攝像頭採集渲染
2018-07-09
WWDC 2018：寫給 OpenGL 開發者們的 Metal 開發指南
2019-03-04
《Ray Tracing in One Weekend》閱讀筆記 - 9、Metal（金屬）
2021-05-22
筆記
用Spark進行實時流計算
2020-08-04
Spark
計算機的潛意識-簡介
2019-01-12
計算機
平行計算與Neon簡介
2024-08-16
如何使用odoo的compute方法，自動計算odoo欄位
2021-07-27
Odoo
GPU的並行運算與CUDA的簡介
2019-01-26
GPU並行
Metal Master is comming！影馳釋出金屬大師顯示卡新品
2019-05-23
AST
邊緣雲端計算簡介
2019-02-10
為什麼計算機採用補碼進行運算？
2022-02-27
計算機
簡單計算器（棧的應用）
2018-09-05
iOS圖形處理概論：OpenGL ES，Metal，Core Graphics，Core Image，GPUImage，OpenCV等
2019-03-04
iOSGPUUIOpenCV
Ray5低弦電吉他音源：Ample Sound Ample Bass Metal Ray5 for mac
2023-12-15
Mac
簡單介紹雲端計算的容器技術
2023-03-22
使用Xcode External Build System實現Rust 專案 Capture GPU Frame 線上除錯 Metal
2018-11-29
XCodeUIRustAPTGPU除錯
OpenCV使用ParallelLoopBody進行平行計算
2020-12-09
OpenCVParallelOOP
使用Xcode External Build System實現Rust 專案 Capture GPU Frame 線上除錯 Metal 2018.12.18
2018-11-29
XCodeUIRustAPTGPU除錯
Metal框架詳細解析（十九） —— 工具、分析和除錯之GPU活動監視器（三）
2018-10-08
框架除錯GPU

[MetalKit]46-Introduction to compute using Metal 用 Metal 進行計算的簡介

相關文章