深入淺出PyTorch（運算元篇）

A君來了發表於2020-06-22

原文網址 : https://www.cnblogs.com/huangshuang/p/13179494.html

Tensor

自從張量（Tensor）計算這個概念出現後，神經網路的演算法就可以看作是一系列的張量計算。所謂的張量，它原本是個數學概念，表示各種向量或者數值之間的關係。PyTorch的張量（torch.Tensor）表示的是N維矩陣與一維陣列的關係。

torch.Tensor的使用方法和numpy很相似（https://pytorch.org/...tensor-tutorial-py），兩者唯一的區別在於torch.Tensor可以使用GPU來計算，這就比用CPU的numpy要快很多。

張量計算的種類有很多，比如加法、乘法、矩陣相乘、矩陣轉置等，這些計算被稱為運算元（Operator），它們是PyTorch的核心元件。

運算元的backend一般是C/C++的擴充程式，PyTorch的backend是稱為"ATen"的C/C++庫，ATen是"A Tensor"的縮寫。

Operator

PyTorch所有的Operator都定義在Declarations.cwrap和native_functions.yaml這兩個檔案中，前者定義了從Torch那繼承來的legacy operator（aten/src/TH），後者定義的是native operator，是PyTorch的operator。

相比於用C++開發的native code，legacy code是在PyTorch編譯時由gen.py根據Declarations.cwrap的內容動態生成的。因此，如果你想要trace這些code，需要先編譯PyTorch。

legacy code的開發要比native code複雜得多。如果可以的話，建議你儘量避開它們。

aten/src/ATen/Declarations.cwrap

MatMul

本文會以矩陣相乘--torch.matmul()為例來分析PyTorch運算元的工作流程。

我在深入淺出全連線層（fully connected layer）中有講在GPU層面是如何進行矩陣相乘的。Nvidia、AMD等公司提供了優化好的線性代數計算庫--cuBLAS/rocBLAS/openBLAS，PyTorch只需要呼叫它們的API即可。

Figure 1: function flow of torch.matmul()

Figure 1是torch.matmul()在ATen中的function flow。可以看到，這個flow可不短，這主要是因為不同型別的tensor（2d or Nd, batched gemm or not，with or without bias，cuda or cpu）的操作也不盡相同。

at::matmul()主要負責將Tensor轉換成cuBLAS需要的格式。前面說過，Tensor可以是N維矩陣，如果tensor A是3d矩陣，tensor B是2d矩陣，就需要先將3d轉成2d；如果它們都是>=3d的矩陣，就要考慮batched matmul的情況；如果bias=True，後續就應該交給at::addmm()來處理；總之，matmul要考慮的事情比想象中要多。

除此之外，不同的dtype、device和layout需要呼叫不同的操作函式，這部分工作交由c10::dispatcher來完成。

Dispatcher

dispatcher主要用於動態呼叫dtype、device以及layout等方法函式。用過numpy的都知道，np.array()的資料型別有：float32, float16，int8，int32，.... 如果你瞭解C++就會知道，這類程式最適合用模板（template）來實現。

很遺憾，由於ATen有一部分operator是用C語言寫的（從Torch繼承過來），不支援模板功能，因此，就需要dispatcher這樣的動態排程器。

類似地，PyTorch的tensor不僅可以執行在GPU上，還可以跑在CPU、mkldnn和xla等裝置，Figure 1中的dispatcher4就根據tensor的device呼叫了mm的GPU實現。

layout是指tensor中元素的排布。一般來說，矩陣的排布都是緊湊型的，也就是strided layout。而那些有著大量0的稀疏矩陣，相應地就是sparse layout。

Figure 2: strided layout example

Figure 2是strided layout的演示例項，這裡建立了一個2行2列的矩陣a，它的資料實際存放在一維陣列（a.storage）裡，2行2列只是這個陣列的檢視。

stride充當了從陣列到檢視的橋樑，比如，要列印第2行第2列的元素時，可以通過公式：\(1 * stride(0) + 1 * stride(1)\)來計算該元素在陣列中的索引。

除了dtype、device、layout之外，dispatcher還可以用來呼叫legacy operator。比如說addmm這個operator，它的GPU實現就是通過dispatcher來跳轉到legacy::cuda::_th_addmm。

aten/src/ATen/native/native_functions.yaml

END

到此，就完成了對PyTorch運算元的學習。如果你要學習其他運算元，可以先從aten/src/ATen/native目錄的相關函式入手，從native_functions.yaml中找到dispatch目標函式，詳情可以參考Figure 1。

更多精彩文章，歡迎掃碼關注下方的公眾號, 並訪問我的簡書部落格：https://www.jianshu.com/u/c0fe8671254e

歡迎轉發至朋友圈，工作號轉載請後臺留言申請授權～

AI實戰：一個有料有深度的公眾號

Delegate 運算子深入淺出
2024-08-21
【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
Flutter深入淺出元件篇---MaterialApp
2021-08-21
Flutter元件APP
Flutter深入淺出元件篇---Scaffold
2021-08-22
Flutter元件
Flutter深入淺出元件篇---TabBar
2021-08-25
Flutter元件tabBar
Flutter深入淺出元件篇---AppBar
2021-08-23
Flutter元件APP
Flutter深入淺出元件篇---Padding、AnimatedPadding
2021-08-27
Flutter元件padding
Flutter深入淺出元件篇---SizeBox、FittedBox
2021-09-02
Flutter元件
Flutter深入淺出元件篇---Align、AnimatedAlign
2021-08-29
Flutter元件
Flutter深入淺出元件篇---ConstrainedBox、BoxConstraints、UnconstrainedBox
2021-08-31
Flutter元件AI
深入淺出FE（十四）深入淺出websocket
2020-11-29
Web
深入淺出 Golang 資源嵌入方案：前篇
2022-01-17
Golang
深入淺出Java執行緒池：使用篇
2021-01-31
Java執行緒
spark-運算元-分割槽運算元
2020-11-05
Spark
深入淺出解讀 Spring 原始碼：IOC/AOP 篇
2018-04-12
Spring原始碼
Flutter深入淺出元件篇---繼承關係圖
2021-08-17
Flutter元件繼承
深入淺出Java執行緒池：原始碼篇
2021-02-06
Java執行緒原始碼
淺讀-《深入淺出Nodejs》
2023-03-30
NodeJS
運算元
2018-11-12
深入淺出mongoose
2019-03-03
Go
HTTP深入淺出
2019-04-05
HTTP
深入淺出Webpack
2018-04-09
Web
深入淺出HTTP
2018-06-09
HTTP
mysqldump 深入淺出
2018-08-08
MySql
深入淺出——MVC
2020-05-26
MVC
深入淺出IO
2019-05-14
深入淺出decorator
2018-12-28
ArrayList 深入淺出
2021-07-23
深入淺出 RabbitMQ
2021-09-09
MQ
深入淺出Promise
2021-06-08
Promise
深入淺出 ZooKeeper
2020-12-29
深入理解TensorFlow中的tf.metrics運算元
2018-08-24
元組關係演算（從集合的角度深入淺出）
2020-07-05
PyTorch 反摺積運算(一)
2021-01-05
PyTorch
【小白學PyTorch】10 pytorch常見運算詳解
2020-09-14
PyTorch
深入淺出 OceanBase 運維之彈性擴縮容
2021-12-23
運維
深入淺出 Golang 資源嵌入方案：go-bindata篇
2022-01-22
Golang
Java開發工程師進階篇-深入淺出Redis
2021-09-14
Java工程師Redis

深入淺出PyTorch（運算元篇）

Tensor

Operator

MatMul

Dispatcher

END

相關文章