從手寫三層迴圈到標準實現，矩陣相乘執行效率提高三萬六千倍之路

MCTW發表於2021-01-22

原文網址 : https://www.cnblogs.com/duck-and-duck/p/14303080.html

矩陣

前言

矩陣乘法可以說是最常見的運算之一。

本文介紹不同的方式實現的矩陣乘法，並比較它們執行速度的差異。

表示矩陣的方式有很多種，完善的矩陣類應該實現切片取值，獲得矩陣形狀等操作，但本文並不打算直接從原生Python實現一個矩陣類，而是直接用 Pytorch中的tensor表示矩陣。

開始: 三層迴圈

根據矩陣相乘定義，可通過三層迴圈實現該運算。

def matmul(a, b):
    r1, c1 = a.shape
    r2, c2 = b.shape
    
    assert c1 == r2
    
    rst = torch.zeros(r1, c2)
    
    for i in range(r1):
        for j in range(c2):
            for k in range(c1):
                rst[i][j] += a[i][k] * b[k][j]
    return rst

那麼這個函式的執行效率如何呢？讓我們嘗試兩個較大的矩陣相乘，測試一下執行時間。

m1 = torch.randn(5, 784)
m2 = torch.randn(784, 10)

%timeit -n 10 matmul(m1, m2)

得到結果如下：

624 ms ± 3.76 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

即每次矩陣相乘，需要耗時 600ms 左右，這是一個非常非常慢的速度，慢到兩次矩陣乘法居然要耗時1秒多，這是不可能被接受的。

相同形狀的張量進行運算

如果兩個張量的形狀相同，則他們的運算為同一位置的數字進行運算。

a = torch.tensor([1., 2, 3])
b = torch.tensor([4., 5, 6])

a + b  # tensor([5., 7., 9.])
a * b  # tensor([ 4., 10., 18.])

康康之前用三層迴圈實現的矩陣相乘，發現最裡面一層迴圈的本質就是兩個同樣大小的張量相乘，再進行求和。
即第一個矩陣中的一行跟第二個矩陣中的一列進行運算，且這行和列中的元素個數相同，則我們可以通過同樣形狀的張量運算改寫最內層迴圈：

def matmul(a, b):
    r1, c1 = a.shape
    r2, c2 = b.shape
    
    assert c1 == r2
    
    rst = torch.zeros(r1, c2)
    
    for i in range(r1):
        for j in range(c2):
            rst[i][j] = (a[i,:] * b[:,j]).sum()  # 改了這裡
    return rst

%timeit -n 10 matmul(m1, m2)

得到結果如下

1.4 ms ± 92.2 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

624 / 1.4=445，只改寫了一下最內層迴圈，就使得矩陣乘法快了445倍！

廣播機制

廣播機制使得不同形狀的張量間可以進行運算：

兩個張量擴充成同樣的形狀
再按相同形狀的張量進行運算

# shape: [2, 3]
a = torch.tensor([
    [1, 2, 3],
    [4, 5, 6],
])

# shape: [1]
b = torch.tensor([1])

# shape: [3]
c = torch.tensor([10, 20, 30])

形狀為 [2, 3] 和 [1] 的兩個張量相加:

a + b

"""輸出:
tensor([[2, 3, 4],
        [5, 6, 7]])
"""

形狀為 [2, 3] 和 [3] 的兩個張量相加:

b + c

"""輸出:
tensor([[11, 22, 33],
        [14, 25, 36]])
"""

這兩個例子中，維度低的張量都是暗地裡先擴充成了維度高的張量，然後再參與的運算。

那麼如何檢視擴充後的張量是啥呢？用 expand_as 函式就可以檢視：

b.expand_as(a)

"""輸出
tensor([[1, 1, 1],
        [1, 1, 1]])
"""

b.expand_as(a)

"""輸出
tensor([[10, 20, 30],
        [10, 20, 30]])
"""

這就一目瞭然了，形狀不同的張量可以通過廣播機制擴充成形狀一致的張量再進行運算。

那麼任意形狀的兩個張量都可以運算嗎？當然不是了，判斷兩個張量是否能運算的規則如下：

先從兩個張量的最後一個維度看起，如果維度的維數相同，或者其中一個維數為1，則可以繼續判斷，否則就失敗。
然後看倒數第二個維度，倒數第三個維數，一直到遍歷完某個張量的維數為止，一直沒有失敗則這兩個張量可以通過廣播機制進行運算。

那麼這個廣播機制和矩陣乘法有什麼關係呢？答案就是它可以幫我們再去掉一層迴圈。

現在的最記憶體迴圈的本質是一個形狀為 [c1] 的張量和一個形狀為 [c1, c2] 的張量做運算，最終生成一個形狀為 [c2] 的張量。

則我們可以把矩陣運算改寫為:

def matmul(a, b):
    r1, c1 = a.shape
    r2, c2 = b.shape
    
    assert c1 == r2
    
    rst = torch.zeros(r1, c2)
    
    for i in range(r1):
        rst[i] = (a[i, :].unsqueeze(-1) * b).sum(0)
    return rst

%timeit -n 10 matmul(m1, m2)

"""輸出
249 µs ± 66.4 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
"""

現在已經把每次矩陣運算的時間壓縮到了 249 µs！！！，比最開始的 624ms 快了 2500倍！

對於 unsqueeze 操作不太熟悉的小夥伴請看我的另一篇文件: Pytorch 中張量的理解

但是還沒結束。。。因為兩個矩陣的相乘，就是 [r1, c1] 和 [c1, c2] 兩個張量的運算，我們可以直接把它用廣播機制一次到位的算出結果，連唯一的那層迴圈也可以省去：

def matmul(a, b):
    r1, c1 = a.shape
    r2, c2 = b.shape
    
    assert c1 == r2
    
    return (a.unsqueeze(-1) * b.unsqueeze(0)).sum(1)

%timeit -n 10 matmul(m1, m2)

"""輸出:
169 µs ± 41.6 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
"""

這個 169µs 已經是最開始矩陣相乘版本的 3700 倍了。。( Ĭ ^ Ĭ )淚目，果然知識是第一生產力。

愛因斯坦求和

接下來就是 pytorch 自帶的矩陣運算工具了，其中一個是愛因斯坦求和，貌似知道這個的同學不多。。
簡單來說，它能讓我們幾乎不編寫程式碼就能進行矩陣運算，只需要確定輸入和輸出矩陣的形狀即可：

def matmul(a, b):
    return torch.einsum("ik,kj->ij", a, b)

%timeit -n 10 matmul(a, b)

"""輸出
74 µs ± 25.6 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
"""

74µs 這個速度已經是原始版本的 8000 多倍了。。。但是對於工業級別的要求似乎仍然不夠快~

pytorch 的矩陣相乘標準實現

最後祭出 pytorch 的矩陣相乘官方版本：

def matmul(a, b):
    return a @ b

%timeit -n 10 matmul(m1, m2)

"""輸出
17.1 µs ± 28.5 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
"""

17.1 µs 是原始三層迴圈版本的 36000 倍，官方實現就是這麼簡單枯燥，樸實無華~

矩陣相乘
2020-11-01
矩陣
python兩個三階矩陣相乘
2024-07-25
Python矩陣
python重複執行10次for迴圈從0到9
2023-11-16
Python
pl/sql中三種遊標迴圈效率對比
2018-08-17
SQL
從零手寫逐步實現Promise A+標準的所有方法
2019-11-18
Promise
【轉】Promise迴圈序列執行寫法
2019-03-04
Promise
Oracle提高SQL執行效率的三種方法IT
2022-03-21
OracleSQL
多執行緒實現順序迴圈列印
2020-04-05
執行緒
資料結構：陣列，稀疏矩陣，矩陣的壓縮。應用：矩陣的轉置，矩陣相乘
2020-10-28
資料結構陣列矩陣
矩陣運算與相抵標準型
2024-06-15
矩陣
for 迴圈執行流程
2024-12-03
三個執行緒迴圈列印123-多執行緒
2020-10-15
執行緒
靜態佇列，迴圈陣列實現
2024-05-07
佇列陣列
python三層全連線層實現手寫字母識別方式
2021-01-25
Python
提高codeing執行時間效率
2020-04-06
【底層原理】從快取來看區域性性提高程式執行效率的原因
2018-10-15
快取
陣列常見的遍歷迴圈方法、陣列的迴圈遍歷的效率對比
2019-02-17
陣列
Python標準庫13 迴圈器 (itertools)
2019-11-28
Python
在Oracle裡提高SQL執行效率的三種方法NQ
2022-03-21
OracleSQL
Runloop-執行迴圈
2018-04-13
OOP
python矩陣下標從幾開始？
2021-09-11
Python矩陣
c語言中實現4行3列矩陣和3行4列矩陣的運算
2024-10-28
C語言矩陣
指標-矩陣下三角元素之和
2019-03-16
指標矩陣
提高程式碼的執行效率（1）
2020-04-04
提高Python執行效率的5個技巧!
2023-01-13
Python
Bert結構手動矩陣運算實現(Transform)
2024-11-19
矩陣ORM
JS陣列迴圈的效能和效率分析（for、while、forEach、map、for of）
2018-08-03
JS陣列While
DAO迴圈矩陣互助公排系統開發模式功能
2023-04-03
矩陣模式
陣列迴圈
2019-12-13
陣列
Docker 實戰教程之從入門到提高(三)
2022-04-15
Docker
從斐波那契到矩陣快速冪
2020-10-09
矩陣
用Node.js實現檔案迴圈覆寫
2019-04-04
Node.js
JavaScript如何中斷迴圈執行？
2021-05-20
JavaScript
提高Python執行效率的5個小技巧!
2023-03-27
Python
DAPP智慧合約迴圈矩陣公排dapp系統開發
2023-03-13
APP矩陣
HashMap 底層實現、載入因子、容量值及死迴圈
2020-05-22
HashMap
獲取介面引數我寫了七層 for 迴圈
2020-07-16
手寫執行緒池，對照學習ThreadPoolExecutor執行緒池實現原理！
2020-12-10
執行緒thread