【scipy 基礎】--稀疏矩陣

wang_yb發表於2023-11-23

原文網址 : https://www.cnblogs.com/wang_yb/p/17850740.html

稀疏矩陣是一種特殊的矩陣，其非零元素數目遠遠少於零元素數目，並且非零元素分佈沒有規律。
這種矩陣在實際應用中經常出現，例如在物理學、圖形學和網路通訊等領域。

稀疏矩陣其實也可以和一般的矩陣一樣處理，之所以要把它區分開來進行特殊處理，是因為：
一方面稀疏矩陣的儲存空間開銷通常比稠密矩陣要小得多，可以節省儲存空間；
另一方面，在計算稀疏矩陣時，可以利用其特殊的結構，採用專門的演演算法，提高計算效率和準確性。
因此，稀疏矩陣在Scipy庫中被單獨作為一個模組，以便被更好地處理和應用。

1. 主要功能

稀疏矩陣子模組（scipy.sparse）的主要功能包括：

類別	說明
稀疏陣列類	支援各種格式的稀疏陣列
稀疏矩陣類	支援各種格式的稀疏矩陣
稀疏矩陣工具	構建，儲存，載入以及識別稀疏矩陣的各種函式
其他	包含壓縮稀疏圖例程，稀疏線性代數等子模組，以及一些異常處理方法

這裡有個需要注意的地方是稀疏陣列和稀疏矩陣的區別。
這兩個類別中的很多函式名稱也類似，比如：bsr_array和bsr_matrix，coo_array和coo_matrix等等。

只要區別在於：
***_matrix類的函式是一種基於Compressed Sparse Row（CSR）和Compressed Sparse Column（CSC）格式的塊稀疏矩陣表示方法。
它使用一個字典來儲存非零元素，其中每個元素對應於一個包含三個值的元組，分別表示該元素的行索引、列索引和非零元素的值。
這種資料結構可以提供更好的計算效能和記憶體使用效率，特別適合於大規模的塊稀疏矩陣計算。

而***_array 類的函式雖然類似於***_matrix的資料結構，但它允許更大的靈活性。
***_array 可以表示任意的稀疏陣列，而不僅僅是塊稀疏矩陣。
它使用一個具有三個陣列的元組來表示稀疏陣列，其中第一個陣列儲存行索引，第二個陣列儲存列索引，第三個陣列儲存非零元素的值。
這種資料結構適用於更通用的稀疏陣列計算，但可能不如***_matrix高效。

總之，***_matrix和***_array都是用於表示塊稀疏矩陣或稀疏陣列的資料結構。
***_matrix更適合於大規模的塊稀疏矩陣計算，而***_array適用於更通用的稀疏陣列計算。

2. 使用示例

稀疏矩陣之所以成為單獨的一個模組，是因為它的稀疏的特性在很多領域多有廣泛的應用。
scipy.sparse子模組中提供了大概7種：

csc_matrix: 壓縮稀疏列格式（Compressed Sparse Column）
csr_matrix: 壓縮稀疏行格式（Compressed Sparse Row）
bsr_matrix: 塊稀疏行格式（Block Sparse Row）
lil_matrix: 列表格式的列表（List of Lists format）
dok_matrix: 鍵格式字典（Dictionary of Keys）
coo_matrix: 座標格式（又名 IJV，三元組格式）
dia_matrix: 對角線格式（DIAgonal format）

2.1. 使用稀疏矩陣

稀疏矩陣其實在運算上和使用普通矩陣一樣。
首先，構造一個建立矩陣的方法create_matrix，這個方法會生成一個10x10的矩陣，
方法的引數N表示隨機在矩陣的N個位置中生成值。

from scipy import sparse
import numpy as np

# 建立一個10x10矩陣，其中有值的元素不超過N個
def create_matrix(N):
    data = np.zeros((10, 10))

    for _ in range(N):
        row = np.random.randint(0, 10, 1)
        col = np.random.randint(0, 10, 1)
        data[row, col] = np.random.randint(1, 100, 1)

    return data

create_matrix建立的是普通矩陣，我們將生成的矩陣轉換為稀疏矩陣後，計算方式差不多。

# 建立兩個普通矩陣
m1 = create_matrix(8)
m2 = create_matrix(6)

# 計算點積
m1.dot(m2) # 返回m1和m2的點積結果

# 將普通矩陣變為稀疏矩陣
#（這裡的演示用了7種型別中的一種bsr）
d1 = sparse.bsr_matrix(m1)
d2 = sparse.bsr_matrix(m2)

# 計算點積後，用toarray方法轉換為二維陣列
d1.dot(d2).toarray()

從上面的程式碼可以看出，用scipy.sparse中的稀疏矩陣和使用一般矩陣差不多。

2.2. 稀疏矩陣的效能

我們使用稀疏矩陣，就是因為其運算效能比使用一般矩陣強，否則還不如直接用一般矩陣。
下面，簡單測試下scipy.sparse模組下稀疏矩陣的效能。

先看其記憶體佔用是否有減少，為了讓效能差別能顯著看出，
先擴大測試矩陣為 1000x1000。

import sys

def create_matrix(N):
    data = np.zeros((1000, 1000))

    for _ in range(N):
        row = np.random.randint(0, 1000, 1)
        col = np.random.randint(0, 1000, 1)
        data[row, col] = np.random.randint(1, 100, 1)

    return data

m1 = create_matrix(8)
m2 = create_matrix(6)

d1 = sparse.csr_matrix(m1)
d2 = sparse.csr_matrix(m2)

print("一般矩陣 m1 佔用的空間：{}".format(sys.getsizeof(m1)))
print("一般矩陣 m2 佔用的空間：{}".format(sys.getsizeof(m2)))
print("一般矩陣 d1 佔用的空間：{}".format(sys.getsizeof(d1)))
print("一般矩陣 d2 佔用的空間：{}".format(sys.getsizeof(d2)))
# 執行結果：
一般矩陣 m1 佔用的空間：8000128
一般矩陣 m2 佔用的空間：8000128
一般矩陣 d1 佔用的空間：56
一般矩陣 d2 佔用的空間：56

可以看出佔用的空間明顯縮小了。

再看點積的運算效能：（執行10輪，每輪100次）

%%timeit -r 10 -n 100
m1.dot(m2)
# 執行結果：
10.6 ms ± 136 µs per loop (mean ± std. dev. of 10 runs, 100 loops each)

稀疏矩陣的點積運算：

%%timeit -r 10 -n 100
d1.dot(d2)
# 執行結果：
137 µs ± 14.3 µs per loop (mean ± std. dev. of 10 runs, 100 loops each)

可以看出，運算效能差別非常大，一個是毫秒級別（10.6ms）的，一個是微秒級別（137 µs）的。

3. 總結

稀疏矩陣在矩陣中只是一種特殊的矩陣，然而在實際應用領域中，卻應用極廣，比如：
在數值計算中，可以用於解決大規模線性代數方程組、大規模非線性方程組和非線性最佳化問題，以及求解大規模約束規劃問題。

在模式識別中，如人臉識別、手寫數字識別、文字分類等任務，可用於表示高維資料，提取特徵並進行降維，提高識別準確率和計算效率。

在推薦系統中，處理大量使用者和物品的資料時，稀疏矩陣可以有效地表示這些資料。

在社交網路中，因為一般社交關係都是稀疏的，所以可用於分析社交網路的結構和行為，例如社群檢測、影響力傳播。

此外，還可以用在計算機視覺，自然語言處理，生物資訊學等等領域。
所以，研究稀疏矩陣有其重要的實際意義。

稀疏矩陣
2020-10-15
矩陣
資料結構：陣列，稀疏矩陣，矩陣的壓縮。應用：矩陣的轉置，矩陣相乘
2020-10-28
資料結構陣列矩陣
資料結構(一)-稀疏矩陣
2020-09-13
資料結構矩陣
【scipy 基礎】--聚類
2023-11-01
聚類
pytorch基礎七（矩陣運算）
2018-12-08
PyTorch矩陣
人工智慧數學基礎—-矩陣
2019-02-23
人工智慧矩陣
人工智慧數學基礎----矩陣
2018-06-12
人工智慧矩陣
【scipy 基礎】--影像處理
2023-11-14
MKL稀疏矩陣運算示例及函式封裝
2023-04-23
矩陣函式封裝
【scipy 基礎】--統計分佈
2023-11-28
【scipy 基礎】--空間計算
2023-11-27
【scipy 基礎】--最最佳化
2023-11-18
【scipy 基礎】--訊號處理
2023-11-21
【scipy 基礎】--線性代數
2023-11-10
SciPy Matlab 陣列
2023-12-14
Matlab陣列
【scipy 基礎】--正交距離迴歸
2023-11-16
【scipy 基礎】--傅立葉變換
2023-11-03
稀疏陣列
2022-03-04
陣列
【scipy 基礎】--積分和微分方程
2023-11-05
基向量變換矩陣
2024-07-10
矩陣
3D數學基礎：矩陣的行列式
2020-11-29
3D矩陣
稀疏矩陣之三元組壓縮儲存並且轉置
2020-11-12
矩陣
OpenGL/OpenGL ES 入門：基礎變換 - 初識向量/矩陣
2019-05-19
矩陣
社交網路分析的 R 基礎：（三）向量、矩陣與列表
2022-02-07
矩陣
人工智慧之機器學習線代基礎——行列式、矩陣的逆（inverse）、伴隨矩陣
2024-11-18
人工智慧機器學習矩陣
稀疏陣列、佇列
2020-11-20
陣列佇列
20_稀疏陣列
2024-07-01
陣列
巨大的矩陣（矩陣加速）
2024-08-16
矩陣
鄰接矩陣、度矩陣
2021-12-07
矩陣
奇異矩陣，非奇異矩陣，偽逆矩陣
2020-09-29
矩陣
【矩陣基礎與維度分析】【公式細節推導】矩陣非線性最小二乘法泰勒展開
2022-02-28
矩陣公式
golang實現稀疏陣列
2020-10-04
Golang陣列
矩陣
2024-04-28
矩陣
人工智慧之機器學習線代基礎——矩陣分類
2024-11-20
人工智慧機器學習矩陣
求任意矩陣的伴隨矩陣
2024-06-18
矩陣
基於勝率矩陣的PageRank排序
2020-05-10
矩陣排序
第四章：多維陣列和矩陣 --------------- 4.1 基礎題：順時針列印二維陣列
2019-03-13
陣列矩陣
第四章：多維陣列和矩陣 ------------- 4.3 基礎題：Z形列印二位陣列
2019-03-16
陣列矩陣