人工稚能之sklearn資料降維

老錢發表於2018-03-19

原文網址 : https://juejin.im/post/5aaf23776fb9a028b410dbd6

【人工稚能】，沒錯，就叫【人工稚能】。因為是入門系列，表示內容比較稚嫩，適合初學者，說我手抖了什麼的最討厭了。

機器學習模型擬合的輸入資料往往是多維資料，這個維度可能會非常龐大。比如統計一篇文章中的單詞頻率，就可以把文章看成單詞的向量。而單詞的數量又是非常龐大，每個單詞都是一個維度，這樣大維度的資料在擬合時會非常耗費計算資源，也就是說出現了維度災難。

遇到維度災難，我們一般都會使用降維演算法來壓縮資料量，以減少模型訓練消耗的儲存資源和計算資源。

對於維度大的資料，維度之間往往會存在相關性，這種相關性導致資料產生了冗餘。比如兩條資訊，一條說這個人是個男的，第二條說這個人不是女的，那這兩條資訊就是相關的，就可以滅掉一條。降維的作用就是消除這種冗餘資訊。降維還可以用來剔去資訊量小的資訊，來實現資訊的壓縮。比如圖片就可以使用降維演算法來實現壓縮。

一種比較常用的降維演算法是PCA演算法【主成分分析】，它的原理是數學上的SVD矩陣分解演算法。具體的公式這裡不能細說，因為我也不想嚇跑一半讀者。

打個比方說一張女人圖片，我們如何判定這個女人是不是美女呢。我們會看比較關鍵的一些特徵，比如說臉好不好看，胸好不好看，屁股怎麼樣，腿怎麼樣，至於衣服上是某個花紋還是手臂上有一個小痔還是，這些特徵我們都是不關心的，就可以過濾掉。我們關心的是主成分，也就是對結果貢獻係數較大的特徵。SVD演算法的作用就是來告訴你哪些特徵是重要的，有多重要，哪些特徵是不重要的，是可以忽略的。

接下來我們使用sklearn提供的TruncatedSVD模組來對美女圖片進行壓縮。

首先我們使用matplotlib顯示一張美女png圖片，png圖片的格式非常簡單，每一個畫素有三個維度的顏色值RGB，整個圖片就是一個「height x width x 3」維的矩陣。

我們先使用matplotlib顯示一下美女圖片

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import matplotlib.image as img
 
# 讀入圖片矩陣600*900*3
img_matrix = img.imread('beauty.png')

plt.imshow(img_matrix)
plt.show()
複製程式碼

接下來我們進行SVD轉換，先將影像RGB三個通道資料分別轉換到特徵空間，再從特徵空間還原會通道資料，然後將三個處理後的通道資料合併成影像資料顯示出來，對比和原始影像的差異。

# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as img
from sklearn.decomposition import TruncatedSVD
 
# 載入png資料矩陣
img_array = img.imread('beauty.png')
shape = img_array.shape

# 高度、寬度、RGB通道數=3
height, width, channels = shape[0], shape[1], shape[2]

# 轉換成numpy array
img_matrix = np.array(img_array)

# 儲存RGB三個通道轉換後的資料
planes = []

# RGB三個通道分別處理
for idx in range(channels):
    # 提取通道
    plane = img_matrix[:, :, idx]
    # 轉成二維矩陣
    plane = np.reshape(plane, (height, width))
    # 保留10個主成分
    svd = TruncatedSVD(n_components=10)
    # 擬合資料，進行矩陣分解，生成特徵空間，剔去無關緊要的成分
    svd.fit(plane)
    # 將輸入資料轉換到特徵空間
    new_plane = svd.transform(plane)
    # 再將特徵空間的資料轉換會資料空間
    plane = svd.inverse_transform(new_plane)
    # 存起來
    planes.append(plane)

# 合併三個通道平面資料
img_matrix = np.dstack(planes)

# 顯示處理後的影像
plt.imshow(img_matrix)

plt.show()
複製程式碼

保留10個主成分效果圖，馬賽克有點嚴重，能看得出輪廓，只是看不清人臉了

保留50個主成分，有點像老式彩電的效果，差不多能辨識出是個美女了

保留100個主成分，基本很清晰了

那這個影像在不同的主成分數量下的壓縮比例大概是多少呢？

這個例子中影像的大小是600 x 900，壓縮後變成了兩個矩陣，一個矩陣是600 x n_components，另一個矩陣是n_components x 900，還有其它一些微量的變數資訊。那這個壓縮比大約是 n_components x 15 / 5400，那麼當保留50個主成分時，壓縮率約為14%。當保留100個主成分時，壓縮率約為28%。

閱讀【人工稚能】系列文章，關注公眾號【碼洞】

利用PCA進行資料降維
2020-11-10
PCA
機器學習基礎-資料降維
2019-05-02
機器學習
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
無監督學習之降維
2019-08-30
sklearn基礎及資料處理
2019-09-03
資料探勘裡的“降維”----從五階魔方的玩法思考
2020-07-28
[譯] 降維技術中常用的幾種降維方法
2019-01-21
sklearn中常用資料預處理方法
2018-03-27
降維演算法 0基礎小白也能懂(附程式碼)
2024-09-13
演算法
機器學習降維之線性判別分析
2019-07-19
機器學習
sklearn 第二篇：資料預處理
2019-07-30
降維與度量學習
2018-12-04
Pandas多維特徵資料預處理及sklearn資料不均衡處理相關技術實踐-大資料ML樣本集案例實戰
2018-12-19
特徵大資料
Barnes-Hut t-SNE:大規模資料的高效降維演算法
2024-04-23
演算法
2022全國節能宣傳週 | 志翔科技大資料：支撐電企降碳、生活節能
2022-06-16
大資料
人工智慧時代的降臨
2020-09-10
人工智慧
【資料倉儲】|3 維度建模之維度表設計
2021-05-22
29. 使用MySQL之資料庫維護
2024-11-20
MySql資料庫
08 特徵工程 - 特徵降維 - LDA
2019-01-04
特徵工程LDA
文字資料預處理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
2018-09-13
ORM
向量點乘為降維，叉乘為升維
2024-07-09
點乘
運維效率之資料遷移自動化
2018-11-10
運維
sklearn調包俠之KNN演算法
2018-06-26
KNN演算法
apply的理解和陣列降維
2018-10-11
APP陣列
JS演算法——陣列降維
2018-05-29
JS演算法陣列
小罐茶被打擊的降維
2022-08-07
【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA
2019-03-03
AI機器學習PCA
機器學習（五）：混合高斯聚類GMM（求聚類標籤）+PCA降維（3維降2維）習題
2023-04-08
機器學習聚類PCA
將一個多維陣列徹底的降維
2019-02-21
陣列
多維陣列轉一維陣列（降維的多種方式）
2019-11-21
陣列
資料升維深挖資訊價值，神經網路賦能AI決策
2022-06-13
神經網路AI
人工智慧新時代開始降臨
2018-04-19
人工智慧
後端思維之資料庫效能優化方案
2022-04-11
後端資料庫優化
圖解二維完全揹包問題——降維打擊
2024-03-25
圖解
機器學習入門之sklearn介紹
2019-03-05
機器學習
“降維打擊”的《飛機大廚Airplane Chefs》能帶領著Cooking遊戲起飛嗎？
2023-08-24
AI遊戲
簡述多種降維演算法
2018-09-23
演算法
Devops-運維效率之資料遷移自動化
2019-07-21
dev運維

人工稚能之sklearn資料降維

相關文章