利用PCA進行資料降維

Babyface Killer發表於2020-11-10

原文網址 : https://blog.csdn.net/chaunceyliu30/article/details/109527698

PCA原理

在介紹PCA之前首先要熟悉一下數學推導過程。

特徵多項式：

設A為一個方陣，則該方陣的特徵多項式就為該方陣減去 $\lambda$ 倍的單位矩陣後構成的矩陣的行列式。而該多項式的所有解即為 $\lambda$ 的值，也就是該方陣的特徵值。

解得特徵值之後如何求得特徵向量：

找到特徵值後，根據上式定義我們可推出 $Ax-\lambda x=0$ ,即 $(A-\lambda )x=0$ ，該式中即為特徵向量，與 $\lambda$ 已知，解出上式即可求出方陣A的特徵向量，且每個特徵值 $\lambda$ 對應一個特徵向量。

特徵分解：

對於任一方陣A，其可根據上式被分解，P為由方陣的特徵向量構成的方陣，D為一對角矩陣，其中當方陣A的特徵向量是n維的基向量時對角矩陣D的值為方陣A的特徵值。

注：特徵分解和奇異值分解的區別

特徵分解公式：

奇異值分解公式：

SVD對任意矩陣都適用，而特徵分解只適用於方陣
特徵分解中的P矩陣不一定正交，而SVD中的U和V矩陣一定正交
SVD中的U和V代表不同含義因此大部分情況下兩者不互為對方的逆矩陣

實踐中PCA應用的關鍵步驟：

標準化，對於資料的每一個特徵減去其對應均值併除以其對應標準差
計算協方差矩陣， $C=A^{T}\cdot A$
對協方差矩陣做特徵分解得到其特徵值和特徵分解（在使用大部分機器學習庫時這一步的輸出為按照特徵值由高到低排序後的結果）
根據選取的特徵向量做投影，即把標準化後的資料投影到選取的特徵向量上，Projection= $A\cdot P$
在下面的例子中我對投影后的資料進行了重建，即把投影后的資料轉化為和原始資料相同的維度：Reconstruction= $Projection\cdot P^{T}$ ，這一步在大部分實踐中是不需要的，這一步的目的是為了比較使用PCA前後資料的變化

PCA的應用

介紹完了PCA的原理下面我們來看看PCA在實際應用中的效果。我使用的資料集是不同國家每天的新冠確診人數,在進行PCA之前我已經對資料集做了標準化處理。

我這裡寫了一個自定義函式，輸入為每個國家對應的字串，輸出為對應國家每日確診病例變化曲線（標準化後），依次使用不同數量的PC重建資料集的影像（max 10），使用不同數量PC重建資料與原始資料的殘差影像（max 10），使用不同數量PC的RMSE曲線（max10），RMSE降低到1，0.1，0.01分別需要的PC數量。（這裡PC為principal component，也就是特徵向量）

from sklearn.metrics import mean_squared_error
import numpy as np

def pca(country):
    #找出輸入國家對應的index
    country_index=np.where(cases_standardized.index==country)
    fig,axes=plt.subplots(4,1,figsize=[10,20])
    #提取出該國家對應的資料
    country_data=cases_standardized.iloc[country_index[0][0],:]
    axr=axes.ravel()
    #在第一張圖中畫出對應國家的每日確診病例曲線
    axr[0].plot(country_data)
    axr[0].set_title('Standardized Time Series')
    labels=[x for x in range(0,265,30)]
    axr[0].set_xticks(labels)
    axr[0].set_xticklabels(dates[labels],rotation=30)
    n,m=data_standardized.shape
    #計算協方差矩陣
    C = np.dot(data_standardized.T, data_standardized) / (n-1) 
    #使用numpy.linalg.eigh()計算協方差矩陣的特徵值和特徵向量
    eigenValues, eigenVectors = np.linalg.eigh(C) 
    #提取排序後的index
    args = (-eigenValues).argsort()
    #把特徵值和特徵向量按照從高到低的資料排序
    eigenValues = eigenValues[args]
    eigenVectors = eigenVectors[:, args]
    #提取該國家原始資料
    true_value=data_standardized[country_index]
    RMSE=[]
    #使用不同數量的特徵向量進行十次投影和重建
    for i in range(10):
        W=eigenVectors[:,:i+1]
        projX=np.dot(data_standardized,W)
        ReconX = np.dot(projX, W.T)
        result=ReconX[country_index][0]
        residual_error=true_value-result
        #計算RMSE
        RMSE.append(np.sqrt(mean_squared_error(true_value[0],result)))
        #在第二張圖中繪製重建後的資料影像
        axr[1].plot(ReconX[country_index][0],label='CumPC{}'.format(i+1))
        #在第三張圖中繪製殘差影像
        axr[2].plot(residual_error[0],label='CumPC{}'.format(i+1))
    axr[1].set_title('Cumulative Reconstruction')
    labels=[x for x in range(0,265,30)]
    axr[1].set_xticks(labels)
    axr[1].set_xticklabels(dates[labels],rotation=30)
    axr[1].legend()
    axr[2].set_title('Residual Error')
    axr[2].set_xticks(labels)
    axr[2].set_xticklabels(dates[labels],rotation=30)
    axr[2].legend()
    #在第四張圖中繪製RMSE曲線
    axr[3].plot(RMSE)
    axr[3].set_title('RMSE')
    axr[3].set_xlabel('Number of component')
    #找出使RMSE低於1需要的最少的特徵向量數
    for i in range(10):
        if RMSE[i] < 1:
            print('Number of PCs required for RMSE < 1: {}'.format(i+1))
            break
    #找出使RMSE低於0.1需要的最少的特徵向量數
    for i in range(10):
        if RMSE[i] < 0.1:
            print('Number of PCs required for RMSE < 0.1: {}'.format(i+1))
            break
    #找出使RMSE低於0.01需要的最少的特徵向量數
    for i in range(10):
        if RMSE[i] < 0.01:
            print('Number of PCs required for RMSE < 0.01: {}'.format(i+1))
            break
    #如果十個特徵向量不能滿足RMSE低於0.01的條件則繼續使用更多的特徵向量進行投影和重建直到找到能使RMSE低於0.01的特徵向量數
    if RMSE[9] >= 0.01:
        for i in range(10,265):
            W=eigenVectors[:,:i+1]
            projX=np.dot(data_standardized,W)
            ReconX = np.dot(projX, W.T)
            result=ReconX[country_index][0]
            RMSE=np.sqrt(mean_squared_error(true_value[0],result))
            if RMSE < 0.01:
                print('Number of PCs required for RMSE < 0.01: {}'.format(i+1))
                break

我們把‘China’輸入這個函式來看一下輸出。

可以看到只使用一個PC時對於原資料的還原不是很理想，但是在使用兩個PC時重建後的資料已經和原始資料非常相似了，而使用5個PC就可以使原資料與重建資料之間的RMSE低於0.01。

通過以上的例子我們可以發現，使用PCA可以把一個非常高維的資料集降為低維，在上面的例子中原資料集中包含了189個國家265天的資料，而我們只使用5個主成分就可以幾乎完美地擬合原資料集。但PCA最大的缺陷就在於把原資料集投影到主成分後資料的可解釋性就變得極低，因此在使用PCA前就需要考慮特徵的可解釋性對於之後的建模和分析到底是不是必要的。

本文中公式推導部分來自於：Mathematics for Machine Learning https://github.com/mml-book/mml-book.github.io

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA
2019-03-03
AI機器學習PCA
Python機器學習：PCA與梯度上升：008使用PCA對資料進行降噪
2020-12-08
Python機器學習PCA梯度
關於PCA降維中遇到的python問題小結
2019-05-29
PCAPython
機器學習（五）：混合高斯聚類GMM（求聚類標籤）+PCA降維（3維降2維）習題
2023-04-08
機器學習聚類PCA
利用Kettle進行資料同步（下）
2019-01-19
利用Kettle進行資料同步（上）
2018-06-04
薦書 | 《利用Python進行資料分析》
2019-05-13
Python
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
如何利用運維皮膚進行資料庫一鍵安裝和管理？
2020-03-18
運維資料庫
機器學習—降維-特徵選擇6-4（PCA-Kernel方法）
2022-03-16
機器學習特徵PCA
利用SSIS進行SharePoint 列表資料的ETL
2020-04-20
人工稚能之sklearn資料降維
2018-03-19
【機器學習】--主成分分析PCA降維從初識到應用
2018-04-10
機器學習PCA
《利用Python進行資料分析·第2版》轉
2019-02-19
Python
機器學習基礎-資料降維
2019-05-02
機器學習
如何利用第三方資料進行大資料分析
2021-12-09
大資料
利用DSRM賬號進行許可權維持
2020-11-26
利用python進行資料分析之準備工作（1）
2018-08-10
Python
利用Data Vault對資料倉儲進行建模（二）
2020-08-01
如何利用區塊鏈技術進行資料儲存?
2019-01-21
區塊鏈
Vue 中利用 eventBus 進行資料通訊的問題
2018-06-25
Vue
利用d3.js對大資料資料進行視覺化分析
2020-08-19
JS大資料視覺化
利用齊次座標進行二維座標轉換
2021-12-17
利用數學軟體Mathematica的三維影像進行建模
2021-12-31
如何利用python對HTTP代理進行自動化維護？
2023-03-03
PythonHTTP
如何利用散點圖矩陣進行資料視覺化
2018-05-06
矩陣視覺化
高階NumPy知識圖譜-《利用Python進行資料分析》
2020-07-29
Python
時間序列知識圖譜-《利用Python進行資料分析》
2020-07-19
Python
封神SLG《朝歌》，誓將“降肝降氪”進行到底
2024-08-23
【大資料 Spark】利用電影觀看記錄資料,進行電影推薦
2020-05-10
大資料Spark
如何使用傳統資料庫思維進行實時資料流分析？ – thenewstack
2021-10-19
資料庫
資料探勘裡的“降維”----從五階魔方的玩法思考
2020-07-28
利用vstruct解析二進位制資料
2020-08-19
Struct
理解資料庫掃描方法-利用掃描方法對資料儲存進行優化
2018-09-15
資料庫優化
利用transformer進行中文文字分類（資料集是復旦中文語料）
2020-10-29
ORM文字分類
利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）
2020-10-08
文字分類
運用sklearn進行主成分分析(PCA)程式碼實現
2020-08-12
PCA
[譯] 降維技術中常用的幾種降維方法
2019-01-21

利用PCA進行資料降維

PCA原理

PCA的應用

相關文章