第七篇：資料預處理(四) - 資料歸約(PCA/EFA為例)

穆晨發表於2017-05-20

原文網址 : https://www.cnblogs.com/muchen/p/6883173.html

PCA

前言

這部分也許是資料預處理最為關鍵的一個階段。

如何對資料降維是一個很有挑戰，很有深度的話題，很多理論書本均有詳細深入的講解分析。

本文僅介紹主成分分析法(PCA)和探索性因子分析法(EFA)，並給出具體的實現步驟。

主成分分析法 - PCA

主成分分析（principal components analysis， PCA）是一種分析、簡化資料集的技術。

它把原始資料變換到一個新的座標系統中，使得任何資料投影的第一大方差在第一個座標（第一主成分）上，第二大方差在第二個座標（第二主成分）上，依次類推。主成分分析經常用減少資料集的維數，同時保持資料集的對方差貢獻最大的特徵。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是在處理觀測數目小於變數數目時無法發揮作用，例如基因資料。

PCA基本步驟

第一步：載入所需包和測試集資料：

測試資料集內容大致如下：

第二步：確定主成分的個數：

在該函式中，fa是指定分析型別為主成分，n.iter是指平行分析中模擬測試的迭代次數為100次。結果如下：

其中，藍線為測試資料集中不同主成分對應的特徵值折線圖；紅線為平行分析中模擬測試矩陣的不同主成分對應的特徵值折線圖。

可採用以下幾個思路來確定主成分的具體個數：

1. 保留特徵值大於1的主成分個數
2. 根據圖形彎曲的情況，選取圖形變化最大處之上的特徵值對應的主成分
3. 特徵值大於模擬矩陣的平均特徵值的主成分保留

根據這幾個經驗法則，可確定主成分的個數為1。

當然，有一個更簡單的確定方法 -- 在你呼叫fa.parallel函式之後，系統shell端會告訴你建議的主成分個數：

第三步：提取主成分

其中，nfactors是指定提取的主成分的個數。

執行完畢後shell端列印如下資訊：

這些資訊中，最重要的是載荷矩陣，也就是上方列為h2，u2的那個矩陣。

我們只看PC1那一列(h2 u2先不去管它)，當然如果你指定的主成分個數是2，那麼就會有PC2，以此類推。而行代表的則是每個特徵。矩陣的值，也即載荷矩陣的值是資料集協方差矩陣對應的特徵向量，也即這個主成分在該特徵中所佔的比重。如果你瞭解後面要講的因子分析，那麼也許會對這個表述產生疑惑 - 這不和因子一模一樣嗎？

--- 答曰確實是的。主成分法本來就是選擇因子的一種方法。事實上很多時候你也可以從載荷矩陣裡觀察得出主成分的現實意義。如果對主成分分析的結果不滿意，可以嘗試進行各種旋轉以調整各個主成分所佔的比重，具體請查閱principal函式的rotate引數。

第四步：獲取主成分得分