作者:陳穎祥、楊子晗
編譯:AI有道編譯:AI有道
經過資料預處理和特徵選擇,我們已經生成了一個很好的特徵子集。但是有時該子集可能仍然包含過多特徵,導致需要花費太多的計算能力用以訓練模型。在這種情況下,我們可以使用降維技術進一步壓縮特徵子集。但這可能會降低模型效能。
同時,如果我們沒有太多時間進行特徵選擇,我們也可以在資料預處理之後直接應用降維方法。我們可以使用降維演算法來壓縮原始特徵空間直接生成特徵子集。
具體來說,我們將分別介紹PCA和LDA(線性判別分析)。
專案地址:
本文將介紹特徵工程中的特徵降維。
目錄:
1.1 Unsupervised Methods 非監督方法
1.1.1 PCA (Principal Components Analysis) 主成分分析
主成分分析(PCA)是一種無監督機器學習模型,其目標為利用線性變換將原始特徵投影為一系列線性不相關的單位向量,而同時保留儘可能多的資訊(方差)。您可以從我們在Github中編寫的repo中檢視更多數學細節。
https://github.com/YC-Coder-Chen/Unsupervised-Notes/blob/master/PCA.md
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
# 直接載入資料集
from sklearn.datasets import fetch_california_housing
dataset = fetch_california_housing()
X, y = dataset.data, dataset.target # 利用 california_housing 資料集來演示
# 選擇前15000個觀測點作為訓練集
# 剩下的作為測試集
train_set = X[0:15000,:]
test_set = X[15000:,]
train_y = y[0:15000]
# 在使用主成分分析前,我們需要先對變數進行縮放操作,否則PCA將會賦予高尺度的特徵過多的權重
from sklearn.preprocessing import StandardScaler
model = StandardScaler()
model.fit(train_set)
standardized_train = model.transform(train_set)
standardized_test = model.transform(test_set)
# 開始壓縮特徵
compressor = PCA(n_components=0.9)
# 將n_components設定為0.9 =>
# 即要求我們從所有主成分中選取的輸出主成分至少能保留原特徵中90%的方差
# 我們也可以通過設定n_components引數為整數直接控制輸出的變數數目
compressor.fit(standardized_train) # 在訓練集上訓練
transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,5)
# 即我們從8個主成分中選取了前5個主成分,而這前5個主成分可以保證保留原特徵中90%的方差
transformed_testset = compressor.transform(standardized_test) # 轉換測試集
assert transformed_trainset.shape[1] == transformed_testset.shape[1]
# 轉換後訓練集和測試集有相同的特徵數
# 視覺化 所解釋的方差與選取的主成分數目之間的關係
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
%matplotlib inline
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1,
np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('選取的主成分數目')
plt.ylabel('累計所解釋的方差累')
plt.show(); # 前5個主成分可以保證保留原特徵中90%的方差
1.2 Supervised Methods 監督方法
1.2.1 LDA (Linear Discriminant Analysis) 線性判別分析
與主成分分析(PCA)不同的是,線性判別分析(LDA)是一種有監督機器學習模型,旨在找到特徵子集以最大化類線性可分離性,即希望投影望同一種類別資料的投影點儘可能的接近,而不同類別的資料的類別中心之間的距離儘可能的大。線性判別分析僅適用於分類問題,其假設各個類別的樣本資料符合高斯分佈,並且具有相同的協方差矩陣。
可以在sklearn的官方網站上了解更多原理方面的詳細資訊。LDA會將原始變數壓縮為(K-1)個,其中K是目標變數類別數。但是在sklearn中,通過將主成分分析的思想合併到LDA中,其可以進一步壓縮變數。
import numpy as np
import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
# LDA僅適用於分類問題
# 載入資料集
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
# iris 資料集使用前需要被打亂順序
np.random.seed(1234)
idx = np.random.permutation(len(X))
X = X[idx]
y = y[idx]
# 選擇前100個觀測點作為訓練集
# 剩下的50個觀測點測試集
train_set = X[0:100,:]
test_set = X[100:,]
train_y = y[0:100]
test_y = y[100:,]
# 在使用主成分分析前,我們需要先對變數進行縮放操作
# 因為LDA假定資料服從正態分佈
from sklearn.preprocessing import StandardScaler # 我們也可以採用冪次變換
model = StandardScaler()
model.fit(train_set)
standardized_train = model.transform(train_set)
standardized_test = model.transform(test_set)
# 開始壓縮特徵
compressor = LDA(n_components=2) # 將n_components設定為2
# n_components <= min(n_classes - 1, n_features)
compressor.fit(standardized_train, train_y) # 在訓練集上訓練
transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,2)
transformed_testset = compressor.transform(standardized_test) # 轉換測試集
assert transformed_trainset.shape[1] == transformed_testset.shape[1]
# 轉換後訓練集和測試集有相同的特徵數
# 視覺化 所解釋的方差與選取的特徵數目之間的關係
import matplotlib.pyplot as plt
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1,
np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('選取的特徵數目')
plt.ylabel('累計所解釋的方差累')
plt.show(); # LDA將原始的4個變數壓縮為2個,這2個變數即能解釋100%的方差
中文版 Jupyter 地址:
至此,基於 Jupyter 的特徵工程專欄已全部更新完畢,歷史文章彙總如下:
專欄 | 基於 Jupyter 的特徵工程手冊:資料預處理(一)
專欄 | 基於 Jupyter 的特徵工程手冊:資料預處理(二)
專欄 | 基於 Jupyter 的特徵工程手冊:資料預處理(三)
專欄 | 基於 Jupyter 的特徵工程手冊:資料預處理(四)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)
本文首發於公眾號:AI有道(ID: redstonewill),歡迎關注!