機器學習之特徵選擇和降維的理解

知其然,知其所以然。發表於2017-09-23

在機器學習中,特徵選擇和降維感覺好像差不多,維度都降低了,今天和其他同學交流學習才知道其實不然,區別很大。

 

一般情況下,我們不會使用原始資料直接去進行訓練,因為原始資料的特徵明顯,資訊豐富,我們訓練後的效果對於訓練集非常好,而對於測試集來說就很差了。這就是過擬合問題。

當我們進行特徵提取後,維度依然不減,為了解決過擬合問題,就使用降維(常用PCA)或特徵選擇。

對於特徵選擇,就是從眾多個特徵中選擇部分特徵作為訓練集的特徵,拋棄剩餘部分的特徵,這樣維度就減少了,但是選中的這部分特徵就是原始資料中的特徵值。

對於降維,降維與特徵選擇相比最主要的區別就是降維會發生特徵資料值的變化,它是一個高維到低維的對映。

特徵選擇和降維都是為了解決過擬合問題。

 

相關文章