特徵選擇（一）-維數問題與類內距離

ycheng_sjtu發表於2014-05-08

特徵

什麼是特徵選擇？

簡單說，特徵選擇就是降維。

特徵選擇的任務

就是要從n維向量中選取m個特徵，把原向量降維成為一個m維向量。但是降維必須保證類別的可分離性或者說分類器的效能下降不多。

注意降維具有片面性，演算法並不普適。常常會有失效發生。

降維這件小事

在影像處理中叫做影像壓縮、特徵提取。重在最優區分（可分離性）。

在模式識別中叫做特徵選擇。重在最優描述（保真性）。

降維的基本思想

就是找一個線性變換使得原來的n維觀察值變成了

這樣維數就下降了，只是要求不能明顯降低類別的可分離性就好。本文介紹的都是線性變換。

為什麼要降維？

1.有可能當你使用某個特徵就能進行很好的分類，譬如一個二維問題很可能變成一維也可以分類，如圖1所示，把原來的樣本向y軸投影就好了，用一個y分量就能完成分類。可見降維確實很有用，關鍵在於如何找到像y方向這麼好的特徵呢？

圖1

2.當特徵的維數上升後，樣本的可分離性自然是會增加。但是，類別的可分離性和分類器的效能是完全不同的兩碼事。

G.F.Hughes給出了錯誤率跟每次試驗中的訓練樣本數n和特徵空間塊數M之間的關係曲線，如圖2所示。

圖2

其中d為維數，l是每維分為的段數。則特徵空間塊數

由圖可見隨著維數的繼續增加，錯誤率會持續上升。我們不能盲目增加維數來想當然提高分類效能。

3.維與維之間不一定是獨立的，可能因為相關性而存在冗餘。

4.維數大了計算量儲存量就大了嘛。

用什麼分類？

還是用距離。

點到點

設k為每個點的分量的下標，則點a到點b之間的距離為：

點到點集

假定點集內共有K個點，表示點集中第i個點的第k個分量：

類內距離

有一種定義類內距離的方法，它把類內所有點兩兩之間的距離的平均，作為類內距離。下面推導其表示式：

類內某點跟其他點之間的距離的平方：

再j令在集內變化，取平均，就得到類內距離，即：

由於和都取自同一類內，則有

各分量的方差的無偏估值為：

則有

這不是協方差的跡麼？

於是得到結論：類內距離為類協方差矩陣跡的2倍。

推論：某類樣本的協方差矩陣的跡很小，則類內距離小，說明資料抱團，很緊湊。

於是你會想，降維其實就是找個變換，讓變換後的資料各個類別抱團更加緊湊就好了。就是這樣沒錯。

那麼，怎麼降維？

剛剛已經給出了類內距離的概念。

針對這個概念，有人從完全不同的兩個角度給出了方法。

這就是聚類變換與K-L變換。

歡迎參與討論並關注本部落格和微博以及知乎個人主頁，後續內容繼續更新哦~

轉載請您尊重作者的勞動，完整保留上述文字以及本文連結，謝謝您的支援！

特徵選擇和特徵生成問題初探
2018-07-29
特徵
難度2：素數距離問題
2020-04-05
最小距離分類器，互動式選取影像樣本分類資料，進行最小距離分類（實現歐式距離，馬氏距離，計程距離）
2021-01-03
特徵工程之特徵選擇
2018-10-26
特徵工程
馬氏距離與歐氏距離
2018-06-18
xgboost 特徵選擇，篩選特徵的正要性
2018-04-17
特徵
ch11 特徵選擇與稀疏學習
2024-06-21
特徵
特徵工程特徵選擇 reliefF演算法
2020-11-07
特徵工程演算法
曼哈頓距離與切比雪夫距離
2024-07-27
距離-有這麼多類
2024-08-13
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（一）
2020-04-22
特徵工程
02聚類演算法-相似度距離公式、維度災難
2018-12-08
聚類演算法公式
EditText選擇模式的一些問題
2019-02-19
模式
卷積核大小選擇、網路層數問題
2024-05-02
卷積
RF、GBDT、XGboost特徵選擇方法
2018-04-19
特徵
特徵選擇技術總結
2022-11-24
特徵
一類生成樹計數問題。
2024-03-09
D. Searchlights(思維+列舉距離)
2020-10-01
曼哈頓距離與切比雪夫距離的互化
2024-04-05
【Leetcode 每日一題】1030. 距離順序排列矩陣單元格（水題，曼哈頓距離排序）
2020-11-17
LeetCode每日一題矩陣排序
3-點的座標及最遠距離問題
2018-08-04
機器學習 – 特徵選擇演算法流程、分類、優化與發展綜述
2019-03-04
機器學習特徵演算法優化
Linux運維常見筆試題（選擇題）
2018-11-28
Linux運維筆試
用PriorityQueue解決選擇最小的K個數問題
2019-03-18
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
機器學習—降維-特徵選擇6-4（PCA-Kernel方法）
2022-03-16
機器學習特徵PCA
002---選擇器（標籤選擇器、類選擇器、id選擇器、偽類選擇器、萬用字元選擇器）
2018-04-18
字元
這就是選擇排序的問題
2020-10-13
排序
xgboost 特徵重要性選擇 / 看所有特徵哪個重要
2018-06-06
特徵
社會敘事與距離感
2020-03-05
【爬坑日記】.class.class選擇器的選擇問題
2018-07-17
基於條件熵的特徵選擇
2020-08-09
熵特徵
使用MySQL的geometry型別處理經緯度距離問題
2019-01-30
MySql型別
常見問題01：計算地球上兩個點的距離
2021-09-09
推薦系統中嵌入向量維數選擇
2020-12-02
【Python】距離
2024-08-17
Python
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（五）
2020-05-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（四）
2020-05-07
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（二）
2020-04-24
特徵工程

特徵選擇（一）-維數問題與類內距離

相關文章