特徵選擇(一)-維數問題與類內距離
什麼是特徵選擇?
簡單說,特徵選擇就是降維。
特徵選擇的任務
就是要從n維向量中選取m個特徵,把原向量降維成為一個m維向量。但是降維必須保證類別的可分離性或者說分類器的效能下降不多。
注意降維具有片面性,演算法並不普適。常常會有失效發生。
降維這件小事
在影像處理中叫做影像壓縮、特徵提取。重在最優區分(可分離性)。
在模式識別中叫做特徵選擇。重在最優描述(保真性)。
降維的基本思想
就是找一個線性變換使得原來的n維觀察值變成了
這樣維數就下降了,只是要求不能明顯降低類別的可分離性就好。本文介紹的都是線性變換。
為什麼要降維?
1.有可能當你使用某個特徵就能進行很好的分類,譬如一個二維問題很可能變成一維也可以分類,如圖1所示,把原來的樣本向y軸投影就好了,用一個y分量就能完成分類。可見降維確實很有用,關鍵在於如何找到像y方向這麼好的特徵呢?
圖1
2.當特徵的維數上升後,樣本的可分離性自然是會增加。但是,類別的可分離性和分類器的效能是完全不同的兩碼事。
G.F.Hughes給出了錯誤率跟每次試驗中的訓練樣本數n和特徵空間塊數M之間的關係曲線,如圖2所示。
圖2
其中d為維數,l是每維分為的段數。則特徵空間塊數
由圖可見隨著維數的繼續增加,錯誤率會持續上升。我們不能盲目增加維數來想當然提高分類效能。
3.維與維之間不一定是獨立的,可能因為相關性而存在冗餘。
4.維數大了計算量儲存量就大了嘛。
用什麼分類?
還是用距離。
點到點
設k為每個點的分量的下標,則點a到點b之間的距離為:
點到點集
假定點集內共有K個點,表示點集中第i個點的第k個分量:
類內距離
有一種定義類內距離的方法,它把類內所有點兩兩之間的距離的平均,作為類內距離。下面推導其表示式:
類內某點跟其他點之間的距離的平方:
再j令在集內變化,取平均,就得到類內距離,即:
由於和都取自同一類內,則有
各分量的方差的無偏估值為:
則有
這不是協方差的跡麼?
於是得到結論:類內距離為類協方差矩陣跡的2倍。
推論:某類樣本的協方差矩陣的跡很小,則類內距離小,說明資料抱團,很緊湊。
於是你會想,降維其實就是找個變換,讓變換後的資料各個類別抱團更加緊湊就好了。就是這樣沒錯。
那麼,怎麼降維?
剛剛已經給出了類內距離的概念。
針對這個概念,有人從完全不同的兩個角度給出了方法。
這就是聚類變換與K-L變換。
歡迎參與討論並關注本部落格和微博以及知乎個人主頁,後續內容繼續更新哦~
轉載請您尊重作者的勞動,完整保留上述文字以及本文連結,謝謝您的支援!
相關文章
- 特徵選擇和特徵生成問題初探特徵
- 最小距離分類器,互動式選取影像樣本分類資料,進行最小距離分類(實現歐式距離,馬氏距離,計程距離)
- 機器學習之特徵選擇和降維的理解機器學習特徵
- 特徵工程之特徵選擇特徵工程
- eMarketer:定位廣告的距離問題
- 機器學習 特徵工程之特徵選擇機器學習特徵工程
- 曼哈頓距離與切比雪夫距離
- 字串編輯距離問題詳解字串
- xgboost特徵選擇特徵
- xgboost 特徵選擇,篩選特徵的正要性特徵
- ch11 特徵選擇與稀疏學習特徵
- 距離-有這麼多類
- 機器學習—降維-特徵選擇6-4(PCA-Kernel方法)機器學習特徵PCA
- 特徵工程 特徵選擇 reliefF演算法特徵工程演算法
- 機器學習 – 特徵選擇演算法流程、分類、優化與發展綜述機器學習特徵演算法優化
- 機器學習 - 特徵選擇演算法流程、分類、優化與發展綜述機器學習特徵演算法優化
- 曼哈頓距離與切比雪夫距離的互化
- 02聚類演算法-相似度距離公式、維度災難聚類演算法公式
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)特徵工程
- EditText選擇模式的一些問題模式
- 特徵選擇技術總結特徵
- 卷積核大小選擇、網路層數問題卷積
- 一類生成樹計數問題。
- 用PriorityQueue解決選擇最小的K個數問題
- 使用xgboost進行特徵選擇特徵
- 決策樹模型(2)特徵選擇模型特徵
- 雙目測距與三維重建的OpenCV實現問題集錦(四)三維重建與OpenGL顯示OpenCV
- Linux運維常見筆試題(選擇題)Linux運維筆試
- 選擇問題——選取第K小元素
- 002---選擇器(標籤選擇器、類選擇器、id選擇器、偽類選擇器、萬用字元選擇器)字元
- 【Leetcode 每日一題】1030. 距離順序排列矩陣單元格(水題,曼哈頓距離排序)LeetCode每日一題矩陣排序
- 雙目測距與三維重建的OpenCV實現問題集錦(一)影象獲取與單目定標OpenCV
- 這就是選擇排序的問題排序
- CSS選擇器常見問題CSS
- 推薦系統中嵌入向量維數選擇
- 基於條件熵的特徵選擇熵特徵
- RF、GBDT、XGboost特徵選擇方法特徵
- 【爬坑日記】.class.class選擇器的選擇問題