08 特徵工程 - 特徵降維 - LDA
線性判斷分析(LDA): LDA是一種基於分類模型進行特徵屬性合併的操作,是一種有監督的降維方法。
LDA原理
LDA的全稱是Linear Discriminant Analysis(線性判別分析),是一種有監督學習演算法。
LDA的原理是,將帶上標籤的資料(點),通過投影的方法,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近。用一句話概括就是:“投影后類內方差最小,類間方差最大”
下圖中,左邊的對映效果還不是很好,甚至有些分類還重合到了一起。右邊的對映效果很好,達到了類內資料方差小,類與類之間方差大。
下圖中的柱狀圖 表示有多少點落在了這一區間內。柱越高,說明這部分的資料越稠密。顯然右邊的方差會小於左邊的方差。
如何求解LDA問題
假定轉換為w,那麼線性轉換函式為x’= wTx; 並且轉換後的資料是一維的。
考慮二元分類的情況,認為轉換後的值大於某個閾值,屬於某個類別,小於等於某個閾值,屬於另外一個類別,使用類別樣本的中心點來表示類別資訊,那麼這個時候其實就相當於讓這兩個中心的距離最遠:
μj 表示原本資料的中心點。
μ‘j 表示原始資料經過座標軸轉換之後,新資料的中心點。
同時又要求劃分之後同個類別中的樣本資料儘可能的接近,也就是同類別的投影點的協方差要儘可能的小。
結合著兩者,那麼我們最終的目標函式就是:
對目標函式進行轉換(A、B為方陣,A為正定矩陣):
該式子和PCA降維中的優化函式一模一樣,所以直接對中間的矩陣進行矩陣分解即可。
PCA和LDA
相同點:
1、 兩者均可以對資料完成降維操作。
2、 兩者在降維時候均使用矩陣分解的思想。
3、 兩者都假設資料符合高斯分佈。
不同點:
1、 LDA是監督降維演算法,PCA是無監督降維演算法。
2、 LDA降維最多降到類別數目k-1的維數,而PCA沒有限制。
3、 LDA除了降維外,還可以應用於分類。
4、 LDA選擇的是分類效能最好的投影,而PCA選擇樣本點投影具有最大方差的方向。
相關文章
- 【完結篇】專欄 | 基於 Jupyter 的特徵工程手冊:特徵降維特徵工程
- 特徵工程之特徵選擇特徵工程
- 特徵工程之特徵表達特徵工程
- 特徵工程特徵工程
- 特徵工程之特徵預處理特徵工程
- 特徵工程:互動特徵與多項式特徵理解特徵工程
- 特徵工程思路特徵工程
- [特徵工程] encoding特徵工程Encoding
- 特徵工程梗概特徵工程
- 特徵工程 特徵選擇 reliefF演算法特徵工程演算法
- 什麼是機器學習的特徵工程?【資料集特徵抽取(字典,文字TF-Idf)、特徵預處理(標準化,歸一化)、特徵降維(低方差,相關係數,PCA)】機器學習特徵工程PCA
- 特徵工程系列:(三)特徵對齊與表徵特徵工程
- 【特徵工程】(資料)使用Xgboost篩選特徵重要性特徵工程
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 資料分析特徵工程方法特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)特徵工程
- 機器學習—降維-特徵選擇6-4(PCA-Kernel方法)機器學習特徵PCA
- 用Dask並行化特徵工程!並行特徵工程
- 一文讀懂特徵工程特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 量化投資中的特徵工程特徵工程
- Alink漫談(九) :特徵工程 之 特徵雜湊/標準化縮放特徵工程
- 特徵工程:基於梯度提升的模型的特徵編碼效果測試特徵工程梯度模型
- 特徵值和特徵向量特徵
- 特徵值與特徵向量特徵
- (特徵工程實戰)ML最實用的資料預處理與特徵工程常用函式!特徵工程函式
- python基礎學習之 特徵工程Python特徵工程
- 資料預處理和特徵工程特徵工程
- 機器學習2-特徵工程機器學習特徵工程
- 影象特徵提取之HoG特徵特徵HOG
- 特徵值 和 特徵向量,thrive特徵
- 掌握時間序列特徵工程:常用特徵總結與 Feature-engine 的應用特徵工程