LDA(線性判別分析)

Sion258發表於2024-07-27

原文網址 : https://www.cnblogs.com/sionexshine/p/18326503

LDA

LDA(線性判別分析)

LDA(線性判別分析)
- 1.LDA是什麼
- 2.問題背景
- 3.投影
- 4.離散度
- 5.目標函式
- 6.推廣到多分類

1.LDA是什麼

LDA是一種解決二分類問題的線性方法。它描述，對於給定樣例集，將樣例點投影到一條直線上，這條直線能使異樣的樣例相距遠，同類的樣例分佈靠近，對於新的樣例，根據在這條直線上的投影判斷屬於哪一類別。

因此我們的所有任務圍繞確定直線展開。

2.問題背景

首先描述問題背景，這裡直接引用西瓜書原話：

這裡描述的是一個二分類問題。

那麼如何理解投影？

3.投影

若已知向量$\vec{x}$和向量$\vec{w}$ ,求$\vec{x}$在向量$\vec{w}$上的投影，可以用內積表示：
$$
\vec{x} \cdot \vec{w} = |\vec{x}||\vec{w}|\cos {\theta}
$$
當w為單位向量，該投影為：
$$
|\vec{x}|\cos {\theta}
$$
因此在下圖上，$y$表示target（標籤），假設x與y有線性關係由引數集合$w$確定（$y = wx + b，w^T = {w,b}*$）

則任意x在直線上的投影可以認為是x根據線性關係找到的y值，那麼這個投影過程表示為：
$$
w^TX
$$
其中$x_i$在向量$X$方向上($X={X_1;X_2..;X_i}$)

4.離散度

前面提到需要使得“異樣的樣例相距遠，同類的樣例分佈靠近”，因此我們需要一個衡量標準，異樣的距離使用類間散度衡量，同樣使用類內散度衡量

$ \ {\mu}_i$用來表示各類的均值，這裡只有$\ {\mu_0},{\mu_1}$,分別表示正類和負類的均值。異類之間的距離使用均值在直線的投影的距離表示：
$$
||w^T\mu_0-wT\mu_1||_2^2 = w^{T(\mu_0-\mu_1)(\mu_0-\mu_1)}Tw
$$
這裡下標2表示2類向量的模，即歐幾里得距離

同類之間使用協方差比較距離：
$$
w^T(\Sigma_0 + \Sigma_1) w
$$
$\ {\Sigma}$為協方差矩陣

為了簡化表示，我們引入兩個新概念，類間散度矩陣和類內散度矩陣。

類間散度矩陣用$\ {S_b}$表示：
$$
S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T
$$
類內散度矩陣用$S_w$表示：
$$
S_w= \Sigma_0+\Sigma_1
$$

5.目標函式

為了同時考慮”使同類樣例的投影點儘可能接近，可以讓同類樣例投影點的協方差儘可

能小“，設定目標函式：
$$
J=\frac{w^TS_bw}{wTS_ww}
$$
求這個目標函式的最大值可以轉換為求$\ S_b$和$\ S_w$的”廣義瑞利商“，這裡使用拉格朗日乘子法求解，具體過程不在討論範圍。

$$
min\quad ω^TS_bw\
s.t.\quad w^TS_ww = 1 .
$$

最終求得$\ w = S^{-1}(\mu_0-\mu_1)$

6.推廣到多分類

在多分類問題中，LDA一般作為降維方法進行屬性約簡。設target數量為N,$\mu$為所有資料的均值，$\ {\mu_i}$表示示屬性i的均值,$m_i$表示第i屬性的資料量。

首先定義”全域性散度矩陣“：
$$
S_t=S_b+S_w=\sum_{i=1}^{m({x_i}-\mu)({x_i}-\mu)}T
$$
$\ {S_w}$ 可以表示為：
$$
{S_w}i = \sum \Sigma_i = \sum_{x\in X_i} \ (x-\mu_i)(x-\mu_i)^T\
S_w = \sum_{i=1}^N S_{wi}
$$

$\ {S_b}$可以表示為：
$$
S_b=\sum_{i=1}^{Nm_i(\mu_i-\mu)(\mu_i-\mu)}T
$$
推導參考：

多分類 LDA 可以有多種實現方法，使用 $S_w$, $S_t$ 兩者中的任何兩個即可。常見的一種實現是採用最佳化目標

$$
max_W{\frac{tr(W^TS_bW)}{tr(WTS_wW)}}
$$
$tr(\cdot)$表示矩陣的跡（trace）即矩陣對角線上元素的和，我們在LDA中要做的是找到一個投影矩陣$W$，使得這個比值最大化。

該式可以轉換為一個最大廣義特徵值的問題的求解：
$$
S_bW=\lambda S_wW
$$
$W$的閉式解則是 $S_w ^{-1}S_b$_的N-1個最大廣義特徵值所對應的特徵向量組成的矩陣，即我們要求的投影矩陣

線性判別分析（Linear Discriminant Analysis, LDA）
2021-06-26
NaNLDA
ISLR讀書筆記七：線性判別分析（LDA）
2020-10-01
筆記LDA
運用sklearn進行線性判別分析(LDA)程式碼實現
2020-08-17
LDA
預處理（3）：python實現用scikit-learn實現的線性判別分析（LDA）
2020-11-24
PythonLDA
線性判別分析（Linear Discriminant Analysis）
2022-02-04
NaN
機器學習降維之線性判別分析
2019-07-19
機器學習
機器學習演算法（九）: 基於線性判別模型的LDA手寫數字分類識別
2023-03-29
機器學習演算法模型LDA
[DataAnalysis]機器學習演算法——線性模型（邏輯迴歸+LDA）
2018-08-26
機器學習演算法模型邏輯迴歸LDA
高等代數理論基礎24：線性方程組有解判別定理
2019-01-05
監督學習之高斯判別分析
2020-02-14
資料分析：線性迴歸
2022-05-19
LDA主題模型
2020-06-10
LDA模型
Collapsed Gibbs Sampling For LDA
2020-11-22
LDA
一文帶你深入分析：線性迴歸模型的線性假設分析及其意義
2019-07-03
模型
Think With Google：YouTube影片廣告性別分析
2019-12-17
Go
主題模型值LDA
2021-01-20
模型LDA
Oracle 計算欄位選擇性判別列的索引潛力
2019-04-11
Oracle索引
Javascript判斷資料型別的五種方式及其特殊性
2020-10-15
JavaScript資料型別
js判斷型別
2018-10-09
JS型別
JS 型別判斷
2018-03-27
JS型別
大資料分析筆記 (4.1) - 線性迴歸分析(Linear Regression)
2020-11-19
大資料筆記
隨機森林、EM、HMM、LDA
2018-03-27
隨機森林HMMLDA
使用帶型別判斷的比較判斷
2019-02-03
型別
PostgreSQL MVCC可見性判斷
2020-03-12
SQLMVC
數值分析：線性方程組的直接解法（上）
2024-11-27
ABAQUS軟體非線性分析有哪些特點
2022-09-22
答題判題程式分析
2024-04-21
08 特徵工程 - 特徵降維 - LDA
2019-01-04
特徵工程LDA
LDA臨時筆記，待整理
2018-07-31
LDA筆記
【火爐煉AI】機器學習040-NLP性別判斷分類器
2018-10-17
AI機器學習
恆訊科技分析：怎麼樣去判別伺服器的好與壞？
2021-04-29
伺服器
【筆試】陣列、線性表的本質區別
2018-06-08
筆試陣列
【LISTENER】Oracle分析連線監聽情況，判斷客戶端IP分佈
2022-03-07
Oracle客戶端
答題判題程式分析1
2024-10-26
AI及其判別演算法
2018-11-06
AI演算法
Python中型別最佳判斷方法
2019-03-04
Python型別
最安全的型別判斷
2018-12-09
型別
js判斷資料型別
2018-11-30
JS資料型別

LDA(線性判別分析)

LDA(線性判別分析)

1.LDA是什麼

2.問題背景

3.投影

4.離散度

5.目標函式

6.推廣到多分類

相關文章