聚類演算法

tongyuruo發表於2020-04-26

原文網址 : https://testerhome.com/topics/23343

本文是周志華《機器學習》第九章的學習筆記。

“無監督學習”通過對無標記訓練樣本的學習來揭示資料的內在性質及規律。通常，“無監督學習”包含的任務型別有“聚類”、“密度估計”、“異常檢測”等，下述將主要對“聚類”進行討論。

（1）“聚類”任務可以作為一個單獨過程，也可以作為分類等其他學習任務的前去過程，即根據聚類結果將每個“簇”定義為一個“類”，然後基於這些類訓練分類模型。（2）“聚類”任務中使用的樣本可以帶有標籤，也可以不帶標籤。對無標籤樣本進行聚類，其數學語言描述如下：假定樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$

D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}

包含

m

個無標記樣本，每個樣本

x_{i} = (x_{i 1}; x_{i 2}; \dots; x_{i n})

\boldsymbol{x}_i=(x_{i1};x_{i2};\cdots;x_{in})

是一個

n

維特徵向量，則聚類演算法將樣本集

D

劃分成

k

個互斥且完備的簇

{C_{l} | l = 1, 2, \dots, k}

\{C_l|l=1,2,\cdots,k\}

，即

C_{l^{^{'}}} ⋂_{l^{^{'}} \neq l} C_{l} = \emptyset

D = ⋃_{l = 1}^{k} C_{l}

D=\bigcup_{l=1}^{k}C_{l}

。用

λ_{j} \in {1, 2, \dots, k}

\lambda_{j}\in\{1,2,\cdots,k\}

表示樣本

x_{j}

\boldsymbol{x}_{j}

的“簇標記”，即

x_{j} \in C_{λ_{j}}

\boldsymbol{x}_{j}\in C_{\lambda_{j}}

。則樣本集

D

對應的聚類結果可表示為

λ = (λ_{1}, λ_{2}, \dots, λ_{m})

\boldsymbol{\lambda}=(\lambda_{1},\lambda_{2},\cdots,\lambda_{m})

。

效能度量

聚類演算法的預期目標是“簇內相似度”高，“簇間相似度”低。通過“效能度量”評估聚類結果好壞，將“效能度量”作為“聚類過程優化的目標”。聚類效能度量主要有兩大類：（1）外部指標：將聚類結果與某個“參考模型”進行比較；（2）內部指標：直接參考聚類結果而不利用

外部指標：

對資料集 $D = {x_{1}, x_{2}, \dots, x_{m}}$

D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}

的簇劃分

C = {C_{1}, C_{2}, \dots, C_{k}}

\mathcal{C}=\{C_1,C_2,\cdots,C_k\}

參考模型給出的簇劃分

C^{*} = {C_{1}^{*}, C_{2}^{*}, \dots, C_{k}^{*}}

\mathcal{C^*}=\{C^*_1,C^*_2,\cdots,C^*_k\}

，且

λ

\boldsymbol{\lambda}

表示

C

\mathcal{C}

對應的簇標記向量、

λ^{*}

\boldsymbol{\lambda^*}

表示

C^{*}

\mathcal{C^*}

對應的簇標記向量，則可定義

\begin{matrix} a = | S S | ， S S = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j} \\ b = | S D | ， S D = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j} \\ c = | D S | ， D S = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j} \\ d = | D D | ， D D = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j} \end{matrix}

\begin{matrix} a=|SS|，SS=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}\\ b=|SD|，SD=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i=\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\}\\ c=|DS|，DS=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i\neq\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}\\ d=|DD|，DD=\{(\boldsymbol{x}_i,\boldsymbol{x}_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\}\\ \end{matrix}

Jaccard係數： $J C = \frac{a}{a + b + c}$
\displaystyle JC=\frac{a}{a+b+c}
FM指數： $F M I = \sqrt{\frac{a}{a + b} \cdot \frac{a}{a + c}}$
\displaystyle FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}
Rand指數： $R I = \frac{2 (a + d)}{m (m - 1)}$
\displaystyle RI=\frac{2(a+d)}{m(m-1)}

其中， $J C, F M I, R I \in [0, 1]$

JC,FMI,RI\in[0,1]

，且值越大代表聚類效果越好。

內部指標：

根據對資料集 $D = {x_{1}, x_{2}, \dots, x_{m}}$

D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}

的簇劃分

C = {C_{1}, C_{2}, \dots, C_{k}}

\mathcal{C}=\{C_1,C_2,\cdots,C_k\}

，定義

\begin{matrix} 簇 C 內 樣 本 間 平 均 距 離 ： a v g (C) = \frac{2}{| C | (| C | - 1)} \sum_{1 \leq i < j \leq | C |} d i s t (x_{i}, x_{j}) \\ 簇 C 內 樣 本 間 最 遠 距 離 ： d i a m (C) = max_{1 \leq i < j \leq | C |} d i s t (x_{i}, x_{j}) \\ 簇 C_{i} 和 C_{j} 最 近 樣 本 間 的 距 離 ： d_{m i n} (C_{i}, C_{j}) = min_{x_{i} \in C_{i}, x_{j} \in C_{j}} d i s t (x_{i}, x_{j}) \\ 簇 C_{i} 和 C_{j} 中 心 點 間 的 距 離 ： d_{c e n} (C_{i}, C_{j}) = d i s t (μ_{i}, μ_{j}) \end{matrix}

\begin{matrix} 簇C內樣本間平均距離：\displaystyle avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|}dist(\boldsymbol{x}_i,\boldsymbol{x}_j) \\ 簇C內樣本間最遠距離：\displaystyle diam(C)=\max_{1\leq i<j\leq|C|}dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\\ 簇C_i和C_j最近樣本間的距離：\displaystyle d_{min}(C_i,C_j)=\min_{\boldsymbol{x}_i\in C_i,\boldsymbol{x}_j\in C_j}dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\\ 簇C_i和C_j中心點間的距離：\displaystyle d_{cen}(C_i,C_j)=dist(\boldsymbol{\mu}_i,\boldsymbol{\mu}_j)\\ \end{matrix}

上式中

d i s t (\cdot, \cdot)

dist(\cdot,\cdot)

計算兩樣本間的距離，

μ

\boldsymbol{\mu}

代表簇

C

的中心點

μ = \frac{1}{| C |} \sum_{1 \leq i \leq | C |} x_{i}

\displaystyle\boldsymbol{\mu}=\frac{1}{|C|}\sum_{1\leq i\leq|C|}\boldsymbol{x}_i

。

DB指數： $D B I = \frac{1}{k} \sum_{i = 1}^{k} max_{j \neq i} (\frac{a v g (C_{i}) + a v g (C_{j})}{d_{c e n} (μ_{i}, μ_{j})})$
\displaystyle DBI=\frac{1}{k}\sum_{i=1}^{k}\max\limits_{j\neq i}\Big(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\boldsymbol{\mu}_i,\boldsymbol{\mu}_j)}\Big)
Dunn指數： $D I = min_{1 \leq i \leq k} {min_{j \neq i} (\frac{d_{m i n} (C_{i}, C_{j})}{max_{1 \leq l \leq k} d i a m (C_{l})})}$
\displaystyle DI=\min\limits_{1\leq i\leq k}\Big\{\min\limits_{j\neq i}\Big(\frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)}\Big)\Big\}

距離計算

滿足非負性、對稱性、傳遞性的基本度量距離，即L1,L2,Lp範數：

\begin{matrix} d i s t_{m a n} (x_{i}, x_{j}) = | | x_{i} - x_{j} | |_{1} = \sum_{u = 1}^{n} | x_{i u} - x_{j u} | \\ d i s t_{e d} (x_{i}, x_{j}) = | | x_{i} - x_{j} | |_{2} = \sqrt{\sum_{u = 1}^{n} | x_{i u} - x_{j u} |^{2}} \\ d i s t_{m k} (x_{i}, x_{j}) = (\sum_{u = 1}^{n} | x_{i u} - x_{j u} |^{p})^{\frac{1}{p}} \end{matrix}

\begin{matrix} dist_{man}(\boldsymbol{x}_i,\boldsymbol{x}_j)=||\boldsymbol{x}_i-\boldsymbol{x}_j||_1=\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|\\ dist_{ed}(\boldsymbol{x}_i,\boldsymbol{x}_j)=||\boldsymbol{x}_i-\boldsymbol{x}_j||_2=\sqrt{\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^{2}}\\ dist_{mk}(\boldsymbol{x}_i,\boldsymbol{x}_j)=\Big(\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^{p}\Big)^{\frac{1}{p}}\\ \end{matrix}

“連續屬性”：在定義域上有無窮多個可能的取值
“離散屬性”：在定義域上是有限個取值
“有序屬性”：在該屬性上定義了“序”關係，如 ${1, 2, 3}$

\{1,2,3\}

裡“

1

”與“

2

”比較接近，與“

3

”相距較遠。
“無序屬性”：如

{飞 机, 汽 车, 轮 船}

\{飛機,汽車,輪船\}

這樣的離散屬性即為無序屬性。
可以直接在有序屬性上計算距離，但不能直接在無序屬性上計算距離。
（1）無序屬性可利用VDM距離度量：

$V D M_{p} (a, b) = \sum_{i = 1}^{k} | \frac{m_{u, a, i}}{m_{u, a}} - \frac{m_{u, b, i}}{m_{u, b}} |^{p}$
\displaystyle VDM_p(a,b)=\sum\limits_{i=1}^{k}\Big|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}\Big|^p

上式中 $m_{u, a}$

m_{u,a}

表示在屬性

u

上取值為

a

的樣本數，

m_{u, a, i}

m_{u,a,i}

表示在第

i

個簇中在屬性

u

上取值為

a

的樣本數，

k

為簇數。

（2）混合屬性(樣本向量不同維度，既包含有序屬性又包含無序屬性)可將Minkowski(Lp範數)距離和VDM結合：

$M i n k o v D M_{p} (x_{i}, x_{j}) = (\sum_{u = 1}^{n_{c}} | x_{i u} - x_{j u} |^{p} + \sum_{u = n_{c} + 1}^{n} V D M_{p} (x_{i u}, y_{j u}))^{\frac{1}{p}}$
\displaystyle MinkovDM_{p}(\boldsymbol{x}_i,\boldsymbol{x}_j)=\Big(\sum\limits_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum\limits_{u=n_c+1}^{n}VDM_{p}(x_{iu},y_{ju})\Big)^\frac{1}{p}

原型指樣本空間裡“具有代表性的點”，可通過一組原型刻畫聚類結構。基於原型的聚類演算法——對原型初始化，對原型迭代更新。

原型聚類——K-means

“K均值”演算法對樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$

D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}

聚類，得到的簇劃分

C = {C_{1}, C_{2}, \dots, C_{k}}

\mathcal{C}=\{C_1,C_2,\cdots,C_k\}

對應的最小化平方誤差：

E = \sum_{i = 1}^{k} \sum_{x \in C_{i}} | | x - μ_{i} | |_{2}^{2} ， 其 中 μ_{i} = \frac{1}{C_{i}} \sum_{x \in C_{i}} x 是 簇 C_{i} 的 均 值 向 量

\displaystyle E=\sum\limits_{i=1}^{k}\sum\limits_{\boldsymbol{x}\in C_i}||\boldsymbol{x}-\boldsymbol{\mu}_i||^2_2，其中\boldsymbol{\mu}_i=\frac{1}{C_i}\sum\limits_{\boldsymbol{x}\in C_i}\boldsymbol{x}是簇C_i的均值向量

E

刻畫了簇內樣本圍繞簇均值向量的緊密程度，

E

值越小表示簇內樣本相似度越高。要想求

E

的最優解，需要遍歷考查樣本集

D

所有可能的簇劃分，是NP難問題；實際操作中，常採用貪心策略，通過迭代優化近似求解。

輸入：樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$
D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}
；聚類簇數 $k$
k
.
演算法流程：
（1）從 $D$
D
裡隨機選 $k$
k
個樣本作為初始均值向量 ${μ_{1}, μ_{2}, \dots, μ_{k}}$
\{\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\cdots,\boldsymbol{\mu}_k\}
.
（2）通過迴圈逐個生成簇，目標是生成
k
個聚類簇：
- 對 $D$
  D
  裡每個樣本 $x_{i}$
  \boldsymbol{x}_i
  ：
- a.）計算該樣本與各均值向量 $μ_{i}$
  \boldsymbol{\mu}_i
  的距離： $d_{j i} = | | x_{j} - μ_{i} | |_{2}$
  d_{ji}=||\boldsymbol{x}_j-\boldsymbol{\mu}_i||_2
  ，
- b.）對應可得樣本 $μ_{i}$
  \boldsymbol{\mu}_i
  所歸屬的簇標記 $λ_{j} = a r g m i n_{i \in {1, 2, \dots, k}} d_{j i}$
  \lambda_j=argmin_{i\in\{1,2,\cdots,k\}}d_{ji}
  ，
- c.）把樣本 $x_{i}$
  \boldsymbol{x}_i
  加入簇 $C_{λ_{j}} = C_{λ_{j}} ⋃ x_{j}$
  C_{\lambda_{j}}=C_{\lambda_{j}}\bigcup{\boldsymbol{x}_j}
  .
- 更新各個聚類簇的均值向量 $μ_{i}^{^{'}} = \frac{1}{| C_{i} |} \sum_{x \in C_{i}} x$
  \displaystyle\boldsymbol{\mu}^{'}_i=\frac{1}{|C_i|}\sum_{\boldsymbol{x}\in C_i}\boldsymbol{x}
  ，
- 判斷 $μ_{i}^{^{'}}$
  \boldsymbol{\mu}^{'}_i
  與 $μ_{i}$
  \boldsymbol{\mu}_i
  是否相等，相等則該聚類簇中心不變，不相等則更新為 $μ_{i}^{^{'}}$
  \boldsymbol{\mu}^{'}_i
  .
（3）重複以上過程（2），直到達到最大迭代次數限制；或對所有 $i$
i
滿足 $| μ_{i}^{^{'}} - μ_{i} | \leq ϵ （ ϵ 是任意正数）$
|\boldsymbol{\mu}^{'}_i-\boldsymbol{\mu}_i|\leq \epsilon（\epsilon是任意正數）
時，停止迭代.

原型聚類——學習向量量化LVQ

LVQ演算法裡假設資料樣本帶有“類別標籤”，簇劃分過程需要記住“類別標籤”輔助學習。即，對於給定的樣本集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})}$

D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots,(\boldsymbol{x}_m,y_m)\}

，

n

維屬性

x_{j} = (x_{j 1}, x_{j 2}, \dots, x_{j n})

\boldsymbol{x}_j=(x_{j1},x_{j2},\cdots,x_{jn})

，樣本

x_{j}

\boldsymbol{x}_j

的類標記

y_{j} \in Y

y_j\in\mathcal{Y}

。
LVQ的目標是學習到一組“代表各個聚類簇”的 $n$
n
維原型向量

{p_{1}, p_{2}, \dots, p_{q}}

\{\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q\}

，即原型向量和樣本的屬性具有相同的維度。由此，LVQ初始化第

q

個簇的原型向量的一種方法：從類別標記為

t_{q}

t_q

的樣本里，隨機選取一個“樣本屬性向量”作為“初始原型向量”。

輸入：樣本集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})}$
D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots,(\boldsymbol{x}_m,y_m)\}
；原型向量個數 $q$
q
；各原型向量初始類別標記 ${t_{1}, t_{2}, \dots, t_{q}}$
\{t_1,t_2,\cdots,t_q\}
；學習率 $η \in (0, 1)$
\eta\in(0,1)
.
演算法流程：
（1）從類別標記為 $t_{i} (i = 1, 2, \dots, q)$
t_i(i=1,2,\cdots,q)
的樣本里，隨機選取一個“樣本屬性向量”作為初始原型向量 $p_{i} (i = 1, 2, \dots, q)$
\boldsymbol{p}_i(i=1,2,\cdots,q)
；得初始化原型向量組 ${p_{1}, p_{2}, \dots, p_{q}}$
\{\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_q\}
.
（2）遍歷更新每個原型向量：
- 隨機選取 $D$
  D
  內的一個樣本 $(x_{j}, y_{j})$
  (\boldsymbol{x}_j,y_j)
  ：
- a.）計算該樣本與各個原型向量 $p_{i} (i = 1, 2, \dots, q)$
  \boldsymbol{p}_i(i=1,2,\cdots,q)
  的距離： $d_{j i} = | | x_{j} - p_{i} | |_{2}$
  d_{ji}=||\boldsymbol{x}_j-\boldsymbol{p}_i||_2
  ，
- b.）找出與 $x_{j}$
  \boldsymbol{x}_j
  距離最近的原型向量 $p_{i}^{*}$
  \boldsymbol{p}^*_i
  ， $i^{*} = a r g m i n_{i \in {1, 2, \dots, q}} d_{j i}$
  i^*=argmin_{i\in\{1,2,\cdots,q\}}d_{ji}
  ，
- c.）更新原型向量：如 $y_{j} = t_{i}^{*}$
  y_j=t^*_i
  ，則 $p^{^{'}} = p_{i}^{*} + η \cdot (x_{j} - p_{i}^{*})$
  \boldsymbol{p}^{'}=\boldsymbol{p}^*_i+\eta\cdot(\boldsymbol{x}_j-\boldsymbol{p}^*_i)
  (原型向量靠近 $x_{j}$
  x_j
  )；否則， $p^{^{'}} = p_{i}^{*} - η \cdot (x_{j} - p_{i}^{*})$
  \boldsymbol{p}^{'}=\boldsymbol{p}^*_i-\eta\cdot(\boldsymbol{x}_j-\boldsymbol{p}^*_i)
  (原型向量遠離 $x_{j}$
  x_j
  ).
（3）重複以上過程（2），直到達到最大迭代次數限制；或“原型向量”更新很小甚至不更新時，停止迭代.

原型聚類——高斯混合聚類

高斯混合聚類採用“概率模型”來表達聚類原型，定義高斯混合分佈

p_{M} (x) = \sum_{i = 1}^{k} α_{i} \cdot p (x | μ_{i}, Σ_{i}) = \sum_{i = 1}^{k} α_{i} \cdot \frac{1}{(2 π)^{\frac{n}{2}} | Σ_{i} |^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i})}

p_\mathcal{M}(\boldsymbol{x})=\sum\limits_{i=1}^{k}\alpha_i\cdot p(\boldsymbol{x}|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)=\sum\limits_{i=1}^{k}\alpha_i\cdot \frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{\Sigma}_i|^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_i)^{T}\boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_i)}

上式，

μ_{i}

\boldsymbol{\mu}_i

是第

i

個高斯混合成分的

n

維均值矩陣；

Σ_{i}

\boldsymbol{\Sigma}_i

是第

i

個高斯混合成分的

n \times n

n\times n

維協方差矩陣；

α_{i} > 0

\alpha_i>0

是第

i

個高斯混合成分的“混合係數”，且

\sum_{i = 1}^{k} α_{i} = 1

\sum\limits_{i=1}^k\alpha_i=1

。

樣本生成過程：根據“混合係數”定義的先驗分佈，選擇該樣本所屬的高斯混合成分(其中 $α_{i}$

\alpha_i

是選擇第

i

個高斯混合成分的概率)，根據被選擇的高斯混合成分的“概率密度函式”進行“取樣”，從而生成相應的樣本。

定義隨機變數 $z_{j} \in {1, 2, \dots, k}$

z_j\in\{1,2,\cdots,k\}

表示生成樣本

x_{j}

\boldsymbol{x}_j

的高斯混合成分，則

z_{j}

z_j

的先驗概率

P (z_{j} = i) = α_{i}

P(z_j=i)=\alpha_i

，由貝葉斯公式

z_{j}

z_j

的後驗分佈

p_{M} (z_{j} = i | x_{j}) = \frac{P (z_{j} = i) \cdot p_{M} (x_{j} | z_{j} = i)}{p_{M} (x_{j})} = \frac{α_{i} \cdot p (x_{j} | μ_{i}, Σ_{i})}{\sum_{l = 1}^{k} α_{l} \cdot p (x_{j} | μ_{l}, Σ_{l})} ≜ γ_{j i}

p_\mathcal{M}(z_j=i|\boldsymbol{x}_j)=\frac{P(z_j=i)\cdot p_\mathcal{M}(\boldsymbol{x}_j|z_j=i)}{p_\mathcal{M}(\boldsymbol{x}_j)}=\frac{\alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)}{\sum\limits_{l=1}^k \alpha_l\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_l,\boldsymbol{\Sigma}_l)}\triangleq\gamma_{ji}

（1）若模型引數已知，即模型確定時，將樣本集

D

劃分為

k

個簇

C = {C_{1}, C_{2}, \dots, C_{k}}

\mathcal{C}=\{C_1,C_2,\cdots,C_k\}

的方法：每個樣本

x_{j}

\boldsymbol{x}_j

的簇標記

λ_{j} = \underset{i \in {1, 2, \dots, k}}{a r g max} γ_{j i}

\lambda_j=\underset{i\in\{1,2,\cdots,k\}}{arg\max} \gamma_{ji}

。
（2）模型引數

{(α_{i}, μ_{i}, Σ_{i}) | 1 \leq i \leq k}

\{(\alpha_i,\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)|1\leq i\leq k\}

利用“極大似然估計求導和EM演算法迭代”學習：

L L (D) = l n (\prod_{j = 1}^{m} p_{M} (x_{j})) = l n (\prod_{j = 1}^{m} (\sum_{i = 1}^{k} P (z_{j} = i) \cdot p_{M} (x_{j} | z_{j} = i))) = l n (\prod_{j = 1}^{m} (\sum_{i = 1}^{k} α_{i} \cdot p (x_{j} | μ_{i}, Σ_{i}))) = \sum_{j = 1}^{m} l n (\sum_{i = 1}^{k} α_{i} \cdot p (x_{j} | μ_{i}, Σ_{i}))

LL(D)=ln\Big(\prod\limits_{j=1}^m p_\mathcal{M}(\boldsymbol{x}_j)\Big)=ln\Big(\prod\limits_{j=1}^m\big(\sum\limits_{i=1}^k P(z_j=i)\cdot p_\mathcal{M}(\boldsymbol{x}_j|z_j=i)\big)\Big)\\ =ln\Big(\prod\limits_{j=1}^m\big(\sum\limits_{i=1}^k \alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)\big)\Big)=\sum\limits_{j=1}^m ln\Big(\sum\limits_{i=1}^k \alpha_i\cdot p(\boldsymbol{x}_j|\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)\Big)

由

\frac{\partial L L (D)}{\partial μ_{i}} = 0

\displaystyle\frac{\partial LL(D)}{\partial\boldsymbol{\mu}_i}=0

可求得

μ_{i} = \frac{\sum_{j = 1}^{m} γ_{j i} x_{j}}{\sum_{j = 1}^{m} γ_{j i}}

\displaystyle\boldsymbol{\mu}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}\boldsymbol{x}_j}{\sum\limits_{j=1}^m \gamma_{ji}}

；由

\frac{\partial L L (D)}{\partial Σ_{i}} = 0

\displaystyle\frac{\partial LL(D)}{\partial\boldsymbol{\Sigma}_i}=0

可求得

Σ_{i} = \frac{\sum_{j = 1}^{m} γ_{j i} (x_{j} - μ_{i}) (x_{j} - μ_{i})^{T}}{\sum_{j = 1}^{m} γ_{j i}}

\displaystyle\boldsymbol{\Sigma}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}(\boldsymbol{x}_j-\boldsymbol{\mu}_i)(\boldsymbol{x}_j-\boldsymbol{\mu}_i)^T}{\sum\limits_{j=1}^m \gamma_{ji}}

；將約束

α_{i} > 0, \sum_{i = 1}^{k} α_{i} = 1

\alpha_i>0,\sum\limits_{i=1}^k\alpha_i=1

轉化成Lagrange乘子後求導，即

\frac{\partial (L L (D) + λ (\sum_{i = 1}^{k} α_{i} - 1))}{\partial α_{i}} = 0

\displaystyle\frac{\partial\Big(LL(D)+\lambda(\sum\limits_{i=1}^k\alpha_i-1)\Big)}{\partial\alpha_i}=0

，可求得

α_{i} = \frac{1}{m} \sum_{j = 1}^{m} γ_{j i}

\displaystyle\alpha_i=\frac{1}{m}\sum\limits_{j=1}^m \gamma_{ji}

。

輸入：樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$
D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}
；高斯混合成分個數 $k$
k
.
演算法流程：
（1）初始化高斯混合分佈的模型引數 ${(α_{i}, μ_{i}, Σ_{i}) | 1 \leq i \leq k}$
\{(\alpha_i,\boldsymbol{\mu}_i,\boldsymbol{\Sigma}_i)|1\leq i\leq k\}
.
（2）遍歷更新每個樣本：
- 根據貝葉斯公式，計算每個樣本 $x_{j}$
  \boldsymbol{x}_j
  由各高斯混合成分生成的後驗概率 $γ_{j i} = p_{M} (z_{j} = i | x_{j}) ， (1 \leq i \leq k)$
  \gamma_{ji}=p_\mathcal{M}(z_j=i|\boldsymbol{x}_j)，(1\leq i\leq k)
  .
（3）更新每個高斯混合成分的引數：
- a.）計算新均值向量 $μ_{i}^{^{'}} = \frac{\sum_{j = 1}^{m} γ_{j i} x_{j}}{\sum_{j = 1}^{m} γ_{j i}}$
  \displaystyle\boldsymbol{\mu^{'}}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}\boldsymbol{x}_j}{\sum\limits_{j=1}^m \gamma_{ji}}
  ，
- b.）計算新協方差矩陣 $Σ_{i}^{^{'}} = \frac{\sum_{j = 1}^{m} γ_{j i} (x_{j} - μ_{i}) (x_{j} - μ_{i})^{T}}{\sum_{j = 1}^{m} γ_{j i}}$
  \displaystyle\boldsymbol{\Sigma^{'}}_i=\frac{\sum\limits_{j=1}^m \gamma_{ji}(\boldsymbol{x}_j-\boldsymbol{\mu}_i)(\boldsymbol{x}_j-\boldsymbol{\mu}_i)^T}{\sum\limits_{j=1}^m \gamma_{ji}}
  ,
- c.）計算新混合係數 $α_{i}^{^{'}} = \frac{1}{m} \sum_{j = 1}^{m} γ_{j i}$
  \displaystyle\alpha^{'}_i=\frac{1}{m}\sum\limits_{j=1}^m \gamma_{ji}
  .
（4）根據後驗概率 $γ_{j i}$
\gamma_{ji}
，對每個樣本確定簇標記 $λ_{j} = \underset{i \in {1, 2, \dots, k}}{a r g max} γ_{j i}$
\lambda_j=\underset{i\in\{1,2,\cdots,k\}}{arg\max} \gamma_{ji}
，則第 $C_{λ_{j}}$
C_{\lambda_j}
個簇更新為 $C_{λ_{j}} = C_{λ_{j}} ⋃ {x_{j}}$
C_{\lambda_j}=C_{\lambda_j}\bigcup\{\boldsymbol{x}_j\}
.

密度聚類

此類方法通過“樣本分佈的緊密程度”確定聚類結構。即，從樣本密度角度考察樣本之間的可連線性，並基於可連線樣本不斷擴充套件聚類簇，以獲得最終的聚類結果。

密度聚類演算法DBSCAN

該演算法是對給定的資料集 $D = {x_{1}, x_{2}, \dots, x_{m}}$

D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}

，基於一組“鄰域”引數

(ϵ, M i n P t s)

(\epsilon,MinPts)

，刻畫樣本分佈的緊密程度。首先，給出如下定義：
（1） $ϵ -$
\epsilon-
鄰域：

x_{j} \in D

\boldsymbol{x}_j\in D

的

ϵ -

\epsilon-

鄰域指該鄰範圍內包含的所有其餘樣本點集合，

N_{ϵ} (x_{j}) = {x_{i} \in D | d i s t (x_{i}, x_{j}) \leq ϵ}

N_{\epsilon}(\boldsymbol{x}_j)=\{\boldsymbol{x}_i\in D|dist(\boldsymbol{x}_i,\boldsymbol{x}_j)\leq\epsilon\}

.
（2）核心物件：某樣本

x_{j}

\boldsymbol{x}_j

是核心樣本，指其

ϵ -

\epsilon-

鄰域內至少包含

M i n P t s

MinPts

個樣本點，即

| N_{ϵ} (x_{j}) | \geq M i n P t s

|N_{\epsilon}(\boldsymbol{x}_j)|\geq MinPts

.
（3）密度直達：

x_{j}

\boldsymbol{x}_j

是核心物件

x_{i}

\boldsymbol{x}_i

的

ϵ -

\epsilon-

鄰域內的點，稱

x_{j}

\boldsymbol{x}_j

由

x_{i}

\boldsymbol{x}_i

密度直達.
（4）密度可達：若有樣本序列

x_{i} = p_{1}, p_{2}, \dots, p_{n} = x_{j}

\boldsymbol{x}_i=\boldsymbol{p}_1,\boldsymbol{p}_2,\cdots,\boldsymbol{p}_n=\boldsymbol{x}_j

，且後一樣本點

p_{i + 1}

\boldsymbol{p}_{i+1}

由前一樣本點

p_{i}

\boldsymbol{p}_i

密度直達，則

x_{j}

\boldsymbol{x}_j

由

x_{i}

\boldsymbol{x}_i

密度可達.
（5）密度相連：若樣本點

x_{i}

\boldsymbol{x}_i

和

x_{j}

\boldsymbol{x}_j

均由

x_{k}

\boldsymbol{x}_k

密度可達，則

x_{i}

\boldsymbol{x}_i

和

x_{j}

\boldsymbol{x}_j

密度相連.

DBSCAN演算法的“簇”是由密度可達匯出的“最大”密度相連的“樣本的集合”。若

x

\boldsymbol{x}

為核心物件，由 $x$
\boldsymbol{x}
密度可達的所有樣本組合的集合，即形成一個聚類簇。最後，簇劃分確定後，資料集

D

中不屬於任何簇的樣本，通常看作“噪聲”或“異常樣本”。

輸入：樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$
D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}
；鄰域引數 $(ϵ, M i n P t s)$
(\epsilon,MinPts)
.
演算法流程：
（1）初始化核心物件集合 $Ω = \emptyset$
（2）遍歷每個樣本，確定該樣本是否是核心物件：
- 對於樣本 $x_{j}$
  \boldsymbol{x}_j
  ，若 $| N_{ϵ} (x_{j}) | \geq M i n P t s$
  |N_{\epsilon}(\boldsymbol{x}_j)|\geq MinPts
  ，則該樣本是核心物件，更新 $Ω = Ω ⋃ {x_{j}}$
  \Omega=\Omega\bigcup\{\boldsymbol{x}_j\}
  .
（3）根據核心物件的密度可達關係，確定每一個聚類簇：
- a.）隨機選取一個核心物件初始化佇列 $Q$
  Q
  ，初始化未訪問樣本集 $Γ = D$
  \Gamma=D
  ，
- b.）取 $Q$
  Q
  的首個元素，考查其 $ϵ$
  \epsilon
  鄰域內的樣本點是否已被劃分到某個簇：若未被劃分到某個簇，則加入當前簇；若已被劃分到某個簇，則continue，
- c.）考查該鄰域內的樣本點是否是核心物件：如果是，則進一步根據密度可達關係擴張，獲得外圍樣本點，回到b.）進一步考察；如果不是，則停止.

層次聚類

層次聚類是在“不同層次”對資料集進行劃分，形成“樹形的聚類結構”。資料集的劃分方式：（1）“自底向上”聚合（2）“自頂向下”分拆。

AGNES自底向上聚合的層次聚類演算法

該演算法初始將每個樣本看成一個聚類簇，每一步對“距離最近的兩個聚類簇”合併，重複以上過程直到達到預設的聚類簇個數。
計算聚類簇間距離的不同定義：

\begin{matrix} 最 小 距 離 ： d_{min} (C_{i}, C_{j}) = min_{x \in C_{i}, z \in C_{j}} d i s t (x, z) \\ 最 大 距 離 ： d_{max} (C_{i}, C_{j}) = max_{x \in C_{i}, z \in C_{j}} d i s t (x, z) \\ 平 均 距 離 ： d_{a v g} (C_{i}, C_{j}) = \frac{1}{| C_{i} | | C_{j} |} \sum_{x \in C_{i}} \sum_{z \in C_{j}} d i s t (x, z) \end{matrix}

\begin{matrix} 最小距離：\displaystyle d_{\min}(C_i,C_j)=\min\limits_{\boldsymbol{x}\in C_{i},\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z}) \\ 最大距離：\displaystyle d_{\max}(C_i,C_j)=\max\limits_{\boldsymbol{x}\in C_{i},\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z}) \\ 平均距離：\displaystyle d_{avg}(C_i,C_j)=\frac{1}{|C_i||C_j|}\sum\limits_{\boldsymbol{x}\in C_{i}}\sum\limits_{\boldsymbol{z}\in C_{j}}dist(\boldsymbol{x},\boldsymbol{z})\\ \end{matrix}

輸入：樣本集 $D = {x_{1}, x_{2}, \dots, x_{m}}$
D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m\}
；聚類簇聚類度量函式 $d$
d
；聚類簇數 $k$
k
.
演算法流程：
（1）初始化，每個樣本作為一個聚類簇 $C_{j} = {x_{j}} ， j = 1, 2, \dots, m$
C_j=\{\boldsymbol{x}_j\}，j=1,2,\cdots,m
.
（2）遍歷每個樣本，計算距離矩陣：
- 對於任意兩個樣本，計算距離，得距離矩陣 $M (i, j) = d (C_{i}, C_{j}) ， M (i, j) = M (j, i) ， j > i$
  M(i,j)=d(C_i,C_j)，M(i,j)=M(j,i)，j>i
  .
（3）若聚類簇個數大於預計聚類簇數，則合併距離最近的兩個聚類簇，更新距離矩陣：
- a.）找到距離最近的兩個聚類簇 $C_{i^{*}}$
  C_{i^*}
  和 $C_{j^{*}}$
  C_{j^*}
  ，合併得 $C_{i^{*}} = C_{i^{*}} ⋃ C_{j^{*}}$
  C_{i^*}=C_{i^*}\bigcup C_{j^*}
  ，
- b.）對編號在 $j^{*}$
  j^*
  後的聚類簇重新編號，即編號往前減1，
- c.）刪除距離矩陣的第 $j^{*}$
  j^*
  行和第 $j^{*}$
  j^*
  列，對新劃分的聚類簇計算距離矩陣.
（4）重複以上過程（3），直到聚類簇聚合到預期聚類簇數，停止迭代.

聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
聚類演算法綜述
2018-12-09
聚類演算法
OPTICS聚類演算法原理
2020-05-14
聚類演算法
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
可伸縮聚類演算法綜述（可伸縮聚類演算法開篇）
2018-10-30
聚類演算法
Spark中的聚類演算法
2020-09-27
Spark聚類演算法
深度聚類演算法敘談
2021-05-18
聚類演算法
深度聚類演算法淺談
2021-04-15
聚類演算法
聚類演算法——DBSCAN演算法原理及公式
2020-05-20
聚類演算法公式
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
聚類模型的演算法效能評價
2024-06-27
聚類模型演算法
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
【Python機器學習實戰】聚類演算法（2）——層次聚類(HAC)和DBSCAN
2021-12-16
Python機器學習聚類演算法
20分鐘學會DBSCAN聚類演算法
2024-07-16
聚類演算法
MMM全連結聚類演算法實現
2024-05-25
聚類演算法
聚類演算法與K-means實現
2021-09-08
聚類演算法
聚類分析
2024-03-20
聚類
機器學習Sklearn系列：（五）聚類演算法
2021-07-22
機器學習聚類演算法
機器學習演算法筆記之8：聚類演算法
2020-04-06
機器學習演算法筆記聚類
聚類的基本問題及兩個常用演算法
2019-01-25
聚類演算法
【無監督學習】2：DBSCAN聚類演算法原理
2018-04-09
聚類演算法
DBSCAN聚類演算法（Density-Based Spatial Clustering of Applications with Noise）
2020-02-24
聚類演算法APP
計算機如何感知大資料——聚類演算法
2018-04-04
計算機大資料聚類演算法
部分聚類演算法簡介及優缺點分析
2023-01-10
聚類演算法
EM 演算法-對鳶尾花資料進行聚類
2020-12-14
演算法聚類
用電負荷相關聚類演算法總結（1）
2018-09-09
聚類演算法
利用python的KMeans和PCA包實現聚類演算法
2019-09-15
PythonPCA聚類演算法
ML.NET技術研究系列-2聚類演算法KMeans
2019-07-14
聚類演算法
聚類kmeans演算法在yolov3中的應用
2019-05-28
聚類演算法YOLO
演算法金 | K-均值、層次、DBSCAN聚類方法解析
2024-06-23
演算法聚類
程式設計實現DBSCAN密度聚類演算法，並以西瓜資料集4.0為例進行聚類效果分析
2022-12-01
程式設計聚類演算法
演算法金 | 一文讀懂K均值（K-Means）聚類演算法
2024-06-05
演算法聚類
學點高階技術：基於密度的聚類演算法——FDBSCAN演算法
2022-10-25
聚類演算法
【scipy 基礎】--聚類
2023-11-01
聚類

聚類演算法

外部指標：

內部指標：

密度聚類演算法DBSCAN

AGNES自底向上聚合的層次聚類演算法

相關文章