第十篇：K均值聚類(KMeans)

穆晨發表於2017-05-20

前言

本文講解如何使用R語言進行 KMeans 均值聚類分析，並以一個關於人口出生率死亡率的例項演示具體分析步驟。

聚類分析總體流程

1. 載入並瞭解資料集；
2. 呼叫聚類函式進行聚類；
3. 檢視聚類結果描述；
4. 將聚類結果圖形化展示；
5. 選擇最優center並最終確定聚類方案；
6. 圖形化展示不同方案效果並提交分析報表。

人口出生/死亡率聚類分析 - K均值聚類

1. 載入並瞭解資料集

1.1 從網上下載一份txt格式的關於人口出生率統計的資料(countries.txt)。其內容大致如下：

1.2 載入資料集countries.txt：

1.3 檢視相關檔案資訊，如維度，檔案具體內容：

1.4 給資料集行列改名，並檢視改名後的結果：

1.5 畫出所有樣本點：

2. 呼叫聚類函式進行聚類

kmeans 函式的原型為：kmeans (x, centers, iter.max=10, nstart=1, alogorithm=c("Hartigan-Wong", "Lloyd", "For-gy", "MacQueen"))。

這裡解釋下函式 kmeans 中的幾個形參：

- x：進行聚類分析的資料集；
- centers：簇個數；
- iter.max：最大迭代次數；
- nstart：選擇隨機中心點的次數 (選擇結果最優的那次隨機質心)；
- alogorithm：具體實現演算法。預設為Hartigan-Wong。

3. 檢視聚類結果

結果內容從上至下分別為：

- 每個簇的樣本數；
- 每個簇的質心；
- 每個樣本的聚類結果；
- 本次聚類的相關統計資訊：包含組內平方和，總平方和，組間平方和，以及組間平方和/總平方和。顯然它越大越好；
- 最下面的那部分是指聚類結果資料集fit_km1中的各個變數(也即上面的那些資訊，如fit_km1$size就等於3)。

4. 將聚類結果圖形化展示

5. 選擇最優center並最終確定聚類方案

很顯然，當k超過了8之後，聚類的結果波動就不大了。

可做圖形象化的展示此現象：

6. 用 k=8 進行聚類，然後看看和中國屬於一類的國家有哪些。

小結

除了 k 的大小，還可以通過調整迭代次數、選擇中心點次數、重新實現演算法等方式實現最優聚類。

另外，本文所講的只是最為經典的KMeans聚類，更多更好玩的聚類演算法，請查閱相關論文或相關R語言包的說明文件。

相關文章

《機器學習實戰》kMeans演算法（K均值聚類演算法）
2015-10-07
機器學習演算法聚類
K-均值聚類分析
2012-04-17
聚類
k-均值聚類簡介
2018-02-07
聚類
《機器學習實戰》二分-kMeans演算法（二分K均值聚類）
2015-10-07
機器學習演算法聚類
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
演算法雜貨鋪：k均值聚類(K-means)
2015-04-28
演算法聚類
用K-均值聚類來探索顧客細分
2015-12-06
聚類
kmeans實現文字聚類
2017-06-22
聚類
【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)
2001-01-01
機器學習聚類演算法Python
Python k-均值聚類演算法二維例項
2018-02-10
Python聚類演算法
Kmeans如何初始化聚類中心
2018-10-12
聚類
102、聚類Kmeans演算法
2017-12-08
聚類演算法
mahout之聚類演算法——KMeans分析
2013-10-13
聚類演算法
呼叫WEKA包進行kmeans聚類（java）
2015-07-03
聚類Java
第5章　基於K均值聚類的網路流量異常檢測
2015-10-23
聚類
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
kmeans聚類演算法matlab實現
2014-12-08
聚類演算法Matlab
Mahout學習之聚類演算法Kmeans
2015-10-23
聚類演算法
Kmeans如何確定聚類個數K
2018-10-12
聚類
k-means聚類
2023-01-30
聚類
C均值聚類 C實現 Python實現
2020-12-05
聚類Python
如何在BigQueryML中使用K-均值聚類來更好地理解和描述資料（附程式碼）
2019-05-14
聚類
聚類kmeans演算法在yolov3中的應用
2019-05-28
聚類演算法YOLO
ML.NET技術研究系列-2聚類演算法KMeans
2019-07-14
聚類演算法
【機器學習】K-means聚類分析
2022-06-30
機器學習聚類
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
《資料分析實戰-托馬茲.卓巴斯》讀書筆記第4章-聚類技巧（K均值、BIRCH、DBSCAN）
2020-03-16
筆記聚類
利用python的KMeans和PCA包實現聚類演算法
2019-09-15
PythonPCA聚類演算法
K-means聚類演算法
2017-03-23
聚類演算法
k-means 聚類演算法
2017-06-19
聚類演算法
聚類分析--k中心點演算法
2015-11-24
聚類演算法
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
K均值演算法
2017-08-16
演算法
機器學習經典聚類演算法 —— k-均值演算法（附python實現程式碼及資料集）
2019-07-31
機器學習聚類演算法Python
K-Means聚類演算法原理
2016-12-12
聚類演算法
python手動實現K_means聚類(指定K值）
2020-11-19
Python聚類
吳恩達《Machine Learning》精煉筆記 8：聚類 KMeans 及其 Python實現
2021-01-16
吳恩達Mac筆記聚類Python
聚類演算法與K-means實現
2021-09-08
聚類演算法