K-means 在 Python 中的實現

發表於2017-09-09

Python

K-means演算法簡介

K-means是機器學習中一個比較常用的演算法，屬於無監督學習演算法，其常被用於資料的聚類，只需為它指定簇的數量即可自動將資料聚合到多類中，相同簇中的資料相似度較高，不同簇中資料相似度較低。

K-menas的優缺點：

優點：

原理簡單
速度快
對大資料集有比較好的伸縮性

缺點：

需要指定聚類數量K
對異常值敏感
對初始值敏感

K-means的聚類過程

其聚類過程類似於梯度下降演算法，建立代價函式並通過迭代使得代價函式值越來越小

適當選擇c個類的初始中心；
在第k次迭代中，對任意一個樣本，求其到c箇中心的距離，將該樣本歸到距離最短的中心所在的類；
利用均值等方法更新該類的中心值；
對於所有的c個聚類中心，如果利用（2）（3）的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

該演算法的最大優勢在於簡潔和快速。演算法的關鍵在於初始中心的選擇和距離公式。

K-means 例項展示

python中km的一些引數：

sklearn.cluster.KMeans(
    n_clusters=8,
    init='k-means++', 
    n_init=10, 
    max_iter=300, 
    tol=0.0001, 
    precompute_distances='auto', 
    verbose=0, 
    random_state=None, 
    copy_x=True, 
    n_jobs=1, 
    algorithm='auto'
    )
n_clusters: 簇的個數，即你想聚成幾類
init: 初始簇中心的獲取方法
n_init: 獲取初始簇中心的更迭次數，為了彌補初始質心的影響，演算法預設會初始10個質心，實現演算法，然後返回最好的結果。
max_iter: 最大迭代次數（因為kmeans演算法的實現需要迭代）
tol: 容忍度，即kmeans執行準則收斂的條件
precompute_distances:是否需要提前計算距離，這個引數會在空間和時間之間做權衡，如果是True 會把整個距離矩陣都放到記憶體中，auto 會預設在資料樣本大於featurs*samples 的數量大於12e6 的時候False,False 時核心實現的方法是利用Cpython 來實現的
verbose: 冗長模式（不太懂是啥意思，反正一般不去改預設值）
random_state: 隨機生成簇中心的狀態條件。
copy_x: 對是否修改資料的一個標記，如果True，即複製了就不會修改資料。bool 在scikit-learn 很多介面中都會有這個引數的，就是是否對輸入資料繼續copy 操作，以便不修改使用者的輸入資料。這個要理解Python 的記憶體機制才會比較清楚。
n_jobs: 並行設定
algorithm: kmeans的實現演算法，有：’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式實現
雖然有很多引數，但是都已經給出了預設值。所以我們一般不需要去傳入這些引數,引數的。可以根據實際需要來呼叫。

sklearn.cluster.KMeans(

n_clusters=8,

init='k-means++',

n_init=10,

max_iter=300,

tol=0.0001,

precompute_distances='auto',

verbose=0,

random_state=None,

copy_x=True,

n_jobs=1,

algorithm='auto'

)

n_clusters: 簇的個數，即你想聚成幾類

init: 初始簇中心的獲取方法

n_init: 獲取初始簇中心的更迭次數，為了彌補初始質心的影響，演算法預設會初始10個質心，實現演算法，然後返回最好的結果。

max_iter: 最大迭代次數（因為kmeans演算法的實現需要迭代）

tol: 容忍度，即kmeans執行準則收斂的條件

precompute_distances:是否需要提前計算距離，這個引數會在空間和時間之間做權衡，如果是True 會把整個距離矩陣都放到記憶體中，auto 會預設在資料樣本大於featurs*samples 的數量大於12e6 的時候False,False 時核心實現的方法是利用Cpython 來實現的

verbose: 冗長模式（不太懂是啥意思，反正一般不去改預設值）

random_state: 隨機生成簇中心的狀態條件。

copy_x: 對是否修改資料的一個標記，如果True，即複製了就不會修改資料。bool 在scikit-learn 很多介面中都會有這個引數的，就是是否對輸入資料繼續copy 操作，以便不修改使用者的輸入資料。這個要理解Python 的記憶體機制才會比較清楚。

n_jobs: 並行設定

algorithm: kmeans的實現演算法，有：’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式實現

雖然有很多引數，但是都已經給出了預設值。所以我們一般不需要去傳入這些引數,引數的。可以根據實際需要來呼叫。

下面展示一個程式碼例子

from sklearn.cluster import KMeans
from sklearn.externals import joblib
from sklearn import cluster
import numpy as np

# 生成10*3的矩陣
data = np.random.rand(10,3)
print data
# 聚類為4類
estimator=KMeans(n_clusters=4)
# fit_predict表示擬合+預測，也可以分開寫
res=estimator.fit_predict(data)
# 預測類別標籤結果
lable_pred=estimator.labels_
# 各個類別的聚類中心值
centroids=estimator.cluster_centers_
# 聚類中心均值向量的總和
inertia=estimator.inertia_

print lable_pred
print centroids
print inertia

程式碼執行結果
[0 2 1 0 2 2 0 3 2 0]

[[ 0.3028348   0.25183096  0.62493622]
 [ 0.88481287  0.70891813  0.79463764]
 [ 0.66821961  0.54817207  0.30197415]
 [ 0.11629904  0.85684903  0.7088385 ]]
 
0.570794546829

from sklearn.cluster import KMeans

from sklearn.externals import joblib

from sklearn import cluster

import numpy as np

# 生成10*3的矩陣

data = np.random.rand(10,3)

print data

# 聚類為4類

estimator=KMeans(n_clusters=4)

# fit_predict表示擬合+預測，也可以分開寫

res=estimator.fit_predict(data)

# 預測類別標籤結果

lable_pred=estimator.labels_

# 各個類別的聚類中心值

centroids=estimator.cluster_centers_

# 聚類中心均值向量的總和

inertia=estimator.inertia_

print lable_pred

print centroids

print inertia

程式碼執行結果

[0 2 1 0 2 2 0 3 2 0]

[[ 0.3028348 0.25183096 0.62493622]

[ 0.88481287 0.70891813 0.79463764]

[ 0.66821961 0.54817207 0.30197415]

[ 0.11629904 0.85684903 0.7088385 ]]

0.570794546829

為了更直觀的描述，這次在圖上做一個展示，由於影像上繪製二維比較直觀，所以資料調整到了二維，選取100個點繪製，聚類類別為3類

from sklearn.cluster import KMeans
from sklearn.externals import joblib
from sklearn import cluster
import numpy as np
import matplotlib.pyplot as plt

data = np.random.rand(100,2)
estimator=KMeans(n_clusters=3)
res=estimator.fit_predict(data)
lable_pred=estimator.labels_
centroids=estimator.cluster_centers_
inertia=estimator.inertia_
#print res
print lable_pred
print centroids
print inertia

for i in range(len(data)):
    if int(lable_pred[i])==0:
        plt.scatter(data[i][0],data[i][1],color='red')
    if int(lable_pred[i])==1:
        plt.scatter(data[i][0],data[i][1],color='black')
    if int(lable_pred[i])==2:
        plt.scatter(data[i][0],data[i][1],color='blue')
plt.show()

from sklearn.cluster import KMeans

from sklearn.externals import joblib

from sklearn import cluster

import numpy as np

import matplotlib.pyplot as plt

data = np.random.rand(100,2)

estimator=KMeans(n_clusters=3)

res=estimator.fit_predict(data)

lable_pred=estimator.labels_

centroids=estimator.cluster_centers_

inertia=estimator.inertia_

#print res

print lable_pred

print centroids

print inertia

for i in range(len(data)):

if int(lable_pred[i])==0:

plt.scatter(data[i][0],data[i][1],color='red')

if int(lable_pred[i])==1:

plt.scatter(data[i][0],data[i][1],color='black')

if int(lable_pred[i])==2:

plt.scatter(data[i][0],data[i][1],color='blue')

plt.show()

可以看到聚類效果還是不錯的，對k-means的聚類效率進行了一個測試，將維度擴寬到50維

資料規模	消耗時間	資料維度
10000條	4s	50維
100000條	30s	50維
1000000條	4’13s	50維

對於百萬級的資料，擬合時間還是能夠接受的，可見效率還是不錯，對模型的儲存與其它的機器學習演算法模型儲存類似

from sklearn.externals import joblib
joblib.dump(km,"model/km_model.m")

1 2	from sklearn.externals import joblib joblib.dump(km,"model/km_model.m")

設計模式在Python中的完美實現
2020-12-02
設計模式Python
python實現之 K-means演算法簡單介紹
2020-05-21
Python演算法
在 Python 中實現 COMET 技術
2024-03-15
Python
教你在Python中實現潛在語義分析
2018-12-07
Python
在 Python 中實現函式過載
2020-02-27
Python函式
Python在類中實現swith case功能
2019-03-19
Python
K-Means聚類分析以及誤差平方和SSE（Python實現）
2024-11-14
聚類Python
聚類演算法與K-means實現
2021-09-08
聚類演算法
在CPython中實現純Python函式的真正並行性
2024-04-23
Python函式並行
Python中迭代器的實現
2021-09-11
Python
如何用OpenCV在Python中實現人臉檢測
2019-05-30
OpenCVPython
「Python實用祕技07」在pandas中實現自然順序排序
2022-04-17
Python排序
在 Zig 中實現介面
2024-05-19
在 GPUImage 中實現 ColorConversion
2018-07-28
GPUUI
Python中使用K-means演算法
2021-09-11
Python演算法
Percolator模型及其在TiKV中的實現
2021-09-22
模型
決策樹在sklearn中的實現
2019-03-07
Hooks API 在 Vue 中的實現分析
2019-01-25
HookAPIVue
現在的中國遊戲圈，能有多現實？
2019-05-14
遊戲
在Lua中實現Rust物件的繫結
2024-10-21
Rust物件
Lru在Rust中的實現, 原始碼解析
2024-06-07
Rust原始碼
Python中實現單例模式
2024-04-17
Python單例模式
python中7種方法實現字串的拼接
2024-05-09
Python字串
Python 中 lru_cache 的使用和實現
2021-01-24
Python
python 中 try...finally... 的優雅實現
2020-11-24
Python
幾個MySQL在Python中操作示例，MySQL利用於Python的實戰！
2019-08-27
MySqlPython
基於 URL 的縮圖在 Laravel 中的實現
2020-05-11
Laravel
在WPF程式中實現PropertyGrid功能
2024-11-23
在網站中實現 React tsarticles
2024-09-22
網站React
在Go中如何實現併發
2023-09-28
Go
在Unity中實現手部跟蹤
2019-08-20
Unity
在 DotNetty 中實現同步請求
2019-05-22
Netty
在小程式中實現 Mixins 方案
2019-06-19
在Swift中實現撤銷功能
2019-01-23
Swift
在cesium中實現熱力圖
2018-06-14
在Golang中實現Actor模型的原始碼 - Gaurav
2022-02-25
Golang模型原始碼
[原] 探索 EventEmitter 在 Node.js 中的實現
2019-02-22
MITNode.js
武俠遊戲中的藥物在現實中真實存在嗎？
2021-01-04
遊戲
reload在python中的使用
2021-09-11
Python

K-means 在 Python 中的實現

K-means演算法簡介

K-menas的優缺點：

K-means的聚類過程

K-means 例項展示

相關文章