機器學習實戰ByMatlab（4）：二分K-means演算法

發表於2015-05-14

機器學習Matlab演算法

前面我們在是實現K-means演算法的時候，提到了它本身存在的缺陷：

1.可能收斂到區域性最小值
2.在大規模資料集上收斂較慢

對於上一篇博文最後說的，當陷入區域性最小值的時候，處理方法就是多執行幾次K-means演算法，然後選擇畸變函式J較小的作為最佳聚類結果。這樣的說法顯然不能讓我們接受，我們追求的應該是一次就能給出接近最優的聚類結果。

其實K-means的缺點的根本原因就是：對K個質心的初始選取比較敏感。質心選取得不好很有可能就會陷入區域性最小值。

基於以上情況，有人提出了二分K-means演算法來解決這種情況，也就是弱化初始質心的選取對最終聚類效果的影響。

二分K-means演算法

在介紹二分K-means演算法之前我們先說明一個定義：SSE（Sum of Squared Error）,也就是誤差平方和，它是用來度量聚類效果的一個指標。其實SSE也就是我們在K-means演算法中所說的畸變函式：

SSE計算的就是一個cluster中的每個點到質心的平方差，它可以度量聚類的好壞。顯然SSE越小，說明聚類效果越好。

二分K-means演算法的主要思想：
首先將所有點作為一個簇，然後將該簇一分為二。之後選擇能最大程度降低聚類代價函式（也就是誤差平方和）的簇劃分為兩個簇。以此進行下去，直到簇的數目等於使用者給定的數目k為止。

二分k均值演算法的虛擬碼如下：

將所有資料點看成一個簇

當簇數目小於k時

對每一個簇

計算總誤差

在給定的簇上面進行k-均值聚類（k=2）

計算將該簇一分為二後的總誤差

選擇使得誤差最小的那個簇進行劃分操作

Matlab 實現

function bikMeans
%%
clc
clear
close all
%%
biK = 4;
biDataSet = load('testSet.txt');
[row,col] = size(biDataSet);
% 儲存質心矩陣
biCentSet = zeros(biK,col);
% 初始化設定cluster數量為1
numCluster = 1;
%第一列儲存每個點被分配的質心，第二列儲存點到質心的距離
biClusterAssume = zeros(row,2);
%初始化質心
biCentSet(1,:) = mean(biDataSet)
for i = 1:row
 biClusterAssume(i,1) = numCluster;
 biClusterAssume(i,2) = distEclud(biDataSet(i,:),biCentSet(1,:));
end
while numCluster < biK
 minSSE = 10000;
 %尋找對哪個cluster進行劃分最好，也就是尋找SSE最小的那個cluster
 for j = 1:numCluster
 curCluster = biDataSet(find(biClusterAssume(:,1) == j),:);
 [spiltCentSet,spiltClusterAssume] = kMeans(curCluster,2);
 spiltSSE = sum(spiltClusterAssume(:,2));
 noSpiltSSE = sum(biClusterAssume(find(biClusterAssume(:,1)~=j),2));
 curSSE = spiltSSE + noSpiltSSE;
 fprintf('第%d個cluster被劃分後的誤差為：%f \n' , [j, curSSE])
 if (curSSE < minSSE)
 minSSE = curSSE;
 bestClusterToSpilt = j;
 bestClusterAssume = spiltClusterAssume;
 bestCentSet = spiltCentSet;
 end
 end
 bestClusterToSpilt
 bestCentSet
 %更新cluster的數目
 numCluster = numCluster + 1;
 bestClusterAssume(find(bestClusterAssume(:,1) == 1),1) = bestClusterToSpilt;
 bestClusterAssume(find(bestClusterAssume(:,1) == 2),1) = numCluster;
 % 更新和新增質心座標
 biCentSet(bestClusterToSpilt,:) = bestCentSet(1,:);
 biCentSet(numCluster,:) = bestCentSet(2,:);
 biCentSet
 % 更新被劃分的cluster的每個點的質心分配以及誤差
 biClusterAssume(find(biClusterAssume(:,1) == bestClusterToSpilt),:) = bestClusterAssume;
end
figure
%scatter(dataSet(:,1),dataSet(:,2),5)
for i = 1:biK
 pointCluster = find(biClusterAssume(:,1) == i);
 scatter(biDataSet(pointCluster,1),biDataSet(pointCluster,2),5)
 hold on
end
%hold on
scatter(biCentSet(:,1),biCentSet(:,2),300,'+')
hold off
end
% 計算歐式距離
function dist = distEclud(vecA,vecB)
 dist = sum(power((vecA-vecB),2));
end
% K-means演算法
function [centSet,clusterAssment] = kMeans(dataSet,K)
[row,col] = size(dataSet);
% 儲存質心矩陣
centSet = zeros(K,col);
% 隨機初始化質心
for i= 1:col
 minV = min(dataSet(:,i));
 rangV = max(dataSet(:,i)) - minV;
 centSet(:,i) = repmat(minV,[K,1]) + rangV*rand(K,1);
end
% 用於儲存每個點被分配的cluster以及到質心的距離
clusterAssment = zeros(row,2);
clusterChange = true;
while clusterChange
 clusterChange = false;
 % 計算每個點應該被分配的cluster
 for i = 1:row
 % 這部分可能可以優化
 minDist = 10000;
 minIndex = 0;
 for j = 1:K
 distCal = distEclud(dataSet(i,:) , centSet(j,:));
 if (distCal < minDist)
 minDist = distCal;
 minIndex = j;
 end
 end
 if minIndex ~= clusterAssment(i,1) 
 clusterChange = true;
 end
 clusterAssment(i,1) = minIndex;
 clusterAssment(i,2) = minDist;
 end
% 更新每個cluster 的質心
 for j = 1:K
 simpleCluster = find(clusterAssment(:,1) == j);
 centSet(j,:) = mean(dataSet(simpleCluster',:));
 end
end
end

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

function bikMeans

clc

clear

close all

biK = 4;

biDataSet = load('testSet.txt');

[row,col] = size(biDataSet);

% 儲存質心矩陣

biCentSet = zeros(biK,col);

% 初始化設定cluster數量為1

numCluster = 1;

%第一列儲存每個點被分配的質心，第二列儲存點到質心的距離

biClusterAssume = zeros(row,2);

%初始化質心

biCentSet(1,:) = mean(biDataSet)

for i = 1:row

biClusterAssume(i,1) = numCluster;

biClusterAssume(i,2) = distEclud(biDataSet(i,:),biCentSet(1,:));

end

while numCluster < biK

minSSE = 10000;

%尋找對哪個cluster進行劃分最好，也就是尋找SSE最小的那個cluster

for j = 1:numCluster

curCluster = biDataSet(find(biClusterAssume(:,1) == j),:);

[spiltCentSet,spiltClusterAssume] = kMeans(curCluster,2);

spiltSSE = sum(spiltClusterAssume(:,2));

noSpiltSSE = sum(biClusterAssume(find(biClusterAssume(:,1)~=j),2));

curSSE = spiltSSE + noSpiltSSE;

fprintf('第%d個cluster被劃分後的誤差為：%f \n' , [j, curSSE])

if (curSSE < minSSE)

minSSE = curSSE;

bestClusterToSpilt = j;

bestClusterAssume = spiltClusterAssume;

bestCentSet = spiltCentSet;

end

bestClusterToSpilt

bestCentSet

%更新cluster的數目

numCluster = numCluster + 1;

bestClusterAssume(find(bestClusterAssume(:,1) == 1),1) = bestClusterToSpilt;

bestClusterAssume(find(bestClusterAssume(:,1) == 2),1) = numCluster;

% 更新和新增質心座標

biCentSet(bestClusterToSpilt,:) = bestCentSet(1,:);

biCentSet(numCluster,:) = bestCentSet(2,:);

biCentSet

% 更新被劃分的cluster的每個點的質心分配以及誤差

biClusterAssume(find(biClusterAssume(:,1) == bestClusterToSpilt),:) = bestClusterAssume;

end

figure

%scatter(dataSet(:,1),dataSet(:,2),5)

for i = 1:biK

pointCluster = find(biClusterAssume(:,1) == i);

scatter(biDataSet(pointCluster,1),biDataSet(pointCluster,2),5)

hold on

end

%hold on

scatter(biCentSet(:,1),biCentSet(:,2),300,'+')

hold off

end

% 計算歐式距離

function dist = distEclud(vecA,vecB)

dist = sum(power((vecA-vecB),2));

end

% K-means演算法

function [centSet,clusterAssment] = kMeans(dataSet,K)

[row,col] = size(dataSet);

% 儲存質心矩陣

centSet = zeros(K,col);

% 隨機初始化質心

for i= 1:col

minV = min(dataSet(:,i));

rangV = max(dataSet(:,i)) - minV;

centSet(:,i) = repmat(minV,[K,1]) + rangV*rand(K,1);

end

% 用於儲存每個點被分配的cluster以及到質心的距離

clusterAssment = zeros(row,2);

clusterChange = true;

while clusterChange

clusterChange = false;

% 計算每個點應該被分配的cluster

for i = 1:row

% 這部分可能可以優化

minDist = 10000;

minIndex = 0;

for j = 1:K

distCal = distEclud(dataSet(i,:) , centSet(j,:));

if (distCal < minDist)

minDist = distCal;

minIndex = j;

end

if minIndex ~= clusterAssment(i,1)

clusterChange = true;

end

clusterAssment(i,1) = minIndex;

clusterAssment(i,2) = minDist;

end

% 更新每個cluster 的質心

for j = 1:K

simpleCluster = find(clusterAssment(:,1) == j);

centSet(j,:) = mean(dataSet(simpleCluster',:));

end

演算法迭代過程如下

biCentSet =

-0.1036 0.0543
0 0
0 0
0 0

第1個cluster被劃分後的誤差為：792.916857

bestClusterToSpilt =

bestCentSet =

-0.2897 -2.8394
0.0825 2.9480

biCentSet =

-0.2897 -2.8394
0.0825 2.9480
0 0
0 0

第1個cluster被劃分後的誤差為：409.871545
第2個cluster被劃分後的誤差為：532.999616

bestClusterToSpilt =

bestCentSet =

-3.3824 -2.9473
2.8029 -2.7315

biCentSet =

-3.3824 -2.9473
0.0825 2.9480
2.8029 -2.7315
0 0

第1個cluster被劃分後的誤差為：395.669052
第2個cluster被劃分後的誤差為：149.954305
第3個cluster被劃分後的誤差為：393.431098

bestClusterToSpilt =

bestCentSet =

2.6265 3.1087
-2.4615 2.7874

biCentSet =

-3.3824 -2.9473
2.6265 3.1087
2.8029 -2.7315
-2.4615 2.7874

最終效果圖

運用二分K-means演算法進行聚類的時候，不同的初始質心聚類結果還是會稍微有點不同，因為實際上這也只是弱化隨機質心對聚類結果的影響而已，並不能消除其影響，不過最終還是能收斂到全域性最小。

【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
機器學習經典演算法之K-Means
2019-07-01
機器學習演算法
機器學習實戰6（SMO演算法）
2018-03-20
機器學習演算法
【機器學習】K-means聚類分析
2022-06-30
機器學習聚類
機器學習入門筆記系列（10） | K-means 演算法
2018-10-01
機器學習筆記演算法
面向機器智慧的TensorFlow實戰4：機器學習基礎
2018-05-25
機器學習
機器學習—聚類5-1（K-Means演算法+瑞士捲）
2022-03-15
機器學習聚類演算法
《機器學習實戰》學習大綱
2018-12-01
機器學習
機器學習實戰筆記-k近鄰演算法
2018-07-17
機器學習筆記演算法
python機器學習實戰（二）
2018-12-26
Python機器學習
從零開始學機器學習——K-Means 聚類
2024-11-20
機器學習聚類
回顧·機器學習/深度學習工程實戰
2019-02-21
機器學習深度學習
機器學習-4
2018-04-16
機器學習
無監督學習-K-means演算法
2022-04-05
演算法
《機器學習實戰》第一章機器學習基礎
2018-11-25
機器學習
機器學習實戰----k值近鄰演算法（Python語言）
2021-09-09
機器學習演算法Python
機器學習4-分類演算法2
2021-01-19
機器學習演算法
【Python機器學習實戰】決策樹與整合學習（六）——整合學習（4）XGBoost原理篇
2021-09-11
Python機器學習
機器學習實戰之Logistic迴歸
2018-06-25
機器學習
機器學習30天進階實戰
2020-04-04
機器學習
機器學習入門實戰疑問
2020-04-30
機器學習
機器學習實戰（十三）：Convolutional Neural Networks
2020-12-27
機器學習
9.1.6 DBSCAN聚類演算法————機器學習實戰第二版
2020-11-18
聚類演算法機器學習
【機器學習】帶你3分鐘看完《機器學習實戰》總結篇
2018-03-10
機器學習
機器學習演算法
2018-03-27
機器學習演算法
《scikit-learn機器學習實戰》簡介
2022-06-22
機器學習
機器學習實戰 | SKLearn最全應用指南
2022-03-21
機器學習
基於Sklearn機器學習程式碼實戰
2022-11-25
機器學習
機器學習實戰（一）—— 線性迴歸
2020-12-01
機器學習
【Python機器學習實戰】決策樹和整合學習（一）
2021-08-19
Python機器學習
初學者的機器學習入門實戰教程！
2019-03-22
機器學習
機器學習作業4
2024-09-13
機器學習
機器學習演算法學習筆記
2023-03-13
機器學習演算法筆記
Spark機器學習實戰 (十一) - 文字情感分類專案實戰
2019-04-19
Spark機器學習
【機器學習】新手必看的十種機器學習演算法
2018-03-12
機器學習演算法
《機器學習實戰》-01機器學習基礎 #win8-anaconda prompt配置jupyter notebook
2018-12-07
機器學習
機器學習演算法：AdaBoost
2020-09-25
機器學習演算法
深度學習之PyTorch實戰（4）——遷移學習
2023-03-26
深度學習PyTorch遷移學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記2 — 機器學習的主要挑戰
2018-11-26
機器學習筆記

機器學習實戰ByMatlab（4）：二分K-means演算法

相關文章