python實現之 K-means演算法簡單介紹
K-means 聚類演算法
特點
對初始化敏感。初始點選擇的不同,可能會產生不同的聚類結果
最終會收斂。不管初始點如何選擇,最終都會收斂
演算法思想
選擇K個點作為初始質心
repeat
將每個點指派到最近的質心,形成K個簇
重新計算每個簇的質心
until 簇不發生變化或達到最大迭代次數
程式碼實現
實驗目的
根據下列成績單,將5名同學成績歸為A類、B類、C類。
限制:使用Kmeans演算法實現,但不直接呼叫sklearn第三方庫的KMeans函式。
學生姓名 小測1 小測2 小測3 期末成績 專案答辯 成績
張三 12 15 13 28 24 ?
李四 7 11 10 19 21 ?
王五 12 14 11 27 23 ?
趙六 6 7 4 13 20 ?
劉七 13 14 13 27 25 ?
實驗步驟
1. 資料準備
將資料儲存為csv檔案,格式如下
學生姓名,小測1,小測2,小測3,期末成績,專案答辯
張三,12,15,13,28,24
李四,7,11,10,19,21
王五,12,14,11,27,23
趙六,6,7,4,13,20
劉七,13,14,13,27,25
在從csv檔案中讀取資料,並選取可用的資料(排除姓名列)
data = pd.read_csv('grade.csv')
new_data = data.iloc[:, 1:].values
2. KMeans演算法實現
KMeans演算法涉及兩點之間距離的計算,我們提前寫好一個函式:輸入兩個點的座標,返回兩點之間的歐氏距離
def eucliDist(A, B):
return math.sqrt(sum([(a - b) ** 2 for (a, b) in zip(A, B)]))
函式k_means(c,data,max,label)實現KMeans演算法:
a. 輸入:質心列表c,待聚類資料data,最大迭代次數max,標籤列表label
b. 計算data中的每個點分別到3個質心的歐式距離,得到一個矩陣metrix
metrix = [[eucliDist(a, b) for a in data] for b in c]
c. 比較矩陣metrix同一列的數值大小,將對應的學生劃歸距離較短的質心所屬的類,將標籤儲存為列表.
classifier = []
for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):
m = min(d, e, f)
if d == m:
classifier.append(label[0])
elif e == m:
classifier.append(label[1])
else:
classifier.append(label[2])
d. 重新計算質心的座標,新質心的座標=被劃歸同一類點的座標的平均值
n1, n2 = 0, 0
c1 = [0, 0, 0, 0, 0]
c2 = c1
c3 = c1
for i in range(0, num):
if classifier[i] == label[0]:
c1 = [a + b for (a, b) in zip(c1, data[i])]
n1 = n1 + 1
elif classifier[i] == label[1]:
c2 = [a + b for (a, b) in zip(c2, data[i])]
n2 = n2 + 1
else:
c3 = [a + b for (a, b) in zip(c3, data[i])]
c1 = [a / n1 for a in c1]
c2 = [a / n2 for a in c2]
c3 = [a / (num - n1 - n2) for a in c3]
e. 重複b~d,直到質心座標不再變化或達到最大迭代次數
f. 返回標籤列表
完整函式如下
def k_means(c, data, max,label):
# a. 輸入質心列表c,待聚類資料`data`,最大迭代次數max
max = max - 1
num = len(data)
# b. 計算data中的每個點分到k個質心的距離,得到一個矩陣,如
metrix = [[eucliDist(a, b) for a in data] for b in c]
print(metrix)
# c. 比較矩陣同一列的數值大小,將對應的學生劃歸距離較短的質心所屬的類,將標籤儲存為列表
classifier = [] 鄭州做人流手術費用
for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):
m = min(d, e, f)
if d == m:
classifier.append(label[0])
elif e == m:
classifier.append(label[1])
else:
classifier.append(label[2])
print(classifier)
# d. 重新計算質心的座標,新質心的座標=被劃歸同一類點的座標的平均值
n1, n2 = 0, 0
c1 = [0, 0, 0, 0, 0]
c2 = c1
c3 = c1
for i in range(0, num):
if classifier[i] == label[0]:
c1 = [a + b for (a, b) in zip(c1, data[i])]
n1 = n1 + 1
elif classifier[i] == label[1]:
c2 = [a + b for (a, b) in zip(c2, data[i])]
n2 = n2 + 1
else:
c3 = [a + b for (a, b) in zip(c3, data[i])]
c1 = [a / n1 for a in c1]
c2 = [a / n2 for a in c2]
c3 = [a / (num - n1 - n2) for a in c3]
print(max)
print([c1,c2,c3])
# e. 重複b~d,直到質心座標不再變化,或達到最大迭代次數
if c != [c1, c2, c3] and max > 0:
c = [c1, c2, c3]
print(c)
k_means(c, data, max, label)
return classifier
3. 設定引數,呼叫函式,得到結果
設定初始質心、標籤列表、最大迭代次數
# 選擇K個點作為初始質心
c = [[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]]
label = ['A', 'B', 'C']
max = 20
呼叫函式,整理結果
grade = k_means(c, new_data, max, label)
grade = pd.Series(grade, index=data['學生姓名'])
print(grade)
實驗結果
初始質心為[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]時,迭代2次即收斂,結果如下
學生姓名 小測1 小測2 小測3 期末成績 專案答辯 成績
張三 12 15 13 28 24 A
李四 7 11 10 19 21 B
王五 12 14 11 27 23 C
趙六 6 7 4 13 20 B
劉七 13 14 13 27 25 A
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2693579/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- RSA加密演算法簡單介紹以及python實現加密演算法Python
- k-means 演算法介紹演算法
- 簡單介紹numpy實現RNN原理實現RNN
- Python簡單介紹Python
- 簡單介紹python中的單向連結串列實現Python
- 簡單介紹NMS的實現方法
- 機器學習之k-means聚類演算法(python實現)機器學習聚類演算法Python
- javascript實現繼承方式簡單介紹JavaScript繼承
- javascript實現鏈式呼叫簡單介紹JavaScript
- javascript實現二維陣列實現簡單介紹JavaScript陣列
- 簡單介紹python process模組Python
- python shutil模組簡單介紹Python
- 實現微信搖一搖功能簡單介紹
- 使用CORS實現ajax跨域簡單介紹CORS跨域
- 簡單介紹5個python的實用技巧Python
- RPC模式的介紹以及簡單的實現RPC模式
- 簡單介紹SpringMVC RESTFul實現列表功能SpringMVCREST
- 簡單介紹Go 字串比較的實現示例Go字串
- 實現跨域iframe介面方法呼叫 簡單介紹跨域
- javascript模擬實現私有屬性簡單介紹JavaScript
- jquery實現的元素居中外掛簡單介紹jQuery
- javascript如何實現模組程式設計簡單介紹JavaScript程式設計
- 執行緒池的介紹及簡單實現執行緒
- OpenGL簡單介紹及實踐
- HTML字元實體簡單介紹HTML字元
- 簡單介紹python程式設計之檔案讀寫Python程式設計
- 簡單介紹Python迷宮生成和迷宮破解演算法Python演算法
- Relief 特徵選擇演算法簡單介紹特徵演算法
- AngularJS實現的表單編輯提交功能簡單介紹AngularJS
- 簡單介紹pytorch中log_softmax的實現PyTorch
- 簡單介紹VBS 批次Ping的專案實現
- jQuery EasyUI datagrid實現本地分頁簡單介紹jQueryUI
- avalon繫結實現checkbox全選簡單介紹
- js模擬實現名稱空間簡單介紹JS
- jquery實現的操作class樣式類簡單介紹jQuery
- jquery實現的圖片預載入簡單介紹jQuery
- Python實現K-means演算法的顏色量化Python演算法
- SVG簡單介紹SVG