機器學習實戰筆記-k近鄰演算法
優點
精度高、對異常值不敏感、無資料輸入假定
缺點
計算複雜度高、空間複雜度高
適用資料範圍
數值型和標稱型
標稱型:標稱型目標變數的結果只在有限目標集中取值,如真與假(主要用來分類)
數值型:數值型目標變數可以從無限的數值集合中取值,如0.2300,1111.1111等(主要用來回歸)
工作原理
存在一個樣本資料集合,也稱作訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一個資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將新資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本集中特徵最相似資料(最近鄰)的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k-近鄰演算法中k的出處,通常是k不大於20的整數。最後,選擇k個最相似資料中出現次數最多的分類,作為新資料的分類。
《統計學習方法》中的解釋
給定一個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分到這個類。
k-近鄰演算法的一般流程
1.收集資料:anyway
2.準備資料:距離計算所需要的數值,最好是結構化的資料格式。
3.分析資料:anyway
4.訓練演算法:此步驟不適用於k-近鄰演算法
5.測試演算法:計算錯誤率
6.使用演算法:首先需要輸入樣本資料和結構化的輸出結果,然後執行k-鄰近演算法判定輸入資料分別屬於哪個分類,最後應用對計算出的分類執行後續的處理。
對未知類別屬性的資料集中的每個點依次執行以下操作:
1.計算一直類別資料集中的點與當前點之間的距離
2.按照距離遞增次序排序
3.選取與當前距離最小的k個點
4.確定前k個點所在類別出現的頻率
5.返回前k個點出現頻率最高的類別作為當前點的預測分類
具體程式碼
import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt
import os
def create_date_set():
group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
labels = ['A', 'A', 'B', 'B']
return group, labels
'''
:parameter
輸入向量:in_x, 輸入的訓練樣本:data_set, 標籤向量:labels,
表示用於選擇最近鄰居的數目
'''
def classify0(in_x, data_set, labels, k):
data_set_size = data_set.shape[0]
# tile(original, (a, b)) 將原來的矩陣行復制a倍,列複製b倍
# 計算歐氏距離
diff_mat = np.tile(in_x, (data_set_size, 1)) - data_set
sq_diff_mat = diff_mat ** 2
# 相加為一個列向量
sq_distances = sq_diff_mat.sum(axis=1)
# 開方
distances = sq_distances ** 0.5
# 從小到大排列,返回該值在原來值中的索引
sorted_dist_indices = distances.argsort()
class_count = {}
# 計算在鄰居中哪一類最多
for i in range(k):
votel_label = labels[sorted_dist_indices[i]]
class_count[votel_label] = class_count.get(votel_label, 0) + 1
sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True) #
return sorted_class_count[0][0]
# 讀取檔案,形成資料集和標籤
def file2matrix(filename):
with open(filename, 'r', encoding='UTF-8') as fr:
lines = fr.readlines()
number_of_lines = len(lines)
mat = np.zeros((number_of_lines, 3))
class_label_vector = []
index = 0
for line in lines:
line = line.strip()
content = line.split('\t')
mat[index, :] = content[0:3]
class_label_vector.append(int(content[-1]))
index += 1
return mat, class_label_vector
# 歸一化特徵值
def auto_norm(data_set):
min_value = data_set.min(0)
max_value = data_set.max(0)
ranges = max_value - min_value
norm_data_set = np.zeros(np.shape(data_set))
m = data_set.shape[0]
norm_data_set = data_set - np.tile(min_value, (m, 1))
norm_data_set = norm_data_set / np.tile(ranges, (m, 1))
return norm_data_set, ranges, min_value
# 測試
def dating_class_test():
ho_ratio = 0.2
dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
"/datingTestSet2.txt")
nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
m = nor_mat.shape[0]
num_test_vecs = int(m * ho_ratio)
error_count = 0.0
for i in range(num_test_vecs):
classifier_result = classify0(nor_mat[i, :], nor_mat[num_test_vecs:m, :],
dating_labels[num_test_vecs:m], 3)
print("the classifier came back with: %d, the real answer is: %d"
% (classifier_result, dating_labels[i]))
if classifier_result != dating_labels[i]:
error_count += 1
print("the total error rate is: %f" % (error_count / float(num_test_vecs)))
# 約會網站預測函式
def classify_person():
result_list = ['not at all', 'in small doses', 'in large doses']
percent_tats = float(input("percentage of time spent playing video games?"))
ice_cream = float(input("liters of ice cream consumed per year?"))
ff_miles = float(input("frequent flier miles earned per year?"))
dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
"/datingTestSet2.txt")
nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
in_arr = np.array([ff_miles, percent_tats, ice_cream])
classifier_result = classify0((in_arr - min_vals) / ranges, nor_mat, dating_labels, 3)
print("You will probably like this person: ", result_list[classifier_result - 1])
# 將圖片轉換為vector
def img2vector(filename):
vector = np.zeros((1, 1024))
with open(filename, 'r', ecoding='utf-8') as fp:
for i in range(32):
line_str = fp.readline()
for j in range(32):
vector[0, 32 * i * j] = int(line_str[j])
return vector
專案地址:https://github.com/RJzz/Machine.git
關於k值的選擇
1.k值的減小就意味著模型整體變複雜,相當於用較大領域中的訓練例項進行預測,容易發生過擬合。
2.k值過大,意味著整體的模型變簡單。
3.在應用中,k值一般取一個比較小的數值,通常採用交叉驗證法來選取最優的k值。
後續
這樣的kNN實際上代價非常的高,優化的方法可以是構造kd樹,kd樹是一種對k維空間中的例項點進行儲存以便對其進行快速檢索的樹形資料結構。
相關文章
- 機器學習——K近鄰演算法機器學習演算法
- 機器學習實戰----k值近鄰演算法(Python語言)機器學習演算法Python
- 機器學習-K近鄰演算法-KNN機器學習演算法KNN
- 機器學習——KNN(K近鄰)機器學習KNN
- 機器學習-11-k近鄰演算法機器學習演算法
- 機器學習演算法之K近鄰演算法機器學習演算法
- 機器學習演算法——kNN(k-近鄰演算法)機器學習演算法KNN
- 機器學習演算法(三):K近鄰(k-nearest neighbors)初探機器學習演算法REST
- K近鄰演算法:機器學習萌新必學演算法演算法機器學習
- 機器學習——KNN近鄰演算法機器學習KNN演算法
- 機器學習_K近鄰Python程式碼詳解機器學習Python
- 用定租問題學透機器學習的K近鄰演算法機器學習演算法
- 機器學習實戰2.1. 超詳細的k-近鄰演算法KNN(附Python程式碼)機器學習演算法KNNPython
- 【機器學習】機器學習建立演算法第2篇:K-近鄰演算法【附程式碼文件】機器學習演算法
- K近鄰演算法演算法
- K - 近鄰演算法演算法
- k-近鄰演算法演算法
- 機器學習 第4篇:sklearn 最鄰近演算法概述機器學習演算法
- k近鄰演算法的實現:kd樹演算法
- K-鄰近均值演算法演算法
- 機器學習經典分類演算法 —— k-近鄰演算法(附python實現程式碼及資料集)機器學習演算法Python
- 機器學習演算法學習筆記機器學習演算法筆記
- 分類演算法-k 鄰近演算法演算法
- K近鄰模型模型
- 【筆記】《Python大戰機器學習》筆記Python機器學習
- 機器學習入門筆記系列(10) | K-means 演算法機器學習筆記演算法
- 機器學習筆記(KNN演算法)機器學習筆記KNN演算法
- K-近鄰演算法介紹與程式碼實現演算法
- python機器學習筆記:EM演算法Python機器學習筆記演算法
- 機器學習演算法:Logistic迴歸學習筆記機器學習演算法筆記
- 機器學習學習筆記機器學習筆記
- 【Python機器學習實戰】感知機和支援向量機學習筆記(三)之SVM的實現Python機器學習筆記
- Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記2 — 機器學習的主要挑戰機器學習筆記
- 機器學習實戰6(SMO演算法)機器學習演算法
- 【Python機器學習實戰】聚類演算法(1)——K-Means聚類Python機器學習聚類演算法
- 機器學習筆記機器學習筆記
- 機器學習學習筆記之——演算法鏈與管道機器學習筆記演算法
- 機器學習筆記(1): 梯度下降演算法機器學習筆記梯度演算法