機器學習_K近鄰Python程式碼詳解

反正不想起名發表於2018-10-03

原文網址 : https://flycode.co/archives/234448

k近鄰優點：精度高、對異常值不敏感、無資料輸入假定；
k近鄰缺點：計算複雜度高、空間複雜度高


import numpy as np
import operator
from os import listdir

# k近鄰分類器
def classify0(inx, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]   # 返回dataset第一維的長度，也就是行數
    diffMat = np.tile(inx, (dataSetSize, 1))-dataSet   # tile表示把inx行向量按列方向重複datasetsize次
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)  # 按列求和
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()  # 返回的是陣列從小到大的索引值
    classCount = {}    # 定義一個空字典
    for i in range(k):
        voteLabel = labels[sortedDistIndicies[i]]  # 返回前k個距離最小的樣本的標籤值
        classCount[voteLabel] = classCount.get(voteLabel, 0)+1   # get 表示返回指定鍵的值
        # lambda表示輸入classCount返回冒號右邊的值，reverse=True表示按照降序排列
        sortedClassCount=sorted(classCount.items(), key=lambda classCount: classCount[1], reverse=True)
    return sortedClassCount[0][0]

# 把.txt檔案轉換成矩陣形式
def file2matrix(file):
    file = open(file) # 返回檔案物件
    arr = file.readlines()  # 返回全部行，是list形式，每一行為list的一個元素
    number = len(arr)  # 返回物件長度
    returnMat = np.zeros((number,3))
    index = 0
    labelMat = []
    for line in arr:
        #line = line.strip(`
`)
        #newline = line.split(` `)
        newline = line.strip(`
`).split(` `) # 處理逐行資料，strip表示把頭尾的`
`去掉，split表示以空格來分割行資料
                                              #  然後把處理後的行資料返回到newline列表中
        returnMat[index,:] = newline[0:3] #表示列表的0,1,2列資料放到index行中
        labelMat.append(int(newline[-1]))
        index+=1
    return returnMat,labelMat

# 歸一化
def autoNorm(dataSet):
    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)
    ranges = maxVals-minVals
    normDataSet = np.zeros(np.shape(dataSet))
    m = normDataSet.shape[0]
    A = normDataSet
    A = np.tile(minVals, (m,1))
    normDataSet = dataSet-A
    normDataSet = normDataSet/np.tile(ranges,(m,1))
    return normDataSet

# 把影像轉化成向量的形式
def img2vector(filename):
    returnVect = np.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline() # readline()表示從首行開始，每次讀取一行
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j]) #int()函式用於將一個字串或數字轉換成整型
    return returnVect   # 一張圖片轉化成一行後的陣列

# 手寫數字識別系統的測試程式碼
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir(`E:/workspace/digits/trainingDigits`)
    m=len(trainingFileList)
    trainingMat = np.zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]  # 例如9_45.txt
        fileStr = fileNameStr.split(`.`)[0]  # split(`.`)通過.分隔符對字串進行切片
        classNumStr = int(fileStr.split(`_`)[0]) # split(`_`)通過_分隔符對字串進行切片
        hwLabels.append(classNumStr)
        trainingMat[i,:] =img2vector(`E:/workspace/digits/trainingDigits/%s` % fileNameStr)
    testFileList = listdir(`E:/workspace/digits/testDigits`)
    mTest = len(testFileList)
    errorCount = 0
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split(`.`)[0]
        classNumStr = int(fileStr.split(`_`)[0])
        vectorUnderTest = img2vector(`E:/workspace/digits/testDigits/%s` % fileNameStr)
        classResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print(`the classifier came back with: %d, the real answer is: %d` % (classResult,classNumStr))
        if (classResult != classNumStr):
            errorCount += 1.0
    print(`
 the total number of errors is: %d` % (errorCount))
    print(`
 the total error rate is: %f` % (errorCount/float(mTest)))

handwritingClassTest()

機器學習——KNN（K近鄰）
2018-05-28
機器學習KNN
機器學習——K近鄰演算法
2019-02-16
機器學習演算法
機器學習實戰2.1. 超詳細的k-近鄰演算法KNN（附Python程式碼）
2019-03-27
機器學習演算法KNNPython
機器學習-K近鄰演算法-KNN
2024-04-27
機器學習演算法KNN
機器學習-11-k近鄰演算法
2020-10-29
機器學習演算法
機器學習實戰----k值近鄰演算法（Python語言）
2021-09-09
機器學習演算法Python
【機器學習】機器學習建立演算法第2篇：K-近鄰演算法【附程式碼文件】
2024-03-15
機器學習演算法
機器學習演算法（三）：K近鄰(k-nearest neighbors)初探
2020-12-21
機器學習演算法REST
機器學習實戰筆記-k近鄰演算法
2018-07-17
機器學習筆記演算法
機器學習演算法之K近鄰演算法
2021-06-06
機器學習演算法
機器學習演算法——kNN（k-近鄰演算法）
2020-10-12
機器學習演算法KNN
K近鄰演算法：機器學習萌新必學演算法
2020-10-30
演算法機器學習
機器學習——KNN近鄰演算法
2020-11-04
機器學習KNN演算法
用定租問題學透機器學習的K近鄰演算法
2021-09-09
機器學習演算法
機器學習經典分類演算法 —— k-近鄰演算法（附python實現程式碼及資料集）
2019-07-29
機器學習演算法Python
K近鄰模型
2024-03-11
模型
機器學習第4篇：sklearn 最鄰近演算法概述
2020-11-03
機器學習演算法
K近鄰演算法
2022-03-03
演算法
K - 近鄰演算法
2020-12-19
演算法
K-近鄰演算法介紹與程式碼實現
2019-07-05
演算法
機器學習演算法-K近鄰（KNN）演算法（三）：馬絞痛資料--kNN資料預處理+kNN分類pipeline（程式碼附詳細註釋）
2020-12-29
機器學習演算法KNN
k-近鄰演算法
2018-06-11
演算法
python-機器學習程式碼總結
2020-11-08
Python機器學習
機器學習之決策樹詳細講解及程式碼講解
2020-09-29
機器學習
K-鄰近均值演算法
2020-10-08
演算法
用Python進行機器學習（附程式碼、學習資源）
2018-06-04
Python機器學習
機器學習之Xgboost詳解
2020-07-27
機器學習
圖解機器學習 | LightGBM模型詳解
2022-03-10
圖解機器學習模型
機器學習：詳解遷移學習（Transfer learning）
2024-07-18
機器學習遷移學習
機器學習-牛頓法詳解
2021-07-05
機器學習
[機器學習] 低程式碼機器學習工具PyCaret庫使用指北
2024-06-01
機器學習
[python學習]機器學習 -- 感知機
2020-10-19
Python機器學習
Spring 註解學習詳細程式碼示例
2020-08-03
Spring
k近鄰演算法的實現：kd樹
2018-05-10
演算法
分類演算法-k 鄰近演算法
2020-01-19
演算法
機器學習：詳解多工學習（Multi-task learning）
2024-07-24
機器學習
圖解機器學習 | 決策樹模型詳解
2022-03-10
圖解機器學習模型
從零開始學機器學習——分類器詳解
2024-10-16
機器學習

機器學習_K近鄰Python程式碼詳解

相關文章