第三篇：基於K-近鄰分類演算法的手寫識別系統

穆晨發表於2017-01-19

演算法

前言

本文將繼續講解K-近鄰演算法的專案例項 - 手寫識別系統。

該系統在獲取使用者的手寫輸入後，判斷使用者寫的是什麼。

為了突出核心，簡化細節，本示例系統中的輸入為32x32矩陣，分類結果也均為數字。但對於漢字或者別的分類情形原理都是一樣的。

有了前面學習的基礎，下面直接進入專案開發步驟。

第一步：收集並準備資料

在使用者主目錄的trainingDigits子目錄中，存放的是2000個樣本資料。

每個樣本一個檔案，其中一部分如下所示：

檔案命名格式為：

分類標籤_標籤內序號

如 0_20.txt 就表示該樣本是分類標籤為0的第20個特徵集。20就是個序號以區分標籤內不同檔案而已，沒其他意義。

樣本資料都是32x32矩陣：

對於這樣的二維資料，如何判斷樣本和目標物件的距離呢？首先想到的是可以將二維降到一維。

當然也可以考慮去找找二維的距離求解方法。

下面給出降維函式：

 1 # ==============================================
 2 # 輸入：
 3 #        訓練集檔名(含路徑)
 4 # 輸出：
 5 #        降維後的樣本資料(這裡一個檔案一份樣本資料)
 6 # ==============================================
 7 def img2vector(filename):
 8     '將32x32的矩陣轉換為1024一維向量'
 9     
10     # 初始化返回向量
11     returnVect = numpy.zeros((1,1024))
12     
13     # 開啟樣本資料檔案
14     fr = open(filename)
15     
16     # 降維處理
17     for i in range(32):
18         lineStr = fr.readline()
19         for j in range(32):
20             returnVect[0,32*i+j] = int(lineStr[j])
21             
22     return returnVect

第二步：測試演算法

K臨近的分類函式程式碼在之前的文章K-近鄰分類演算法原理分析與程式碼實現中給出了，這裡直接呼叫：

# =================================================
# 輸入：
#        空
# 輸出：
#        對指定的測試集檔案，指定的訓練集資料進行K近鄰分類
#        並列印結果資訊
# =================================================
def handwritingClassTest():
    '手寫數字識別系統測試程式碼'
    
    # 分類列表
    hwLabels = []
    
    # 獲取所有訓練集檔名
    trainingFileList = os.listdir('/home/fangmeng/trainingDigits')
    
    # 定義訓練集結構體
    m = len(trainingFileList)
    trainingMat = numpy.zeros((m, 1024))
    
    for i in range(m):
        # 當前訓練集檔名
        filenameStr = trainingFileList[i]
        # 檔名(filenameStr去掉.txt字尾)
        fileStr = filenameStr.split('.')[0]
        # 分類標籤
        classNumStr = int(fileStr.split('_')[0])
        # 將分類標籤加入分類列表
        hwLabels.append(classNumStr)
        # 將當前訓練集檔案降維後加入到訓練集結構體
        trainingMat[i] = img2vector('/home/fangmeng/trainingDigits/%s' % filenameStr)
    
    # 獲取所有測試集檔名
    testFileList = os.listdir('/home/fangmeng/testDigits')
    # 錯誤分類記數
    errorCount = 0
    # 測試集檔案個數
    mTest = len(testFileList)
    
    print "錯誤的分類結果如下:"
    for i in range(mTest):
        # 當前測試集檔名
        fileNameStr = testFileList[i]
        # 檔名(filenameStr去掉.txt字尾)
        fileStr = fileNameStr.split('.')[0]
        # 分類標籤
        classNumStr = int(fileStr.split('_')[0])
        # 將當前測試集檔案降維
        vectorUnderTest = img2vector('/home/fangmeng/testDigits/%s' % fileNameStr)
        # 對當前測試檔案進行分類
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        
        if (classifierResult != classNumStr): 
            print "分類結果: %d, 實際結果: %d" % (classifierResult, classNumStr)
            errorCount += 1.0
            
    print "\n總錯誤數: %d" % errorCount
    print "\n總錯誤數: %f" % (errorCount/float(mTest))

執行結果：

小結

1. K-鄰近演算法的本質是用來分類的，要從分類的思想去思考這個演算法的運用。

2. 再強調一次K-鄰近演算法是沒有訓練過程的，這點和以後學習的其他分類方法，比如決策樹對比後就更清楚了。

3. K-鄰近演算法的效率很低，不論是從時間還是空間上看(單就這個簡單專案都跑得很慢)。因此需要學習更多更優化的演算法。

4. 有興趣有時間可以考慮在hadoop/spark叢集下實現這個專案或使用該演算法的其他類似專案，定能大幅度提升效能。

第二篇：基於K-近鄰分類演算法的約會物件智慧匹配系統
2017-01-19
演算法物件
k-近鄰演算法
2018-06-11
演算法
K-鄰近均值演算法
2020-10-08
演算法
Python:K-近鄰演算法
2017-12-06
Python演算法
機器學習演算法——kNN（k-近鄰演算法）
2020-10-12
機器學習演算法KNN
機器學習筆記1（K-近鄰演算法）
2018-01-12
機器學習筆記演算法
分類演算法-k 鄰近演算法
2020-01-19
演算法
機器學習演算法（九）: 基於線性判別模型的LDA手寫數字分類識別
2023-03-29
機器學習演算法模型LDA
用Python實現K-近鄰演算法
2015-12-25
Python演算法
第一篇：K-近鄰分類演算法原理分析與程式碼實現
2017-01-19
演算法
opencv 學習之基於K近鄰的數字識別
2016-12-17
OpenCV
機器學習經典分類演算法 —— k-近鄰演算法（附python實現程式碼及資料集）
2019-07-29
機器學習演算法Python
K-近鄰演算法介紹與程式碼實現
2019-07-05
演算法
k-鄰近演算法實現約會網站的配對效果
2020-01-24
演算法網站
一看就懂的K近鄰演算法(KNN)，K-D樹，並實現手寫數字識別！
2019-08-02
演算法KNN
【機器學習】機器學習建立演算法第2篇：K-近鄰演算法【附程式碼文件】
2024-03-15
機器學習演算法
什麼是機器學習的分類演算法？【K-近鄰演算法(KNN)、交叉驗證、樸素貝葉斯演算法、決策樹、隨機森林】
2022-04-04
機器學習演算法KNN隨機森林
機器學習——最鄰近規則分類（K Nearest Neighbor）KNN演算法
2017-09-12
機器學習RESTKNN演算法
什麼是機器學習分類演算法？【K-近鄰演算法(KNN)、交叉驗證、樸素貝葉斯演算法、決策樹、隨機森林】
2022-04-05
機器學習演算法KNN隨機森林
opencv python 基於KNN的手寫體識別
2019-02-16
OpenCVPythonKNN
opencv python 基於SVM的手寫體識別
2019-02-16
OpenCVPython
K - 近鄰演算法
2020-12-19
演算法
K近鄰演算法
2022-03-03
演算法
【系統設計】鄰近服務
2022-06-27
機器學習——最鄰近規則分類（K Nearest Neighbor）KNN演算法的應用
2017-09-12
機器學習RESTKNN演算法
機器學習實戰2.1. 超詳細的k-近鄰演算法KNN（附Python程式碼）
2019-03-27
機器學習演算法KNNPython
機器學習——K近鄰演算法
2019-02-16
機器學習演算法
機器學習——KNN近鄰演算法
2020-11-04
機器學習KNN演算法
基於 HTML5 WebGL 的垃圾分類系統
2020-04-06
HTMLWeb
機器學習-K近鄰演算法-KNN
2024-04-27
機器學習演算法KNN
谷歌推出基於AI的開源手勢識別演算法，可識別單手21個骨骼點
2019-08-21
谷歌AI演算法
推薦系統實踐 0x06 基於鄰域的演算法（1）
2020-11-25
演算法
推薦系統實踐 0x07 基於鄰域的演算法（2）
2020-11-26
演算法
基於深度學習的人臉識別系統系列（Caffe+OpenCV+Dlib）——【六】設計人臉識別的識別類
2016-10-01
深度學習OpenCV
深度學習例項之基於mnist的手寫數字識別
2018-05-25
深度學習
基於OPENCV的手勢識別技術
2020-12-11
OpenCV
機器學習演算法之K近鄰演算法
2021-06-06
機器學習演算法
機器學習-11-k近鄰演算法
2020-10-29
機器學習演算法

第三篇：基於K-近鄰分類演算法的手寫識別系統

前言

第一步：收集並準備資料

第二步：測試演算法

小結

相關文章