資料分析與挖掘 - R語言：KNN演算法

獵手家園發表於2016-05-25

一個簡單的例子！
環境：CentOS6.5
Hadoop叢集、Hive、R、RHive，具體安裝及除錯方法見部落格內文件。

KNN演算法步驟：
需對所有樣本點（已知分類+未知分類）進行歸一化處理。然後，對未知分類的資料集中的每個樣本點依次執行以下操作：
1、計算已知類別資料集中的點與當前點（未知分類）的距離。
2、按照距離遞增排序
3、選取與當前距離最小的k個點
4、確定前k個點所在類別的出現頻率
5、返回前k個點出現頻率最高的類別作為當前點的預測類別

編寫R指令碼：

#!/usr/bin/Rscript
#1、對iris進行歸一化處理
iris_s <- data.frame(scale(iris[, 1:4]))
iris_s <- cbind(iris_s, iris[, 5])
names(iris_s)[5] = "Species"

#2、對iris資料集隨機選擇其中的100條記錄作為已知分類的樣本集
sample.list <- sample(1:150, size = 100)
iris.known <- iris_s[sample.list, ]

#3、剩餘50條記錄作為未知分類的樣本集（測試集）
iris.unknown <- iris_s[-sample.list, ]

#4、對測試集中的每一個樣本，計算其與已知樣本的距離，因為已經歸一化，此處直接使用歐氏距離
length.known <- nrow(iris.known)
length.unknown <- nrow(iris.unknown)

#5、計算
for (i in 1:length.unknown) { 
    dis_to_known <- data.frame(dis = rep(0, length.known)) 
    for (j in 1:length.known) { 
        dis_to_known[j, 1] <- dist(rbind(iris.unknown[i, 1:4], iris.known[j,1:4]), method = "euclidean") 
        dis_to_known[j, 2] <- iris.known[j, 5]
        names(dis_to_known)[2] = "Species" 
    }

    dis_to_known <- dis_to_known[order(dis_to_known$dis), ]

    k <- 5 
    type_freq <- as.data.frame(table(dis_to_known[1:k, ]$Species)) 
    type_freq <- type_freq[order(-type_freq$Freq), ]
    iris.unknown[i, 6] <- type_freq[1, 1]
}

names(iris.unknown)[6] = "Species.pre"

#7、輸出分類結果
iris.unknown[, 5:6]

輸出結果：略，結果集中，Species為樣本實際分類，Species.pre為Knn演算法的分類，正確率達90%以上。

KNN是有監督的學習演算法，其特點有：
1、精度高，對異常值不敏感
2、只能處理數值型屬性
3、計算複雜度高（如已知分類的樣本數為n，那麼對每個未知分類點要計算n個距離）

KNN演算法存在的問題：
1、k值的確定是個難題。
2、如果距離最近的k個已知分類樣本中，頻數最高的型別有多個（頻數相同），如何選擇對未知樣本的分類？目前看是隨機的。
3、如果有n個未知型別樣本，m個已知型別樣本，則需要計算n*m個距離，計算量較大，且需儲存全部資料集合，空間複雜度也較大。
4、能否把預測的樣本分類加入到已知類別集合中，對剩餘的未知型別樣本進行分類？
5、歸一化放在所有處理的最前面，這樣需要知道全部的樣本集合（已知分類+未知分類）來構建分類器，而實際上未知分類的樣本並不一定能事先獲得，這樣如何進行歸一化處理？

R語言入門與資料分析
2024-04-20
R語言
《R語言入門與資料分析》——向量索引
2020-10-02
R語言索引
R語言資料質量分析
2024-03-21
R語言
資料分析與挖掘-挖掘建模
2020-09-30
【R語言入門】R語言中的變數與基本資料型別
2020-11-28
R語言變數資料型別
樹【資料結構與演算法分析 c 語言描述】
2018-12-28
資料結構演算法
SMOTE與SMOGN演算法R語言程式碼
2024-07-15
演算法R語言
R語言批量建立資料框
2018-09-28
R語言
AVL 樹【資料結構與演算法分析 c 語言描述】
2019-01-13
資料結構演算法
伸展樹【資料結構與演算法分析 c 語言描述】
2019-01-14
資料結構演算法
棧 ADT 【資料結構與演算法分析 c 語言描述】
2018-12-24
資料結構演算法
R語言-Survival analysis（生存分析）
2019-05-31
R語言
資料結構與演算法分析（c 語言描述）習題 1.2
2018-12-14
資料結構演算法
資料結構與演算法分析（c 語言描述）習題 1.3
2018-12-14
資料結構演算法
資料結構與演算法分析（c 語言描述）習題 1.1
2018-12-12
資料結構演算法
佇列 ADT 【資料結構與演算法分析 c 語言描述】
2018-12-26
佇列資料結構演算法
R語言連線資料庫（MySQL)
2018-07-06
R語言資料庫MySql
想要從事資料分析，選擇python還是R語言呢?
2020-06-24
PythonR語言
python和R語言哪個好?哪個適合資料分析？
2020-09-29
PythonR語言
使用R語言分析微信好友
2018-10-05
R語言
R語言經典統計分析
2024-10-16
R語言
R語言學習-高階資料管理
2019-01-23
R語言
Python資料分析與挖掘實戰筆記
2020-10-04
Python筆記
r語言
2019-10-18
R語言
1688商品資料API介面的資料分析與挖掘技巧
2024-01-18
API
R語言實戰（1）資料集的建立
2020-06-01
R語言
R語言批量提取excel當中的資料
2020-11-26
R語言Excel
【R語言入門】R語言環境搭建
2021-09-09
R語言
資料結構與演算法-kd二叉樹(kNN)
2019-01-10
資料結構演算法二叉樹KNN
資料結構與演算法分析（c 語言描述）最大子序列和問題
2018-12-14
資料結構演算法
社交網路分析的 R 基礎：（一）初探 R 語言
2022-02-05
R語言邏輯迴歸、GAM、LDA、KNN、PCA主成分分類分析預測房價及交叉驗證
2024-03-04
R語言邏輯迴歸GAMLDAKNNPCA
資料結構與演算法分析（c 語言描述）基數排序陣列實現
2018-12-20
資料結構演算法排序陣列
棧的應用之平衡符號【資料結構與演算法分析 c 語言描述】
2018-12-26
符號資料結構演算法
R 語言使用
2024-06-10
電商API介面的大資料分析與挖掘技巧
2024-01-16
API大資料
《Python資料分析與挖掘實戰》原始碼下載
2022-11-28
Python原始碼
資料結構與演算法分析（c 語言描述）多項式 ADT 陣列實現
2018-12-19
資料結構演算法陣列
NLA自然語言分析，讓資料分析更智慧！
2022-06-02

資料分析與挖掘 - R語言：KNN演算法

相關文章