Spark構建聚類模型（二）

weixin_34249678發表於2018-12-11

原文網址 : https://blog.csdn.net/weixin_34249678/article/details/88107112

評估聚類模型的效能

聚類的評估通常分為兩部分：內部評估和外部評估。內部評估表示評估過程使用訓練模型時使用的訓練資料，外部評估則使用訓練資料之外的資料。

內部評價指標

通用的內部評價指標包括WCSS（我們之前提過的K-元件的目標函式）、Davies-Bouldin指數、Dunn指數和輪廓係數（silhouette coefficient）。所有這些度量指標都是使類簇內部的樣本距離儘可能接近，不同類簇的樣本相對較遠。
外部評價指標

因為聚類被認為是無監督分類，如果有一些帶標註的資料，便可以用這些標籤來評估聚類模
型。可以使用聚類模型預測類簇（類標籤），使用分類模型中類似的方法評估預測值和真實標籤的誤差（即真假陽性率和真假陰性率）。

在MovieLens資料集計算效能

MLlib提供的函式computeCost可以方便地計算出給定輸入資料RDD [Vector]的WCSS。下面我們使用這個方法計算電影和使用者訓練資料的效能

val movieCost = movieClusterModel.computeCost(movieVectors)
val userCost = userClusterModel.computeCost(userVectors)
println("WCSS for movies: " + movieCost)
WCSS for movies: 2273.1845750824914
println("WCSS for users: " + userCost)
WCSS for users: 1491.3740578499805

聚類模型引數調優

不同於以往的模型， K-均值模型只有一個可以調的引數，就是K，即類中心數目

通過交叉驗證選擇K

類似分類和迴歸模型，我們可以應用交叉驗證來選擇模型最優的類中心數目。這和監督學習的過程一樣。需要將資料集分割為訓練集和測試集，然後在訓練集上訓練模型，在測試集上評估感興趣的指標的效能。如下程式碼用60/40劃分得到訓練集和測試集，並使用MLlib內建的WCSS類方法評估聚類模型的效能：

val trainTestSplitMovies = movieVectors.randomSplit(Array(0.6, 0.4), 123)
val trainMovies = trainTestSplitMovies(0)
val testMovies = trainTestSplitMovies(1)
val costsMovies = Seq(2, 3, 4, 5, 10, 20).map { k => (k, KMeans.
train(trainMovies, numIterations, k, numRuns).computeCost(testMovies))
}
println("Movie clustering cross-validation:")
Movie clustering cross-validation:
costsMovies.foreach { case (k, cost) => println(f"WCSS for K=$k id $cost%2.2f") }
WCSS for K=2 id 884.43
WCSS for K=3 id 885.07
WCSS for K=4 id 884.39
WCSS for K=5 id 874.54
WCSS for K=10 id 885.56
WCSS for K=20 id 878.53

為了實驗的完整性，我們還計算了使用者聚類在交叉驗證下的效能：

val trainTestSplitUsers = userVectors.randomSplit(Array(0.6, 0.4), 123)
val trainUsers = trainTestSplitUsers(0)
val testUsers = trainTestSplitUsers(1)
val costsUsers = Seq(2, 3, 4, 5, 10, 20).map { k => (k,
KMeans.train(trainUsers, numIterations, k,
numRuns).computeCost(testUsers)) }
println("User clustering cross-validation:")
costsUsers.foreach { case (k, cost) => println(f"WCSS for K=$k id $cost%2.2f") }
WCSS for K=2 id 612.19
WCSS for K=3 id 614.20
WCSS for K=4 id 607.50
WCSS for K=5 id 604.97
WCSS for K=10 id 601.47
WCSS for K=20 id 609.47

Spark中的聚類演算法
2020-09-27
Spark聚類演算法
物以類聚人以群分,透過GensimLda文字聚類構建人工智慧個性化推薦系統(Python3.10)
2023-01-09
LDA聚類人工智慧Python
前端架構思想：聚類分層
2018-10-19
前端架構聚類
聚類模型的演算法效能評價
2024-06-27
聚類模型演算法
機器學習之使用sklearn構建據類模型，並且評價模型
2020-12-31
機器學習模型
聚類分析
2024-03-20
聚類
Pytorch系列:（三）模型構建
2021-04-26
PyTorch模型
應用聚類模型獲得聊天機器人語料
2018-04-12
聚類模型機器人
Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程
2018-11-12
SparkHanLP聚類
建構函式和類
2024-12-08
函式
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
【火爐煉AI】機器學習022-使用均值漂移聚類演算法構建模型
2018-09-04
AI機器學習聚類演算法模型
0編碼構建AI模型
2019-05-16
AI模型
基於spark2.0文字分詞+多分類模型
2019-04-16
Spark分詞模型
JS 建構函式與類
2024-04-07
JS函式
[需求建議]跨模型呼叫？分類能呼叫單獨模型？
2019-05-11
模型
使用Apache Spark和Apache Hudi構建分析資料湖
2020-06-15
ApacheSpark
如何構建資料倉儲模型？
2022-09-26
模型
聊聊智慧診斷模型的構建
2022-10-09
模型
HelloWorld：通過demo，構建黑盒模型
2022-03-12
模型
【scipy 基礎】--聚類
2023-11-01
聚類
聚類演算法
2020-04-26
聚類演算法
k-means聚類
2023-01-30
聚類
類的建構函式和解構函式
2020-12-15
函式
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
spark執行原理、模型
2018-08-03
Spark模型
spark初識二
2021-09-09
Spark
新一代CMDB模型構建指南
2018-05-08
模型
unit3 文字聚類
2018-05-11
聚類
譜聚類原理總結
2022-01-18
聚類
密度聚類。Clustering by fast search and
2021-09-09
聚類AST
父類和子類的建構函式問題
2021-09-09
函式
推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
Spark 程式設計模型(上)
2018-09-13
Spark程式設計模型
hive on spark記憶體模型
2024-04-16
HiveSpark記憶體模型

Spark構建聚類模型（二）

相關文章