Spark中的聚類演算法

HoLoong發表於2020-09-27

原文網址 : https://www.cnblogs.com/helongBlog/p/13741248.html

Spark聚類演算法

Spark - Clustering

官方文件：https://spark.apache.org/docs/2.2.0/ml-clustering.html

這部分介紹MLlib中的聚類演算法；

K-means：
- 輸入列；
- 輸出列；
Latent Dirichlet allocation(LDA)：
Bisecting k-means；
Gaussian Mixture Model(GMM)：
- 輸入列；
- 輸出列；

K-means

k-means是最常用的聚類演算法之一，它將資料聚集到預先設定的N個簇中；

KMeans作為一個預測器，生成一個KMeansModel作為基本模型；

輸入列

Param name	Type(s)	Default	Description
featuresCol	Vector	features	Feature vector

輸出列

Param name	Type(s)	Default	Description
predictionCol	Int	prediction	Predicted cluster center

例子

from pyspark.ml.clustering import KMeans

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

# Trains a k-means model.
kmeans = KMeans().setK(2).setSeed(1)
model = kmeans.fit(dataset)

# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(wssse))

# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)

LDA

LDA是一個預測器，同時支援EMLDAOptimizer和OnlineLDAOptimizer，生成一個LDAModel作為基本模型，專家使用者如果有需要可以將EMLDAOptimizer生成的LDAModel轉為DistributedLDAModel；

from pyspark.ml.clustering import LDA

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_lda_libsvm_data.txt")

# Trains a LDA model.
lda = LDA(k=10, maxIter=10)
model = lda.fit(dataset)

ll = model.logLikelihood(dataset)
lp = model.logPerplexity(dataset)
print("The lower bound on the log likelihood of the entire corpus: " + str(ll))
print("The upper bound on perplexity: " + str(lp))

# Describe topics.
topics = model.describeTopics(3)
print("The topics described by their top-weighted terms:")
topics.show(truncate=False)

# Shows the result
transformed = model.transform(dataset)
transformed.show(truncate=False)

Bisecting k-means

Bisecting k-means是一種使用分裂方法的層次聚類演算法：所有資料點開始都處在一個簇中，遞迴的對資料進行劃分直到簇的個數為指定個數為止；

Bisecting k-means一般比K-means要快，但是它會生成不一樣的聚類結果；

BisectingKMeans是一個預測器，並生成BisectingKMeansModel作為基本模型；

與K-means相比，二分K-means的最終結果不依賴於初始簇心的選擇，這也是為什麼通常二分K-means與K-means結果往往不一樣的原因；

from pyspark.ml.clustering import BisectingKMeans

# Loads data.
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

# Trains a bisecting k-means model.
bkm = BisectingKMeans().setK(2).setSeed(1)
model = bkm.fit(dataset)

# Evaluate clustering.
cost = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(cost))

# Shows the result.
print("Cluster Centers: ")
centers = model.clusterCenters()
for center in centers:
    print(center)

Gaussian Mixture Model(GMM)

GMM表示一個符合分佈，從一個高斯子分佈中提取點，每個點都有其自己的概率，spark.ml基於給定資料通過期望最大化演算法來歸納最大似然模型實現演算法；

輸入列

Param name	Type(s)	Default	Description
featuresCol	Vector	features	Feature vector

輸出列

Param name	Type(s)	Default	Description
predictionCol	Int	prediction	Predicted cluster center
probabilityCol	Vector	probability	Probability of each cluster

例子

from pyspark.ml.clustering import GaussianMixture

# loads data
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

gmm = GaussianMixture().setK(2).setSeed(538009335)
model = gmm.fit(dataset)

print("Gaussians shown as a DataFrame: ")
model.gaussiansDF.show(truncate=False)

Spark構建聚類模型（二）
2018-12-11
Spark聚類模型
聚類演算法
2020-04-26
聚類演算法
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
聚類演算法綜述
2018-12-09
聚類演算法
OPTICS聚類演算法原理
2020-05-14
聚類演算法
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
聚類kmeans演算法在yolov3中的應用
2019-05-28
聚類演算法YOLO
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
可伸縮聚類演算法綜述（可伸縮聚類演算法開篇）
2018-10-30
聚類演算法
聚類模型的演算法效能評價
2024-06-27
聚類模型演算法
深度聚類演算法敘談
2021-05-18
聚類演算法
深度聚類演算法淺談
2021-04-15
聚類演算法
推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
聚類演算法在 D2C 佈局中的應用
2022-02-17
聚類演算法
聚類演算法——DBSCAN演算法原理及公式
2020-05-20
聚類演算法公式
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
【Python機器學習實戰】聚類演算法（2）——層次聚類(HAC)和DBSCAN
2021-12-16
Python機器學習聚類演算法
機器學習中的聚類演算法演變及學習筆記
2020-05-16
機器學習聚類演算法筆記
聚類的基本問題及兩個常用演算法
2019-01-25
聚類演算法
20分鐘學會DBSCAN聚類演算法
2024-07-16
聚類演算法
MMM全連結聚類演算法實現
2024-05-25
聚類演算法
聚類演算法與K-means實現
2021-09-08
聚類演算法
利用python的KMeans和PCA包實現聚類演算法
2019-09-15
PythonPCA聚類演算法
聚類分析
2024-03-20
聚類
機器學習Sklearn系列：（五）聚類演算法
2021-07-22
機器學習聚類演算法
機器學習演算法筆記之8：聚類演算法
2020-04-06
機器學習演算法筆記聚類
k-medoids與k-Means聚類演算法的異同
2020-04-07
聚類演算法
學點高階技術：基於密度的聚類演算法——FDBSCAN演算法
2022-10-25
聚類演算法
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程
2018-11-12
SparkHanLP聚類
【無監督學習】2：DBSCAN聚類演算法原理
2018-04-09
聚類演算法
DBSCAN聚類演算法（Density-Based Spatial Clustering of Applications with Noise）
2020-02-24
聚類演算法APP
計算機如何感知大資料——聚類演算法
2018-04-04
計算機大資料聚類演算法
部分聚類演算法簡介及優缺點分析
2023-01-10
聚類演算法

Spark中的聚類演算法

Spark - Clustering

K-means

輸入列

輸出列

例子

LDA

Bisecting k-means

Gaussian Mixture Model(GMM)

輸入列

輸出列

例子

相關文章