可伸縮聚類演算法綜述（可伸縮聚類演算法開篇）

Leon1895發表於2018-10-30

原文網址 : https://blog.csdn.net/qq_40793975/article/details/83536182

可伸縮聚類演算法綜述

第二十八次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇文章作為可伸縮聚類（Scalable Clustering）演算法的開篇，簡要介紹了幾種針對大規模資料常用的減少時間和空間複雜度的方法。

許多聚類演算法所需要的儲存量（空間複雜度）都是非線性的，以層次聚類為例，其所需的儲存量為，由於磁碟對隨機訪問速度的限制，這類演算法並不適用於大規模的資料集，而且演算法本身難以修改。另外，某些演算法的計算量（時間複雜度）也是非線性的，因此在這裡針對上述問題介紹幾種常用的減少時間和空間複雜度的方法。

多維或空間存取方法

許多聚類技術（K-Means、DBSCAN等）需要找出最近的質心、點的最近鄰或指定距離內的所有點。可以使用稱為多維或空間存取方法的專門技術來更加有效的執行這些任務，至少對於低維資料可以這樣做。這些技術，如k-d樹或R*樹，一般產生資料空間的層次劃分，可以用來減少發現點的最近鄰所需要的時間。注意，基於網格的聚類法也劃分資料空間（如DENCLUE中對核密度估計的改進）。

鄰近度界

另一種避免鄰近度計算的方法是使用鄰近度界。例如，使用歐幾里得距離時，有可能使用三角不等式來避免許多距離的計算。例如，在傳統K-Means的每一次迴圈迭代中，需要決定樣本點應當留在當前的簇，還是應當移動到一個新的簇中。如果我們知道兩個簇質心之間的距離和點到當前所屬簇的（更新過的）質心的距離，則可以使用三角不等式來避免計算該樣本點到其他簇質心的距離。

抽樣

另一種降低時間複雜度的方法是抽樣。在這種方法中，提取一個樣本點集作為原始資料集的子集，對樣本點集中的所有點進行聚類，然後將原資料集中其餘的樣本點指派到這些簇中（通常是最近的簇）。如果抽取的點數是 $\sqrt{m}$ ，則 $O\left(m^2\right)$ 時間複雜度的演算法複雜度降低到 $O\left(m\right)$ 。不過，抽樣的主要問題是小簇可能丟失。

劃分資料物件

另一種降低時間複雜度的常用方法是，使用某種有效的技術，將資料集劃分為不相交的集合，然後分別對這些集合聚類。最終的簇的集合是這些分離的簇的集合的並，或者通過對分離的簇的集合合併和/或進一步求精得到，在原型聚類中的提到過的二分K-Means採用的就是類似的方法。
如果使用K-Means來找出K個簇，則在每次迴圈迭代中都需要計算每個樣本點到每個簇質心的距離。如果K很大，則這種計算可能開銷很大。二分K-Means從整個資料集開始，·使用K-Means將當前的簇的進行二劃分，知道我們得到K個簇。在每一次迴圈迭代中，需要計算點到兩個簇質心的距離。除了迴圈的第一步，我們只需要計算原始資料集的一個子集中的點到兩個被考慮的簇質心的距離。因此，二分K-Means比普通的K-Means要快。

彙總

另一種聚類方法是：首先彙總資料（通常經過一次掃描），然後在彙總資料上聚類。比如，領導者演算法或者將一個資料物件放進最近的簇（如果該簇足夠近），或者建立一個包含當前物件的新簇。這種方法關於物件個數是線性的，可以用來彙總資料，以便使用其他聚類技術。BIRCH演算法採用了類似的概念。

並行與分散式計算

如果不能利用前面介紹的技術，或者如果採用這些技術並不能產生期望的精度或者降低計算時間，則需要其他方法。一種高效的方法是將計算分佈到多個處理機上。

以下是各可伸縮聚類演算法連結：
【1】CURE《CURE演算法詳解》
【2】BIRCH《BIRCH詳解》

聚類演算法綜述
2018-12-09
聚類演算法
Node.js的可伸縮性
2019-02-26
Node.js
CSS 可伸縮圓角導航選單
2020-02-18
CSS
聚類演算法
2020-04-26
聚類演算法
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
可伸縮的微服務告警系統設計指南
2020-04-06
微服務
簡析Uber的可伸縮監控：uMonitor和Neris
2018-12-24
大型網站的可伸縮性架構如何設計？
2019-04-29
網站架構
OPTICS聚類演算法原理
2020-05-14
聚類演算法
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
CSS-伸縮佈局
2019-01-30
CSS
Redis 叢集伸縮原理
2021-05-14
Redis
Spark中的聚類演算法
2020-09-27
Spark聚類演算法
深度聚類演算法敘談
2021-05-18
聚類演算法
深度聚類演算法淺談
2021-04-15
聚類演算法
Kubernetes彈性伸縮全場景解讀（五） - 定時伸縮元件釋出與開源
2019-05-07
元件
CNN 模型壓縮與加速演算法綜述
2019-01-02
CNN模型演算法
CSS3 伸縮佈局
2019-03-24
CSSS3
聚類演算法——DBSCAN演算法原理及公式
2020-05-20
聚類演算法公式
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
兩欄佈局，左側可伸縮，右側寬度自適應
2019-03-20
彈性伸縮：高可用架構利器（架構+演算法+思維）
2024-06-20
架構演算法
聚類模型的演算法效能評價
2024-06-27
聚類模型演算法
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
redis自學（37）叢集伸縮
2024-04-18
Redis
彈性佈局（伸縮佈局）
2020-11-01
Knative Autoscaler 自定義彈性伸縮
2023-02-10
windows NLB+ARR實現Web負載均衡高可用/可伸縮的方法
2019-02-15
WindowsWeb負載
RDS for MySQL Serverless公測上線：彈性伸縮，最高可降成本超80%
2024-03-04
MySqlServer
【Python機器學習實戰】聚類演算法（2）——層次聚類(HAC)和DBSCAN
2021-12-16
Python機器學習聚類演算法
20分鐘學會DBSCAN聚類演算法
2024-07-16
聚類演算法
MMM全連結聚類演算法實現
2024-05-25
聚類演算法
聚類演算法與K-means實現
2021-09-08
聚類演算法
AutoScaling彈性伸縮配置重大升級
2018-07-03