文獻閱讀 — Clustering by Fast Search and Find of Density Peaks

weixin_33782386發表於2017-08-28

由於簡書不方便編寫公式,涉及公式部分全部截圖,原始ipynb檔案點這裡


聚類(clustering)是一類典型的無監督學習(unsupervised learning)方法,它通過對無標記訓練樣本的學習將資料集中的樣本劃分為若干個通常是不相交的子集(簇/cluster)。聚類分析的目標是基於元素的相似性進行歸類,在生物資訊學和模式識別等領域有著廣泛的應用,常用的聚類演算法有:knn、K-means、K-medoids、DBSCAN等。


作者主要做了什麼工作?


首先,作者提出了一個核心假設:類簇中心(cluster center)周圍都是低區域性密度(low local density)的點,並且與任何一個區域性密度較高(a higher local density)的點保持相對較遠的距離;基於這個假設,作者提出了一種新的、不需要迭代的快速聚類方法(paper中沒有給這個方法命名,這裡暫且稱之為Fast-Cluster)。


Fast-Cluster演算法有哪些優點?


  1. 不需要進行迭代計算,求解速度快,不存在不收斂的情況
  2. 可以對非球形資料進行聚類

Fast-Cluster演算法描述


1. 符號列表

4604328-96f97353002f4cc1.png
符號列表

2. 基本概念


4604328-f42abf4cbaf43ac7.png

3. 演算法流程


4604328-e4f10de0bd62a70a.png

相關資源整理


1、JDPlus部落格(含python實現):Science論文"Clustering by fast search and find of density peaks"學習筆記
2、Paper專屬頁面,包含一些樣例資料和matlab程式碼,原始matlab程式碼的python實現在這裡
3、jasonwbw做的python實現,star數量129,參考價值較高
4、cwehmeyer做的python實現

相關文章