資料探勘-層次聚類
微信搜尋:“二十同學” 公眾號,歡迎關注一條不一樣的成長之路
層次聚類(hierarchical clustering)演算法極為簡單:有N多節點,最開始認為每個節點為一類,然後找到距離最近的節點“兩兩合併”,合併後的兩個節點的平均值作為新的節點,繼續兩兩合併的過程,直到最後都合併成一類。
下圖表明瞭聚類的過程,距離最近的節點合併(第一步中,如果有兩對節點距離一樣,那就同時合併)
層次聚類過程
如果用資料探勘工具來做(如SPSS),一般會生成一個樹形圖,那麼我們可以根據分析問題的具體情況,選擇到底最終要聚成幾類:
層次聚類樹形圖
如果從純理論上講,判斷聚成幾類可以參考每一步合併的“距離”是不是有明顯差距,我們的例子中:
第一步:A和B,C和D合併時候,距離很近,就算大概是1(就是肉眼估算,沒有什麼測量)
第二步:CD和E合併,距離其實也很近,大概2
第三步:CDE和F合併,距離遠了,大概8
第四步:CDEF和AB合併,距離大概9
可見,第二步到第三步,距離有了一個質的提升,說明相對接近的都已經合成一推兒,開始遠距離“結合”了,因此,就在第二步的地方結束,應該是一個較好的聚類選擇,也就是聚成3類。
當然,真正聚成幾類一定不要從理論出發,還是要看實際案例中,聚成幾類最合理,最好解釋,最能說明問題
層次聚類運算速度比較慢,因為要每次都要計算多個cluster內所有資料點的兩兩距離,處理大量資料時非常吃力,最大的優點,就是它一次性地得到了整個聚類的過程,只要得到了上面那樣的聚類樹,想要分多少個cluster都可以直接根據樹結構來得到結果,改變 cluster數目不需要再次計算資料點的歸屬。
非常感謝:點贊、收藏和評論
微信搜尋:“二十同學” 公眾號,或者直接掃一掃,關注一條不一樣的成長之路
相關文章
- 資料探勘之 層次聚類聚類
- 機器學習 之 層次聚類機器學習聚類
- 09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE聚類演算法
- 【機器學習】--層次聚類從初識到應用機器學習聚類
- 【Python機器學習實戰】聚類演算法(2)——層次聚類(HAC)和DBSCANPython機器學習聚類演算法
- 資料探勘聚類之k-medoids演算法實現聚類演算法
- 一文讀懂層次聚類(Python程式碼)聚類Python
- 演算法金 | K-均值、層次、DBSCAN聚類方法解析演算法聚類
- 非完整資料聚類初探聚類
- 資料處理 聚類分析聚類
- 前端架構思想:聚類分層前端架構聚類
- 【python資料探勘課程】二十四.KMeans文字聚類分析互動百科語料Python聚類
- 【python資料探勘課程】二十五.Matplotlib繪製帶主題及聚類類標的散點圖Python聚類
- 資料探勘主要解決四類問題
- 資料探勘中分類演算法總結演算法
- 資料探勘(7):分類演算法評價演算法
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- Python有哪些資料探勘工具?五大類Python
- 資料探勘(6):決策樹分類演算法演算法
- 讀資料湖倉05資料需要的層次
- 漫談“資料拆分層次對比”
- 資料探勘——認識資料
- 資料探勘者與資料探勘青年的對話(轉)
- 資料探勘實踐(金融風控)-第五次任務
- 資料探勘——KNN演算法(手寫數字分類)KNN演算法
- 資料探勘類圖書:Hadoop實戰(第2版)Hadoop
- 資料探勘( TO DO LIST)
- 資料探勘與生活
- 資料探勘的功能
- 神奇的資料探勘
- 資料探勘概述 (轉)
- 資料探勘方向分析
- 資料探勘技術
- 資料探勘的資料分析方法
- 資料探勘與資料抽樣