常用聚類演算法以及演算法評價

shuaishuai3409發表於2016-07-24

聚類模型是一種非監督的學習方法,聚類的輸入是一組未標記的資料,聚類模型根據自身的距離或相似性將其化為若干組,劃分的原則是組內距離最小化而組間距離最大化。常見聚類方法見下表:

類別 主要演算法
劃分方法 k-Means,k-Medoids(k中心點),CLANRANS(基於選擇的演算法)
層次分析方法 BIRCH(平均迭代規約和聚類),CURE(代表點聚類),CHAMELEON(動態模型)
基於密度的方法 DBSCAN(高密度連線區域),DENCLUE(密度分佈函式),OPTICS(物件排序識別)
基於網格的方法 STING(統計資訊網路),SLIOUE(聚類高維空間),WAVE-CLUSTER(小波變化)
基於模型的方法 統計學,神經網路

聚類分析演算法評價
聚類分析目標是實現組內相似性高,組間相似性低。組內相似性越大,組間相似性越大,聚類效果越好。

  1. purity評價法
    purity評價法相對簡單,只需計算正確聚類數目佔總數的比例。

    purity(X,Y)=1n

    \frac{1}{n}
    max|xkyk|
    \sum max|x_k\bigcap y_k|

  2. RI評價法
    RI=R+WR+M+D+W

    \frac{R+W}{R+M+D+W}

    R:應該在一起的兩個物件被正確分類了
    W:不應該被聚在一類的兩個物件被正確分開了
    M:不該放在一類的物件被錯誤的放在了一類
    D:不應該分開的物件被錯誤的分開了

  3. F值評價法
    RI方法的衍生方法:
    Fa
    F_a
    =(1+α2)prα2p+r
    \frac{(1+\alpha^2)pr}{\alpha^2 p+r}
    ,
    其中,p=RR+M
    \frac{R}{R+M}
    ,r=RR+D
    \frac{R}{R+D}
    .
    實際上,RI方法就是把準確率p和召回率看得同等重要。事實上,有時我們需要某一特性更多一點,這時候就適合使用F值方法。

相關文章