資料探勘之KMeans演算法應用與簡單理解

micDavid發表於2019-07-23

原文網址 : https://www.cnblogs.com/wangqiang3311/p/11230975.html

演算法

一、背景

煤礦地磅產生了一系列資料：

我想從這些資料中，取出最能反映當前車輛重量的資料（有很多資料是車輛上磅過程中產生的資料）。我於是想到了聚類演算法KMeans，該演算法思想比較簡單。

二、演算法步驟

1、從樣本中隨機取出k個值，作為初始中心

2、以k箇中心劃分這些資料，分為k個組

3、重新計算出每個組的中心，作為新中心

4、如果初始中心和新中心不相等，則把新中心作為初始中心，重複2，3。反之，結束

注意：

1、我沒有用嚴格的演算法定義，怕不好理解

2、KMeans善於處理球形資料，因此隨機取k個質心，每個質心吸引離它最近的資料

3、由於質心的取值是不科學的，所以需要不斷地計算調整，直到質心名副其實

三、演算法分析及特點

1、從演算法步驟當中可以看出有兩個問題，需要解決：

首先，如何計算每個組（簇）的質心？

其次，如何把值劃分到不同的組？

2、解決上面兩個問題，因場景和要求不同而有不同的小演算法，由於我的資料是一維的，而不是點，所以可以簡單處理：

a、以每個組的平均值作為質心

b、根據值離質心的距離（相減），選擇距離最近的組加入

3、此演算法有兩個缺點：

1）某個組（簇）劃分不充分，還可以再劃分為更小的組。（容易陷入區域性最優）

2）需要使用者指定k，聚類結果對初始質心的選擇較為敏感（初始選擇不同，聚類結果可能不同）

4、優點：簡單易理解和上手

四、實現

    public class KMeans
    {
        /*
        * 聚類函式主體。
        * 針對一維 decimal 陣列。指定聚類數目 k。
        * 將資料聚成 k 類。
        */
        public static decimal[][] cluster(decimal[] p, int k)
        {
            // 存放聚類舊的聚類中心
            decimal[] c = new decimal[k];
            // 存放新計算的聚類中心
            decimal[] nc = new decimal[k];
            // 存放放回結果
            decimal[][] g;
            // 初始化聚類中心
            // 經典方法是隨機選取 k 個
            // 本例中採用前 k 個作為聚類中心
            // 聚類中心的選取不影響最終結果
            for (int i = 0; i < k; i++)
                c[i] = p[i];
            // 迴圈聚類，更新聚類中心
            // 到聚類中心不變為止
            while (true)
            {
                // 根據聚類中心將元素分類
                g = group(p, c);
                // 計算分類後的聚類中心
                for (int i = 0; i < g.Length; i++)
                {
                    nc[i] = center(g[i]);
                }
                // 如果聚類中心不同
                if (!equal(nc, c))
                {
                    c = nc;
                    nc = new decimal[k];
                }
                else
                    break;
            }
            return g;
        }
        /*
         * 聚類中心函式
         * 簡單的一維聚類返回其算數平均值
         * 可擴充套件
         */
        public static decimal center(decimal[] p)
        {
            if (p.Length == 0) return 0;
            return sum(p) / p.Length;
        }
        /*
         * 給定 decimal 型陣列 p 和聚類中心 c。
         * 根據 c 將 p 中元素聚類。返回二維陣列。
         * 存放各組元素。
         */
        public static decimal[][] group(decimal[] p, decimal[] c)
        {
            // 中間變數，用來分組標記
            int[] gi = new int[p.Length];
            // 考察每一個元素 pi 同聚類中心 cj 的距離
            // pi 與 cj 的距離最小則歸為 j 類
            for (int i = 0; i < p.Length; i++)
            {
                // 存放距離
                decimal[] d = new decimal[c.Length];
                // 計算到每個聚類中心的距離
                for (int j = 0; j < c.Length; j++)
                {
                    d[j] = distance(p[i], c[j]);
                }
                // 找出最小距離
                int ci = min(d);
                // 標記屬於哪一組
                gi[i] = ci;
            }
            // 存放分組結果
            decimal[][] g = new decimal[c.Length][];
            // 遍歷每個聚類中心，分組
            for (int i = 0; i < c.Length; i++)
            {
                // 中間變數，記錄聚類後每一組的大小
                int s = 0;
                // 計算每一組的長度
                for (int j = 0; j < gi.Length; j++)
                    if (gi[j] == i)
                        s++;
                // 儲存每一組的成員
                g[i] = new decimal[s];
                s = 0;
                // 根據分組標記將各元素歸位
                for (int j = 0; j < gi.Length; j++)
                    if (gi[j] == i)
                    {
                        g[i][s] = p[j];
                        s++;
                    }
            }
            // 返回分組結果
            return g;
        }

        /*
         * 計算兩個點之間的距離， 這裡採用最簡單得一維歐氏距離， 可擴充套件。
         */
        public static decimal distance(decimal x, decimal y)
        {
            return Math.Abs(x - y);
        }

        /*
         * 返回給定 decimal 陣列各元素之和。
         */
        public static decimal sum(decimal[] p)
        {
            decimal sum = 0.0M;
            for (int i = 0; i < p.Length; i++)
                sum += p[i];
            return sum;
        }

        /*
         * 給定 decimal 型別陣列，返回最小值得下標。
         */
        public static int min(decimal[] p)
        {
            int i = 0;
            decimal m = p[0];
            for (int j = 1; j < p.Length; j++)
            {
                if (p[j] < m)
                {
                    i = j;
                    m = p[j];
                }
            }
            return i;
        }

        /*
         * 判斷兩個 decimal 陣列是否相等。 長度一樣且對應位置值相同返回真。
         */
        public static bool equal(decimal[] a, decimal[] b)
        {
            if (a.Length != b.Length)
                return false;
            else
            {
                for (int i = 0; i < a.Length; i++)
                {
                    if (a[i] != b[i])
                        return false;
                }
            }
            return true;
        }
    }

客戶端呼叫：

 1        static void Main(string[] args)
 2         {
 3             var path = string.Empty;
 4             int k = 0;
 5             try
 6             {
 7                 path = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "blanceTest.txt");//資料檔案路徑
 8                 k = 4;
 9             }
10             catch (Exception)
11             {
12                 Console.Write("引數錯誤");
13                 return;
14             }
15 
16             decimal[] p = { 1, 2, 3, 5, 6, 7, 9, 10, 11, 20, 21, 22, 23, 27, 40, 41, 42, 43, 61, 62, 63, 100, 150, 200, 1000 };
17 
18             List<decimal> pList = new List<decimal>();
19 
20             var lines = File.ReadAllLines(path);
21 
22             foreach (var line in lines)
23             {
24                 var data = System.Text.RegularExpressions.Regex.Replace(line, @" +", " ");
25                 var datas = data.Split(' ');
26 
27                 pList.AddRange(datas.Where(d => d != "").Select(d => Convert.ToDecimal(d)));
28             }
29 
30             p = pList.ToArray();
31 
32             k = 5;
33             decimal[][] g;
34             g = KMeans.cluster(p, k);
35             for (int i = 0; i < g.Length; i++)
36             {
37                 for (int j = 0; j < g[i].Length; j++)
38                 {
39                     Console.WriteLine(g[i][j]);
40                 }
41                 Console.WriteLine("----------------------");
42             }
43             Console.ReadKey();
44 
45         }

注意：

1、如果資料檔案為空或不存在，則用初始化的p陣列，作為測試資料

2、檔案中的資料，見開篇截圖

參考文章：

一維陣列的 K-Means 聚類演算法理解

深入理解K-Means聚類演算法

KMeans演算法全面解析與應用案例
2023-11-16
演算法
大資料應用——資料探勘之推薦系統
2018-06-02
大資料
python 資料探勘演算法簡要
2018-09-20
Python演算法
資料結構與演算法--簡單棧實現及其應用
2020-12-04
資料結構演算法
資料探勘與分析概念與演算法
2018-06-05
演算法
物聯網之智慧農業應用分析&大資料之資料探勘技術的應用
2021-12-28
大資料
資料探勘 ReliefF和K-means演算法的應用
2021-09-09
演算法
常用資料探勘演算法
2024-10-13
演算法
資料探勘與生活
2021-06-14
理解Transformer [資料探勘深度學習]
2024-04-24
ORM深度學習
資料探勘在醫學大資料研究中的應用
2018-06-04
大資料
聚類kmeans演算法在yolov3中的應用
2019-05-28
聚類演算法YOLO
windbg sx命令與簡單應用
2018-11-21
資料探勘十大演算法
2019-02-21
演算法
【python資料探勘課程】二十四.KMeans文字聚類分析互動百科語料
2018-07-06
Python聚類
資料探勘技術在軌跡資料上的應用實踐
2020-09-29
簡單理解Paxos演算法（譯）
2019-03-04
演算法
資料探勘之層次聚類
2021-03-16
聚類
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
Disruptor的簡單介紹與應用
2020-01-07
正規表示式理解及簡單應用舉例
2018-07-07
《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive Bayes
2019-06-21
KNNAI
對CAS演算法的簡單理解
2018-03-18
演算法
簡單理解同步與非同步
2018-06-19
非同步
DockerFile理解與應用
2020-12-06
Docker
資料探勘十大經典演算法
2020-11-03
演算法
圖資料探勘：社群檢測演算法（一）
2021-12-08
演算法
《資料結構與演算法之美》資料結構與演算法學習書單 (讀後感)
2019-04-30
資料結構演算法
python Kmeans演算法解析
2018-11-05
Python演算法
深入理解DES演算法：原理、實現與應用
2024-04-14
演算法
資料分析與資料探勘 - 04科學計算
2020-09-09
Yahoo前任資料官：資料探勘與分析技巧（下）IF
2022-03-21
簡單理解skywalking資料上報的span概念
2021-12-10
thymeleaf 簡單應用
2019-03-07
div 簡單應用
2020-12-14
簡單理解slot演算法和shadow DOM
2019-02-25
演算法
資料探勘之產品預測任務
2019-05-25
時間函式的簡單理解和應用（time.h）
2024-05-09
函式

資料探勘之KMeans演算法應用與簡單理解

深入理解K-Means聚類演算法

相關文章