ML.NET 示例：聚類之鳶尾花

feiyun0112發表於2018-12-15

原文網址 : https://www.cnblogs.com/feiyun0112/p/10124828.html

寫在前面

準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。
如果有朋友對此感興趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn

聚類鳶尾花資料

ML.NET 版本	API 型別	狀態	應用程式型別	資料型別	場景	機器學習任務	演算法
v0.7	動態 API	最新版	控制檯應用程式	.txt 檔案	聚類鳶尾花	聚類	K-means++

在這個介紹性示例中，您將看到如何使用ML.NET將不同型別鳶尾花劃分為不同組。在機器學習的世界中，這個任務被稱為群集。

問題

為了演示聚類API的實際作用，我們將使用三種型別的鳶尾花：setosa、versicolor和versicolor。它們都儲存在相同的資料集中。儘管這些花的型別是已知的，我們將不使用它，只對花的引數，如花瓣長度，花瓣寬度等執行聚類演算法。這個任務是把所有的花分成三個不同的簇。我們期望不同型別的花屬於不同的簇。

模型的輸入使用下列鳶尾花引數：

petal length
petal width
sepal length
sepal width

ML 任務 - 聚類

聚類的一般問題是將一組物件分組，使得同一組中的物件彼此之間的相似性大於其他組中的物件。

其他一些聚類示例：

將新聞文章分為不同主題：體育，政治，科技等。
按購買偏好對客戶進行分組。
將數字影象劃分為不同的區域以進行邊界檢測或物體識別。

聚類看起來類似於多類分類，但區別在於對於聚類任務，我們不知道過去資料的答案。因此，沒有“導師”/“主管”可以判斷我們的演算法的預測是對還是錯。這種型別的ML任務稱為無監督學習。

解決方案

要解決這個問題，首先我們將建立並訓練ML模型。然後我們將使用訓練模型來預測鳶尾花的簇。

1. 建立模型

建立模型包括：上傳資料（使用TextLoader載入iris-full.txt），轉換資料以便ML演算法（使用Concatenate）有效地使用，並選擇學習演算法（KMeans）。所有這些步驟都儲存在trainingPipeline中：

//Create the MLContext to share across components for deterministic results
MLContext mlContext = new MLContext(seed: 1);  //Seed set to any number so you have a deterministic environment

// STEP 1: Common data loading configuration
TextLoader textLoader = mlContext.Data.TextReader(new TextLoader.Arguments()
                                {
                                    Separator = "\t",
                                    HasHeader = true,
                                    Column = new[]
                                                {
                                                    new TextLoader.Column("Label", DataKind.R4, 0),
                                                    new TextLoader.Column("SepalLength", DataKind.R4, 1),
                                                    new TextLoader.Column("SepalWidth", DataKind.R4, 2),
                                                    new TextLoader.Column("PetalLength", DataKind.R4, 3),
                                                    new TextLoader.Column("PetalWidth", DataKind.R4, 4),
                                                }
                                });

IDataView fullData = textLoader.Read(DataPath);

//STEP 2: Process data transformations in pipeline
var dataProcessPipeline = mlContext.Transforms.Concatenate("Features", "SepalLength", "SepalWidth", "PetalLength", "PetalWidth");

// STEP 3: Create and train the model     
var trainer = mlContext.Clustering.Trainers.KMeans(features: "Features", clustersCount: 3);
var trainingPipeline = dataProcessPipeline.Append(trainer);

2. 訓練模型

訓練模型是在給定資料上執行所選演算法的過程。要執行訓練，您需要呼叫Fit()方法。

var trainedModel = trainingPipeline.Fit(trainingDataView);

3. 使用模型

在建立和訓練模型之後，我們可以使用Predict()API來預測鳶尾花的簇，並計算從給定花引數到每個簇（簇的每個質心）的距離。

                // Test with one sample text 
                var sampleIrisData = new IrisData()
                {
                    SepalLength = 3.3f,
                    SepalWidth = 1.6f,
                    PetalLength = 0.2f,
                    PetalWidth = 5.1f,
                };

                // Create prediction engine related to the loaded trained model
                var predFunction = trainedModel.MakePredictionFunction<IrisData, IrisPrediction>(mlContext);

                //Score
                var resultprediction = predFunction.Predict(sampleIrisData);
                
                Console.WriteLine($"Cluster assigned for setosa flowers:" + resultprediction.SelectedClusterId);

ML.NET 示例：多類分類之鳶尾花分類
2018-12-07
EM 演算法-對鳶尾花資料進行聚類
2020-12-14
演算法聚類
對鳶尾花識別之Keras
2020-07-18
Keras
神經網路實現鳶尾花分類
2020-09-29
神經網路
DL4J實戰之二：鳶尾花分類
2021-07-09
ML.NET 示例：多類分類之問題分類
2018-12-06
02貝葉斯演算法-案例一-鳶尾花資料分類
2018-12-18
演算法
ML.NET 示例：二元分類之垃圾簡訊檢測
2018-12-03
ML.NET 示例：深度學習之整合TensorFlow
2018-12-16
深度學習
ML.NET 示例：推薦之矩陣分解
2018-12-11
矩陣
ML.NET 示例：迴歸之價格預測
2018-12-08
ML.NET 示例：迴歸之銷售預測
2018-12-09
ML.NET 示例：推薦之場感知分解機
2018-12-13
ML.NET技術研究系列-2聚類演算法KMeans
2019-07-14
聚類演算法
ML.NET 示例：二元分類之使用者評論的情緒分析
2018-12-04
ML.NET 示例：推薦之One Class 矩陣分解
2018-12-12
矩陣
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
ML.NET呼叫Tensorflow模型示例——MNIST
2019-05-21
模型
《殘世界的鳶尾花》創作者2D_貓分享遊戲開發歷程
2022-11-10
遊戲開發
資料探勘之層次聚類
2021-03-16
聚類
動手造輪子自己實現人工智慧神經網路(ANN)，解決鳶尾花分類問題Golang1.18實現
2023-03-28
人工智慧神經網路Golang
機器學習-聚類分析之DBSCAN
2020-11-22
機器學習聚類
機器學習之層次聚類
2020-04-14
機器學習聚類
【機器學習演算法】KNN鳶尾花種類預測案例和特徵預處理。全md文件筆記（已分享，附程式碼）
2024-02-26
機器學習演算法KNN特徵筆記
聚類分析
2024-03-20
聚類
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
機器學習（六）：迴歸分析——鳶尾花多變數回歸、邏輯迴歸三分類只用numpy，sigmoid、實現RANSAC 線性擬合
2023-04-13
機器學習變數邏輯迴歸Sigmoid
[SQL Server玩轉Python] 三.SQL Server儲存過程實現Python鳶尾花決策樹訓練及預測
2018-11-14
SQLServerPython儲存過程
【scipy 基礎】--聚類
2023-11-01
聚類
聚類演算法
2020-04-26
聚類演算法
k-means聚類
2023-01-30
聚類
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
JavaScript之類操作：HTML5 canvas多分屏示例
2018-09-20
JavaScriptHTMLCanvas
unit3 文字聚類
2018-05-11
聚類
譜聚類原理總結
2022-01-18
聚類
密度聚類。Clustering by fast search and
2021-09-09
聚類AST