ML.NET 示例：多類分類之鳶尾花分類

feiyun0112發表於2018-12-07

原文網址 : https://www.cnblogs.com/feiyun0112/p/10085018.html

寫在前面

準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。
如果有朋友對此感興趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn

鳶尾花分類

ML.NET 版本	API 型別	狀態	應用程式型別	資料型別	場景	機器學習任務	演算法
v0.7	動態 API	最新版本	控制檯應用程式	.txt 檔案	鳶尾花分類	多類分類	Sdca Multi-class

在這個介紹性示例中，您將看到如何使用ML.NET來預測鳶尾花的型別。在機器學習領域，這種型別的預測被稱為多類分類。

問題

這個問題集中在根據花瓣長度，花瓣寬度等花的引數預測鳶尾花（setosa，versicolor或virginica）的型別。

為了解決這個問題，我們將建立一個ML模型，它有4個輸入引數：

petal length
petal width
sepal length
sepal width

並預測該花屬於哪種鳶尾花型別：

setosa
versicolor
virginica

確切地說，模型將返回花屬於每個型別的概率。

ML 任務 - 多類分類

多類分類的廣義問題是將專案分類為三個或更多類別中的一個。（將專案分類為兩個類別之一稱為二元分類）。

多類分類的其他例子包括：

手寫數字識別：預測影象中包含10個數字（0～9）。
問題標記：預測問題屬於哪個類別（UI，後端，文件）。
根據患者的測試結果預測疾病階段。

所有這些例子的共同特點是我們要預測的引數可以取幾個（超過兩個）值中的一個。換句話說，這個值由enum表示，而不是由integer、float、double或boolean型別表示。

解決方案

為了解決這個問題，首先我們將建立一個ML模型。然後，我們將在現有資料上訓練模型，評估其有多好，最後我們將使用該模型來預測鳶尾花型別。

Build -> Train -> Evaluate -> Consume

1. 建立模型

建立模型包括:

使用DataReader上傳資料（iris-train.txt）
建立一個評估器並將資料轉換為一列，以便ML演算法（使用Concatenate）可以有效地使用它。
選擇學習演算法（StochasticDualCoordinateAscent）。

初始程式碼類似以下內容：

// Create MLContext to be shared across the model creation workflow objects 
// Set a random seed for repeatable/deterministic results across multiple trainings.
var mlContext = new MLContext(seed: 0);

// STEP 1: Common data loading configuration
var textLoader = IrisTextLoaderFactory.CreateTextLoader(mlContext);
var trainingDataView = textLoader.Read(TrainDataPath);
var testDataView = textLoader.Read(TestDataPath);

// STEP 2: Common data process configuration with pipeline data transformations
var dataProcessPipeline = mlContext.Transforms.Concatenate("Features", "SepalLength",
                                                                       "SepalWidth",
                                                                       "PetalLength",
                                                                       "PetalWidth" );

// STEP 3: Set the training algorithm, then create and config the modelBuilder                            
var modelBuilder = new Common.ModelBuilder<IrisData, IrisPrediction>(mlContext, dataProcessPipeline);
// We apply our selected Trainer 
var trainer = mlContext.MulticlassClassification.Trainers.StochasticDualCoordinateAscent(labelColumn: "Label", featureColumn: "Features");
modelBuilder.AddTrainer(trainer);

2. 訓練

訓練模型是在訓練資料（已知鳶尾花型別）上執行所選演算法以調整模型引數的過程。它在評估器物件中的Fit() 方法中實現。

為了執行訓練，我們只需呼叫方法時傳入在DataView物件中提供的訓練資料集（iris-train.txt檔案）。

// STEP 4: Train the model fitting to the DataSet            
modelBuilder.Train(trainingDataView);

[...]
public ITransformer Train(IDataView trainingData)
{
    TrainedModel = TrainingPipeline.Fit(trainingData);
    return TrainedModel;
}

3. 評估模型

我們需要這一步來總結我們的模型對新資料的準確性。為此，上一步中的模型針對另一個未在訓練中使用的資料集（iris-test.txt）執行。此資料集還包含已知的鳶尾花型別。
MulticlassClassification.Evaluate計算模型預測的值和已知型別之間差異的各種指標。

var metrics = modelBuilder.EvaluateMultiClassClassificationModel(testDataView, "Label");
Common.ConsoleHelper.PrintMultiClassClassificationMetrics(trainer.ToString(), metrics);
    
[...]
public MultiClassClassifierEvaluator.Result EvaluateMultiClassClassificationModel(IDataView testData, string label="Label", string score="Score")
{
    CheckTrained();
    var predictions = TrainedModel.Transform(testData);
    var metrics = _mlcontext.MulticlassClassification.Evaluate(predictions, label: label, score: score);
    return metrics;
}

要了解關於如何理解指標的更多資訊，請參閱ML.NET指南中的機器學習詞彙表，或者使用任何有關資料科學和機器學習的可用材料.

如果您對模型的質量不滿意，可以採用多種方法來改進，這將在examples類別中進行介紹。

4. 使用模型

在模型被訓練之後，我們可以使用Predict() API來預測這種花屬於每個鳶尾花型別的概率。

var modelScorer = new Common.ModelScorer<IrisData, IrisPrediction>(mlContext);
modelScorer.LoadModelFromZipFile(ModelPath);

var prediction = modelScorer.PredictSingle(SampleIrisData.Iris1);
Console.WriteLine($"Actual: setosa.     Predicted probability: setosa:      {prediction.Score[0]:0.####}");
Console.WriteLine($"                                           versicolor:  {prediction.Score[1]:0.####}");
Console.WriteLine($"                                           virginica:   {prediction.Score[2]:0.####}");

[...]
public TPrediction PredictSingle(TObservation input)
{
    CheckTrainedModelIsLoaded();
    return PredictionFunction.Predict(input);
}

在TestIrisData.Iris1中儲存有關我們想要預測型別的花的資訊。

internal class TestIrisData
{
    internal static readonly IrisData Iris1 = new IrisData()
    {
        SepalLength = 3.3f,
        SepalWidth = 1.6f,
        PetalLength = 0.2f,
        PetalWidth= 5.1f,
    }
    (...)
}

ML.NET 示例：聚類之鳶尾花
2018-12-15
聚類
ML.NET 示例：多類分類之問題分類
2018-12-06
神經網路實現鳶尾花分類
2020-09-29
神經網路
DL4J實戰之二：鳶尾花分類
2021-07-09
02貝葉斯演算法-案例一-鳶尾花資料分類
2018-12-18
演算法
ML.NET 示例：二元分類之垃圾簡訊檢測
2018-12-03
ML.NET 示例：二元分類之使用者評論的情緒分析
2018-12-04
EM 演算法-對鳶尾花資料進行聚類
2020-12-14
演算法聚類
概率分類之樸素貝葉斯分類（垃圾郵件分類python實現）
2020-10-05
Python
京東獲得jd商品分類API介面（父分類、根分類、子分類）
2023-04-20
API
無限極分類類
2019-05-11
【人人都能學得會的NLP - 文字分類篇 03】長文字多標籤分類分類如何做？
2024-11-30
文字分類
關於Java異常的分類示例
2021-09-09
Java
分類2
2024-07-09
分類器
2024-06-29
教程 | 用Scikit-Learn實現多類別文字分類
2018-05-14
文字分類
對鳶尾花識別之Keras
2020-07-18
Keras
uml類圖中類版型區分--邊界類，控制類，實體類
2020-11-04
如何透過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類
如何通過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類
文字分類-TextCNN
2018-11-09
文字分類CNN
mysql 索引分類
2019-01-06
MySql索引
異常分類
2024-03-16
文字分類模型
2020-10-28
文字分類模型
商品分類元件
2020-11-21
元件
@thinkphp 分類bug
2019-05-11
PHP
分類導航
2024-09-26
noise的分類
2024-06-18
C++分類
2024-07-15
C++
主鍵分類
2024-07-07
php分頁類
2021-09-09
PHP
IPC 方法分類
2021-04-29
pytorch深度學習分類程式碼簡單示例
2024-08-07
PyTorch深度學習
機器學習（六）：迴歸分析——鳶尾花多變數回歸、邏輯迴歸三分類只用numpy，sigmoid、實現RANSAC 線性擬合
2023-04-13
機器學習變數邏輯迴歸Sigmoid
「影像分類」實戰影像分類網路的視覺化
2019-09-04
視覺化
分類演算法-邏輯迴歸與二分類
2022-04-05
演算法邏輯迴歸
動手造輪子自己實現人工智慧神經網路(ANN)，解決鳶尾花分類問題Golang1.18實現
2023-03-28
人工智慧神經網路Golang
分類模型——Logistics Regression
2019-02-16
模型