C#中的深度學習（二）：預處理識別硬幣的資料集

碼農譯站發表於2020-12-22

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。

這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

清理資料——通過對周圍資料的平均值或使用其他策略來填補資料缺失或損壞造成的漏洞。
規範資料——將資料縮放值標準化到一個標準範圍，通常是0到1。具有廣泛值範圍的資料可能會導致不規範，因此我們將所有資料都放在一個公共範圍內。
一種熱編碼標籤——將資料集中物件的標籤或類編碼為N維二進位制向量，其中N是類的總數。陣列元素都被設定為0，除了與物件的類相對應的元素，它被設定為1。這意味著在每個陣列中都有一個值為1的元素。
將輸入資料集分為訓練集和驗證集——訓練集被用於訓練模型，驗證集是用於檢查我們的訓練結果。

這個例子我們將使用Numpy.NET，它基本上是Python中流行的Numpy庫的.NET版本。

Numpy是一個專注於處理矩陣的庫。

為了實現我們的資料集處理器，我們在PreProcessing資料夾中建立Utils類和DataSet類。Utils類合併了一個靜態Normalize 方法，如下所示:

public class Utils
   {
       public static NDarray Normalize(string path)
       {
           var colorMode = Settings.Channels == 3 ? "rgb" : "grayscale";
           var img = ImageUtil.LoadImg(path, color_mode: colorMode, target_size: (Settings.ImgWidth, Settings.ImgHeight));
           return ImageUtil.ImageToArray(img) / 255;
       }

   }

在這種方法中，我們用給定的顏色模式(RGB或灰度)載入影像，並將其調整為給定的寬度和高度。然後我們返回包含影像的矩陣，每個元素除以255。每個元素除以255是使它們標準化，因為影像中任何畫素的值都在0到255之間，所以通過將它們除以255，我們確保了新的範圍是0到1，包括255。

我們還在程式碼中使用了一個Settings類。該類包含用於跨應用程式使用的許多常量。另一個類DataSet，表示我們將要用來訓練機器學習模型的資料集。這裡我們有以下欄位:

_pathToFolder—包含影像的資料夾的路徑。
_extList—要考慮的副檔名列表。
_labels—_pathToFolder中影像的標籤或類。
_objs -影像本身，表示為Numpy.NDarray。
_validationSplit—用於將總影像數劃分為驗證集和訓練集的百分比，在本例中，百分比將定義驗證集與總影像數之間的大小。
NumberClasses-資料集中唯一類的總數。
TrainX -訓練資料，表示為Numpy.NDarray。
TrainY -訓練標籤，表示為Numpy.NDarray。
ValidationX—驗證資料，表示為Numpy.NDarray。
ValidationY-驗證標籤，表示為Numpy.NDarray。

這是DataSet類：

public class DataSet
    {
        private string _pathToFolder;
        private string[] _extList;
        private List<int> _labels;
        private List<NDarray> _objs;
        private double _validationSplit;
        public int NumberClasses { get; set; }
        public NDarray TrainX { get; set; }
        public NDarray ValidationX { get; set; }
        public NDarray TrainY { get; set; }
        public NDarray ValidationY { get; set; }

        public DataSet(string pathToFolder, string[] extList, int numberClasses, double validationSplit)
        {
            _pathToFolder = pathToFolder;
            _extList = extList;
            NumberClasses = numberClasses;
            _labels = new List<int>();
            _objs = new List<NDarray>();
            _validationSplit = validationSplit;
        }

        public void LoadDataSet()
        {
            // Process the list of files found in the directory.
            string[] fileEntries = Directory.GetFiles(_pathToFolder);
            foreach (string fileName in fileEntries)
                if (IsRequiredExtFile(fileName))
                    ProcessFile(fileName);

            MapToClassRange();
            GetTrainValidationData();
        }

        private bool IsRequiredExtFile(string fileName)
        {
            foreach (var ext in _extList)
            {
                if (fileName.Contains("." + ext))
                {
                    return true;
                }
            }

            return false;
        }

        private void MapToClassRange()
        {
            HashSet<int> uniqueLabels = _labels.ToHashSet();
            var uniqueLabelList = uniqueLabels.ToList();
            uniqueLabelList.Sort();

            _labels = _labels.Select(x => uniqueLabelList.IndexOf(x)).ToList();
        }

        private NDarray OneHotEncoding(List<int> labels)
        {
            var npLabels = np.array(labels.ToArray()).reshape(-1);
            return Util.ToCategorical(npLabels, num_classes: NumberClasses);
        }

        private void ProcessFile(string path)
        {
            _objs.Add(Utils.Normalize(path));
            ProcessLabel(Path.GetFileName(path));
        }

        private void ProcessLabel(string filename)
        {
            _labels.Add(int.Parse(ExtractClassFromFileName(filename)));
        }

        private string ExtractClassFromFileName(string filename)
        {
            return filename.Split('_')[0].Replace("class", "");
        }

        private void GetTrainValidationData()
        {
            var listIndices = Enumerable.Range(0, _labels.Count).ToList();
            var toValidate = _objs.Count * _validationSplit;
            var random = new Random();
            var xValResult = new List<NDarray>();
            var yValResult = new List<int>();
            var xTrainResult = new List<NDarray>();
            var yTrainResult = new List<int>();

            // Split validation data
            for (var i = 0; i < toValidate; i++)
            {
                var randomIndex = random.Next(0, listIndices.Count);
                var indexVal = listIndices[randomIndex];
                xValResult.Add(_objs[indexVal]);
                yValResult.Add(_labels[indexVal]);
                listIndices.RemoveAt(randomIndex);
            }

            // Split rest (training data)
            listIndices.ForEach(indexVal => 
            { 
                xTrainResult.Add(_objs[indexVal]);
                yTrainResult.Add(_labels[indexVal]);
            });

            TrainY = OneHotEncoding(yTrainResult);
            ValidationY = OneHotEncoding(yValResult);
            TrainX = np.array(xTrainResult);
            ValidationX = np.array(xValResult);
        }
}

下面是每個方法的說明：

LoadDataSet()——類的主方法，我們呼叫它來載入_pathToFolder中的資料集。它呼叫下面列出的其他方法來完成此操作。
IsRequiredExtFile(filename) - 檢查給定檔案是否包含至少一個應該為該資料集處理的副檔名(在_extList中列出)。
MapToClassRange() -獲取資料集中唯一標籤的列表。
ProcessFile(path) -使用Utils.Normalize方法對影像進行規格化，並呼叫ProcessLabel方法。
ProcessLabel(filename)——將ExtractClassFromFileName方法的結果新增為標籤。
ExtractClassFromFileName(filename) -從影像的檔名中提取類。
GetTrainValidationData()——將資料集劃分為訓練子資料集和驗證子資料集。

在本系列中，我們將使用https://cvl.tuwien.ac.at/research/cvl-databases/coin-image-dataset/上的硬幣影像資料集。

要載入資料集，我們可以在控制檯應用程式的主類中包含以下內容:

var numberClasses = 60;
var fileExt = new string[] { ".png" };
var dataSetFilePath = @"C:/Users/arnal/Downloads/coin_dataset";
var dataSet = new PreProcessing.DataSet(dataSetFilePath, fileExt, numberClasses, 0.2);
dataSet.LoadDataSet();

我們的資料現在可以輸入到機器學習模型中。下一篇文章將介紹監督機器學習的基礎知識，以及訓練和驗證階段包括哪些內容。它是為沒有AI經驗的讀者準備的。

歡迎關注我的公眾號，如果你有喜歡的外文技術文章，可以通過公眾號留言推薦給我。

原文連結：https://www.codeproject.com/Articles/5284219/Deep-Learning-in-Csharp-Coin-Detection-Using-OpenC

C#中的深度學習（四）：使用Keras.NET識別硬幣
2020-12-24
C#深度學習Keras
C#中的深度學習（五）：在ML.NET中使用預訓練模型進行硬幣識別
2020-12-25
C#深度學習模型
深度學習--資料預處理
2024-07-28
深度學習
深度學習——資料預處理篇
2019-02-18
深度學習
深度學習煉丹-資料預處理和增強
2022-12-22
深度學習
深度學習（6）——預處理Preprocessing
2020-12-14
深度學習
【資料處理】使用深度學習預測未來銷量
2018-10-28
深度學習
10種資料預處理中的資料洩露模式解析:識別與避免策略
2024-11-02
模式
C#中處理JSON資料的方式
2024-05-30
C#JSON
計算機視覺實戰的深度學習實戰二：影像預處理
2019-05-12
計算機視覺深度學習
機器學習一：資料預處理
2019-02-27
機器學習
Python深度學習（處理文字資料）--學習筆記（十二）
2020-11-12
Python深度學習筆記
深度學習之影像處理與分析(二)
2020-12-24
深度學習
【Tensorflow_DL_Note3】深度學習中的資料處理及其視覺化
2018-04-17
深度學習視覺化
影象識別及處理相關資料集介紹
2019-03-09
機器學習：探索資料和資料預處理
2020-12-13
機器學習
PHP中的PDO操作學習（二）預處理語句及事務
2021-09-09
PHP
深度學習煉丹-資料處理和增強
2022-12-20
深度學習
6種方式處理機器學習中不平衡的資料集 - svpino
2021-07-08
機器學習
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
NUS-WIDE資料集預處理
2020-11-24
IDE
《Python機器學習手冊：從資料預處理到深度學習》
2019-12-17
Python機器學習深度學習
深度學習——性別識別
2022-01-11
深度學習
SpringMVC入門學習---資料的處理
2019-05-11
SpringMVC
《深度學習進階：自然語言處理》中的網址
2020-08-11
深度學習自然語言處理
機器學習中資料缺失的處理及建模方法
2021-01-31
機器學習
深度學習 preprocess 預處理圖片方式去 pytorch 化
2023-04-07
深度學習PyTorch
sklearn 第二篇：資料預處理
2019-07-30
深度學習常用的資料集，包括各種資料跟影象資料
2018-09-13
深度學習
資料預處理
2021-09-09
TypeScript學習第二天：認識ts的資料型別
2022-03-07
TypeScript資料型別
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
深度學習中的優化方法（二）
2021-08-04
深度學習優化
深度學習中資料集很小是一種什麼樣的體驗
2021-03-01
深度學習
機器學習第2篇：資料預處理（缺失值）
2020-12-27
機器學習
醫學影像處理中的資料讀寫
2022-03-12
詳解AI開發中的資料預處理(清洗)
2023-03-27
AI
資深博導：我以為資料預處理是常識，直到遇到自己的學生
2024-06-26

C#中的深度學習（二）：預處理識別硬幣的資料集

相關文章