深度學習（一）之MNIST資料集分類

段小輝發表於2022-03-18

原文網址 : https://www.cnblogs.com/xiaohuiduan/p/16023895.html

深度學習

任務目標

對MNIST手寫數字資料集進行訓練和評估，最終使得模型能夠在測試集上達到\(98\%\)的正確率。（最終本文達到了\(99.36\%\)）

使用的庫的版本：

python：3.8.12
pytorch：1.5.1

程式碼地址GitHub：https://github.com/xiaohuiduan/deeplearning-study/tree/main/手寫數字識別

資料集介紹

MNIST數字資料集來自MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges。

在torchvision中自帶了關於MNIST的資料集。如果直接使用自帶的資料集，能方便不少。關於具體使用，可參考：PyTorch初探MNIST資料集 - 知乎 (zhihu.com)

在Lecun的提供的MNIST資料集，有如下4個檔案（images檔案和labels檔案）：

training set包含了60000張手寫數字圖片，test set包含了10000張圖片。在images檔案和labels檔案中，資料是使用二進位制進行儲存的。

影像檔案的二進位制儲存格式如下（參考python處理MNIST資料集 - 簡書 (jianshu.com)）：

第1-４個byte（位元組，１byte=8bit），即前32bit存的是檔案的magic number，對應的十進位制大小是2051；
第5-8個byte存的是number of images，即影像數量60000；
第9-12個byte存的是每張圖片行數/高度，即28；
第13-16個byte存的是每張圖片的列數/寬度，即28。
從第17個byte開始，每個byte儲存一張圖片中的一個畫素點的值。

標籤檔案的二進位制儲存格式如下（參考python處理MNIST資料集 - 簡書 (jianshu.com)）：

第1-４個byte存的是檔案的magic number，對應的十進位制大小是2049；
第5-8個byte存的是number of items，即label數量60000；
從第9個byte開始，每個byte存一個圖片的label資訊，即數字0-9中的一個。

二進位制檔案的Python處理程式碼：

import numpy as np
def read_image(file_path):
    """讀取MNIST圖片

    Args:
        file_path (str): 圖片檔案位置

    Returns:
        list: 圖片列表
    """
    with open(file_path,'rb') as f:
        file = f.read()
        img_num = int.from_bytes(file[4:8],byteorder='big') #圖片數量
        img_h = int.from_bytes(file[8:12],byteorder='big') #圖片h
        img_w = int.from_bytes(file[12:16],byteorder='big') #圖片w
        img_data = []
        file = file[16:]
        data_len = img_h*img_w

        for i in range(img_num):
            data = [item/255 for item in file[i*data_len:(i+1)*data_len]]
            img_data.append(np.array(data).reshape(img_h,img_w))

        return img_data

def read_label(file_path):
    with open(file_path,'rb') as f:
        file = f.read()
        label_num = int.from_bytes(file[4:8],byteorder='big') #label的數量
        file = file[8:]
        label_data = []
        for i in range(label_num):
            label_data.append(file[i])
        return label_data


train_img  = read_image("mnist/train/train-images.idx3-ubyte")
train_label = read_label("mnist/train/train-labels.idx1-ubyte")

# test_img = read_image("mnist/test/t10k-images.idx3-ubyte")
# test_label = read_label("mnist/test/t10k-labels.idx1-ubyte")

資料集部分資料如下所示：

資料集劃分

在深度學習中，需要將trainset劃分成訓練集，驗證集。最終使用測試集去驗證模型的結果。

訓練集：用來訓練模型引數。

驗證集：驗證模型的狀況和收斂情況。

測試集：驗證模型結果。

形象上來說訓練集就像是學生的課本，學生根據課本里的內容來掌握知識，驗證集就像是作業，通過作業可以知道不同學生學習情況、進步的速度快慢，而最終的測試集就像是考試，考的題是平常都沒有見過，考察學生舉一反三的能力。

來源：訓練集(train)驗證集(validation)測試集(test)與交叉驗證法 - 知乎 (zhihu.com)

因此，需要將上文中的train_img，train_label進行劃分，劃分為訓練集和驗證集。這裡使用sklearn中的train_test_split進行劃分，訓練集和測試集的比例為\(8:2\)。

from sklearn.model_selection import train_test_split
train_img,valid_img,train_label,valid_label = train_test_split(train_img,train_label,test_size=0.2,shuffle=True)

網路結構

根據網路的權重，Netron生成的網路結構圖如下，圖中詳細的介紹了每一層的結構引數。

網路結構的簡潔圖如下所示，網路一共由3層卷積層（每層卷積分別由Conv2d，BatchNorm2d，MaxPool2d和Dropout構成）和2個全連線層構成。

Pytorch程式碼如下：

class MyNet(nn.Module):
    def __init__(self):
        super(MyNet,self).__init__()
        self.conv_1 = nn.Sequential(
            nn.Conv2d(1,32,kernel_size=3,padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(32),
            nn.MaxPool2d(2,2),
            nn.Dropout(0.25)
        )
        self.conv_2 = nn.Sequential(
            nn.Conv2d(32,64,kernel_size=3,padding=1),
            nn.ReLU(),
            nn.BatchNorm2d(64),
            nn.MaxPool2d(2,2),
            nn.Dropout(0.25),
        )

        self.conv_3 = nn.Sequential(
            nn.Conv2d(64,128,kernel_size=3),
            nn.ReLU(),
            nn.BatchNorm2d(128),
            nn.MaxPool2d(2,2),
            nn.Dropout(0.25),
        )

        self.fc = nn.Sequential(
            nn.Linear(512,128),
            nn.Linear(128,10)
        )

    def forward(self,x): #x (3,28,28)
        x = self.conv_1(x) #x (32,14,14)
        x = self.conv_2(x) #x (64,7,7)
        x = self.conv_3(x) #x (128,4,4)
        x = x.view(x.size(0),-1)
        
        x = self.fc(x)
        return F.log_softmax(x,dim=1)
myNet = MyNet().to(device)