使用 PyTorch 構建和訓練一個卷積神經網路進行影像分類任務

阿坦發表於2024-06-27

下面是一個稍微複雜一些的神經網路示例程式碼。這個例子實現了一個卷積神經網路(CNN),用於處理影像分類任務(例如MNIST手寫數字識別)。該網路包含卷積層、池化層、全連線層以及使用了ReLU啟用函式和批次歸一化層。

使用 PyTorch 構建和訓練一個卷積神經網路進行影像分類任務
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 定義卷積神經網路
class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        # 第一卷積層:輸入通道數為1(灰度影像),輸出通道數為32,卷積核大小為3x3,步長為1,填充為1
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
        # 第一批次歸一化層:歸一化32個特徵圖
        self.bn1 = nn.BatchNorm2d(32)
        # 第二卷積層:輸入通道數為32,輸出通道數為64,卷積核大小為3x3,步長為1,填充為1
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
        # 第二批次歸一化層:歸一化64個特徵圖
        self.bn2 = nn.BatchNorm2d(64)
        # 最大池化層:池化視窗大小為2x2,步長為2
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        # 全連線層:輸入大小為64*7*7,輸出大小為128
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        # 全連線層:輸入大小為128,輸出大小為10(對應10個分類)
        self.fc2 = nn.Linear(128, 10)
        # Dropout層:在訓練過程中隨機斷開50%的神經元連線,防止過擬合
        self.dropout = nn.Dropout(p=0.5)

    def forward(self, x):
        # 第一個卷積層,啟用函式為ReLU,然後進行最大池化
        x = self.pool(F.relu(self.bn1(self.conv1(x))))
        # 第二個卷積層,啟用函式為ReLU,然後進行最大池化
        x = self.pool(F.relu(self.bn2(self.conv2(x))))
        # 將特徵圖展平成一維向量
        x = x.view(-1, 64 * 7 * 7)
        # 第一個全連線層,啟用函式為ReLU
        x = F.relu(self.fc1(x))
        # Dropout層
        x = self.dropout(x)
        # 第二個全連線層,輸出未經過啟用函式
        x = self.fc2(x)
        return x

# 資料預處理和載入
# 使用Compose將多個變換組合在一起:ToTensor()將影像轉換為張量,Normalize()進行標準化
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

# 下載並載入訓練集
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
# 下載並載入測試集
test_dataset = datasets.MNIST('./data', train=False, transform=transform)

# 使用DataLoader載入資料集
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)

# 初始化網路、損失函式和最佳化器
model = ConvNet()
criterion = nn.CrossEntropyLoss()  # 交叉熵損失函式
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam最佳化器,學習率為0.001

# 訓練網路的函式
def train(model, device, train_loader, optimizer, criterion, epoch):
    model.train()  # 設定模型為訓練模式
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)  # 將資料和標籤移動到裝置上(GPU或CPU)
        optimizer.zero_grad()  # 清空梯度
        output = model(data)  # 前向傳播
        loss = criterion(output, target)  # 計算損失
        loss.backward()  # 反向傳播
        optimizer.step()  # 更新引數
        if batch_idx % 100 == 0:  # 每100個批次列印一次訓練資訊
            print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} '
                  f'({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}')

# 測試網路的函式
def test(model, device, test_loader, criterion):
    model.eval()  # 設定模型為評估模式
    test_loss = 0
    correct = 0
    with torch.no_grad():  # 不計算梯度
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)  # 將資料和標籤移動到裝置上
            output = model(data)  # 前向傳播
            test_loss += criterion(output, target).item()  # 累加批次損失
            pred = output.argmax(dim=1, keepdim=True)  # 獲取最大機率的索引
            correct += pred.eq(target.view_as(pred)).sum().item()  # 統計正確預測的數量

    test_loss /= len(test_loader.dataset)  # 計算平均損失
    print(f'\nTest set: Average loss: {test_loss:.4f}, Accuracy: {correct}/{len(test_loader.dataset)} '
          f'({100. * correct / len(test_loader.dataset):.0f}%)\n')

# 訓練和測試迴圈
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # 選擇裝置
model.to(device)  # 將模型移動到裝置上
for epoch in range(1, 11):  # 進行10個訓練週期
    train(model, device, train_loader, optimizer, criterion, epoch)  # 訓練模型
    test(model, device, test_loader, criterion)  # 測試模型
View Code

解釋

  • 卷積神經網路(ConvNet):定義了一個包含兩個卷積層、兩個批次歸一化層、兩個池化層、兩個全連線層和一個Dropout層的卷積神經網路。
  • 資料預處理和載入:使用 transforms 對資料進行標準化,並載入 MNIST 資料集。
  • 訓練和測試函式:定義了訓練和測試模型的函式,其中包含前向傳播、反向傳播和引數更新的過程。
  • 訓練和測試迴圈:選擇裝置(GPU 或 CPU),將模型移動到裝置,進行10個訓練週期,每個週期結束後進行一次測試。

相關文章