【小白學PyTorch】3 淺談Dataset和Dataloader

忽逢桃林發表於2020-09-01

原文網址 : https://www.cnblogs.com/PythonLearner/p/13587125.html

文章目錄：

1 Dataset基類

PyTorch 讀取其他的資料，主要是通過 Dataset 類，所以先簡單瞭解一下 Dataset 類。在看很多PyTorch的程式碼的時候，也會經常看到dataset這個東西的存在。Dataset類作為所有的 datasets 的基類存在，所有的 datasets 都需要繼承它。

先看一下原始碼：
在這裡插入圖片描述

這裡有一個__getitem__函式，__getitem__函式接收一個index，然後返回圖片資料和標籤，這個index通常是指一個list的index，這個list的每個元素就包含了圖片資料的路徑和標籤資訊。之後會舉例子來講解這個邏輯。

其實說著了些都沒用，因為在訓練程式碼裡是感覺不到這些操作的，只會看到通過DataLoader就可以獲取一個batch的資料，這是觸發去讀取圖片這些操作的是DataLoader裡的__iter__(self)（後面再講）。

2 構建Dataset子類

下面我們構建一下Dataset的子類，叫他MyDataset類：

import torch 
from torch.utils.data import Dataset,DataLoader

class MyDataset(Dataset):
    def __init__(self):
        self.data = torch.tensor([[1,2,3],[2,3,4],[3,4,5],[4,5,6]])
        self.label = torch.LongTensor([1,1,0,0])

    def __getitem__(self,index):
        return self.data[index],self.label[index]

    def __len__(self):
        return len(self.data)

2.1 Init

初始化中，一般是把資料直接儲存在這個類的屬性中。像是self.data,self.label

2.2 getitem

index是一個索引，這個索引的取值範圍是要根據__len__這個返回值確定的，在上面的例子中，__len__的返回值是4，所以這個index會在0，1，2，3這個範圍內。

3 dataloader

從上文中，我們知道了MyDataset這個類中的__getitem__的返回值，應該是某一個樣本的資料和標籤（如果是測試集的dataset，那麼就只返回資料），在梯度下降的過程中，一般是需要將多個資料組成batch，這個需要我們自己來組合嗎？不需要的，所以PyTorch中存在DataLoader這個迭代器（這個名詞用的準不準確有待考究）。

繼續上面的程式碼，我們接著寫程式碼：

mydataloader = DataLoader(dataset=mydataset,
                          batch_size=1)

我們現在建立了一個DataLoader的例項，並且把之前例項化的mydataset作為引數輸入進去，並且還輸入了batch_size這個引數，現在我們使用的batch_size是1.下面來用for迴圈來遍歷這個dataloader：

for i,(data,label) in enumerate(mydataloader):
    print(data,label)

輸出結果是：

意料之中的結果，總共輸出了4個batch，每個batch都是隻有1個樣本（資料+標籤），值得注意的是，這個輸出過程是順序的。

我們稍微修改一下上面的DataLoader的引數：

mydataloader = DataLoader(dataset=mydataset,
                          batch_size=2,
                          shuffle=True)

for i,(data,label) in enumerate(mydataloader):
    print(data,label)

結果是：

可以看到每一個batch內出現了2個樣本。假如我們再執行一遍上面的程式碼，得到：

兩次結果不同，這是因為shuffle=True,dataset中的index不再是按照順序從0到3了，而是亂序，可能是[0,1,2,3],也可能是[2,3,1,0]。

【個人感想】

Dataloader和Dataset兩個類是非常方便的，因為這個可以快速的做出來batch資料，修改batch_size和亂序都非常地方便。有下面兩個希望注意的地方：

一般標籤值應該是Long整數的，所以標籤的tensor可以用torch.LongTensor(資料)或者用.long()來轉化成Long整數的形式。
如果要使用PyTorch的GPU訓練的話，一般是先判斷cuda是否可用，然後把資料標籤都用to()放到GPU視訊記憶體上進行GPU加速。

device = 'cuda' if torch.cuda.is_available() else 'cpu'
for i,(data,label) in enumerate(mydataloader):
    data = data.to(device)
    label = label.to(device)
    print(data,label)

看一下輸出：

Pytorch入門上 —— Dataset、Tensorboard、Transforms、Dataloader
2021-12-15
PyTorchORBORM
Pytorch建模過程中的DataLoader與Dataset
2023-01-04
PyTorch
Dataset和Dataloader的使用
2023-01-05
Pytorch - Dataloader
2024-04-01
PyTorch
Torch 中Dataset 和Dataloader 的資料變換
2024-08-25
Pytorch入門-dataloader
2024-03-14
PyTorch
pytorch dataloader和batch_size大小的理解
2020-10-28
PyTorchBAT
Pytorch Dataset入門
2024-04-16
PyTorch
小白學PyTorch 動態圖與靜態圖的淺顯理解
2020-08-23
PyTorch
【小白學PyTorch】10 pytorch常見運算詳解
2020-09-14
PyTorch
【小白學PyTorch】13 EfficientNet詳解及PyTorch實現
2020-09-25
PyTorch
【小白學PyTorch】12 SENet詳解及PyTorch實現
2020-09-19
PyTorchSENet
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL
淺談BSGS和EXBSGS
2022-05-28
[原始碼解析] PyTorch 分散式(2) --- 資料載入之DataLoader
2021-08-18
原始碼PyTorch分散式
【小白學PyTorch】8 實戰之MNIST小試牛刀
2020-09-09
PyTorch
淺談CSS3動畫
2020-12-14
CSSS3動畫
pytorch dataloader num_workers引數設定導致訓練阻塞
2020-10-02
PyTorch
機器學習淺談
2018-05-13
機器學習
【小白學PyTorch】17 TFrec檔案的建立與讀取
2020-10-03
PyTorch
【小白學PyTorch】18 TF2構建自定義模型
2020-10-04
PyTorchTF2模型
小白路程之----淺談ES6部分語法
2018-08-11
淺談mouseenter和mouseover，mouseout和mouseleave
2019-04-12
css3 | 淺談transform變換
2019-01-29
CSSS3ORM
【小白學PyTorch】1 搭建一個超簡單的網路
2020-09-01
PyTorch
【小白學PyTorch】20 TF2的eager模式與求導
2020-10-08
PyTorchTF2模式求導
淺談synchronized、Lock、ThreadLocal和semaphore
2018-09-01
synchronizedthread
淺談 SKU、SPU 和單品
2019-12-16
淺談Invoke 和 BegionInvoke的用法
2019-06-20
淺談jquery中prop()和attr()
2018-12-30
jQuery
Python3之淺談----深拷貝與淺拷貝
2018-09-01
Python
dataset、setAttribute()和getAttribute() 區別
2019-07-16
淺淺談Redux
2019-04-17
Redux
【小白學PyTorch】19 TF2模型的儲存與載入
2020-10-07
PyTorchTF2模型
【小白學PyTorch】21 Keras的API詳解（下）池化、Normalization層
2020-10-15
PyTorchKerasAPIORM
淺談深度學習落地問題
2018-10-15
深度學習
淺談vue中provide和inject 用法
2019-03-25
VueIDE
淺談SFTP和FTP的區別
2018-11-24
FTP