Torch 中Dataset 和Dataloader 的資料變換

华小电發表於2024-08-25

原文網址 : https://www.cnblogs.com/conpi/p/18379379

資料檔案：test.csv

df = pd.read_csv('test.csv')
print(df)
a  b  c   d
0  1  2  3   4
1  2  3  4   5
2  3  4  5   6
3  4  5  6   7
4  5  6  7   8
5  6  7  8   9
6  7  8  9  10
7  2  3  4   5
8  3  4  5   6
9  4  5  6   7

def create_inout_sequences(input_data, window_size):
    inout_seq = []
    L = len(input_data)
    for i in range(L - window_size):
        train_seq = input_data[i:i + window_size]
        if (i + window_size+1) > len(input_data):
            break
        else:
            train_label = input_data[:,-1][i + window_size:i + window_size+1]
        inout_seq.append((train_seq, train_label))
    return inout_seq

inout_seq = create_inout_sequences(df.values,window_size=3)
print(inout_seq)

inout_seq:

[(array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6]]), array([7])), 
(array([[2, 3, 4, 5],
       [3, 4, 5, 6],
       [4, 5, 6, 7]]), array([8])),
(array([[3, 4, 5, 6],
       [4, 5, 6, 7],
       [5, 6, 7, 8]]), array([9])),
(array([[4, 5, 6, 7],
       [5, 6, 7, 8],
       [6, 7, 8, 9]]), array([10])), 
(array([[ 5,  6,  7,  8],
       [ 6,  7,  8,  9],
       [ 7,  8,  9, 10]]), array([5])),
(array([[ 6,  7,  8,  9],
       [ 7,  8,  9, 10],
       [ 2,  3,  4,  5]]), array([6])), 
(array([[ 7,  8,  9, 10],
       [ 2,  3,  4,  5],
       [ 3,  4,  5,  6]]), array([7]))]

class Dataset(Dataset):
    def __init__(self, sequences):
        self.sequences = sequences
 
    def __len__(self):
        return len(self.sequences)
 
    def __getitem__(self, index):
        sequence, label = self.sequences[index]
        return torch.Tensor(sequence), torch.Tensor(label)

train_dataset = Dataset(inout_seq)

train_set:

tensor([[1., 2., 3., 4.],
        [2., 3., 4., 5.],
        [3., 4., 5., 6.]])
tensor([7.])
tensor([[2., 3., 4., 5.],
        [3., 4., 5., 6.],
        [4., 5., 6., 7.]])
tensor([8.])
tensor([[3., 4., 5., 6.],
        [4., 5., 6., 7.],
        [5., 6., 7., 8.]])
tensor([9.])
tensor([[4., 5., 6., 7.],
        [5., 6., 7., 8.],
        [6., 7., 8., 9.]])
tensor([10.])
tensor([[ 5.,  6.,  7.,  8.],
        [ 6.,  7.,  8.,  9.],
        [ 7.,  8.,  9., 10.]])
tensor([5.])
tensor([[ 6.,  7.,  8.,  9.],
        [ 7.,  8.,  9., 10.],
        [ 2.,  3.,  4.,  5.]])
tensor([6.])
tensor([[ 7.,  8.,  9., 10.],
        [ 2.,  3.,  4.,  5.],
        [ 3.,  4.,  5.,  6.]])
tensor([7.])

train_loader = DataLoader(train_dataset, batch_size=3, shuffle=False, drop_last=True)

train_loader:

tensor([[[1., 2., 3., 4.],
         [2., 3., 4., 5.],
         [3., 4., 5., 6.]],

        [[2., 3., 4., 5.],
         [3., 4., 5., 6.],
         [4., 5., 6., 7.]],

        [[3., 4., 5., 6.],
         [4., 5., 6., 7.],
         [5., 6., 7., 8.]]])
tensor([[7.],
        [8.],
        [9.]])
tensor([[[ 4.,  5.,  6.,  7.],
         [ 5.,  6.,  7.,  8.],
         [ 6.,  7.,  8.,  9.]],

        [[ 5.,  6.,  7.,  8.],
         [ 6.,  7.,  8.,  9.],
         [ 7.,  8.,  9., 10.]],

        [[ 6.,  7.,  8.,  9.],
         [ 7.,  8.,  9., 10.],
         [ 2.,  3.,  4.,  5.]]])
tensor([[10.],
        [ 5.],
        [ 6.]])

train_loader = DataLoader(train_dataset, batch_size=4, shuffle=False, drop_last=True)

train_loader:

tensor([[[1., 2., 3., 4.],
         [2., 3., 4., 5.],
         [3., 4., 5., 6.]],

        [[2., 3., 4., 5.],
         [3., 4., 5., 6.],
         [4., 5., 6., 7.]],

        [[3., 4., 5., 6.],
         [4., 5., 6., 7.],
         [5., 6., 7., 8.]],

        [[4., 5., 6., 7.],
         [5., 6., 7., 8.],
         [6., 7., 8., 9.]]])
tensor([[ 7.],
        [ 8.],
        [ 9.],
        [10.]])

後面的資料小於batch_size，捨棄了

Dataset和Dataloader的使用
2023-01-05
Pytorch建模過程中的DataLoader與Dataset
2023-01-04
PyTorch
torch.utils.data.DataLoader與迭代器轉換
2021-12-06
【小白學PyTorch】3 淺談Dataset和Dataloader
2020-09-01
PyTorch
Pytorch入門上 —— Dataset、Tensorboard、Transforms、Dataloader
2021-12-15
PyTorchORBORM
大資料開發-Flink-資料流DataStream和DataSet
2021-05-12
大資料AST
在DataSet資料集中 DataView篩選資料
2024-06-14
View
Box-cox資料變換
2024-03-19
資料預處理-資料整合與資料變換
2020-01-19
如何使用TensorFlow中的高階API：Estimator、Experiment和Dataset
2019-02-25
API
pytorch dataloader和batch_size大小的理解
2020-10-28
PyTorchBAT
空間大資料的資料變換與價值提煉
2024-10-15
大資料
flink將bathch dataset 轉換為sql操作
2019-03-11
BATSQL
資料預處理- 資料清理資料整合資料變換資料規約
2020-01-15
谷歌上線資料搜尋引擎 Dataset Search
2018-09-06
谷歌
Pytorch - Dataloader
2024-04-01
PyTorch
dataset、setAttribute()和getAttribute() 區別
2019-07-16
postgresql 將jsonb中的資料替換為指定資料
2024-09-22
SQLJSON
[原始碼解析] PyTorch 分散式(2) --- 資料載入之DataLoader
2021-08-18
原始碼PyTorch分散式
Java中的不可變資料結構
2019-04-19
Java資料結構
資料抽取中的CDC（變化資料捕獲）方式
2021-09-09
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL
C語言資料型別、變數的輸入和輸出、進位制轉換
2024-09-26
C語言資料型別變數
資料變換-歸一化與標準化
2020-11-30
C++資料結構和pb資料結構的轉換
2024-04-14
C++資料結構
Bond——大資料時代的資料交換和儲存格式
2024-07-08
大資料
第04講：Flink 常用的 DataSet 和 DataStream API
2022-01-25
ASTAPI
echarts使用dataset資料集建立單軸散點圖
2023-02-20
Echarts
ISCXTor2016資料集（Tor-nonTor dataset）介紹
2021-01-01
vue中如何監聽vuex中的資料變化
2021-09-11
Vue
SeaTunnel用於海量資料的同步和轉換
2022-01-13
String和基本資料型別的相互轉換
2021-01-04
資料型別
Java資料型別的顯式轉換和隱式轉換
2020-09-23
Java資料型別
教你如何替換@PathVariable中的變數
2021-11-10
變數
python--進位制轉換和資料交換
2020-12-07
Python
JS中資料型別轉換
2018-06-06
JS資料型別
有了 ETL 資料神器 dbt，表資料秒變 NebulaGraph 中的圖資料
2023-02-09
計算機網路中的資料交換
2019-02-23
計算機網路

Torch 中Dataset 和Dataloader 的資料變換

相關文章