分散式機器學習常用資料集

orion發表於2021-11-28

原文網址 : https://www.cnblogs.com/orion-orion/p/15614752.html

今天開始跑分散式機器學習論文實驗了，這裡介紹一下論文的常用資料集（因為我的研究領域是分散式機器學習，所以下面列出的資料集可能偏向這方面，做其他方向的童鞋參考下就好）。

1. CV資料集

（1）FEMINIST

任務：手寫字元識別
引數說明: 62種不同的字元類別 (10種數字, 26種小寫, 26種大寫)的畫素圖片, 圖片全為28乘28畫素大小 (可以選擇將其轉為128×128), 樣本數805263。
介紹: FEMNIST資料集全名Federated-MNIST, 屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網：https://leaf.cmu.edu/
引用方式：S Caldas, LEAF: A Benchmark for Federated Settings, 2018.
獲取方式：採用指令碼獲取

wget https://s3.amazonaws.com/nist-srd/SD19/by_class.zip
wget https://s3.amazonaws.com/nist-srd/SD19/by_write.zip

（2）EMINIST

任務：手寫字元識別
引數說明: 按照byclass方式split的話是62種不同的字元類別（各類別數量不均衡） (10種數字, 26種小寫, 26種大寫)的畫素圖片, 圖片全為28乘28畫素大小, 樣本數814255。
介紹: EMNIST資料集全名extension of MNIST，是MINIST資料集的擴充套件版。
官網：https://www.nist.gov/itl/products-and-services/emnist-dataset
引用方式：Cohen G, EMNIST: an extension of MNIST to handwritten letters, 2017
獲取方式：可以採用指令碼獲取

wget https://www.itl.nist.gov/iaui/vip/cs_links/EMNIST/gzip.zip

也可以直接從torchvision中開箱即用

from torchvision.datasets import EMNIST
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose(
        [ToTensor(),
         Normalize((0.1307,), (0.3081,))
         ]
    )
dataset = EMNIST(
        root=RAW_DATA_PATH,
        split="byclass",
        download=True,
        train=True,
        transform=transform
    )

（3）CIFAR10

任務：影像分類
引數說明: 10種32x32的彩色圖片（包括人、動物、花、昆蟲等）, 每種類別都有6000張圖片. 50000張訓練圖片10000張測試圖片.
介紹: CIFAR-10 是所謂的8千萬張微型圖片資料集的有標籤子集。
官網：https://www.cs.toronto.edu/~kriz/cifar.html
引用方式：Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.
獲取方式：
直接從torchvision中開箱即用

from torchvision.datasets import CIFAR10
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([
    ToTensor(),
    Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR10(
        root=RAW_DATA_PATH,
        download=True,
        train=True,
        transform=transform
    )

（3）CIFAR100

任務：影像分類
引數說明: 100種32x32的彩色圖片（包括人、動物、花、昆蟲等）, 每種類別都有600張圖片. 500張訓練圖片100張測試圖片.
介紹: CIFAR-10的兄弟，也是所謂的8千萬張微型圖片資料集的有標籤子集。
官網：https://www.cs.toronto.edu/~kriz/cifar.html
引用方式：Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.
獲取方式：
直接從torchvision中開箱即用

from torchvision.datasets import CIFAR100
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([
    ToTensor(),
    Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR100(
        root=RAW_DATA_PATH,
        download=True,
        train=True,
        transform=transform
    )

2. NLP資料集

（1）Shakespeare

任務：下一個字元預測
引數說明：總共4,226,15條樣本
介紹: 和FEMNST一樣，屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網：https://leaf.cmu.edu/
引用方式：LEAF: A Benchmark for Federated Settings
獲取方式：
用指令碼獲取

wget http://www.gutenberg.org/files/100/old/1994-01-100.zip

3.普通迴歸/分類

（1）Synthetic

任務：二分類
引數說明：使用者能夠自定義分散式節點數量, 類別數量以及維度

介紹: 這個資料集提供了一個生成人工的、但是有挑戰性的聯邦學習資料集方法，我們要求的目標是分散式節點上的模型能夠儘量有獨立性。論文中詳細地給出了資料集的生成過程。和FEMNST一樣，屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網：https://leaf.cmu.edu/
引用方式：LEAF: A Benchmark for Federated Settings
獲取方式：
需按照下列python程式碼對資料集進行人工生成

from scipy.special import softmax
NUM_DIM = 10
class SyntheticDataset:

    def __init__(
            self,
            num_classes=2,
            seed=931231,
            num_dim=NUM_DIM,
            prob_clusters=[0.5, 0.5]):

        np.random.seed(seed)

        self.num_classes = num_classes
        self.num_dim = num_dim
        self.num_clusters = len(prob_clusters)
        self.prob_clusters = prob_clusters

        self.side_info_dim = self.num_clusters

        self.Q = np.random.normal(
            loc=0.0, scale=1.0, size=(self.num_dim + 1, self.num_classes, self.side_info_dim))

        self.Sigma = np.zeros((self.num_dim, self.num_dim))
        for i in range(self.num_dim):
            self.Sigma[i, i] = (i + 1)**(-1.2)

        self.means = self._generate_clusters()

    def get_task(self, num_samples):
        cluster_idx = np.random.choice(
            range(self.num_clusters), size=None, replace=True, p=self.prob_clusters)
        new_task = self._generate_task(self.means[cluster_idx], cluster_idx, num_samples)
        return new_task

    def _generate_clusters(self):
        means = []
        for i in range(self.num_clusters):
            loc = np.random.normal(loc=0, scale=1., size=None)
            mu = np.random.normal(loc=loc, scale=1., size=self.side_info_dim)
            means.append(mu)
        return means

    def _generate_x(self, num_samples):
        B = np.random.normal(loc=0.0, scale=1.0, size=None)
        loc = np.random.normal(loc=B, scale=1.0, size=self.num_dim)

        samples = np.ones((num_samples, self.num_dim + 1))
        samples[:, 1:] = np.random.multivariate_normal(
            mean=loc, cov=self.Sigma, size=num_samples)

        return samples

    def _generate_y(self, x, cluster_mean):
        model_info = np.random.normal(loc=cluster_mean, scale=0.1, size=cluster_mean.shape)
        w = np.matmul(self.Q, model_info)
        
        num_samples = x.shape[0]
        prob = softmax(np.matmul(x, w) + np.random.normal(loc=0., scale=0.1, size=(num_samples, self.num_classes)), axis=1)
                
        y = np.argmax(prob, axis=1)
        return y, w, model_info

    def _generate_task(self, cluster_mean, cluster_id, num_samples):
        x = self._generate_x(num_samples)
        y, w, model_info = self._generate_y(x, cluster_mean)

        # now that we have y, we can remove the bias coeff
        x = x[:, 1:]

        return {'x': x, 'y': y, 'w': w, 'model_info': model_info, 'cluster': cluster_id}

33個機器學習常用資料集
2019-04-19
機器學習
大資料的分散式機器學習的策略與原則
2022-05-10
大資料分散式機器學習
機器學習筆記——資料集分割
2018-09-25
機器學習筆記
機器學習之資料集的劃分
2020-06-14
機器學習
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
最強資料集集合：50個最佳機器學習公共資料集
2018-11-08
機器學習
祕籍 | 機器學習資料集網址大全
2019-01-27
機器學習
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
機器學習中的有標註資料集和無標註資料集
2023-05-08
機器學習
機器學習高質量資料集大合輯
2018-10-24
機器學習
好程式設計師大資料學習路線分享彈性分散式資料集RDD
2019-08-21
程式設計師大資料分散式
機器學習實戰原始碼和資料集下載
2018-07-18
機器學習原始碼
訓練機器學習的資料集大小很重要 - svpino
2021-04-23
機器學習
深度學習常用的資料集，包括各種資料跟影象資料
2018-09-13
深度學習
機器學習-資料清洗
2019-03-02
機器學習
機器學習大資料
2019-05-10
機器學習大資料
MLSys提前看：機器學習的分散式優化方法
2020-02-21
機器學習分散式優化
崑崙分散式資料庫儲存叢集 Fullsync 機制
2022-04-07
分散式資料庫
虛擬機器裝Hadoop叢集完全分散式
2020-12-11
虛擬機Hadoop分散式
吳恩達機器學習作業程式碼和資料集
2020-11-27
吳恩達機器學習
機器學習-- 資料轉換
2018-11-17
機器學習
機器學習之清理資料
2020-06-16
機器學習
MLSys提前看：機器學習的分散式最佳化方法
2020-02-21
機器學習分散式
機器學習--起手式
2023-01-05
機器學習
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
機器學習筆記 - Pascal VOC資料集使用FCN語義分割
2021-08-18
機器學習筆記
分散式機器學習、聯邦學習、多智慧體的區別和聯絡
2021-12-11
分散式機器學習聯邦學習智慧體
機器學習的訓練集
2021-02-05
機器學習
分散式機器學習：如何快速從Python棧過渡到Scala棧
2020-10-20
分散式機器學習Python
分散式機器學習：非同步SGD和Hogwild!演算法（Pytorch）
2023-02-13
分散式機器學習非同步HOG演算法PyTorch
【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記
2020-12-12
大資料分散式資料庫筆記
八個機器學習資料清洗
2019-06-19
機器學習
在大型金融資料集上使用機器學習的特徵工程測試
2018-09-23
機器學習特徵工程
一個真實資料集的完整機器學習解決方案（上）
2020-12-15
機器學習
一個真實資料集的完整機器學習解決方案（下）
2020-12-18
機器學習
機器學習常用的分類器比較
2018-04-02
機器學習
知識學習綜合三---分散式系統大資料
2018-09-09
分散式大資料
分散式機器學習框架與高維實時推薦系統
2020-07-20
分散式機器學習框架