今天開始跑分散式機器學習論文實驗了,這裡介紹一下論文的常用資料集(因為我的研究領域是分散式機器學習,所以下面列出的資料集可能偏向這方面,做其他方向的童鞋參考下就好)。
1. CV資料集
(1)FEMINIST
任務:手寫字元識別
引數說明: 62種不同的字元類別 (10種數字, 26種小寫, 26種大寫)的畫素圖片, 圖片全為28乘28畫素大小 (可以選擇將其轉為128×128), 樣本數805263。
介紹: FEMNIST資料集全名Federated-MNIST, 屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網:https://leaf.cmu.edu/
引用方式:S Caldas, LEAF: A Benchmark for Federated Settings, 2018.
獲取方式:採用指令碼獲取
wget https://s3.amazonaws.com/nist-srd/SD19/by_class.zip
wget https://s3.amazonaws.com/nist-srd/SD19/by_write.zip
(2)EMINIST
任務:手寫字元識別
引數說明: 按照byclass方式split的話是62種不同的字元類別(各類別數量不均衡) (10種數字, 26種小寫, 26種大寫)的畫素圖片, 圖片全為28乘28畫素大小, 樣本數814255。
介紹: EMNIST資料集全名extension of MNIST,是MINIST資料集的擴充套件版。
官網:https://www.nist.gov/itl/products-and-services/emnist-dataset
引用方式:Cohen G, EMNIST: an extension of MNIST to handwritten letters, 2017
獲取方式:可以採用指令碼獲取
wget https://www.itl.nist.gov/iaui/vip/cs_links/EMNIST/gzip.zip
也可以直接從torchvision中開箱即用
from torchvision.datasets import EMNIST
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose(
[ToTensor(),
Normalize((0.1307,), (0.3081,))
]
)
dataset = EMNIST(
root=RAW_DATA_PATH,
split="byclass",
download=True,
train=True,
transform=transform
)
(3)CIFAR10
任務:影像分類
引數說明: 10種32x32的彩色圖片(包括人、動物、花、昆蟲等), 每種類別都有6000張圖片. 50000張訓練圖片10000張測試圖片.
介紹: CIFAR-10 是所謂的8千萬張微型圖片資料集的有標籤子集。
官網:https://www.cs.toronto.edu/~kriz/cifar.html
引用方式:Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.
獲取方式:
直接從torchvision中開箱即用
from torchvision.datasets import CIFAR10
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([
ToTensor(),
Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR10(
root=RAW_DATA_PATH,
download=True,
train=True,
transform=transform
)
(3)CIFAR100
任務:影像分類
引數說明: 100種32x32的彩色圖片(包括人、動物、花、昆蟲等), 每種類別都有600張圖片. 500張訓練圖片100張測試圖片.
介紹: CIFAR-10的兄弟,也是所謂的8千萬張微型圖片資料集的有標籤子集。
官網:https://www.cs.toronto.edu/~kriz/cifar.html
引用方式:Alex Krizhevsky, Learning Multiple Layers of Features from Tiny Images, 2009.
獲取方式:
直接從torchvision中開箱即用
from torchvision.datasets import CIFAR100
from torchvision.transforms import Compose, ToTensor, Normalize
RAW_DATA_PATH = './rawdata'
transform = Compose([
ToTensor(),
Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])
dataset = CIFAR100(
root=RAW_DATA_PATH,
download=True,
train=True,
transform=transform
)
2. NLP資料集
(1)Shakespeare
任務:下一個字元預測
引數說明:總共4,226,15條樣本
介紹: 和FEMNST一樣,屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網:https://leaf.cmu.edu/
引用方式:LEAF: A Benchmark for Federated Settings
獲取方式:
用指令碼獲取
wget http://www.gutenberg.org/files/100/old/1994-01-100.zip
3.普通迴歸/分類
(1)Synthetic
任務:二分類
引數說明:使用者能夠自定義分散式節點數量, 類別數量以及維度
介紹: 這個資料集提供了一個生成人工的、但是有挑戰性的聯邦學習資料集方法, 我們要求的目標是分散式節點上的模型能夠儘量有獨立性。論文中詳細地給出了資料集的生成過程。和FEMNST一樣,屬於專門給聯邦學習用的基準資料集leaf的成員之一。
官網:https://leaf.cmu.edu/
引用方式:LEAF: A Benchmark for Federated Settings
獲取方式:
需按照下列python程式碼對資料集進行人工生成
from scipy.special import softmax
NUM_DIM = 10
class SyntheticDataset:
def __init__(
self,
num_classes=2,
seed=931231,
num_dim=NUM_DIM,
prob_clusters=[0.5, 0.5]):
np.random.seed(seed)
self.num_classes = num_classes
self.num_dim = num_dim
self.num_clusters = len(prob_clusters)
self.prob_clusters = prob_clusters
self.side_info_dim = self.num_clusters
self.Q = np.random.normal(
loc=0.0, scale=1.0, size=(self.num_dim + 1, self.num_classes, self.side_info_dim))
self.Sigma = np.zeros((self.num_dim, self.num_dim))
for i in range(self.num_dim):
self.Sigma[i, i] = (i + 1)**(-1.2)
self.means = self._generate_clusters()
def get_task(self, num_samples):
cluster_idx = np.random.choice(
range(self.num_clusters), size=None, replace=True, p=self.prob_clusters)
new_task = self._generate_task(self.means[cluster_idx], cluster_idx, num_samples)
return new_task
def _generate_clusters(self):
means = []
for i in range(self.num_clusters):
loc = np.random.normal(loc=0, scale=1., size=None)
mu = np.random.normal(loc=loc, scale=1., size=self.side_info_dim)
means.append(mu)
return means
def _generate_x(self, num_samples):
B = np.random.normal(loc=0.0, scale=1.0, size=None)
loc = np.random.normal(loc=B, scale=1.0, size=self.num_dim)
samples = np.ones((num_samples, self.num_dim + 1))
samples[:, 1:] = np.random.multivariate_normal(
mean=loc, cov=self.Sigma, size=num_samples)
return samples
def _generate_y(self, x, cluster_mean):
model_info = np.random.normal(loc=cluster_mean, scale=0.1, size=cluster_mean.shape)
w = np.matmul(self.Q, model_info)
num_samples = x.shape[0]
prob = softmax(np.matmul(x, w) + np.random.normal(loc=0., scale=0.1, size=(num_samples, self.num_classes)), axis=1)
y = np.argmax(prob, axis=1)
return y, w, model_info
def _generate_task(self, cluster_mean, cluster_id, num_samples):
x = self._generate_x(num_samples)
y, w, model_info = self._generate_y(x, cluster_mean)
# now that we have y, we can remove the bias coeff
x = x[:, 1:]
return {'x': x, 'y': y, 'w': w, 'model_info': model_info, 'cluster': cluster_id}