關於深度神經網路（DNN）的泛化能力以及標籤噪聲學習

網路泛化以及標籤噪聲學習相關文章學習記錄（理論型）：

1-UNDERSTANDING DEEP LEARNING REQUIRES RETHINKING GENERALIZATION（ICLR2017最佳論文之一）
論文連結：https://arxiv.org/pdf/1611.03530.pdf
該文章通過實驗驗證了，利用隨機梯度訓練的影像分類卷積網路可以很容易適應訓練資料中的標籤噪聲。此外，還分析闡述了深度網路的泛化能力性質上不受顯式正則化（explicit regularization）的影響，即使我們採用完全隨機的非結構化噪聲代替真實影像網路依然能夠適應。

並得出以下結論：

Deep neural networks easily fit random labels.
深度神經網路很容易擬合隨機標籤。

Explicit regularization may improve generalization performance, but is neither necessary nor by itself sufficient for controlling generalization error.
顯式正則化可以提高泛化效能，但對於控制泛化錯誤而言既不是必需的，也不是單獨作用就足夠的。

作者設計的實驗包括：

True labels: the original dataset without modification.（真實標籤）
• Partially corrupted labels: independently with probability p, the label of each image is corrupted as a uniform random class.（部分損壞的標籤）
• Random labels: all the labels are replaced with random ones.（隨機標籤）
• Shuffled pixels: a random permutation of the pixels is chosen and then the same permutation is applied to all the images in both training and test set.（亂序畫素）
• Random pixels: a different random permutation is applied to each image independently.（隨機畫素）
Gaussian：A Gaussian distribution (with matching mean and variance to the original image dataset) is used to generate random pixels for each image.（隨機高斯分佈的畫素）

2-A Closer Look at Memorization in Deep Networks（ICML2017）
論文連結：https://arxiv.org/pdf/1706.05394.pdf
在本篇文章之前，已經有相關學者通過實驗驗證了深度神經網路能夠學習到訓練資料中的噪聲標籤的能力。本篇文章的作者研究了記憶對於深度神經網路的容量，泛化能力以及對抗魯棒性的關聯，並通過實驗分析驗證了對於存在噪聲標籤的訓練資料，深度神經網路傾向於優先學習簡單模式的現象。

作者還證明通過顯式正則化（例如，dropout），可以降低噪聲資料集上的DNN訓練效能，而不會影響對真實資料的泛化。此外作者還通過分析表明，當使用基於梯度的方法訓練時，獨立於資料集的有效容量的概念不太可能解釋深度網路的泛化效能，因為訓練資料本身在確定記憶程度方面起著重要作用。