泛化的第一性原理 - KDnuggets

banq發表於2021-11-05

我們現在看到的大多數機器學習 (ML) 論文都專注於推進不同領域的新技術和方法,例如自然語言或計算機視覺。儘管缺乏機器智慧的基本理論,但 ML 研究仍在以瘋狂的速度推進。ML 中的一些主要問題,例如如何理解神經網路如何學習或如何量化知識泛化,仍未得到解答。我們不時會遇到一些論文,這些論文以新的想法挑戰我們對 ML 理論的基本理解。這就是“神經切線核特徵值準確預測泛化”的案例,這是 伯克利人工智慧研究(BAIR)剛剛發表的開創性論文,它提出了一種新的泛化理論。
理解泛化仍然是現代機器學習中最大的謎團之一。在他們的論文中,BAIR 研究人員解決了以下陳述中所述的泛化基本問題的變體:
如果提供給定數量的訓練示例,能否根據第一原理有效地預測給定網路架構在學習給定函式時的泛化能力?
為了回答這個問題,BAIR 團隊依賴於最近在深度學習方面的兩項突破:
 

1) 無限寬網路
  近年來深度學習最有趣的理論發展之一是無限寬度網路理論。這一發展表明,由於神經網路中的隱藏層趨向於無限,因此神經網路本身的行為採用非常簡單的分析形式。這個想法表明,透過研究理論上的無限神經網路,我們可以深入瞭解有限等價物的泛化。這類似於傳統微積分中的中心極限定理。
 

2) 核迴歸近似
  第二個突破與第一個密切相關,但更具體。最近在深度學習最佳化方面的研究表明,透過具有均方誤差 (MSE) 損失的梯度下降訓練的寬網路等效於稱為核迴歸的經典模型。在這種情況下,核心是網路的“神經切線核心”(NTK),它描述了使用梯度下降訓練時的演化。更正常地說,研究表明,核心迴歸的 MSE 的近似值(以 NTK 為核心)可以準確預測網路學習任意函式的 MSE。
 

好處:可學習性
BAIR 的泛化第一性原理理論的最大貢獻是可學習性的概念。可學習性的思想是量化目標函式和學習函式之間的近似值。這對 MSE 來說聽起來非常熟悉,但可學習性表現出與 MST 不同的特性,這使其更適合以後的模型。
BAIR 研究的結果遠非結論性的,但表明要得出神經網路泛化的一般理論,還有更多工作要做。可學習性度量的貢獻表明,對傳統 MSE 和核迴歸方法的簡單改進可以更準確地理解神經網路如何泛化知識。

 

相關文章