從2019 AI頂會最佳論文,看深度學習的理論基礎

機器之心發表於2020-01-27

如果能有一種理論告訴我們什麼樣的模型架構、運算方式能最好地表示某種資料,什麼樣的損失函式、迭代方式能最高效地學習到某種能力,什麼樣的設定又使這種能力能處理各種意外情況。那麼,這樣的深度學習,乃至機器學習,才是理論基礎圓潤的大學科。

令人驚喜的是,我們可以看到近來很多前沿研究都越來越系統,越來越有洞見。最明顯的是近年舉行的 AI 頂會,我們可以看到很多獲獎論文都嘗試從更基礎、更深刻的角度為 DL 打下地基。本文將從 2019 年人工智慧頂會的獲獎論文出發,為你介紹深度學習的理論基礎到底是什麼樣的,當前又有哪些新發現。

從2019 AI頂會最佳論文,看深度學習的理論基礎

數學基礎 ≠ 理論基礎

在入門深度學習的過程中,我們經常會聽到各種數學名詞,線性代數和矩陣微分、概率論與隨機過程,似乎要想理解各種模型,首先必須理解這些數學概念。那麼這些數學描述不正是深度學習的「理論基礎」嗎?

這裡我們需要明確的是,數學是一種語言、一種工具,使用它描述深度學習並不一定等於構建 DL 的理論基礎。這是一種數學基礎,而不是整理領域的理論基礎。很多深度模型確實都是從數學推匯出發,然後得出某些很好的性質,但這隻能說明模型是有理論保證的,它們並不能組成深度學習的理論基礎。

比如說圖卷積網路或變分自編碼器,它們最開始都是從數學的角度推導某些性質,後來才根據這樣的性質構建整個模型。我們可以說這些模型的理論基礎非常堅實,如果我們需要理解它們,同樣也需要對應的數學基礎。此外,在實際建模時,我們並不一定完全遵循理論推導,可以稍微修改以獲得更強的計算效果。

從2019 AI頂會最佳論文,看深度學習的理論基礎

在深度學習中,有很多模型的數學推導都非常優美。也有很多模型從實驗與直觀概念出發,描述整個學習過程的數學表達。它們都非常重要,但並不能解決深度學習最基本的疑問:為什麼深度模型能夠高效學習?為什麼深度模型要比淺層模型的性質好?為什麼深度學習泛化性也不錯

相關文章