解讀NeurIPS2019最好的機器學習論文

AIBigbull2050發表於2020-01-09

全文共 4161字,預計學習時長 12分鐘

解讀NeurIPS2019最好的機器學習論文

圖源:zhihu


解讀NeurIPS2019最好的機器學習論文

引言


NeurIPS是全球頂級的機器學習會議。沒有其他研究會議可以吸引6000多位該領域內真正的精英同時參加。如果你非常想了解機器學習最新的研究進展,就需要關注NeurIPS。

解讀NeurIPS2019最好的機器學習論文


每年,NeurIPS都會為機器學習領域的頂級研究論文頒發各類獎項。考慮到這些論文的前沿水平,它們對於大多數人來說通常晦澀難懂。


但是不用擔心!我瀏覽了這些優秀論文,並在本文總結了要點!我的目的是透過將關鍵的機器學習概念分解為大眾易於理解的小點來幫助你瞭解每篇論文的本質。


以下是我將介紹的三個NeurIPS2019最佳論文的獎項:


•最佳論文獎

•傑出新方向論文獎

•經典論文獎


讓我們深入瞭解吧!


解讀NeurIPS2019最好的機器學習論文

NeurIPS 2019最佳論文獎

解讀NeurIPS2019最好的機器學習論文

在NeurIPS 2019上獲得的最佳論文獎是:


具有Massart噪聲的半空間的獨立分佈的PAC學習(Distribution-Independent PAC Learning of Halfspaces with MassartNoise)

這是一篇非常好的論文!這讓我開始思考機器學習中的一個基本概念:噪聲和分佈。這需要對論文字身進行大量研究,我將盡力解釋論文的要點而不使其變得複雜。


我們先重述標題。本文的研究討論了一種用於學習半空間的演算法,該演算法在與分佈無關的PAC模型中使用,且研究的半空間具有Massart噪聲。該演算法是該領域中最有效的演算法。


本文的關鍵術語如下。


回顧布林函式和二進位制分類的概念。本質上,


一個半空間是一個布林函式,其中兩個類(正樣本和負樣本)由一個超平面分開。由於超平面是線性的,因此它也被稱為線性閾值函式(LTF)。


在數學上,線性閾值函式或半空間是一個閾值函式,可以由以某個閾值T為邊界的輸入引數的線性方程表示。布林函式如果具有以下形式,則為線性閾值函式:

解讀NeurIPS2019最好的機器學習論文

其中:


  • 是權重
  • 是特徵
  • 表示給出實數符號的符號函式
  • 是閾值

我們也可以將LTF稱為感知器(此處需要使用神經網路知識!)。


PAC(Probably Approximately Correct)模型是二分類的標準模型之一。


“Massart噪聲條件,或僅僅是Massart噪聲,是每個樣本/記錄的標籤以學習演算法未知的很小機率進行的翻轉。”


翻轉的可能性受某個始終小於1/2的因子n的限制。為了找到使得誤分類錯誤較小的假設,我們在先前的論文中進行了各種嘗試來限制錯誤以及與資料噪聲相關的風險。


這項研究在確定樣本複雜性的同時,證明了多項式時間(1/epsilon)的額外風險等於Massart噪聲水平加上epsilon。


本文是邁向僅實現ε過量風險這一目標的巨大飛躍。


獲得NeurIPS傑出論文獎提名的其他論文:

1. Besov IPM損耗下GAN的非引數密度估計和收斂速度(Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses)

2. 快速準確的最小均方求解(Fast andAccurate Least-Mean-Squares Solvers)

解讀NeurIPS2019最好的機器學習論文

圖源:dy.163.com


解讀NeurIPS2019最好的機器學習論文

NeurIPS 2019傑出新方向論文

今年的NeurIPS2019為獲獎論文設定了一個新獎項傑出新方向論文獎。用主辦方的話來說: “該獎項旨在表彰為未來研究建立新途徑的傑出工作。”


該獎項的獲獎文章是 ——《一致收斂性可能無法解釋深度學習中的泛化性》(Uniform convergence may be unable to explain generalization in deeplearning)


今年我最喜歡的論文之一!本文從理論和實踐兩個方面闡述了當前的深度學習演算法無法解釋深度神經網路中的泛化。讓我們來更詳細地瞭解這一點。


一致收斂性可能無法解釋深度學習中的泛化性(Uniform convergence may be unable to explain generalization in deeplearning)

大型網路很好地概括了看不見的訓練資料,儘管這些資料已被訓練為完全適合隨機標記。但是,當特徵數量大於訓練樣本的數量時,這些網路的表現就沒那麼好了。


儘管如此,它們仍然為我們提供了最新的效能指標。這也表明這些超引數化模型過度地依賴引數計數而沒有考慮批次大小的變化。如果我們遵循泛化的基本方程:


測試誤差 – 訓練誤差 <= 泛化界限


對於上面的方程式,我們採用所有假設的集合,並嘗試最小化複雜度並使這些界限盡可能地窄。


迄今為止的研究都集中於透過獲取假設類別的相關子集來收緊界限。在完善這些約束方面也有很多開創性的研究,所有這些都基於統一收斂的概念。


但是,本文解釋這些演算法可能出現的兩種情況:


  • 太大,並且其複雜度隨引數數量而增加;
  • 很小,但是在修改後的網路上設計而來

“該論文定義了一組用於泛化界限的標準,並透過一組演示實驗證明統一收斂為何無法完全解釋深度學習中的泛化。”


泛化界限如下:


1. 理想情況下必須 <1(空)

2. 隨著寬度的增加變小

3. 適用於由SGD(隨機梯度下降)學習的網路

4. 隨著隨機翻轉的訓練標籤的比例而增加

5. 應該與資料集大小成反比


之前提到的實驗是在MNIST資料集上使用三種型別的過度引數化模型(均在SGD演算法上進行訓練)完成的:


1. 線性分類器

2. 具有ReLU的寬神經網路

3. 具有固定隱藏權重的無限寬度神經網路


本文繼而演示了針對不同訓練集大小的不同超引數設定。


“一個非常有趣的發現是,儘管測試集誤差隨訓練集大小的增加而減小,但泛化界限實際上卻有所增加。 ”


如果網路只是記住了我們不斷新增到訓練集中的資料點,該怎麼辦?


以研究人員給出的例子為例。對於一個擁有1000個維度的資料集的分類任務,使用SGD訓練具有1個隱藏層ReLU和10萬個單位的超引數化模型。訓練集大小的增加可提高泛化性並減少測試集錯誤。


解讀NeurIPS2019最好的機器學習論文


儘管進行了泛化,它們仍然證明了決策邊界非常複雜。這是它們違背統一收斂思想的地方。


因此,即使對於線性分類器,統一收斂也不能完全解釋泛化。實際上,當增加樣本數量時,這可以認為是導致界限增加的一個因素!


儘管先前的研究已將發展深度網路的方向朝著依賴於演算法的方向發展(以便堅持一致收斂),但本文提出了開發不依賴於演算法的技術的需求,這些技術不會侷限於一致收斂來解釋泛化。


我們可以清楚地知道,為什麼該機器學習研究論文在NeurIPS 2019上獲得了傑出新方向論文獎。


研究人員已經表明,僅僅用一致收斂不足以解釋深度學習中的泛化。同樣,不可能達到滿足所有5個標準的小界限。這開闢了一個全新的研究領域來探索可能解釋泛化的其他工具。

解讀NeurIPS2019最好的機器學習論文

圖源:ai.51cto.com


NeurIPS在傑出新方向論文獎上的其他提名包括:

1. 端到端:表徵的梯度隔離學習(Putting AnEnd to End-to-End: Gradient-Isolated Learning of Representations)

2. 場景表示網路:連續的3D-結構感知神經場景表示(SceneRepresentation Networks: Continuous 3D-Structure-Aware Neural SceneRepresentations)


解讀NeurIPS2019最好的機器學習論文

NeurIPS 2019的經典論文獎

每年,NeurIPS還會獎勵10年前在大會上發表的一篇論文,該論文對該領域的貢獻產生了深遠的影響(也是廣受歡迎的論文)。


今年,“經典論文獎”授予了LinXiao寫作的“正則隨機學習和線上最佳化的雙重平均法”。這項研究基於基本概念,這些基本概念為眾所周知的現代機器學習奠定了基礎。


正則隨機學習和線上最佳化的雙重平均法(Dual Averaging Method for Regularized Stochastic Learning and OnlineOptimization)

讓我們分解一下這篇極佳的論文中涵蓋的四個關鍵概念:


隨機梯度下降:隨機梯度下降已經正式成為機器學習中的最最佳化方法。它可以透過以下隨機最佳化來實現。回顧SGD和大樣本隨機最佳化方程——這裡,w是權重向量,z是輸入特徵向量。對於t = 0,1,2…


解讀NeurIPS2019最好的機器學習論文


線上凸最佳化:另一項開創性的研究。它被模擬為遊戲,玩家將嘗試預測權重向量,並在每個t處計算出最終的損失。主要目的是最大程度地減少這種損失——結果與我們使用隨機梯度下降進行最佳化的方式非常相似


壓縮學習:這包括套索迴歸,L1正則化最小二乘和其他混合正則化方案


近端梯度法:與早期的技術相比,這是一種減少損耗且仍保留凸度的更快的方法


儘管先前的研究開發了一種收斂到O(1/t)的有效演算法,但資料稀疏性是在那之前一直被忽略的一個因素。本文提出了一種新的正則化技術,稱為正則化雙重平均法(RDA),用於解決線上凸最佳化問題。


解讀NeurIPS2019最好的機器學習論文


當時,這些凸最佳化問題效率不高,特別是在可伸縮性方面。


這項研究提出了一種批處理最佳化的新方法。這意味著最初僅提供一些獨立樣本,並且基於這些樣本(在當前時間t)計算權重向量。相對於當前權重向量的損失與次梯度一起計算。並在迭代中(在時間t + 1)再次使用它。


具體而言,在RDA中,考慮了平均次梯度,而不是當前的次梯度。


“當時,對於稀疏的MNIST資料集,此方法比SGD和其他流行技術獲得了更好的結果。實際上,隨著稀疏度的增加,RDA方法也具有明顯更好的結果。”


在進一步研究上述方法的多篇論文中,如流形識別、加速RDA等,都證明了這篇論文被授予經典論文獎是當之無愧。


解讀NeurIPS2019最好的機器學習論文

結語

NeurIPS 2019再次成為了一次極富教育意義和啟發性的會議。我對傑出新方向論文獎以及它如何解決深度學習中的泛化問題特別感興趣。

哪一篇機器學習研究論文引起了你的注意?或者是否有其他的論文,讓你想要去嘗試或者啟發了你?請在下面的評論區中告訴我們吧。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2672636/,如需轉載,請註明出處,否則將追究法律責任。

相關文章