論文導讀 | 百度矽谷人工智慧實驗室團隊:深度學習是可預測的

AI前線發表於2019-01-02

本文由 【AI前線】原創,原文連結:http://t.cn/RHUEQV4

作者|Joel Hestness 等

譯者|孫浩

編輯|Emily

我們的數字世界和資料的增長速度比過去任何時候都快,甚至快過我們的計算能力增長。深度學習幫助我們快速理解巨大的資料,併為使用者提供最好的基於人工智慧的產品和體驗。

為了不斷改進使用者體驗,我們的挑戰便是快速改進現有和新興應用領域的深度學習模型。對模型框架的探求可以創造出重要的改進,但是這種探求常常依賴於運氣;想要獲得突破通常需要對建模問題進行復雜的重構,並且可能需要幾個星期或幾個月的測試。

如果我們能夠以更可靠的方式來補充對模型框架的探求,以提高模型的準確性,那就太好了。

現在我們釋出了一項大規模的研究,這項研究表明隨著我們的訓練資料量的增長,深度學習的準確性也會得到提高。經測試,只要我們有足夠的資料和計算能力來訓練大型模型,我們就能發現可預測的準確性。這些結果包含了四個應用領域裡被廣泛使用的最先進的模型: 機器翻譯、語言建模、影像分類和語音識別。

更具體地說,我們的研究結果表明,作為訓練資料集大小的冪律,泛化誤差的測量方法可以作為模型預測新樣本的一個有效方法。之前的理論工作也表明,誤差精度應該是冪律。然而,這些工作通常預示著一個“陡峭”的學習曲線——冪律指數應該是 -0.5——這表示模型應該學得很快。我們的經驗收集學習曲線顯示的是在 [-0.35,-0.07] 範圍內小幅度的指數:實際的模型在學習實際資料時將比理論上慢的多。

作為一個示例,請考慮下面的單詞語言建模的結果 (注意日誌記錄範圍!):

論文導讀 | 百度矽谷人工智慧實驗室團隊:深度學習是可預測的

單詞語言模型顯示,隨著訓練集大小的增長,可預測的冪律驗證錯誤隨之擴充套件。

對於單詞語言建模,我們在十億級資料集的子集上測試了 LSTM 和 RHN 模型。上面的圖表顯示了對於不同大小的訓練集來說每個模型框架的驗證誤差 (對於泛化錯誤的近似值) 所需的最適合的模型大小。這些學習曲線是每個可預測的冪律,令人驚訝的是他們有相同的冪律指數。在較大的訓練集上,模型往往遠離曲線,但我們發現優化超引數往往可以縮小差距。

模型誤差從“最佳猜測”開始,然後沿著冪律曲線下降到“不可約誤差”。

更通俗點講,我們的經驗結果表明學習曲線呈現出如下形式 (又是對數 – 對數尺度!)

論文導讀 | 百度矽谷人工智慧實驗室團隊:深度學習是可預測的

用於實際應用的冪律學習曲線草圖

上圖所示的是一個冪律學習曲線示意圖,它將實際應用程式的學習曲線分為若干階段。曲線從小資料區域開始,模型很難從少量的訓練樣本中學習。這種情況下模型只執行“最佳”或“隨機”猜測。學習曲線的中間部分是冪律區域,每一個新的訓練樣本都提供了一些資訊,幫助模型改進對先前看不見的樣本的預測。冪律指數定義了這條曲線的陡度 (對數 – 對數尺度下的斜率)。指數代表了理解資料的難度。最後,對於大多數真實世界的應用程式來說,可能存在一個模型無法改進的非零低邊界錯誤 (我們在現實測試中還沒有達到不可約的錯誤,但是我們已經證實它在測試過程中確實存在)。這個不可約的錯誤是由真實世界資料中固有的因素組合而成的。

在我們測試的應用程式中,我們發現:

  • 冪律學習曲線存在於所有的應用、模型架構、優化器和損失函式中。
  • 最令人驚訝的是,對於單個應用程式,不同的模型框架和優化器都顯示了同樣的冪律指數。隨著訓練集大小的增加不同的模型以相同的相對速率學習。
  • 為了最佳匹配每個訓練集,所需模型大小 (引數數量) 也成線性增長。這種關係在經驗上也是可預測的。

我們希望這些發現能夠在深度學習領域激起更廣泛的討論以便能夠加速深度學習的程式。對於深度學習的研究者來說,學習曲線可以輔助模型除錯和預測精確性的標的以便改進模型框架。在理論上預測或解釋學習曲線指數是有機會的。此外,可預測的學習曲線可以指導關於是否或如何增加資料集、系統設計和擴充套件的決策,它們強調了持續計算擴充套件的重要性。

更多的細節和資料可以在我們的論文中找到:《經驗表明深度學習是可預測的》

https://arxiv.org/abs/1712.00409

作者:

Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, Yanqi Zhou, Yi Li

如果沒有百度矽谷人工智慧實驗室 (SVAIL) 系統團隊的重大努力,這項工作是不可能實現的。除了共同作者之外,我們特別感謝機器學習研究小組的成員,Rewon Child, Jiaji Huang, Sercan Arik, and Anuroop Sriram,他們提供了寶貴的反饋意見。我們也感謝那些參與討論的人: Awni Hannun, Andrew Ng, Ilya Sutskever, Ian Goodfellow, Pieter Abbeel。

關注後回覆「AI」你懂的

相關文章