33個神經網路「煉丹」技巧

視學演算法發表於2020-04-06

點選上方“視學演算法”，“星標”或"置頂"

關鍵時刻，第一時間送達

33個神經網路「煉丹」技巧

本文轉載自：機器之心

作者：Andrej Karpathy

特斯拉人工智慧部門主管 Andrej Karpathy 釋出新部落格，介紹神經網路訓練的技巧。

Andrej Karpathy 是深度學習計算機視覺領域、與領域的研究員。博士期間師從李飛飛。在讀博期間，兩次在谷歌實習，研究在 Youtube 視訊上的大規模特徵學習，2015 年在 DeepMind 實習，研究深度強化學習。畢業後，Karpathy 成為 OpenAI 的研究科學家，後於 2017 年 6 月加入特斯拉擔任人工智慧與視覺總監。

今日他釋出的這篇部落格能為深度學習研究者們提供極為明晰的洞見，在 Twitter 上也引發了極大的關注。

33個神經網路「煉丹」技巧

1. 誰說神經網路訓練簡單了？

很多人認為開始訓練神經網路是很容易的，大量庫和框架號稱可以用 30 行程式碼段解決你的資料問題，這就給大家留下了（錯誤的）印象：訓練神經網路這件事是非常簡單的，不同模組即插即用就能搭個深度模型。

簡單的建模過程通常如下所示：

>>> your_data = # plug your awesome dataset here>>> model = SuperCrossValidator(SuperDuper.fit, your_data, ResNet50, SGDOptimizer)# conquer world here

這些庫和示例令我們想起了熟悉標準軟體及模組，標準軟體中通常可以獲取簡潔的 API 和抽象。

例如 Request 庫的使用展示如下：

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))>>> r.status_code200

酷！這些庫和框架的開發者揹負起理解使用者 Query 字串、url、GET/POST 請求、HTTP 連線等的大量需求，將複雜度隱藏在幾行程式碼後面。這就是我們熟悉與期待的。

然而，神經網路不一樣，它們並不是現成的技術。我在 2016 年撰寫的一篇部落格中試圖說明這一點，在那篇文章中我認為反向傳播是「leaky abstraction」，然而現在的情況似乎更加糟糕了。

Backprop + SGD 不是魔法，無法讓你的網路執行；批歸一化也無法奇蹟般地使網路更快收斂；RNN 也不能神奇地讓你直接處理文字。不要因為你可以將自己的問題表示為強化學習，就認為你應該這麼做。如果你堅持在不理解技術原理的情況下去使用它，那麼你很可能失敗。

2. 揹著我不 work 的神經網路

當你破壞程式碼或者錯誤配置程式碼時，你通常會得到某種異常。你在原本應該插入字串的地方插入了整數；匯入出錯；該關鍵字不存在……此外，為了方便 debug，你還很可能為某個功能建立單元測試。

這還只是開始。訓練神經網路時，有可能所有程式碼的句法都正確，但整個訓練就是不對。可能問題出現在邏輯性（而不是句法），且很難通過單元測試找出來。

例如，你嘗試截損失度而不是梯度，這會導致訓練期間的異常值被忽視，但語法或維度等檢測都不會出現錯誤。又或者，你弄錯了正則化強度、學習率、衰減率、模型大小等的設定，那麼幸運的話網路會報錯，然而大部分時候它會繼續訓練，並默默地變糟……

因此，「快速激烈」的神經網路訓練方式沒有用，只會導致困難。現在，這些經驗性困難是使神經網路正常執行的攔路虎，你需要更加周密詳盡地除錯網路才能減少困難，需要大量視覺化來了解每一件事。

在我的經驗中，深度學習成功的重要因素是耐心和注重細節。

如何解決

基於以上兩點事實，我開發了一套將神經網路應用於新問題的特定流程。該流程嚴肅地執行了上述兩項原則：耐心和注重細節。

具體來說，它按照從簡單到複雜的方式來構建，我們在每一步都對即將發生的事作出準確的假設，然後用實驗來驗證假設或者調查直到發現問題。我們試圖盡力阻止大量「未經驗證的」複雜性一次來襲，這有可能導致永遠也找不到的 bug／錯誤配置。如果讓你像訓練神經網路那樣寫它的程式碼，你會想使用非常小的學習率，然後猜測，再在每次迭代後評估整個測試集。

1. 梳理資料

訓練神經網路的第一步是不要碰程式碼，先徹底檢查自己的資料。這一步非常關鍵。我喜歡用大量時間瀏覽數千個樣本，理解它們的分佈，尋找其中的模式。幸運的是，人類大腦很擅長做這件事。有一次，我發現資料中包含重複的樣本，還有一次我發現了損壞的影像／標籤。我會查詢資料不均衡和偏差。我通常還會注意自己的資料分類過程，它會揭示我們最終探索的架構。比如，只需要區域性特徵就夠了還是需要全域性語境？標籤噪聲多大？

此外，由於神經網路是資料集的壓縮／編譯版本，你能夠檢視網路（錯誤）預測，理解預測從哪裡來。如果網路預測與你在資料中發現的不一致，那麼一定是什麼地方出問題了。

在你對資料有了一些感知之後，你可以寫一些簡單的程式碼來搜尋／過濾／排序標籤型別、標註規模、標註數量等，並沿任意軸視覺化其分佈和異常值。異常值通常能夠揭示資料質量或預處理中的 bug。

2. 配置端到端訓練/評估架構、獲取基線結果

現在我們已經理解了資料，那我們就可以開始構建高大上的多尺度 ASPP FPN ResNet 並訓練強大的模型了嗎？當然還不到時候，這是一個充滿荊棘的道路。我們下一步需要構建一個完整的訓練、評估架構，並通過一系列實驗確定我們對準確率的置信度。

在這個階段，你們最好選擇一些不會出錯的簡單模型，例如線性分類器或非常精簡的 ConvNet 等。我們希望訓練這些模型，並視覺化訓練損失、模型預測和其它度量指標（例如準確率）。當然在這個過程中，我們還需要基於一些明確假設，從而執行一系列對照實驗（ablation experiments）。

該階段的一些技巧與注意事項：

固定隨機 seed：始終使用固定的隨機 seed 能保證很多屬性，例如在我們兩次執行相同程式碼時能得到相同的輸出。這能消除變化因子，從進行合理的判斷。
簡化：確保禁用不必要的技巧。例如，在這個階段肯定需要關閉資料增強。資料增強可以在後期引入，並作為一種強大的正則化策略。不過在這個階段引入的話，它就有機會帶來一些愚蠢的 bug。
使用多資料、少次數的驗證評估：當我們在繪製測試損失時，我們需要在整個比較大的測試集中執行評估。不要過幾個批量就繪製一次測試損失，然後再依賴 TensorBoard 的平滑處理。我們雖然追求的是準確率，但也要防止犯這些低階錯誤。
在初始化中驗證損失：驗證你的損失函式在初始化中有比較合理的損失值。例如，如果你正確地初始化最終層，那麼你應該通過-log(1/n_classes) 度量初始化的 Softmax 值。L2 迴歸和 Huber 損失函式等都有相同的預設值。
優秀的初始化：正確地初始化最終層。例如，如果你正在對均值為 50 的一些資料做迴歸處理，那麼初始化的最終偏置項就應該為 50。如果你有一個非平衡資料集（兩類樣本數 1：10），那麼就需要在 logits 上設定偏置項，令模型在初始化時預測概率為 0.1。正確配置這些偏置項將加快收斂速度，因為網路在前面幾次迭代中基本上只在學習偏置。
人類基線結果：監控損失值等其他度量指標（例如準確度），這些指標應該是人類能解釋並檢查的。儘可能評估你自己（人類）獲得的準確率，並與構建的模型做對比。或者對測試資料進行兩次標註，其中一次為預測值，另一次為標註值。
獨立於輸入的基線結果：訓練一個獨立於輸入的基線模型，例如最簡單的方法就是將所有輸入都設定為 0。這樣的模型應該比實際輸入資料表現更差，你的模型是否準備好從任何輸入中抽取任何資訊？
在批資料上過擬合：在單個批資料上使得過擬合（兩個或多個少樣本）。為此，我們需要增加模型擬合能力，並驗證我們能達到的最低損失值（即 0）。我還想在同一張圖中顯示標籤和預測值，並確保損失值一旦達到最小，它們就能完美地對齊了。
驗證訓練損失的下降：在這一階段，你可能希望在資料集上實現欠擬合，該階段的模型應該是極簡的。然後我們嘗試增加一點模型的擬合能力，再看看訓練損失是否稍微下降了一些。
在輸入網路前視覺化：在執行模型之前，我們需要視覺化資料。也就是說，我們需要視覺化輸入到網路的具體資料，即視覺化原始張量的資料和標籤。這是唯一的「真實來源」，我有很多次都是因為這個過程而節省了大量時間，並揭示了資料預處理和資料增強過程中的問題。
視覺化預測過程：我喜歡在訓練過程中對一個固定的測試批資料進行模型預測的視覺化。這展示了預測值如何變化的過程，能為我們提供關於訓練過程的優秀直覺。很多時候，如果網路以某種方式小幅度波動，那麼模型最可能在嘗試擬合資料，這也展示了一些不穩定性。太低或太高的學習率也很容易注意到，因為抖動量比較大。
使用反向傳播繪製依賴性：你的深度學習程式碼通常包括複雜的、向量化的、Boardcast 操作。一個常見的 bug 是，人們會無意間使用 view 而不是 transpose/permute，從而混合了批量資料中的維度資訊。然而，你的網路仍然可以正常訓練，只不過它們學會忽略了其它樣本中的資料。一種 debug 的方法是將某些樣本 i 的損失設定為 1.0，然後執行反向傳播一直到輸入，並確保第 i 個樣本的梯度不為零。更一般的，梯度為我們提供了網路中的依賴性關係，它們在 debug 中非常有用。
一般化特殊案例：這是一種更為通用的程式碼技巧，但是我經常看到人們在使用這些技巧時會新產生 Bug，尤其是在從頭構建一般函式時。相反，我喜歡直接寫非常具體的函式，它只包含我現在需要做的事情。我會先讓這個函式能 work，然後再一般化好函式，並確保能取得相同的結果。通常這個過程會體現在向量化程式碼中，我會先用迴圈編寫某個過程，然後再一次一個迴圈地將它們轉化為向量化化程式碼。

3. 過擬合

到了這個階段，我們應該對資料集有所瞭解了，而且有了完整的訓練+評估流程。對於任何給定的模型，我們可以計算出我們信任的度量。而且還為獨立於輸入的基線準備了效能，一些 dumb 基線的效能（最好超過這些），我們人類的表現有大致的瞭解（並希望達到這一點）。現在，我們已經為迭代一個好的模型做好了準備。

我準備用來尋找好模型的方法有兩個階段：首先獲得足夠大的模型，這樣它能夠過擬合（即關注訓練損失），然後對其進行適當的正則化（棄掉一些訓練損失以改進驗證損失）。我喜歡這兩個階段的原因是，如果我們不能用任何模型實現較低的誤差率，則可能再次表明一些問題、bug 和配置錯誤。

該階段的一些技巧與注意事項：

選擇模型：為了達到理想的訓練損失，我們可能希望為資料選擇一個合適的架構。當我們在挑選模型時，我的第一個建議即別好高騖遠。我看到很多人都非常渴望一開始就堆疊一些新的模組，或創造性地用於各種異質架構，從而想一步到位做好。我建議可以找最相關的論文，並直接利用它們的簡單架構，從而獲得良好效能。後面再基於這個架構做修改和改進，並將我們的想法加進去就行了。
Adam 是一般選擇：在配置基線模型地早期階段，我喜歡使用 Adam 演算法（學習率為 3e-4）。在我的經驗中，Adam 對超引數的容忍度更高，不太好的學習率也能獲得一般的效果。對於卷積網路來說，一般經過仔細調整的 SGD 幾乎總會略優於 Adam，但最佳學習率的可能區域要窄得多。
一次複雜化一個：如果你有多個特性插入分類器，我建議你一個個插入，從而確保能獲得期待的效能提升。不要在最開始時就一次性全加上，這樣你會弄不清楚效能提升到底是哪個特性帶來的。還有其它增加複雜性的方法，例如你可以先嚐試插入較小的影像，然後再慢慢地加大。
別相信預設的學習率衰減：如果你修改來自其它領域的程式碼，你應該小心使用學習率衰減方法。對於不同問題，你不僅希望使用不同的衰減策略，同時因為 Epoch 的數量不同，衰減過程也會不一樣。例如資料集的大小，會影響 Epoch 的數量，而很多學習率衰減策略是直接與 Epoch 相關的。在我自己的工作中，我經常整個地關閉學習率衰減，即使用常數學習率。

4. 正則化

理想情況下，我們現在至少有了一個擬合訓練集的大模型。現在是時候對它進行正則化，並通過放棄一些訓練準確率來提升驗證準確率了。技巧包括：

更多資料：首先，在當前任何實際環境中正則化模型的最好方式是增加更多真實的訓練資料。在你能收集更多資料時，花費大量工程時間試圖從小資料集上取得更好結果是很常見的一個錯誤。我認為增加更多資料是單調提升一個較好配置神經網路效能的唯一可靠方式。
資料增強：比真實資料較次的方法是半假資料，試驗下更激進的資料增強。
創造性增強：如果半假資料也沒有，假資料也還可以。人們在尋求擴充套件資料集的創造性方法。例如，域隨機化、使用模擬資料、把資料插入場景這樣機智的混合方法，甚至可以用 GAN。
預訓練：即使你有足夠的資料，你也可以使用預訓練網路，基本沒什麼損失。
堅持監督式學習：不要對無監督學習過於激動。據我所知，沒有什麼無監督學習方法在當前計算機視覺任務上有很強的結果（儘管 NLP 領域現在有了 BERT 和其他類似模型，但這更多歸功於文字更成熟的本質以及對噪聲比更好的訊號）。
更小的輸入維度：移除可能包含假訊號的特徵。如果你的資料集很小，任何加入的假輸入只會增加過擬合的可能。類似地，如果低階細節作用不大，試試輸入更小的影像。
更小的模型：在許多情況下，你可以在網路上使用域知識約束來降低模型大小。例如，在 ImageNet 主幹網路頂部使用全連線層一度很流行，但它們後來被簡單的平均池化取代，消除了這一過程中大量的引數。
減小批大小：由於 BN 基於批量大小來做歸一化，較小的批量大小具有更強的正則化效果。這主要因為一個批量的統計均值與標準差是實際均值和標準差的近似，所以縮放量和偏移量在小批量內波動地更大。
drop：增加 dropout。在卷積網路上使用 dropout2d（空間 dropout）。保守謹慎的使用 dropout，因為它對 batch 歸一化好像不太友好。
權重衰減：增加權重衰減懲罰。
早停（early stopping）：基於你得到的驗證損失停止訓練，從而在即將過擬合之前獲取模型。
嘗試更大的模型：我過去多次發現更大模型最終都會很大程度的過擬合，但它們「早停」後的效能要比小模型好得多。

最後，為了更加確保網路是個合理的分類器，我喜歡視覺化網路第一層的權重，確保自己獲得了有意義的邊緣。如果第一層的濾波器看起來像噪聲，那需要去掉些東西。類似地，網路內的啟用函式有時候也會揭示出一些問題。

5. 精調

現在你應該位於資料集一環，探索取得較低驗證損失的架構模型空間。這一步的一些技巧包括：

隨機網格搜尋：在同時精調多個超引數時，使用網格搜尋聽起來更誘惑，能夠確保覆蓋到所有環境。但記住，使用隨機搜尋反而是最佳方式。直觀上，因為神經網路對一些引數更為敏感。在極限情況下，如果引數 a 很重要，改變 b 卻沒有影響，然後相比於多次在固定點取樣，你寧可徹底取樣 a。
超引數優化：如今社群內有大量好的貝葉斯超引數優化工具箱，我的一些朋友用過後覺得很成功。但我的個人經驗是，探索好的、寬的模型空間和超引數的最佳方法是找個實習生。開玩笑而已，哈哈哈。

6. 最後的壓榨

一旦你找到最好的架構型別和超引數，依然可以使用更多的技巧讓系統變得更好：

整合：模型整合是能將準確率穩定提升 2% 的一種好方式。如果你承擔不起測試階段的計算成本，試著使用《Distilling the Knowledge in a Neural Network》中的方法把你的模型蒸餾到一個網路。
一直訓練：我經常看到一些人在驗證損失趨平時會中斷模型訓練，以我的經驗來看，網路會長時間保持非直觀的訓練。寒假時有一次我忘了關掉模型訓練，一月回來後發現它取得了 SOTA 結果。

結論

一旦你做到了這些，你就具備了成功的所有要素：對神經網路、資料集和問題有了足夠深的瞭解，配置好了完整的訓練/評估體系，取得高置信度的準確率，逐漸探索更復雜的模型，提升每一步的表現。現在萬事俱備，就可以去讀大量論文，嘗試大量實驗並取得 SOTA 結果了。