神經網路是一種在很多用例中能夠提供最優準確率的機器學習演算法。但是,很多時候我們構建的神經網路的準確率可能無法令人滿意,或者無法讓我們在資料科學競賽中拿到領先名次。所以,我們總是在尋求更好的方式來改善模型的效能。有很多技術可以幫助我們達到這個目標。本文將介紹這些技術,幫助大家構建更準確的神經網路。
檢查過擬合
保證神經網路在測試集上執行良好的第一步就是驗證神經網路沒有過擬合。什麼是過擬合呢?當你的模型開始記錄訓練資料而不是從中學習的時候,就發生了過擬合。然後,當你的模型遇到之前沒有見過的資料時,它就無法很好的執行。為了更好地理解,我們來看一個類比。我們有一個記性特好的同學,假設一次數學考試馬上就要來臨了。你和這位擅長記憶的同學開始學習課本。這名同學記住課本中的每一個公式、問題以及問題的答案,然而你要比他來得聰明一些,所以你決定以直覺為基礎、解決問題、學習這些公式是如何發揮作用的。考試來了,如果試卷中的問題是直接來源於課本的,那麼可以想像那名記憶力超群的同學發揮得更好,但是,如果試題是涉及應用直觀知識的全新問題,那麼你將會做得更好,而你的朋友會慘敗。
如何鑑別模型是否過擬合呢?你僅僅需要交叉檢查訓練準確率和測試準確率。如果訓練準確率遠遠高出了測試準確率,那麼可以斷定你的模型是過擬合了。你也可以在圖中畫出預測點來驗證。下面是一些避免過擬合的技術:
資料正則化(L1 或 L2);
Dropout:隨機丟棄一些神經元之間的連線,強制神經網路尋找新的路徑並泛化;
早停(Early Stopping):促使神經網路訓練早點停止,以減少在測試集中的誤差。
超引數調節
超引數是你必須給網路初始化的值,這些數值不能在訓練的過程中學到。在卷積神經網路中,這些超引數包括:核大小、神經網路層數、啟用函式、損失函式、所用的優化器(梯度下降、RMSprop)、批大小、訓練的 epoch 數量等等。
每個神經網路都會有最佳超引數組合,這組引數能夠得到最大的準確率。你也許會問,「有這麼多超引數,我如何選擇每個引數呢?」不幸的是,對每個神經網路而言,並沒有確定最佳超引數組合的直接方法,所以通常都是通過反覆試驗得到的。但是也有一些關於上述超引數的最佳實踐:
學習率:選擇最優學習率是很重要的,因為它決定了神經網路是否可以收斂到全域性最小值。選擇較高的學習率幾乎從來不能到達全域性最小值,因為你很可能跳過它。所以,你總是在全域性最小值附近,但是從未收斂到全域性最小值。選擇較小的學習率有助於神經網路收斂到全域性最小值,但是會花費很多時間。這樣你必須用更多的時間來訓練神經網路。較小的學習率也更可能使神經網路困在區域性極小值裡面,也就是說,神經網路會收斂到一個區域性極小值,而且因為學習率比較小,它無法跳出區域性極小值。所以,在設定學習率的時候你必須非常謹慎。
神經網路架構:並不存在能夠在所有的測試集中帶來高準確率的標準網路架構。你必須實驗,嘗試不同的架構,從實驗結果進行推斷,然後再嘗試。我建議使用已經得到驗證的架構,而不是構建自己的網路架構。例如:對於影象識別任務,有 VGG net、Resnet、谷歌的 Inception 網路等。這些都是開源的,而且已經被證明具有較高的準確率。所以你可以把這些架構複製過來,然後根據自己的目的做一些調整。
優化器和損失函式:這方面有很多可供選擇。事實上,如果有必要,你可以自定義損失函式。常用的優化器有 RMSprop、隨機梯度下降和 Adam。這些優化器貌似在很多用例中都可以起作用。如果你的任務是分類任務,那麼常用的損失函式是類別交叉熵。如果你在執行迴歸任務,那麼均方差是最常用的損失函式。你可以自由地使用這些優化器超引數進行試驗,也可以使用不同的優化器和損失函式。
批大小和 epoch 次數:同樣,沒有適用於所有用例的批大小和 epoch 次數的標準值。你必須進行試驗,嘗試不同的選擇。在通常的實踐中,批大小被設定為 8、16、32……epoch 次數則取決於開發者的偏好以及他/她所擁有的計算資源。
啟用函式:啟用函式對映非線性函式輸入和輸出。啟用函式是特別重要的,選擇合適的啟用函式有助於模型學習得更好。現在,整流線性單元(ReLU)是最廣泛使用的啟用函式,因為它解決了梯度消失的問題。更早時候,Sigmoid 和 Tanh 函式都是最常用的啟用函式。但是它們都會遇到梯度消失的問題,即在反向傳播中,梯度在到達初始層的過程中,值在變小,趨向於 0。這不利於神經網路向具有更深層的結構擴充套件。ReLU 克服了這個問題,因此也就可以允許神經網路擴充套件到更深的層。
ReLU 啟用函式
演算法整合
如果單個神經網路不像你期待的那樣準確,那麼你可以建立一個神經網路整合,結合多個網路的預測能力。你可以選擇不同的神經網路架構,在不同部分的資料集上訓練它們,然後使用它們的集合預測能力在測試集上達到較高的準確率。假設你在構建一個貓狗分類器,0 代表貓,1 代表狗。當組合不同的貓狗分類器時,基於單個分類器之間的皮爾遜相關係數,整合演算法的準確率有了提升。讓我們看一個例子,拿 3 個模型來衡量它們各自的準確率:
Ground Truth: 1111111111
Classifier 1: 1111111100 = 80% accuracy
Classifier 2: 1111111100 = 80% accuracy
Classifier 3: 1011111100 = 70% accuracy
3 個模型的皮爾遜相關係數很高。所以,整合它們並不會提升準確率。如果我們使用多數投票的方式來組合這三個模型,會得到下面的結果:
Ensemble Result: 1111111100 = 80% accuracy
現在,讓我們來看一組輸出具備較低皮爾遜相關係數的模型:
Ground Truth: 1111111111
Classifier 1: 1111111100 = 80% accuracy
Classifier 2: 0111011101 = 70% accuracy
Classifier 3: 1000101111 = 60% accuracy
當我們組合這三個弱學習器的時候,會得到以下結果:
Ensemble Result: 1111111101 = 90% accuracy
正如你在上面所看到的,具有低皮爾遜相關係數的弱學習器的組合優於具有較高皮爾遜相關係數的學習器的組合。
缺乏資料
在使用了上述所有的技術以後,如果你的模型仍然沒有在測試集上表現得更好一些,這可能是因為缺乏資料。在很多用例中訓練資料的數量是有限的。如果你無法收集更多的資料,那麼你可以採取資料增強方法。
資料增強技術
如果你正在使用的是影象資料集,你可以通過剪下、翻轉、隨機裁剪等方法來增加新的影象。這可以為你正在訓練的神經網路提供不同的樣本。
結論
這些技術被認為是最佳實踐經驗,在提升模型學習特徵的能力方面通常是有效的。希望對大家有所幫助。
原文連結:
https://towardsdatascience.com/how-to-increase-the-accuracy-of-a-neural-network-9f5d1c6f407d