機器學習中的世代、迭代和批大小

yangbobor發表於2020-11-14

原文網址 : https://blog.csdn.net/yangbobor/article/details/109687014

翻譯來源：https://medium.com/@ewuramaminka/epoch-iterations-batch-size-11fbbd4f0771

機器學習(ML)中的一些術語很容易被誤解或混淆。

為什麼呢

我的觀察是：大部分ML書籍或教程都沒有花時間在解釋這些名詞上面，而是更多的篇幅在他們討論的主題上，這樣會讓大部分人混淆。

在這篇短文裡面，我會花時間簡單講解一下ML中的Epoch和Iteration的主要區別。這裡已經假設各位讀者有人工神經網路的基礎，而且並不針對某一種特殊的ML種類。在我解釋之前，我們用一個非常相似的場景來作類比，希望這能幫助你理清頭緒！

假設有一個很好聽的音樂，有歌詞並且由6個小節組成。在第一次唱完一首歌（即1個Epoch），你也同時唱了了6個小節（即6個Iteration）。但是這不能保證你已經能不看歌詞重新唱這首歌了，因此你需要重複練習全曲(即Multiple Epochs)直到你會唱這首歌或者有自信你已經能獨自唱好這首歌的每個小節(即High learning acuracy)。

說回神經網路，在訓練一個神經網路之前我們有一個訓練資料集和一個用於擬合fit這個資料集的cost function（成本函式）。依據訓練集的特徵數（列）的多少，我們可以選擇低次或高次的多項式作為成本函式去擬合。之後我們可以通過計算梯度下降去優化我們的cost function。這是一種學習率為alpa的迭代優化演算法，用於使學習演算法的代價（cost）最小。在每個完整的訓練週期後，我們嘗試最小化梯度下降，直到我們達到可能的最低梯度下降(全域性最小或學習曲線的最小值)。

在全域性最小值下，我們可以確信，學習演算法已經達到了一個高水平的準確性，並足以對測試或其他未知資料進行預測。

如果我們的訓練資料集有1000條記錄，我們可以決定將它分成10個批(每批100條記錄——Batch Size為100)。因此，完成一個學習週期需要10個小節。另外，如果我們決定將1000個訓練集分成100批，那麼每個學習週期需要100個小節(每批次10條記錄——Batch Size為10)。

大家也都清楚了，這10或100個小節即Interation，在第10次或第100次小節訓練完之後，我們可以說完成了1次Epoch，也就是完成了一次訓練週期。每次Epoch結束之後，學習演算法就會比較和評估真實輸出和訓練集結果的差距，並優化學習引數，進行下一次訓練週期。由於不能保證梯度下降在第一個優化週期(Epoch)結束時會全域性優化或達到最佳優化，因此要達到理想的或較高的模型精度，往往需要幾個Epoch，而且Epoch的次數在不同的學習演算法中也不是固定的。

僅僅一個Epoch會導致欠擬合。但是，在達到全域性最小值後，如果Epoch次數太多，則會導致學習模型過擬合。理想情況下，正確的Epoch數量是學習模型達到最高準確度的時候。

分割Batch Size計算效率高，特別是在處理大量資料集時

雖然Epoch的概念仍然是優化學習演算法的基本概念，但它在學習模型(如人工神經網路或強化學習)中的具體應用可能因模型如何在每個週期後被修改以表現得更好而有所不同。

最後總結一下，Epoch是一個神經模型學習的整個訓練資料的完整週期。訓練資料可以分割成批，以增強計算能力。給定1000個資料集，它可以分為10批，即建立10次iterations。每批將包含100個資料集。因此，每個迭代的batch size 將是100。

機器學習之迭代方法
2020-06-12
機器學習
C++中cbegin迭代器學習
2024-05-08
C++
機器學習中的元學習
2024-03-13
機器學習
Python學習迭代器（Iterator）
2024-05-18
Python
Python學習筆記 - 迭代器和生成器
2019-01-03
Python筆記
（一）機器學習和機器學習介紹
2021-09-09
機器學習
機器學習中的 CatBoost
2024-03-07
機器學習
從 Quora 的 187 個問題中學習機器學習和 NLP
2018-04-12
機器學習
機器學習和深度學習的區別
2018-09-13
機器學習深度學習
Python學習之路34-迭代器和生成器
2018-08-04
Python
訓練機器學習的資料集大小很重要 - svpino
2021-04-23
機器學習
Python學習之迭代器協議
2020-04-04
Python協議
機器學習中的數學(5)——拉格朗日乘子法和KKT條件
2020-04-05
機器學習
隨機森林和機器學習
2018-12-14
隨機森林機器學習
python中機器學習和深度學習的區別究竟是什麼?
2022-03-29
Python機器學習深度學習
機器學習學習中，數學最重要！
2018-10-24
機器學習
我們該如何學習機器學習中的數學
2018-08-04
機器學習
RxJS 中的觀察者和迭代器模式
2020-08-04
JS模式
機器學習中的MLE、MAP和貝葉斯估計
2019-01-18
機器學習
機器學習和AIOps在網路效能管理中的作用
2021-02-26
機器學習AI
python中的迭代器
2022-03-23
Python
機器學習中的概率統計
2019-03-17
機器學習
SAP戰略中的機器學習
2019-04-12
機器學習
機器學習中的過擬合
2019-02-13
機器學習
迭代器和生成器區別是什麼?Python學習!
2020-10-29
Python
關於python中可迭代物件和迭代器的一些理解
2018-12-07
Python物件
機器學習策略篇：詳解開發集和測試集的大小（Size of dev and test sets）
2024-05-07
機器學習dev
機器學習中偏差bias和方差variance區別
2021-04-29
機器學習
機器學習和深度學習資源蒐集
2018-06-01
機器學習深度學習
機器學習和深度學習概念入門
2018-04-12
機器學習深度學習
流批一體機器學習演算法平臺
2020-05-18
機器學習演算法
C++學習隨筆——使用map和迭代器iterator的簡單範例
2024-08-27
C++
通俗講明白機器學習中的學習問題 - svpino
2021-03-02
機器學習
機器學習在滴滴網路定位中的探索和實踐
2020-09-18
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
機器學習中的維度災難
2018-07-31
機器學習
機器學習中的隱私保護
2020-07-20
機器學習
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型

機器學習中的世代、迭代和批大小

為什麼呢

分割Batch Size計算效率高，特別是在處理大量資料集時

相關文章