當學習率設定的過小時,收斂過程將變得十分緩慢。且容易陷入區域性最優解出不來。而當學習率設定的過大時,梯度可能會在最小值附近來回震盪,甚至可能無法收斂。
其實可以理解為,最優解收斂時的步長單位,如果你希望結果更精確一些,就應該把學習率調低,當然這樣樣的結果是訓練時間的增長。
當學習率設定的過小時,收斂過程將變得十分緩慢。且容易陷入區域性最優解出不來。而當學習率設定的過大時,梯度可能會在最小值附近來回震盪,甚至可能無法收斂。
其實可以理解為,最優解收斂時的步長單位,如果你希望結果更精確一些,就應該把學習率調低,當然這樣樣的結果是訓練時間的增長。