學習速率

Lois發表於2020-06-12

學習速率

正如之前所述, 梯度向量具有方向和大小.梯度下降演算法用梯度乘以一個稱為學習速率 ( 有時也稱為步長 ) 的標量,以確定下一個點的位置.例如, 如果梯度大小為 2.5, 學習速率為 0.01, 則梯度下降法演算法會選擇距離前一個點 0.025 的位置作為下一個點

超引數

超引數是程式設計人員在機器學習演算法中用於調整的旋鈕.大多數機器學習程式設計人員會花費相當多的時間來調整學習速率.如果您選擇的學習速率過小, 就會太長的學習時間:

學習速率過小

相反, 如果您指定的學習速率過大,下一個點將永遠在 U 形曲線的底部隨意彈跳,就好像量子力學實驗出了嚴重錯誤一樣:

學習速率過大

金髮姑娘

每個迴歸問題都存在一個金髮姑娘的學習效率. “金髮姑娘” 值與損失函式的平坦程度相關.如果您知道損失函式的梯度較小,則可以放心地試著採用更大的學習速率, 以補償較小的梯度並獲得更大的步長.

學習速率恰好

本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章