史上最全學習率調整策略lr_scheduler

cwpeng發表於2022-07-06

原文網址 : https://www.cnblogs.com/Thinker-pcw/p/16452501.html

學習率是深度學習訓練中至關重要的引數，很多時候一個合適的學習率才能發揮出模型的較大潛力。所以學習率調整策略同樣至關重要，這篇部落格介紹一下Pytorch中常見的學習率調整方法。

import torch
import numpy as np
from torch.optim import SGD
from torch.optim import lr_scheduler
from torch.nn.parameter import Parameter

model = [Parameter(torch.randn(2, 2, requires_grad=True))]
optimizer = SGD(model, lr=0.1)

以上是一段通用程式碼，這裡將基礎學習率設定為0.1。接下來僅僅展示學習率調節器的程式碼，以及對應的學習率曲線。

1. StepLR

這是最簡單常用的學習率調整方法，每過step_size輪，將此前的學習率乘以gamma。

scheduler=lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

在這裡插入圖片描述

2. MultiStepLR

MultiStepLR同樣也是一個非常常見的學習率調整策略，它會在每個milestone時，將此前學習率乘以gamma。

scheduler = lr_scheduler.MultiStepLR(optimizer, milestones=[30,80], gamma=0.5)

在這裡插入圖片描述

3. ExponentialLR

ExponentialLR是指數型下降的學習率調節器，每一輪會將學習率乘以gamma，所以這裡千萬注意gamma不要設定的太小，不然幾輪之後學習率就會降到0。

scheduler=lr_scheduler.ExponentialLR(optimizer, gamma=0.9)

在這裡插入圖片描述

4. LinearLR

LinearLR是線性學習率，給定起始factor和最終的factor，LinearLR會在中間階段做線性插值，比如學習率為0.1，起始factor為1，最終的factor為0.1，那麼第0次迭代，學習率將為0.1，最終輪學習率為0.01。下面設定的總輪數total_iters為80,所以超過80時，學習率恆為0.01。

scheduler=lr_scheduler.LinearLR(optimizer,start_factor=1,end_factor=0.1,total_iters=80)

在這裡插入圖片描述

5. CyclicLR

scheduler=lr_scheduler.CyclicLR(optimizer,base_lr=0.1,max_lr=0.2,step_size_up=30,step_size_down=10)

CyclicLR的引數要更多一些，它的曲線看起來就像是不斷的上坡與下坡，base_lr為谷底的學習率，max_lr為頂峰的學習率，step_size_up是從谷底到頂峰需要的輪數，step_size_down時從頂峰到谷底的輪數。至於為啥這樣設定，可以參見論文,簡單來說最佳學習率會在base_lr和max_lr，CyclicLR不是一味衰減而是出現增大的過程是為了避免陷入鞍點。

scheduler=lr_scheduler.CyclicLR(optimizer,base_lr=0.1,max_lr=0.2,step_size_up=30,step_size_down=10)

在這裡插入圖片描述

6. OneCycleLR

OneCycleLR顧名思義就像是CyclicLR的一週期版本，它也有多個引數，max_lr就是最大學習率，pct_start是學習率上升部分所佔比例，一開始的學習率為max_lr/div_factor,最終的學習率為max_lr/final_div_factor，總的迭代次數為total_steps。

scheduler=lr_scheduler.OneCycleLR(optimizer,max_lr=0.1,pct_start=0.5,total_steps=120,div_factor=10,final_div_factor=10)

在這裡插入圖片描述

7. CosineAnnealingLR

CosineAnnealingLR是餘弦退火學習率，T_max是週期的一半，最大學習率在optimizer中指定，最小學習率為eta_min。這裡同樣能夠幫助逃離鞍點。值得注意的是最大學習率不宜太大，否則loss可能出現和學習率相似週期的上下劇烈波動。

scheduler=lr_scheduler.CosineAnnealingLR(optimizer,T_max=20,eta_min=0.05)

在這裡插入圖片描述

7. CosineAnnealingWarmRestarts

這裡相對負責一些，公式如下，其中T_0是第一個週期，會從optimizer中的學習率下降至eta_min，之後的每個週期變成了前一週期乘以T_mult。

\(eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})\left(1 + \cos\left(\frac{T_{cur}}{T_{i}}\pi\right)\right)\)

scheduler=lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0=20, T_mult=2, eta_min=0.01)

在這裡插入圖片描述

8. LambdaLR

LambdaLR其實沒有固定的學習率曲線，名字中的lambda指的是可以將學習率自定義為一個有關epoch的lambda函式，比如下面我們定義了一個指數函式，實現了ExponentialLR的功能。

scheduler=lr_scheduler.LambdaLR(optimizer,lr_lambda=lambda epoch:0.9**epoch)

在這裡插入圖片描述

9.SequentialLR

SequentialLR可以將多個學習率調整策略按照順序串聯起來,在milestone時切換到下一個學習率調整策略。下面就是將一個指數衰減的學習率和線性衰減的學習率結合起來。

scheduler=lr_scheduler.SequentialLR(optimizer,schedulers=[lr_scheduler.ExponentialLR(optimizer, gamma=0.9),lr_scheduler.LinearLR(optimizer,start_factor=1,end_factor=0.1,total_iters=80)],milestones=[50])

在這裡插入圖片描述

10.ChainedScheduler

ChainedScheduler和SequentialLR類似，也是按照順序呼叫多個串聯起來的學習率調整策略，不同的是ChainedScheduler裡面的學習率變化是連續的。

scheduler=lr_scheduler.ChainedScheduler([lr_scheduler.LinearLR(optimizer,start_factor=1,end_factor=0.5,total_iters=10),lr_scheduler.ExponentialLR(optimizer, gamma=0.95)])

在這裡插入圖片描述

11.ConstantLR

ConstantLRConstantLR非常簡單，在total_iters輪內將optimizer裡面指定的學習率乘以factor,total_iters輪外恢復原學習率。

scheduler=lr_scheduler.ConstantLRConstantLR(optimizer,factor=0.5,total_iters=80)

在這裡插入圖片描述

12.ReduceLROnPlateau

ReduceLROnPlateau引數非常多，其功能是自適應調節學習率，它在step的時候會觀察驗證集上的loss或者準確率情況，loss當然是越低越好，準確率則是越高越好，所以使用loss作為step的引數時，mode為min，使用準確率作為引數時，mode為max。factor是每次學習率下降的比例，新的學習率等於老的學習率乘以factor。patience是能夠容忍的次數，當patience次後，網路效能仍未提升，則會降低學習率。threshold是測量最佳值的閾值，一般只關注相對大的效能提升。min_lr是最小學習率，eps指最小的學習率變化，當新舊學習率差別小於eps時，維持學習率不變。
因為引數相對複雜，這裡可以看一份完整的程式碼實操。

scheduler=lr_scheduler.ReduceLROnPlateau(optimizer,mode='min',factor=0.5,patience=5,threshold=1e-4,threshold_mode='abs',cooldown=0,min_lr=0.001,eps=1e-8)
scheduler.step(val_score)

機器學習-學習率：從理論到實戰，探索學習率的調整策略
2023-12-05
機器學習
Pytorch系列:（八）學習率調整方法
2021-07-27
PyTorch
史上最全“大資料”學習資源集合
2019-06-12
大資料
吐血總結｜史上最全的MySQL學習資料！！
2019-03-20
MySql
史上最全、最詳細的Docker學習資料
2018-11-08
Docker
史上最全、最詳細的 kafka 學習筆記！
2018-11-27
Kafka筆記
pytorch---在訓練中動態的調整學習率
2019-03-04
PyTorch
Wenet分散式訓練對學習率調整的影響
2023-01-09
分散式
MySQL 的學習資源史上最全（每天不定時更新）
2020-02-01
MySql
史上最全的Android開發學習教程集錦【初學者】
2018-07-04
Android
關於學習心態的調整
2020-12-05
史上最全：PostgreSQL DBA常用SQL查詢語句（建議收藏學習）
2019-12-18
SQL
史上最全webview詳解
2018-04-02
WebView
Kotlin系列教程——史上最全面、最詳細的學習教程，持續更新中....
2018-06-12
Kotlin
Android史上最全面試題
2019-01-14
Android面試題
史上最全的WebSettings說明
2019-08-26
Web
史上最全SQL優化方案
2019-02-01
SQL優化
史上最全的Websocket入門教程
2019-09-07
Web
演算法排序：史上最全2
2020-10-12
演算法排序
史上最全SQL最佳化方案
2019-02-01
SQL
.NET 6 史上最全攻略
2022-04-08
深度學習中的學習率排程:迴圈學習率、SGDR、1cycle 等方法介紹及實踐策略研究
2024-10-28
深度學習
史上最全！押題率90%的 Android 中高階工程師面試複習大綱及真題答案整理（中篇）
2020-12-30
Android工程師面試
彙編學習筆記07——BCD碼及調整指令
2020-10-29
筆記
深度學習訓練過程中的學習率衰減策略及pytorch實現
2022-03-29
深度學習PyTorch
史上最全的CSS hack方式一覽
2019-03-18
CSS
史上最全的Vue開發規範
2019-01-19
Vue
Android——RxJava2史上最全講解
2018-07-31
AndroidRxJava
史上最全 XMind Mac/win快捷鍵大全
2024-02-01
Mac
史上最全的微服務知識科普
2020-02-04
微服務
史上最全中文分詞工具整理
2019-06-03
中文分詞
史上最全 Jenkins Pipeline流水線詳解
2022-11-02
Jenkins
Stacking學習策略
2020-10-23
企業如何調整策略以應對市場變化
2024-10-31
史上最全 Python 物件導向程式設計
2019-03-24
Python物件程式設計
前端免費高清電子書(史上最全)
2018-11-30
前端
史上最全 Python 迭代器與生成器
2019-03-30
Python
史上最全面的React-react基礎
2018-07-16
React

史上最全學習率調整策略lr_scheduler

1. StepLR

2. MultiStepLR

3. ExponentialLR

4. LinearLR

5. CyclicLR

6. OneCycleLR

7. CosineAnnealingLR

7. CosineAnnealingWarmRestarts

8. LambdaLR

9.SequentialLR

10.ChainedScheduler

11.ConstantLR

12.ReduceLROnPlateau

相關文章