深度學習中的優化方法（一）

ZhiboZhao發表於2021-07-27

原文網址 : https://www.cnblogs.com/zhaozhibo/p/15067110.html

寫在前面：梯度下降法是深度學習優化的基礎，因此本文首先探討一維優化演算法，然後擴充套件到多維。本文根據《最優化導論》(孫志強等譯)的內容整理而來，由於筆者水平和精力有限，在此只是在簡單層面做一個理解，如果要追求更嚴謹的數學理論，請大家參考相關書籍。在本文中，我們討論目標函式為一元單值函式 \(f:R\rightarrow R\) 的最優化問題（即一維問題）的迭代求解方法。多維函式的梯度優化演算法將在後續給出。

一維搜尋方法從初始搜尋點 \(x^{(0)}\) 出發，在迭代過程中，根據當前搜尋點 \(x^{(k)}\) 和目標函式 \(f\) 構建一下一個搜尋點 \(x^{(k+1)}\)，從而產生一個迭代序列 \(x^{(1)}, x^{(2)},...\)。本小節主要介紹以下演算法：

黃金分割法（只使用目標函式值 \(f\)）
二分法（只使用目標函式的一階導數 \(f'\)）
牛頓法（使用目標函式的一階和二階導數 \(f',f''\)）

一、黃金分割法

黃金分割法可以求解一元單值函式\(f:R \rightarrow R\) 在閉區間 \([a_{0},b_{0}]\) 上的極小值點，該方法的前提就是在區間 \([a_{0},b_{0}]\) 記憶體在唯一單峰，即存在唯一的極小值點 \(x^{*}\)。該方法的思路如下：

在區間內尋找兩個點 \(a_{0}, b_{0}\)，並使其滿足：\(a_{0}-a_{1}=b_{0}-b_{1}=\lambda(b_{0}-a_{0}),\lambda<\dfrac{1}{2}\);
計算目標函式在\(a_{1}, b_{1}\)處的值，如果 \(f(a_{1})<f(b_{1})\)，則 \(x^{*}\in[a_{0},b_{1}]\)；如果 \(f(a_{1})>f(b_{1})\)，則 \(x^{*}\in[a_{1},b_{0}]\)。如此往復，繼續在區間內進行壓縮，直到滿足誤差條件（可以設定為壓縮後的區間長度，上一次和下一次之間的差值等）;
以 \(f(a_{1})<f(b_{1})\) 為例，此時 \(x^{*}\in[a_{0},b_{1}]\)，由於 \(a_{1}\) 已經在區間內，因此可令 \(b_{2}=a_{1}, f(b_{2})=f(a_{1})\)，這樣下一次迭代時便只需要重新計算 \(a_{2}\) 和 \(f(a_{2})\) 即可。整個過程如下圖所示：

我們假設 \([a_{0}, b_{0}]\) 的區間長度為1，進一步地，我們將上述的區間收縮關係表示成下圖：

從圖中我們可以得到如下的關係：\(\lambda(1-\lambda)=1-2\lambda\)，由於 \(\lambda<\dfrac{1}{2}\)，解得：\(\lambda = \dfrac{3-\sqrt{5}}{2} \approx 0.382\)。

又由於\(\dfrac{|b_{0}b_{1}|}{|a_{0}b_{1}|}=\dfrac{|a_{0}b_{1}|}{|a_{0}b_{0}|}\)，即 \(\dfrac{\lambda}{1-\lambda}=\dfrac{1-\lambda}{1}\)，因此這種劃分空間的方式服從黃金分割法則，所以此方法被稱為黃金分割法。

利用黃金分割法求解函式 \(f(x)=x^{4}-14x^{3}+60x^{2}-70x\) 的MATLAB程式碼如下：

function [xmin, ymin] = goldensearch( Start, End, e )
%   黃金分割法在閉區間進行一維搜尋
%   輸入引數：Start代表區間開始位置，End代表區間結束位置，e代表目標區間長度
%   輸出引數：xmin表示取得最小值時的座標，ymin表示求得的最小值
left = Start; right = End; %收斂區間
length = e;     %收斂精度
r = (sqrt(5)-1)/2;  %收斂比例
step = 0;   % 迭代次數初始化
f = f = @(x)2*x^2+5*x-4;;
while right-left>length
    step = step+1;
    a1 = left+(1-r)*(right-left);
    b1 = left+r*(right-left);
    ya1 = feval(f, a1);  %計算兩端的函式值
    yb1 = feval(f, b1);
    if ya1 < yb1
        right = b1;
        b1 = a1;
        yb1 = ya1;
        a1 = left+r*(right-left);
        ya1 = feval(f, a1);
    else
        left = a1;
        b1 = a1;
        yb1 = ya1;
        a1 = left+(1-r)*(right-left);
        ya1 = feval(f, a1);
    end
end
%% 輸出
xmin = (left+right)/2;
ymin = feval(f, xmin);
fprintf('程式經過%d次迭代的最小值點為%d,最小值為%d\n ',step,xmin,ymin)
%% 繪製影像
x = Start:0.01:End;
y = 2*x^2+5*x-4;
plot(x,y)
hold on
plot(xmin,ymin,'r*') % 在影像中標出極小值點
end

二、二分法

與黃金分割法相同，二分法同樣是解決一元單值函式\(f:R \rightarrow R\) 在閉區間 \([a_{0},b_{0}]\) 上的極小值點，該方法的前提就是在區間 \([a_{0},b_{0}]\) 記憶體在唯一單峰，即存在唯一的極小值點 \(x^{*}\)。但是二分法使用目標函式的一階導數來壓縮區間，因此要求函式 \(f(x)\) 是連續可微的。二分法的思路比較簡單，具體如下：

確定區間的中點 \(x_{0}=(left+right)/2\)
判斷目標函式 \(f(x)\) 的導數 \(f'(x)\) 在 \(x_{0}\) 處的正負，如果 \(f'(x_{0})>0\)，那麼極小值點 \(x^{*}\in [a_{0},x_{0}]\)；如果 \(f'(x_{0})<0\)，那麼極小值點 \(x^{*}\in [x_{0},b_{0}]\)；
收縮區間，繼續進行迭代求解。

利用二分法求解函式 \(f(x)=cos(x)\) 在區間 \([0, 2\pi]\) 的最小值的MATLAB程式碼如下：

function [xmin, ymin] = binarysearch( Start, End, e )
%   二分法在閉區間進行一維搜尋
%   輸入引數：Start代表區間開始位置，End代表區間結束位置，e代表目標區間長度
%   輸出引數：xmin表示取得最小值時的座標，ymin表示求得的最小值
left = Start; right = End; %收斂區間
length = e;     %收斂精度
step = 0;   % 迭代次數初始化
f = @(x)cos(x);	% 目標函式
F = @(x)-sin(x); % 目標函式的一階導數
while right-left>length
    step =step+1;
    x0=(left+right)/2;
    if feval(F, x0) > 0
        right=x0;
    else
        left=x0;
    end
end
%% 輸出
xmin = (left+right)/2;
ymin = feval(f, xmin);
fprintf('程式經過%d次迭代的最小值點為%d,最小值為%d\n ',step,xmin,ymin)
%% 繪製影像
x = Start:0.01:End;
y = cos(x);
plot(x,y)
hold on
plot(xmin,ymin,'r*') % 在影像中標出極小值點
end

三、牛頓法

牛頓法假設目標函式一階和二階可微，即在 \(x^{(k)}\) 處的 \(f'(x^{(k)}),f''(x^{(k)})\) 均可求得，根據泰勒級數的展開式，任意的函式都可以近似於在任意一點 \(x^{k}\) 處：

\[q(x)=f(x^{k})+f'(x^{k})(x-x^{k})+\dfrac{1}{2}f''(x^{k})(x-x^{k})^{2} \]

因此，求解函式 \(f(x)\) 的極小值點可以近似為求解函式 \(q(x)\) 的極小值點，設 \(q(x)\) 的極小值點為 \(x^{k+1}\)，那麼 \(x^{k+1}\) 滿足：

\[\dfrac{dq(x)}{dx}|_{x=x^{k+1}}=f'(x^{k})+f''(x^{k})(x^{k+1}-x^{k})=0 \]

解得：\(x^{k+1}=x^{k}-\dfrac{f'(x^{k})}{f''(x^{k})}\)

牛頓法的更新公式類似於梯度下降法：\(x^{k+1} = x^{k}-\alpha f'(x^{k})\)，只不過在牛頓法中，學習率 \(\alpha\) 變成了二階導數的倒數 \(\dfrac{1}{f''(x^{k})}\)。

對於區間內所有的自變數，當 \(f''(x)>0\) 時，牛頓法能夠正常執行，但是當 \(f''(x)<0\) 時，牛頓法可能收斂到極大值點，如下圖所示：

利用牛頓法求解函式 \(f(x)=\dfrac{x^{2}}{2}\) 的MATLAB程式碼如下：

function [xmin, ymin] = newton( start, e )
%   牛頓法求解區域性最優解
%   輸入引數：start代表自變數初始值，e表示x^{k+1}與x^{k}之間的差值
%   輸出引數：xmin表示取得最小值時的座標，ymin表示求得的最小值
length = e;     %收斂精度
step = 0;   % 迭代次數初始化
f = @(x)x^2/2;
F = @(x)x;
while step<=50
    step =step+1;
    x1 = start-feval(F, start);
    f_x0 = feval(f, start); f_x1 = feval(f, x1);
    if abs(f_x0-f_x1) <= length
        break;
    end
    start = x1;
    x1 = start-feval(F, start);
end
%% 輸出
xmin = (start+x1)/2;
ymin = feval(f, xmin);
fprintf('程式經過%d次迭代的最小值點為%d,最小值為%d\n ',step,xmin,ymin)
%% 繪製影像
x = -20:0.0001:20;
y = x.^2/2;
plot(x,y)
hold on
plot(xmin,ymin,'r*') % 在影像中標出極小值點
end

深度學習中的優化方法（二）
2021-08-04
深度學習優化
一文簡述深度學習優化方法——梯度下降
2019-02-25
深度學習優化梯度
學習筆記：深度學習中的正則化
2020-04-06
筆記深度學習
深度學習模型調優方法（Deep Learning學習記錄）
2020-08-05
深度學習模型
深度學習 - 常用優化演算法
2019-05-09
深度學習優化演算法
深度學習運算元優化-FFT
2021-08-10
深度學習優化FFT
[譯]深度學習模型的簡單優化技巧
2019-01-29
深度學習模型優化
深度學習優化演算法總結
2020-08-04
深度學習優化演算法
深度學習中不得不學的Graph Embedding方法
2019-05-14
深度學習
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
深度：如何從系統層面優化深度學習計算？
2018-05-24
優化深度學習
基於CPU的深度學習推理部署優化實踐
2018-12-24
深度學習優化
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
深度學習的優化器（各類 optimizer 的原理、優缺點及數學推導）
2021-06-30
深度學習優化
拯救深度學習：標註資料不足下的深度學習方法
2020-10-16
深度學習
深度學習中的Dropout
2020-12-02
深度學習
【機器學習】深度學習與經典機器學習的優劣勢一覽
2018-04-22
機器學習深度學習
愛奇藝深度學習雲平臺的實踐及優化
2019-01-07
深度學習優化
新的深度學習優化器Ranger：RAdam + LookAhead強強結合
2020-01-02
深度學習優化Ranger
深度學習中的Normalization模型
2018-08-29
深度學習ORM模型
深度學習——學習目錄——學習中……
2019-02-19
深度學習
【深度學習篇】--神經網路中的調優一，超引數調優和Early_Stopping
2018-03-28
深度學習神經網路
聯邦學習中的優化演算法
2022-03-04
聯邦學習優化演算法
Analytic Zoo的深度學習對MasterCard的推薦AI服務的優化
2019-04-12
深度學習ASTAI優化
深度學習——正則化
2022-01-25
深度學習
深度學習中的Lipschitz約束：泛化與生成模型
2018-10-16
深度學習模型
移動端 CPU 的深度學習模型推理效能優化——NCHW44 和 Record 原理方法詳解
2021-08-17
深度學習模型優化
MLSys提前看：機器學習的分散式優化方法
2020-02-21
機器學習分散式優化
04 | 函式與優化方法：模型的自我學習（上）
2020-11-03
函式優化模型
深度學習中“過擬合”的產生原因和解決方法
2020-09-30
深度學習
DeepMind綜述深度強化學習中的快與慢，智慧體應該像人一樣學習
2019-05-03
強化學習智慧體
深度學習（Deep Learning）優缺點
2020-02-23
深度學習
機器學習中常見優化方法彙總
2018-08-25
機器學習優化
python深度學習（一）
2019-03-29
Python深度學習
AI學習筆記——Tensorflow中的Optimizer(優化器)
2018-08-15
AI筆記優化
深度強化學習day01初探強化學習
2019-06-27
強化學習
深度學習中的正則化技術(附Python程式碼)
2018-05-25
深度學習Python

深度學習中的優化方法（一）

一、 黃金分割法

二、二分法

三、牛頓法

相關文章

一、黃金分割法