機器學習中常見優化方法彙總

世有因果知因求果發表於2018-08-25

機器學習中數學優化專門用於解決尋找一個函式的最小值的問題。這裡的函式被稱為cost function或者objective function，或者energy:損失函式或者目標函式。

更進一步，在機器學習優化中，我們並不依賴於被優化的函式的數學解析表示式，我們通過使用$scipy.optimize$從而實現類似黑盒優化。

瞭解你的優化問題本身

並不是所有的優化問題都是一樣的，如果你能對你待優化的問題本身有一個深刻的理解，這樣可以選擇正確的優化方法。

1.其中非常重要的一點就是要考察問題本身的維數。問題本身資料的維數（標量變數的個數）決定了優化問題的規模。

2.convex和non-convex優化

凸函式的特徵:

$f$總是在其切線之上
或者說，對於兩個點$A,B$，如果$A<C<B$,則$f(C)$總是線上段$f(A),f(B)$之間

凸函式優化相對非常簡單。

3.函式光滑與否(是否處處可導)

4. loss函式以及gradient函式是否存在噪聲

如果gradient沒有解析式，那麼我們都須通過計算式計算，這必然導致誤差。

5. 是否有限制條件

比如，下圖中就要求優化只能在$x_1,x_2 \in (-1,1)$間優化

常見的優化方法

Brent’s method

理論依據是中值定理，對於一個連續函式,$f$,如果兩個端點a,b的函式值$f(a)f(b)<0$，則$(a,b)$之間必然存在一個駐點(導數為0)，我們可以不斷迭代最終求得駐點；

from scipy import optimize
def f(x):
    return -np.exp(-(x - 0.7)**2)
result = optimize.minimize_scalar(f)
result.success # check if solver was successful

x_min = result.x

gradient based methods

簡單梯度下降法

原理如教科書的描述，根據梯度下降的方向去做數值變更和迭代，最終求得駐點。

存在的問題是：引數調整時可能反覆跨過駐點從而形成震盪，雖然減少引數調整的布幅可以減輕這個問題，但是無法徹底解決。

共軛梯度下降

共軛演算法在簡單梯度下降基礎上增加一個摩擦項(friction term),每個step依賴於梯度最近的兩個值，這樣可以有效解決反覆震盪問題。

def f(x):   # The rosenbrock function
    return .5*(1 - x[0])**2 + (x[1] - x[0]**2)**2
optimize.minimize(f, [2, -1], method="CG")

梯度優化方法需要loss函式的雅可比（梯度）值，雖然即使你不傳入導數(雅可比矩陣是針對y值為向量的情況下的梯度向量)，演算法也能夠通過數值計算方法算出來，但是如果有解析表示式，我們傳入這個值會大大提升收斂效率.

def jacobian(x):
    return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2*(x[1] - x[0]**2)))
optimize.minimize(f, [2, 1], method="CG", jac=jacobian)

注意：通過傳入解析表示式後，只需要28次就能收斂，而之前需要108次迭代才能收斂。

牛頓梯度法（Newton and quasi-newton methods）

def f(x):   # The rosenbrock function
    return .5*(1 - x[0])**2 + (x[1] - x[0]**2)**2
def jacobian(x):
    return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2*(x[1] - x[0]**2)))
optimize.minimize(f, [2,-1], method="Newton-CG", jac=jacobian)

BFGS

BFGS在牛頓法基礎上細調了Hessian矩陣的估算方法

L-BFGS

L-BFGS位於BFGS和共軛梯度法之間。對於非常高維（大於250個）的loss函式，Hessian矩陣的計算是非常耗時的，L-BFGS keeps a low-rank version.

非梯度優化方法

Powell演算法

Nelder-Mead

帶約束條件的函式優化

盒子邊界

def f(x):
   return np.sqrt((x[0] - 3)**2 + (x[1] - 2)**2)
optimize.minimize(f, np.array([0, 0]), bounds=((-1.5, 1.5), (-1.5, 1.5)))

通用約束:拉格朗日乘數法化約束為對偶無約束的優化問題

def f(x):
    return np.sqrt((x[0] - 3)**2 + (x[1] - 2)**2)

def constraint(x):
    return np.atleast_1d(1.5 - np.sum(np.abs(x)))

x0 = np.array([0, 0])
optimize.minimize(f, x0, constraints={"fun": constraint, "type": "ineq"})

Deep Learning模型中常見的optimizer優化器演算法總結
2020-10-01
模型優化演算法
前端開發優化的一些常見方法彙總
2019-04-10
前端優化
機器學習面試問題彙總
2020-04-04
機器學習面試
機器學習演算法優缺點對比及選擇（彙總篇）
2019-01-21
機器學習演算法
MLSys提前看：機器學習的分散式優化方法
2020-02-21
機器學習分散式優化
機器學習中的效能度量指標彙總
2018-09-09
機器學習指標
機器學習問題方法總結
2018-10-11
機器學習
MyBatis學習總結（24）——Mybatis常見問題彙總
2018-06-07
MyBatis
總結機器學習優質學習文章Top50！
2019-03-03
機器學習
精心整理 | 林軒田機器學習資源彙總
2018-07-29
機器學習
10 個機器學習教程彙總，愛可可推薦！
2019-10-08
機器學習
MySQL資料庫中常見的日誌檔案彙總！
2021-05-13
MySql資料庫
PostgreSQL11preview-優化器增強彙總
2018-07-28
SQLView優化
我的2017年文章彙總——機器學習篇
2019-02-27
機器學習
0基礎怎麼學習Python?Python學習方法彙總!
2020-01-13
Python
人工智慧之機器學習演算法體系彙總
2019-01-03
人工智慧機器學習演算法
2019年度機器學習49個頂級工程彙總
2019-02-08
機器學習
CSS居中常見方法
2019-01-14
CSS
8個計算機視覺深度學習中常見的Bug
2019-12-12
計算機視覺深度學習
【機器學習基礎】常見損失函式總結
2021-11-09
機器學習函式
iOS中常見Crash總結
2019-02-11
iOS
強化學習與其他機器學習方法有什麼不同？
2019-03-06
強化學習機器學習
【收藏】機器學習開源框架大彙總，總有一款適合你
2019-02-14
機器學習框架
遊戲開發中常見細節優化實踐
2020-05-21
遊戲開發優化
機器學習工具總覽
2019-05-21
機器學習
【機器學習】--迴歸問題的數值優化
2018-03-31
機器學習優化
OC中常見基礎知識點彙整
2020-11-20
機器學習、深度學習資源總結
2018-07-08
機器學習深度學習
【LinuxSRE運維學習】2022最新Docker常見面試題彙總！
2022-08-29
Linux運維Docker面試題
機器學習之迭代方法
2020-06-12
機器學習
深度學習中的優化方法（二）
2021-08-04
深度學習優化
深度學習中的優化方法（一）
2021-07-27
深度學習優化
前端學習資源彙總
2019-02-16
前端
TensorFlow學習資源彙總
2019-03-30
TensorFlow學習資料彙總
2018-06-17
React學習資源彙總
2018-06-05
React
Java學習書籍彙總
2020-11-18
Java
go學習資源彙總
2022-02-14
Go