機器學習之梯度下降法

Lois發表於2020-06-12

原文網址 : https://learnku.com/articles/45861?order_by=created_at&

機器學習

機器學習
- 梯度下降法

梯度下降法

基本概念

梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解無約束最優化問題最常用的方法，它是一種迭代方法，每一步主要的操作是求解目標函式的梯度向量，將當前位置的負梯度方向作為搜尋方向（因為在該方向上目標函式下降最快，這也是最速下降法名稱的由來）。

梯度下降，其實就是一個公式： 1594463588290

公式推導

![img](file:///E:\qq聊天記錄\1713176942\Image\C2C\2D65DC80FB67F846BD86FE94D6FF8215.jpg)

基本梯度下降步驟

步驟： 1594380571542

η為學習率，ε為收斂條件。梯度下降法屬於機器學習，本質為：不斷迭代判斷是否滿足條件，會用到迴圈語句。

st=>start: 首先設定一個較小的正數m,n;
op=>operation: 求當前位置處的各個偏導數;
修改當前函式的引數值;
cond=>condition: 引數變化量小於n
sub1=>subroutine: 回退迭代
io=>inputoutput: 求得極小值
e=>end: 結束框
st->op->cond
cond(yes)->io->e
cond(no)->sub1(right)->op

1594382365355

1594382407187

批量梯度下降(BGD)

Batch gradient descent:：批量梯度下降演算法(BGD)，其需要計算整個訓練集的梯度，即：

其中η為學習率，用來控制更新的“力度”/"步長"。

優點：

對於凸目標函式，可以保證全域性最優；對於非凸目標函式，可以保證一個區域性最優。

缺點：

速度慢; 資料量大時不可行; 無法線上優化(即無法處理動態產生的新樣本)。

程式碼實現

#引庫
#引入matplotlib庫,用於畫圖
import matplotlib.pyplot as plt
from math import pow
#圖片嵌入jupyter
#matplotlib inline

#為了便於取用資料,我們將資料分為x,y,在直角座標系中(x,y)是點
x = [1,2,3,4,5,6]
y = [13,14,20,21,25,30]
print("列印初始資料圖...")
plt.scatter(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

#超引數設定
alpha = 0.01#學習率/步長
theta0 = 0#θ0
theta1 = 0#θ1
epsilon = 0.001#誤差
m = len(x)

count = 0
loss = []

for time in range(1000):
    count += 1
    #求偏導theta0和theta1的結果
    temp0 = 0#J(θ)對θ0求導的結果
    temp1 = 0#J(θ)對θ1求導的結果
    diss = 0
    for i in range(m):
        temp0 += (theta0+theta1*x[i]-y[i])/m
        temp1 += ((theta0+theta1*x[i]-y[i])/m)*x[i]

    #更新theta0和theta1
    for i in range(m):
        theta0 = theta0 - alpha*((theta0+theta1*x[i]-y[i])/m) 
        theta1 = theta1 - alpha*((theta0+theta1*x[i]-y[i])/m)*x[i]

    #求損失函式J(θ)
    for i in range(m):
        diss = diss + 0.5*(1/m)*pow((theta0+theta1*x[i]-y[i]),2)
    loss.append(diss)

    #看是否滿足條件
    '''
    if diss<=epsilon:
        break
    else:
        continue
    '''
print("最終的結果為:")
print("此次迭代次數為:{}次,最終theta0的結果為:{},最終theta1的結果為:{}".format(count,theta0,theta1))
print("預測的最終迴歸函式為:y={}+{}x\n".format(theta0,theta1))
print("迭代影像繪製...")
plt.scatter(range(count),loss)
plt.show()

執行結果

1594475742309

隨機梯度下降(SGD)

Stochastic gradient descent：隨機梯度下降演算法(SGD)，僅計算某個樣本的梯度，即針對某一個訓練樣本 xi及其label yi更新引數：

逐步減小學習率，SGD表現得同BGD很相似，最後都可以有不錯的收斂。

優點：

更新頻次快，優化速度更快; 可以線上優化(可以無法處理動態產生的新樣本)；一定的隨機性導致有機率跳出區域性最優(隨機性來自於用一個樣本的梯度去代替整體樣本的梯度)。

缺點：

隨機性可能導致收斂複雜化，即使到達最優點仍然會進行過度優化，因此SGD得優化過程相比BGD充滿動盪。

程式碼實現

#引庫
#引入matplotlib庫,用於畫圖
import matplotlib.pyplot as plt
from math import pow
import numpy as np
#圖片嵌入jupyter
#matplotlib inline

#為了便於取用資料,我們將資料分為x,y,在直角座標系中(x,y)是點
x = [1,2,3,4,5,6]
y = [13,14,20,21,25,30]
print("列印初始資料圖...")
plt.scatter(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

#超引數設定
alpha = 0.01#學習率/步長
theta0 = 0#θ0
theta1 = 0#θ1
epsilon = 0.001#誤差
m = len(x)

count = 0
loss = []

for time in range(1000):
    count += 1
    diss = 0
    #求偏導theta0和theta1的結果
    temp0 = 0#J(θ)對θ0求導的結果
    temp1 = 0#J(θ)對θ1求導的結果
    for i in range(m):
        temp0 += (theta0+theta1*x[i]-y[i])/m
        temp1 += ((theta0+theta1*x[i]-y[i])/m)*x[i]

    #更新theta0和theta1
    for i in range(m):
        theta0 = theta0 - alpha*((theta0+theta1*x[i]-y[i])/m) 
        theta1 = theta1 - alpha*((theta0+theta1*x[i]-y[i])/m)*x[i]

    #求損失函式J(θ)
    rand_i = np.random.randint(0,m)
    diss += 0.5*(1/m)*pow((theta0+theta1*x[rand_i]-y[rand_i]),2)
    loss.append(diss)

    #看是否滿足條件
    '''
    if diss<=epsilon:
        break
    else:
        continue
    '''
print("最終的結果為:")
print("此次迭代次數為:{}次,最終theta0的結果為:{},最終theta1的結果為:{}".format(count,theta0,theta1))
print("預測的最終迴歸函式為:y={}+{}x\n".format(theta0,theta1))
print("迭代影像繪製...")
plt.scatter(range(count),loss)
plt.show()

執行結果

1594476028430

小批量梯度下降(MBGD)

Mini-batch gradient descent：小批量梯度下降演算法(MBGD)，計算包含n個樣本的mini-batch的梯度：

MBGD是訓練神經網路最常用的優化方法。

優點：

引數更新時的動盪變小，收斂過程更穩定，降低收斂難度；可以利用現有的線性代數庫高效的計算多個樣本的梯度。

程式碼實現

#引庫
#引入matplotlib庫,用於畫圖
import matplotlib.pyplot as plt
from math import pow
import numpy as np
#圖片嵌入jupyter
#matplotlib inline

#為了便於取用資料,我們將資料分為x,y,在直角座標系中(x,y)是點
x = [1,2,3,4,5,6]
y = [13,14,20,21,25,30]
print("列印初始資料圖...")
plt.scatter(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

#超引數設定
alpha = 0.01#學習率/步長
theta0 = 0#θ0
theta1 = 0#θ1
epsilon = 0.001#誤差
diss = 0#損失函式
m = len(x)

count = 0
loss = []

for time in range(1000):
    count += 1
    diss = 0
    #求偏導theta0和theta1的結果
    temp0 = 0#J(θ)對θ0求導的結果
    temp1 = 0#J(θ)對θ1求導的結果
    for i in range(m):
        temp0 += (theta0+theta1*x[i]-y[i])/m
        temp1 += ((theta0+theta1*x[i]-y[i])/m)*x[i]

    #更新theta0和theta1
    for i in range(m):
        theta0 = theta0 - alpha*((theta0+theta1*x[i]-y[i])/m) 
        theta1 = theta1 - alpha*((theta0+theta1*x[i]-y[i])/m)*x[i]

    #求損失函式J(θ)
    result = []
    for i in range(3):
        rand_i = np.random.randint(0,m)
        result.append(rand_i)
    for j in result:
        diss += 0.5*(1/m)*pow((theta0+theta1*x[j]-y[j]),2)
    loss.append(diss)

    #看是否滿足條件
    '''
    if diss<=epsilon:
        break
    else:
        continue
    '''
print("最終的結果為:")
print("此次迭代次數為:{}次,最終theta0的結果為:{},最終theta1的結果為:{}".format(count,theta0,theta1))
print("預測的最終迴歸函式為:y={}+{}x\n".format(theta0,theta1))
print("迭代影像繪製...")
plt.scatter(range(count),loss)
plt.show()

執行結果

1594476309210

機器學習之隨機梯度下降法
2020-06-13
機器學習隨機梯度
機器學習方法（一）——梯度下降法
2018-10-12
機器學習梯度
機器學習梯度下降法，最通俗易懂的解釋
2019-03-28
機器學習梯度
機器學習之梯度下降
2020-02-08
機器學習梯度
【機器學習之數學】02 梯度下降法、最速下降法、牛頓法、共軛方向法、擬牛頓法
2019-03-27
機器學習梯度
隨機梯度下降法的數學基礎
2023-01-18
隨機梯度
【機器學習】梯度下降
2020-08-11
機器學習梯度
【機器學習】梯度下降 II
2020-09-20
機器學習梯度
【機器學習基礎】——梯度下降
2021-10-12
機器學習梯度
1. 梯度下降法
2022-06-18
梯度
機器學習——梯度下降演算法
2019-07-24
機器學習梯度演算法
什麼是梯度下降法？
2018-07-11
梯度
梯度下降法原理及小結
2020-12-23
梯度
【機器學習之數學】01 導數、偏導數、方向導數、梯度
2019-03-11
機器學習梯度
梯度下降法中導數的求解
2021-09-09
梯度
機器學習之-梯度下降【人工智慧工程師--AI轉型必修課】
2020-04-04
機器學習梯度人工智慧工程師AI
機器學習入門筆記——如何理解梯度下降
2018-03-11
機器學習筆記梯度
機器學習筆記(1): 梯度下降演算法
2024-06-02
機器學習筆記梯度演算法
深入淺出--梯度下降法及其實現
2021-09-09
梯度
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
機器學習之學習速率
2020-06-12
機器學習
機器學習--線性迴歸--梯度下降的實現
2020-10-08
機器學習梯度
梯度下降法原理與模擬分析||系列（1）
2020-12-10
梯度
機器學習之學習曲線
2019-09-18
機器學習
機器學習之pca
2024-06-17
機器學習PCA
機器學習之皮毛
2021-04-14
機器學習
使用梯度下降法實現多項式迴歸
2024-09-18
梯度
機器學習之特徵工程
2020-06-14
機器學習特徵工程
機器學習之迭代方法
2020-06-12
機器學習
機器學習之泛化
2020-06-13
機器學習
【Andrew Ng 機器學習】Week 1（二）：代價函式和梯度下降
2019-03-02
機器學習函式梯度
機器學習之牛頓法
2019-03-03
機器學習
機器學習之超引數
2018-12-12
機器學習
機器學習之模型選擇
2020-02-14
機器學習模型
機器學習之模型診斷
2020-02-14
機器學習模型
機器學習之清理資料
2020-06-16
機器學習
機器學習之小白入門
2020-02-27
機器學習
機器學習之Xgboost詳解
2020-07-27
機器學習

機器學習之梯度下降法

機器學習

梯度下降法

基本概念

公式推導

基本梯度下降步驟

批量梯度下降(BGD)

隨機梯度下降(SGD)

小批量梯度下降(MBGD)

相關文章