【數學基礎篇】---詳解極限與微分學與Jensen 不等式

LHBlog發表於2018-09-09

一、前述

數學基礎知識對機器學習還有深度學習的知識點理解尤為重要,本節主要講解極限等相關知識。

二、極限

1、例子

當 x 趨於 0 的時候,sin(x) 與 tan(x) 都趨於 0. 但是哪一個趨於 0 的速度更快一些呢?

我們考察這兩個函式的商的極限,

所以當 x → 0 的時候,sin(x) 與 tan(x) 是同樣級別的無窮小。

2、相關定理

如果三個函式滿足 f(x) ≤ g(x) ≤ h(x), 而且他們都在 x0 處有極 限,那麼

重要極限:

三、微分學

微分學的核心思想: 逼近.

1、函式導數:

如果一個函式 f(x) 在 x0 附近有定義,而且存在極限。

那麼 f(x) 在 x0 處可導且導數 f ′ (x0) = L.

 無窮小量表述: 線性逼近。

Definition (函式的高階導數)

如果函式的導數函式仍然可導,那麼導數函式的導數是二階導 數,二階導數函式的導數是三階導數. 一般地記為

或者進一步

導數是對函式進行線性逼近,高階導數是對導數函式的進一步逼 近,因為沒有更好的辦法,所以數學家選擇繼續使用線性逼近.

 Example (初等函式的導數)

2、微分學:多元函式

 

且 Lx, Ly 分別是 f 在 x, y 方向上的偏導數. 一般記為

 

3、Definition (高階偏導數)

並且二階偏導數為

4、Example (偏導數的例子)

5、求導法則

 6.總結

微分學的核心思想是逼近. 一階導數:線性逼近 二階導數:二次逼近 導數計算:求導法則

四、泰勒級數

1、泰勒/邁克勞林級數: 多項式逼近。

2、泰勒級數: 例子

3、應用

泰勒級數是一元微分逼近的頂峰,所以有關於一元微分逼近的問 題請盡情使用.

羅比塔法則

證明:

因為是在 x0 附近的極限問題,我們使用泰勒級數來思考這個問題

4、小結 (泰勒級數)

泰勒級數本質是多項式逼近

特殊函式的泰勒級數可以適當記一下

泰勒級數可以應用於很多與逼近相關的問題。

五、牛頓法與梯度下降法

很多機器學習或者統計的演算法最後都轉化成一個優化的問題. 也 就是求某一個損失函式的極小值的問題, 在本課範圍內我們考慮 可微分的函式極小值問題.

1、優化問題

對於一個無窮可微的函式 f(x),如何尋找他的極小值點.

極值點條件。

全域性極小值: 如果對於任何 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是全域性極小值點.

區域性極小值: 如果存在一個正數 δ 使得,對於任何滿足 |x˜ − x∗| < δ 的 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是區域性極 小值點.(方圓 δ 內的極小值點)

不論是全域性極小值還是區域性極小值一定滿足一階導數/梯度 為零,f ′ = 0 或者 ∇f = 0.

2、區域性極值演算法

這兩種方法都只能尋找區域性極值 這兩種方法都要求必須給出一個初始點 x0

數學原理:牛頓法使用二階逼近(等價於使用二階泰勒級數),梯度下降法使用一階逼近

牛頓法對區域性凸的函式找到極小值,對區域性凹的函式找到極 大值,對區域性不凸不凹的可能會找到鞍點.

梯度下降法一般不會找到最大值,但是同樣可能會找到鞍 點.

當初始值選取合理的情況下,牛頓法比梯度下降法收斂速度 快.

牛頓法要求估計二階導數,計算難度更大.

3、牛頓法

首先在初始點 x0 處,寫出二階泰勒級數。

多變數函式二階逼近

4、梯度下降法:多變數函式一階逼近

如果函式 f(x) 是個多元函式,x 是一個向量. 在 x0 處對f做線性逼近。

5、小結 (牛頓法與梯度下降法)

牛頓法與梯度下降法本質上都是對目標函式進行區域性逼近.

因為是區域性逼近所以也只能尋找區域性極值

牛頓法收斂步驟比較少,但是梯度下降法每一步計算更加簡單,牛頓法不僅給出梯度的方向還給出具體應該走多少。梯度法的r只能自己定義。

不同的演算法之間很難說哪一個更好,選擇演算法還要具體問題 具體分析(這也是資料科學家存在的意義之一)

梯度本身是向著最大方向的,加個負號才是向著最小方向的。

六、凸函式與琴生不等式

1、Definition (凸函式)

把如上定義中的 ≤ 換成 <, 那麼這個函式就叫做嚴格凸函式。

2、(凸函式判斷準則)

如果 f 是多元函式,x 是個向量, 那麼 f 是凸函式的條件變為Hf 是一個半正定矩陣。

3、凸函式重要性質: 琴生不等式)

 

相關文章