一、前述
數學基礎知識對機器學習還有深度學習的知識點理解尤為重要,本節主要講解極限等相關知識。
二、極限
1、例子
當 x 趨於 0 的時候,sin(x) 與 tan(x) 都趨於 0. 但是哪一個趨於 0 的速度更快一些呢?
我們考察這兩個函式的商的極限,
所以當 x → 0 的時候,sin(x) 與 tan(x) 是同樣級別的無窮小。
2、相關定理
如果三個函式滿足 f(x) ≤ g(x) ≤ h(x), 而且他們都在 x0 處有極 限,那麼
重要極限:
三、微分學
微分學的核心思想: 逼近.
1、函式導數:
如果一個函式 f(x) 在 x0 附近有定義,而且存在極限。
那麼 f(x) 在 x0 處可導且導數 f ′ (x0) = L.
無窮小量表述: 線性逼近。
Definition (函式的高階導數)
如果函式的導數函式仍然可導,那麼導數函式的導數是二階導 數,二階導數函式的導數是三階導數. 一般地記為
或者進一步
導數是對函式進行線性逼近,高階導數是對導數函式的進一步逼 近,因為沒有更好的辦法,所以數學家選擇繼續使用線性逼近.
Example (初等函式的導數)
2、微分學:多元函式
且 Lx, Ly 分別是 f 在 x, y 方向上的偏導數. 一般記為
3、Definition (高階偏導數)
並且二階偏導數為
4、Example (偏導數的例子)
5、求導法則
6.總結
微分學的核心思想是逼近. 一階導數:線性逼近 二階導數:二次逼近 導數計算:求導法則
四、泰勒級數
1、泰勒/邁克勞林級數: 多項式逼近。
2、泰勒級數: 例子
3、應用
泰勒級數是一元微分逼近的頂峰,所以有關於一元微分逼近的問 題請盡情使用.
羅比塔法則
證明:
因為是在 x0 附近的極限問題,我們使用泰勒級數來思考這個問題
4、小結 (泰勒級數)
泰勒級數本質是多項式逼近
特殊函式的泰勒級數可以適當記一下
泰勒級數可以應用於很多與逼近相關的問題。
五、牛頓法與梯度下降法
很多機器學習或者統計的演算法最後都轉化成一個優化的問題. 也 就是求某一個損失函式的極小值的問題, 在本課範圍內我們考慮 可微分的函式極小值問題.
1、優化問題
對於一個無窮可微的函式 f(x),如何尋找他的極小值點.
極值點條件。
全域性極小值: 如果對於任何 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是全域性極小值點.
區域性極小值: 如果存在一個正數 δ 使得,對於任何滿足 |x˜ − x∗| < δ 的 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是區域性極 小值點.(方圓 δ 內的極小值點)
不論是全域性極小值還是區域性極小值一定滿足一階導數/梯度 為零,f ′ = 0 或者 ∇f = 0.
2、區域性極值演算法
這兩種方法都只能尋找區域性極值 這兩種方法都要求必須給出一個初始點 x0
數學原理:牛頓法使用二階逼近(等價於使用二階泰勒級數),梯度下降法使用一階逼近
牛頓法對區域性凸的函式找到極小值,對區域性凹的函式找到極 大值,對區域性不凸不凹的可能會找到鞍點.
梯度下降法一般不會找到最大值,但是同樣可能會找到鞍 點.
當初始值選取合理的情況下,牛頓法比梯度下降法收斂速度 快.
牛頓法要求估計二階導數,計算難度更大.
3、牛頓法
首先在初始點 x0 處,寫出二階泰勒級數。
多變數函式二階逼近
4、梯度下降法:多變數函式一階逼近
如果函式 f(x) 是個多元函式,x 是一個向量. 在 x0 處對f做線性逼近。
5、小結 (牛頓法與梯度下降法)
牛頓法與梯度下降法本質上都是對目標函式進行區域性逼近.
因為是區域性逼近所以也只能尋找區域性極值
牛頓法收斂步驟比較少,但是梯度下降法每一步計算更加簡單,牛頓法不僅給出梯度的方向還給出具體應該走多少。梯度法的r只能自己定義。
不同的演算法之間很難說哪一個更好,選擇演算法還要具體問題 具體分析(這也是資料科學家存在的意義之一)
梯度本身是向著最大方向的,加個負號才是向著最小方向的。
六、凸函式與琴生不等式
1、Definition (凸函式)
把如上定義中的 ≤ 換成 <, 那麼這個函式就叫做嚴格凸函式。
2、(凸函式判斷準則)
如果 f 是多元函式,x 是個向量, 那麼 f 是凸函式的條件變為Hf 是一個半正定矩陣。
3、凸函式重要性質: 琴生不等式)