【Andrew Ng 機器學習】Week 1（二）：代價函式和梯度下降

0x00 前言

本篇是第一週關於線性迴歸的代價函式和梯度下降演算法的筆記。

0x01 模型和代價函式

一、模型表示

x^i：輸入特徵
y^i：輸出結果，或者是想要預測的結果
(x^i , y^i)：訓練樣本
h：代表學習演算法的解決方案或函式，也稱為假設（hypothesis）

下圖是一個監督學習工作方式。

要解決房價預測問題，我們實際上是要將訓練集“喂”給我們的學習演算法，進而學習得到一個假設h，然後將我們要預測的房屋的尺寸作為輸入變數輸入，預測出該房屋的交易價格作為y作為輸出為結果。

那麼線性迴歸的假設函式如下：

二、代價函式

代價函式（cost function）是用來衡量假設函式（hypothesis function ）的準確度的。

直觀上理解，代價函式越小，說明我們預測的結果和真實值越接近，因此最小化代價函式，就相當於最優化我們的模型。

如下是代價函式的表示，這個函式也叫均方誤差函式，其中最前面的1/2m，是為了方便計算梯度下降。

以線性迴歸為例，我們訓練模型，就是選擇合適的引數值theta，使得h最小。如下圖是當theta1=0.5時，假設函式h和代價函式的關係：

當theta1=1，是模型效果最好的取值，此時所有的預測值和真實值都相同，即代價函式值最小。

如下，是不同theta1取值，代價函式的變化：

當我們從單個 theta1 變數變為兩個變數theta0和theta1時，代價函式J(theta0, theta1) 就變成下圖所示，三維空間中的最小值，即theta0 和theta1的最佳取值。

0x02 梯度下降（Gradient Descent）

一、基本概念

我們有了假設函式h(x)，也有了刻畫模型訓練好壞的代價函式J(theta0, theta1) ，那麼該如何找到最優的引數使得J(theta0, theta1) 最小？梯度下降來了。

梯度下降是一個用來求函式最小值的演算法，我們將使用梯度下降演算法來求出代價函式J(theta0, theta1)的最小值。

梯度下降背後的思想是：開始時我們隨機選擇一個引數的組合，計算代價函式，然後我們尋找下一個能讓代價函式值下降最多的引數組合。持續這麼做直到到到一個區域性最小值（local minimum），因為我們並沒有嘗試完所有的引數組合，所以不能確定我們得到的區域性最小值是否便是全域性最小值（global minimum），選擇不同的初始引數組合，可能會找到不同的區域性最小值。