初識機器學習
一、定義
計算機無需明確程式設計即可學習的研究領域。機器學習的研究旨在讓計算機學會學習,能夠模擬人類的學習行為,建立學習能力,實現識別和判斷。機器學習使用演算法來解析海量資料,從中找出規律,並完成學習,用學習出來的思維模型對真實事件做出決策和預測。這種方式也稱為“訓練”。
二、監督學習和無監督學習
監督學習:給予學習演算法示例,即確定的輸入、輸出,使計算機透過這種學習演算法對全新的輸入預測其正確輸出。
無監督學習:資料集只給輸入而不給輸出,讓演算法自己從中發現規律並對新的輸入預測其正確輸出。
三、機器學習常見術語
訓練集:用於訓練模型的資料集;
x:輸入,也稱為特徵;
y:輸出,也稱為真實標籤;
(x,y):每一對x、y稱為一個訓練樣本;
m:訓練樣本設為總數;
(x(i),y(i)):上標i表示訓練集的第i行,即第i個訓練樣本;
f:假設函式,訓練模型用於接收輸入變數併產生預測的函式;
例如,單變數線性迴歸模型中,f(x) = wx + b,其中w、b稱為引數或權重;
y-hat:預測值,f(x(i)) = y-hat(i);
J(w,b):成本函式或代價函式,計算預測值與真實值之間誤差大小的函式
上圖為迴歸模型中最常用的代價函式。