機器學習入門基礎大綱

Lei Jun發表於2014-10-30

為了系統性的介紹機器學習入門,本文特意列了一個提綱。接下來的一些文章我會按照下面的提綱一一介紹裡面的內容,有的概念會點到為止,有的概念會說的比較多。介紹中有什麼不妥或者不對的地方,還望大家指出。

數學基礎

微積分

極限,e,導數,微分,積分

偏導數,方向導數,梯度

極值,多元函式極值,多元函式泰勒展開

無約束最佳化,約束最佳化

拉格朗日乘子,對偶問題

 

機率

隨機變數,機率密度函式,分佈函式

條件機率,全機率公式,貝葉斯公式

期望,方差

大數定理,中心極限定理

協方差,相關係數

常見機率分佈,泊松分佈

指數族分佈,多元高斯分佈

引數估計,矩估計,極大似然估計

 

線性代數

矩陣,行列式,初等變換

線性相關,線性無關

秩,特徵值,特徵向量

正交向量、正交矩陣

矩陣分解

 

機器學習基本概念

輸入空間,特徵空間和輸出空間

聯合機率分佈,假設空間

三要素:方法=模型+策略+演算法

 

感知機Perceptron

感知機模型、學習策略、訓練方法

0-1損失函式

感知機的幾何解釋

感知機證明

pocket perceptron

 

線性迴歸

模型、損失函式、訓練方法、機率解釋

  

邏輯迴歸

模型、損失函式、訓練方法、機率解釋

邏輯迴歸的形式,推導和訓練,邏輯斯蒂損失

擬牛頓法,LBFGS

  

機器學習診斷和除錯

訓練誤差、測試誤差、欠擬合、過擬合

損失函式、風險函式、經驗風險、結構風險

正規化、交叉驗證

 

推薦系統

協同過濾(User based,Item based,Slope one)

Model-based

SVD++

Aprior演算法

 

樹模型和boost

熵的定義和應用,資訊增益

決策樹、ID3、C4.5和CART

Adaboost,指數損失函式

梯度提升樹 GBDT

隨機森林 Random Forest

 

支援向量機SVM

硬間隔最大化,函式間隔,幾何間隔

軟間隔最大化

對偶演算法

合頁損失函式

核函式、核技巧

SMO演算法

 

最大熵模型

模型定義、約束條件和推導

重新理解邏輯迴歸

 

神經網路

模型的定義和訓練

BPA演算法

 

無監督學習

K-Means和高斯混合模型GMM

EM演算法,推導、解釋和理解

Topic Model基礎,svd、lsa、plsa、lda

 

總結

損失函式比較

模型的比較和選擇

解決實際問題的一般步驟