為了系統性的介紹機器學習入門,本文特意列了一個提綱。接下來的一些文章我會按照下面的提綱一一介紹裡面的內容,有的概念會點到為止,有的概念會說的比較多。介紹中有什麼不妥或者不對的地方,還望大家指出。
數學基礎
微積分
極限,e,導數,微分,積分
偏導數,方向導數,梯度
極值,多元函式極值,多元函式泰勒展開
無約束最佳化,約束最佳化
拉格朗日乘子,對偶問題
機率
隨機變數,機率密度函式,分佈函式
條件機率,全機率公式,貝葉斯公式
期望,方差
大數定理,中心極限定理
協方差,相關係數
常見機率分佈,泊松分佈
指數族分佈,多元高斯分佈
引數估計,矩估計,極大似然估計
線性代數
矩陣,行列式,初等變換
線性相關,線性無關
秩,特徵值,特徵向量
正交向量、正交矩陣
矩陣分解
機器學習基本概念
輸入空間,特徵空間和輸出空間
聯合機率分佈,假設空間
三要素:方法=模型+策略+演算法
感知機Perceptron
感知機模型、學習策略、訓練方法
0-1損失函式
感知機的幾何解釋
感知機證明
pocket perceptron
線性迴歸
模型、損失函式、訓練方法、機率解釋
邏輯迴歸
模型、損失函式、訓練方法、機率解釋
邏輯迴歸的形式,推導和訓練,邏輯斯蒂損失
擬牛頓法,LBFGS
機器學習診斷和除錯
訓練誤差、測試誤差、欠擬合、過擬合
損失函式、風險函式、經驗風險、結構風險
正規化、交叉驗證
推薦系統
協同過濾(User based,Item based,Slope one)
Model-based
SVD++
Aprior演算法
樹模型和boost
熵的定義和應用,資訊增益
決策樹、ID3、C4.5和CART
Adaboost,指數損失函式
梯度提升樹 GBDT
隨機森林 Random Forest
支援向量機SVM
硬間隔最大化,函式間隔,幾何間隔
軟間隔最大化
對偶演算法
合頁損失函式
核函式、核技巧
SMO演算法
最大熵模型
模型定義、約束條件和推導
重新理解邏輯迴歸
神經網路
模型的定義和訓練
BPA演算法
無監督學習
K-Means和高斯混合模型GMM
EM演算法,推導、解釋和理解
Topic Model基礎,svd、lsa、plsa、lda
總結
損失函式比較
模型的比較和選擇
解決實際問題的一般步驟