機器學習問題方法總結

愛吃串串的瘦子發表於2018-10-11

大類

名稱

關鍵詞

有監督分類

決策樹

資訊增益

分類迴歸樹

Gini指數,Χ2統計量,剪枝

樸素貝葉斯

非引數估計,貝葉斯估計

線性判別分析

Fishre判別,特徵向量求解

K最鄰近

相似度度量:歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關係數

邏輯斯諦迴歸(二值分類)

引數估計(極大似然估計)、S型函式

徑向基函式網路

非引數估計、正則化理論、S型函式

對偶傳播網路

無導師的競爭學習、有導師的Widrow-Hoff學習

學習向量量化網路

一個輸出層細胞跟幾個競爭層細胞相連

誤差反向傳播網路

S型函式、梯度下降法

支援向量機(二值分類)

二次規化,Lagrange乘數法,對偶問題,最優化,序列最小優化,核技巧

單層感知器

只具有線性可分的能力

雙隱藏層感知器

足以解決任何複雜的分類問題

無監督分類

KMeans

質心

CHAMELONE

圖劃分,相對互連度,相對緊密度

BIRCH

B樹,CF三元組

DBScan

核心點,密度可達

EM演算法(高斯混合模型)

引數估計(極大似然估計)

譜聚類

圖劃分,奇異值求解 。全域性收斂

自組織對映網路

無導師的競爭學習

迴歸分析

一般線性迴歸

引數估計,最小二乘法,一般不用於分類而用於預測

邏輯斯諦迴歸(二值分類)

引數估計(極大似然估計),S型函式

關聯規則挖掘

FP-Tree

頻繁1項集,FP-Tree,條件模式基,字尾模式

降維

主成分分析

協方差矩陣,奇異值分解

推薦

協同過濾

稀疏向量的相似度度量

 

 

方法細分

應用場所

引數估計

極大似然估計

線性迴歸。假設誤差滿足均值為0的正態分佈,從而轉化為最小二乘法

Logistic迴歸。梯度下降迭代法求似然函式的極值

高斯混合模型。

非引數估計

 

徑向基函式網路

獨立性檢驗

無引數假設檢驗

χ2檢驗

特徵詞選取,分類迴歸樹的終止條件

秩和檢驗

 

相關性檢驗

Pearson相關係數(假設x,y成對地從正態分佈中取得)

基於向量空間模型的文字分類,使用者喜好推薦系統

Spearman秩相關係數(無引數假設檢驗)

 

最優化方法

無約束最優化方法

梯度下降法

極大似然估計(迴歸分析、GMM)

支援向量機

線性判別分析

牛頓迭代法及其變種

有約束時通過Lagrange乘數法轉換成無約束問題

求特徵值/特徵向量

冪法

線性判別分析

降維

奇異值分解(僅針對對稱矩陣)

主成分分析

譜聚類

資訊理論

資訊增益

特徵詞選擇

決策樹

互資訊

特徵詞選擇

交叉熵

特徵詞選擇,稀有事件建模模擬,多峰最優化問題

核函式

多項式核函式

SVM

RBF網路

高斯核函式(徑向基函式)

雙極性核函式

單極性Sigmoid函式

Logistic迴歸

BP神經網路

協方差

Pearson相關係數

PCA

EM演算法

高斯混合模型

向前向後演算法

基函式

高斯混合模型

徑向基函式網路

平滑演算法

拉普拉斯平滑

貝葉斯分類

隱馬爾可夫模型

Good-Turing平滑

隱馬爾可夫模型

評估問題—向前演算法

 

解碼問題—Viterbi演算法

中文分詞詞性標註   

學習問題—BaumWelch演算法

 


  Cover定理指出:將複雜的模式分類問題非線性地對映到高維空間將比投影到低維空間更可能線性可分。  所以SVM和RBF網路都試圖把樣本從低維空間對映到高維空間再進行分類。 

  好笑的是,另一些方法則是把輸入樣本從高維降到低維後再進行分類或迴歸分析,如PCA、SOFM網路、LDA、譜聚類,它們認為樣本在低維特徵空間有更清晰的表達,更容易發現規律。

相關文章