決策樹
本章主要講了決策樹學習演算法的三個部分:特徵選擇、樹的生成方式和樹的剪枝以及三種決策樹演算法:ID3、C4.5、CART
Tips:決策樹的東西比較多(這章啃了一個星期才啃完 (lll¬ω¬)),我們平時使用的sklearn裡面的決策樹用的就是CART演算法,所以這章的重點就在於CART的兩種樹模型(迴歸樹、分類樹),ID3和C4.5可作為了解:
思維導圖線上瀏覽地址:決策樹
邏輯斯蒂迴歸模型
邏輯斯蒂迴歸模型是經典的分類學習器,在二分類的監督問題上分類效果非常好,其經典之處就在於LR的分佈函式-sigmoid函式:
思維導圖線上瀏覽地址:邏輯斯蒂迴歸模型
最大熵模型與最最佳化演算法
最大熵模型目前應用在NLP上比較多,本章的最大熵模型的內容與數學推導公式比較多,大家可以選擇自己想要了解的地方去了解就行:
思維導圖線上瀏覽地址:最大熵模型與最最佳化演算法
線性可分支援向量機
在機器學習的學習之路上,SVM是ML童鞋們在分類問題上一定會遇到的一個學習方法,SVM這一章將SVM按訓練資料的線性可分性分為由簡到繁分為三種模型:線性可分支援向量機(linner support vector machine in linearly separable case)、線性支援向量機(linear support vector machine)以及非線性支援向量機(non-linear support vector)。在實際工程中,面對不同規模的資料集時,在小型資料集上,SVM有時僅需小量的訓練資料,就可以得到比較好的訓練結果,而這正是因為SVM的特性-支援向量,下面透過思維導圖先簡單介紹下SVM:
線性可分支援向量機:
思維導圖線上瀏覽地址:線性可分支援向量機
線性支援向量機
上一章講了線性可分支援向量機,但在實際工程中,樣本資料往往是資料不可分的,此時就需要另一種學習器-線性支援向量機,又稱線性不可分支援向量機,因為其適用範圍更廣,所以一般將其稱為線性支援向量機,其學習策略為-軟間隔最大化(區別於線性可分支援向量機的硬間隔最大化):
思維導圖線上瀏覽地址:線性支援向量機
非線性支援向量機
前兩篇我們看的是都是適應線性樣本的支援向量機,那遇到非線性的分類問題呢?利用核技巧,就可以將線性分類的學習方法應用到非線性分類問題中去,將線性支援向量機擴充到非線性支援向量機,只需將線性支援向量機對偶形式中的內積換成核函式,接下來就來看下非線性支援向量機的思維導圖:
思維導圖線上瀏覽地址:非線性支援向量機
SMO序列最小最最佳化演算法
由Platt提出的SMO演算法是支援向量機學習的一種快速演算法,其特點為不斷將原二次規劃問題分解為只有兩個變數的二次子規劃問題,並對子問題進行解析求解,直到所有變數滿足KKT條件為止。SVM是透過求得全域性最優解來進行學習,SVM在面對大規模的訓練樣本時,效果往往不是很好·,SMO演算法正是為了解決這個問題而提出的。至此SVM章節的相關內容就全部結束了(本節思維導圖涉及較多的證明過程,各位可根據需要查閱)
思維導圖線上瀏覽地址:SMO序列最小最最佳化演算法
思維來自《統計學習方法》-李航
歡迎前往我的個人小站:www.wengjj.ink
才學疏淺,歡迎評論指導