1.決策樹
1.1從LR到決策樹
相信大家都做過用LR來進行分類,總結一下LR模型的優缺點:
優點
-
適合需要得到一個分類概率的場景。
-
實現效率較高。
-
很好處理線性特徵。
缺點
-
當特徵空間很大時,邏輯迴歸的效能不是很好。
-
不能很好地處理大量多類特徵。
-
對於非線性特徵,需要進行轉換。
以上就是LR模型的優缺點,沒錯,決策樹的出現就是為了解決LR模型不足的地方,這也是我們為什麼要學習決策樹的原因了,沒有任何一個模型是萬能的。
決策樹的優點
-
模擬人的直觀決策規則。
-
可以處理非線性特徵。
-
考慮了特徵之間的相互作用。
其實用一下圖片能更好的理解LR模型和決策樹模型演算法的根本區別,我們可以思考一下一個決策問題:是否去相親,一個女孩的母親要給這個女海介紹物件。
大家都看得很明白了吧!LR模型是一股腦兒的把所有特徵塞入學習,而決策樹更像是程式語言中的if-else一樣,去做條件判斷,這就是根本性的區別。
1.2“樹”的成長過程
決策樹基於“樹”結構進行決策的,這時我們就要面臨兩個問題 :
-
“樹”怎麼長。
-
這顆“樹”長到什麼時候停。
弄懂了這兩個問題,那麼這個模型就已經建立起來了,決策樹的總體流程是“分而治之”的思想,一是自根至葉的遞迴過程,一是在每個中間節點尋找一個“劃分”屬性,相當於就是一個特徵屬性了。接下來我們來逐個解決以上兩個問題。
這顆“樹”長到什麼時候停
-
當前結點包含的樣本全屬於同一類別,無需劃分;例如:樣本當中都是決定去相親的,屬於同一類別,就是不管特徵如何改變都不會影響結果,這種就不需要劃分了。
-
當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;例如:所有的樣本特徵都是一樣的,就造成無法劃分了,訓練集太單一。
-
當前結點包含的樣本集合為空,不能劃分。
1.3“樹”怎麼長
在生活當中,我們都會碰到很多需要做出決策的地方,例如:吃飯地點、數碼產品購買、旅遊地區等,你會發現在這些選擇當中都是依賴於大部分人做出的選擇,也就是跟隨大眾的選擇。其實在決策樹當中也是一樣的,當大部分的樣本都是同一類的時候,那麼就已經做出了決策。
我們可以把大眾的選擇抽象化,這就引入了一個概念就是純度,想想也是如此,大眾選擇就意味著純度越高。好,在深入一點,就涉及到一句話:資訊熵越低,純度越高。我相信大家或多或少都聽說過“熵”這個概念,資訊熵通俗來說就是用來度量包含的“資訊量”,如果樣本的屬性都是一樣的,就會讓人覺得這包含的資訊很單一,沒有差異化,相反樣本的屬性都不一樣,那麼包含的資訊量就很多了。
一到這裡就頭疼了,因為馬上要引入資訊熵的公式,其實也很簡單:
Pk表示的是:當前樣本集合D中第k類樣本所佔的比例為Pk。
資訊增益
廢話不多說直接上公式:
看不懂的先不管,簡單一句話就是:劃分前的資訊熵--劃分後的資訊熵。表示的是向純度方向邁出的“步長”。
1.3.1ID3演算法
解釋:在根節點處計算資訊熵,然後根據屬性依次劃分並計算其節點的資訊熵,用根節點資訊熵--屬性節點的資訊熵=資訊增益,根據資訊增益進行降序排列,排在前面的就是第一個劃分屬性,其後依次類推,這就得到了決策樹的形狀,也就是怎麼“長”了。
如果不理解的,可以檢視我一下分享的示例,結合我說的,包你看懂:
1.www.wailian.work/images/2018…
2.www.wailian.work/images/2018…
3.www.wailian.work/images/2018…
4.www.wailian.work/images/2018…
不過,資訊增益有一個問題:對可取值數目較多的屬性有所偏好,例如:考慮將“編號”作為一個屬性。這就引出了另一個 演算法C4.5。
1.3.2C4.5
為了解決資訊增益的問題,引入一個資訊增益率:
屬性a的可能取值數目越多(即V越大),則IV(a)的值通常就越大。**資訊增益比本質: 是在資訊增益的基礎之上乘上一個懲罰引數。特徵個數較多時,懲罰引數較小;特徵個數較少時,懲罰引數較大。**不過有一個缺點:
- 缺點:資訊增益比偏向取值較少的特徵。
使用資訊增益比:基於以上缺點,並不是直接選擇資訊增益率最大的特徵,而是現在候選特徵中找出資訊增益高於平均水平的特徵,然後在這些特徵中再選擇資訊增益率最高的特徵。
1.3.3CART演算法
數學家真實聰明,想到了另外一個表示純度的方法,叫做基尼指數(討厭的公式):
表示在樣本集合中一個隨機選中的樣本被分錯的概率。舉例來說,現在一個袋子裡有3種顏色的球若干個,伸手進去掏出2個球,顏色不一樣的概率,這下明白了吧。Gini(D)越小,資料集D的純度越高。
舉個例子
假設現在有特徵 “學歷”,此特徵有三個特徵取值: “本科”,“碩士”, “博士”,
當使用“學歷”這個特徵對樣本集合D進行劃分時,劃分值分別有三個,因而有三種劃分的可能集合,劃分後的子集如下:
1.劃分點: “本科”,劃分後的子集合 : {本科},{碩士,博士}
2.劃分點: “碩士”,劃分後的子集合 : {碩士},{本科,博士}
3.劃分點: “碩士”,劃分後的子集合 : {博士},{本科,碩士}}
對於上述的每一種劃分,都可以計算出基於 劃分特徵= 某個特徵值 將樣本集合D劃分為兩個子集的純度:
因而對於一個具有多個取值(超過2個)的特徵,需要計算以每一個取值作為劃分點,對樣本D劃分之後子集的純度Gini(D,Ai),(其中Ai 表示特徵A的可能取值)
然後從所有的可能劃分的Gini(D,Ai)中找出Gini指數最小的劃分,這個劃分的劃分點,便是使用特徵A對樣本集合D進行劃分的最佳劃分點。到此就可以長成一棵“大樹”了。
1.3.4三種不同的決策樹
-
ID3:取值多的屬性,更容易使資料更純,其資訊增益更大。
訓練得到的是一棵龐大且深度淺的樹:不合理。
-
C4.5:採用資訊增益率替代資訊增益。
-
CART:以基尼係數替代熵,最小化不純度,而不是最大化資訊增益。
1.4隨機森林(Random Forest)
Bagging思想
Bagging是bootstrap aggregating。思想就是從總體樣本當中隨機取一部分樣本進行訓練,通過多次這樣的結果,進行投票獲取平均值作為結果輸出,這就極大可能的避免了不好的樣本資料,從而提高準確度。因為有些是不好的樣本,相當於噪聲,模型學入噪聲後會使準確度不高。
舉個例子:
假設有1000個樣本,如果按照以前的思維,是直接把這1000個樣本拿來訓練,但現在不一樣,先抽取800個樣本來進行訓練,假如噪聲點是這800個樣本以外的樣本點,就很有效的避開了。重複以上操作,提高模型輸出的平均值。
隨機森林
RandomForest(隨機森林)是一種基於樹模型的Bagging的優化版本,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的特點。(可以理解成三個臭皮匠頂過諸葛亮)
而同一批資料,用同樣的演算法只能產生一棵樹,這時Bagging策略可以幫助我們產生不同的資料集。Bagging策略來源於bootstrap aggregation:從樣本集(假設樣本集N個資料點)中重取樣選出Nb個樣本(有放回的取樣,樣本資料點個數仍然不變為N),在所有樣本上,對這n個樣本建立分類器(ID3\C4.5\CART\SVM\LOGISTIC),重複以上兩步m次,獲得m個分類器,最後根據這m個分類器的投票結果,決定資料屬於哪一類。
總的來說就是隨機選擇樣本數,隨機選取特徵,隨機選擇分類器,建立多顆這樣的決策樹,然後通過這幾課決策樹來投票,決定資料屬於哪一類(投票機制有一票否決制、少數服從多數、加權多數)
優點:
-
在當前的很多資料集上,相對其他演算法有著很大的優勢,表現良好。
-
它能夠處理很高維度(feature很多)的資料,並且不用做特徵選擇(因為特徵子集是隨機選擇的)。
-
在訓練完後,它能夠給出哪些feature比較重要。
-
訓練速度快,容易做成並行化方法(訓練時樹與樹之間是相互獨立的)。
-
在訓練過程中,能夠檢測到feature間的互相影響。
-
對於不平衡的資料集來說,它可以平衡誤差。
-
如果有很大一部分的特徵遺失,仍可以維持準確度。
缺點:
-
隨機森林已經被證明在某些噪音較大的分類或迴歸問題上會過擬合。
-
對於有不同取值的屬性的資料,取值劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種資料上產出的屬性權值是不可信的。
1.5Python程式碼
.
.
.
.
歡迎新增微信交流!請備註“機器學習”。