機器學習之-決策樹演算法【人工智慧工程師--AI轉型必修課】

CSDN學院發表於2020-04-04

【我們們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習,適合對數學很頭疼的同學們,小板凳走起!

這裡寫圖片描述決策樹模型是機器學習中最經典的演算法之一啦,用途之廣泛我就不多吹啦,其實很多機器學習演算法都是以樹模型為基礎的,比如隨機森林,Xgboost等一聽起來就是很牛逼的演算法(其實用起來也很牛逼)。

首先我們來看一下在上面的例子中我想根據人的年齡和性別(兩個特徵)對5個人(樣本資料)進行決策,看看他們喜不喜歡玩電腦遊戲。首先根據年齡(根節點)進行了一次分支決策,又對左節點根據性別進行了一次分支決策,這樣所有的樣本都落到了最終的葉子節點,可以把每一個葉子節點當成我們最終的決策結果(比如Y代表喜歡玩遊戲,N代表不喜歡玩遊戲)。這樣我們就通過決策樹完成了非常簡單的分類任務!

這裡寫圖片描述再來看一下樹的組成,主要結構有根節點(資料來了之後首先進行判斷的特徵),非葉子節點(中間的一系列過程),葉子節點(最終的結果),這些都是我們要建立的模組!

這裡寫圖片描述在決策中樹中,我們剛才的喜歡玩電腦遊戲的任務看起來很簡單嘛,從上往下去走不就OK了嗎!但是難點在於我們該如何構造這棵決策樹(節點的選擇以及切分),這個看起來就有些難了,因為當我們手裡的資料特徵比較多的時候就該猶豫了,到底拿誰當成是根節點呢?

這裡寫圖片描述這個就是我們最主要的問題啦,節點究竟該怎麼選呢?不同的位置又有什麼影響?怎麼對特徵進行切分呢?一些到這,我突然想起來一個段子,我們們來樂呵樂呵!
這裡寫圖片描述
武林外傳中這個段子夠我笑一年的,其實我們們在推導機器學習演算法的時候,也需要這麼去想想,只有每一步都是有意義的我們才會選擇去使用它。迴歸正題,我們選擇的根節點其實意味著它的重要程度是最大的,相當於大當家了,因為它會對資料進行第一次切分,我們需要把最重要的用在最關鍵的位置,在決策樹演算法中,為了使得演算法能夠高效的進行,那麼一開始就應當使用最有價值的特徵。

這裡寫圖片描述接下來我們們就得嘮嘮如何選擇大當家了,我們提出了一個概念叫做熵(不是我提出的。。。穿山甲說的),這裡並不打算說的那麼複雜,一句話解釋一下,熵代表你經過一次分支之後分類的效果的好壞,如果一次分支決策後都屬於一個類別(理想情況下,也是我們的目標)這時候我們認為效果很好嘛,那熵值就很低。如果分支決策後效果很差,什麼類別都有,那麼熵值就會很高,公式已經給出,log函式推薦大家自己畫一下,然後看看概率[0,1]上的時候log函式值的大小(你會豁然開朗的)。

這裡寫圖片描述不確定性什麼時候最大呢?模稜兩可的的時候(就是你猶豫不決的時候)這個時候熵是最大的,因為什麼類別出現的可能性都有。那麼我們該怎麼選大當家呢?(根節點的特徵)當然是希望經過大當家決策後,熵值能夠下降(意味著類別更純淨了,不那麼混亂了)。在這裡我們提出了一個詞叫做資訊增益(就當是我提出的吧。。。),資訊增益表示經過一次決策後整個分類後的資料的熵值下降的大小,我們希望下降越多越好,理想情況下最純淨的熵是等於零的。

這裡寫圖片描述一個栗子:準備一天一個哥們打球的時候,包括了4個特徵(都是環境因素)以及他最終有木有去打球的資料。

第一個問題:大當家該怎麼選?也就是我們的根節點用哪個特徵呢?
這裡寫圖片描述
一共有4個特徵,看起來好像用誰都可以呀,這個時候就該比試比試了,看看誰的能力強(使得熵值能夠下降的最多)

這裡寫圖片描述在歷史資料中,首先我們可以算出來當前的熵值,計算公式同上等於0.940,大當家的競選我們逐一來分析,先看outlook這個特徵,上圖給出了基於天氣的劃分之後的熵值,計算方式依舊同上,比如outlook=sunny時,yes有2個,no有三個這個時候熵就直接將2/5和3/5帶入公式就好啦。最終算出來了3種情況下的熵值。

這裡寫圖片描述再繼續來看!outlook取不同情況的概率也是不一樣的,這個是可以計算出來的相當於先驗概率了,直接可以統計出來的,這個也需要考慮進來的。然後outlook競選大當家的分值就出來啦(就是資訊增益)等於0.247。同樣的方法其餘3個特徵的資訊增益照樣都可以計算出來,誰的資訊增益多我們就認為誰是我們的大當家,這樣就完成了根節點的選擇,接下來二當家以此類推就可以了!

這裡寫圖片描述我們剛才給大家講解的是經典的ID3演算法,基於熵值來構造決策樹,現在已經有很多改進,比如資訊增益率和CART樹。簡單來說一下資訊增益率吧,我們再來考慮另外一個因素,如果把資料的樣本編號當成一個特徵,那麼這個特徵必然會使得所有資料完全分的開,因為一個樣本只對應於一個ID,這樣的熵值都是等於零的,所以為了解決這類特徵引入了資訊增益率,不光要考慮資訊增益還要考慮特徵自身的熵值。說白了就是用 資訊增益/自身的熵值 來當做資訊增益率。

這裡寫圖片描述我們剛才討論的例子中使用的是離散型的資料,那連續值的資料咋辦呢?通常我們都用二分法來逐一遍歷來找到最合適的切分點!

這裡寫圖片描述下面再來嘮一嘮決策樹中的剪枝任務,為啥要剪枝呢?樹不是好好的嗎,剪個毛線啊!這個就是機器學習中老生常談的一個問題了,過擬合的風險,說白了就是如果一個樹足夠龐大,那麼所有葉子節點可能只是一個資料點(無限制的切分下去),這樣會使得我們的模型泛化能力很差,在測試集上沒辦法表現出應有的水平,所以我們要限制決策樹的大小,不能讓枝葉太龐大了。

這裡寫圖片描述
最常用的剪枝策略有兩種:
(1)預剪枝:邊建立決策樹邊開始剪枝的操作
(2)後剪枝:建立完之後根據一定的策略來修建

這些就是我們的決策樹演算法啦,其實還蠻好的理解的,從上到下基於一種選擇標準(熵,GINI係數)來找到最合適的當家的就可以啦!

機器學習30天系統掌握【升級】

講師介紹:
唐宇迪,計算機博士,專注於機器學習與計算機視覺領域,深度學習領域一線實戰專家,善於實現包括人臉識別,物體識別,關鍵點檢測等多種應用的最新演算法。參與多個國家級計算機視覺專案,多年資料領域培訓經驗,豐富的教學講解經驗,出品多套機器學習與深度學習系列課程,課程生動形象,風格通俗易懂。

課程介紹:
這將是你成為機器學習工程師的最佳實踐指南,通過30天實訓,層層遞進,徹底掌握機器學習!
知識系統性歸納+實時答疑+原始碼共享+案例實戰,五大模組的支撐,這才是從零入門的正確開啟方式!課程分為四個階段:基礎講解+演算法進階+案例實戰+行業應用。全程採用案例實戰,為快速與實際專案接軌打定基礎!
課程從機器學習經典演算法的數學原理推導與例項講解,通過原理分析,通俗解讀,案例實戰讓大家快速掌握機器學習經典演算法原理推導與工作流程,掌握Python資料分析與建模庫使用方法,從案例角度思考如何應用及其學習演算法解決實際問題。

目標人群:
1. 適合零基礎!對機器學習感興趣,或致力於從事人工智慧領域的開發者!
2. N+知識點+手把手掌握+原始碼共享+實時答疑,系統性學習與消化!
3. 全程案例實戰,從案例中學習,事半功倍!報名就贈:Python機器學習必備庫!全程金牌輔導!

課程特色:
專屬答疑+課件資料提供+視訊無限時回放+VIP交流群

開課時間:
隨到隨學,自由支配

點我試看: http://edu.csdn.net/course/detail/6108

相關文章