春節不斷電之機器學習 —— 決策樹

Binboy_王興彬發表於2017-01-25

簡介

機器學習中,決策樹是一個預測模型,代表物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件,而每個分叉路徑則代表某個可能的屬性值,每個葉節點則對應從根節點到該葉節點所經歷的路徑表示的物件的值。決策樹僅有單一輸出。

提出問題

光看概念會比較抽象,那麼舉個實際中的問題來幫助理解。

現在我們需要為使用者推薦應用,針對不同使用者我們要向其推薦最有可能下載的應用。這是一個十分常見的應用場景。

觀察資料

以下有一張用來制定推薦規則時參考的資料表

春節不斷電之機器學習 —— 決策樹

表中資料可以觀察到,其中有6組示例使用者資料,分別記錄了他們的性別、年齡與下載過的應用。

那麼,針對以上資料表,性別和年齡哪個特性對預測使用者會下載哪個應用更有效?

不難看出,年齡會是更有效的參考指標。假設用性別區分使用者,會發現女性使用者既下載了Pokeman Go也下載了WhatsApp,而男性使用者也下載了PokemanGo,另外還下載了SnapChat,因此體現不出明顯差異。用年齡區分使用者則很容易發現,20歲以下的年輕使用者群體都下載了PokemanGo。接下來,將20歲以下的示例使用者資料排除,剩下20歲以上使用者則可以用性別再去判斷,女性普遍下載WhatsApp,男性普遍下載SnapChat。

繪製決策樹

通過分析資料表,我們便可以得出以下決策樹,到此決策樹的概念也就不難理解了。

春節不斷電之機器學習 —— 決策樹

通過大資料得出了決策樹,之後便可以根據不同目標使用者的不同屬性值,有針對性進行應用的精準推薦了。

參考

決策樹——Wikipedia
機器學習奈米學位課程——Udacity

相關文章