隨機森林的祕密

dicksonjyl560101發表於2018-07-30

http://blog.itpub.net/31509949/viewspace-2158398/


你瞭解隨機森林演算法嗎?你對隨機森林演算法瞭解到了怎樣的一個程度?如果你不甚瞭解或者某一地方存有疑惑,那麼這篇文章你一定不能錯過。


隨機森林演算法的祕密


本文分為六個部分:

  1. 什麼是隨機森林演算法?

  2. 隨機森林演算法在生活中的具體應用

  3. 隨機森林演算法是如何工作的?

  4. 隨機森林演算法的科學性

  5. 隨機森林一些應用方面

  6. 隨森林演算法的一些利弊

什麼是隨機森林演算法?

隨機森林演算法是用於分類和迴歸問題的常用演算法。在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的眾數而決定的。

假設一個訓練集為[A,B,C,D],對應的標籤是[R1,R2,R3,R4]。

隨機森林建立三個決策樹的子集輸入,例如

樹1=[A,B,C]

樹2=[A,B,D]

樹3=[B,C,D]

最後,基於每個決策樹節點的多數票進行預測。

在隨機Forrest演算法中,為了建立多個決策樹,我們常使用的演算法有:資訊增益、熵和增益。

隨機森林演算法的祕密


一些生活中的具體應用

假設我們想買一隻智慧手錶,我們會像身邊的朋友徵求意見。他會問你,你喜歡哪種手錶,並問你可以承受的價位。基於以上的問題,我們的朋友會做出恰當的推薦。而中間的這個過程就是對決策樹(隨機森林演算法)的一種具體的、生動的應用。

我們一般會想徵求更多朋友的意見,以便獲得更加全面的參考。

你應該知道以下要點:

在上面的例項中,朋友根據你的要求給出了他們的答案。你在眾多的答案中選擇了一個最符合你心意的,並買了那款智慧手錶。而這一系列的步驟,就是對隨機森林演算法的具體應用。

隨機森林演算法是如何工作的?

我們的模型中會有很多棵樹,每一棵樹都代表著不同的分裂。

隨機森林演算法有兩個階段,一個是隨機森林生成階段,另一個階段是從第一階段建立的隨機森林分類器中進行預測。

訓練步驟:

在決策樹中進行"多數票"表決。

隨機森林演算法的祕密


偽碼:

每棵樹的生長規劃如下:

  1. 假設訓練集中的樣本數為N,我們現在從這N個樣本中進行隨機抽取。如果樣本是輸入變數,那麼替換後的樣本將作為樹生長的訓練集。

  2. 如果存在M個輸入變數或特徵,並指定一個數字m<M。我們需要在每個節點上隨機從M中選擇m個變數,m將作為M上的最佳分割節點。

  3. 每棵樹都儘可能地生長,沒有修剪。

通過對n棵樹的預測來得出新的預測資料。

Scikit隨機森林

第一部分:資料預處理

隨機森林演算法的祕密


隨機森林演算法的祕密


隨機森林演算法的祕密


第二部分:隨機森林分類器模型的建立

隨機森林演算法的祕密


隨機森林演算法的祕密


第三部分:預測和精度結果

隨機森林演算法的祕密


隨機森林的應用

銀行業:

隨機森林演算法在銀行方面的主要應用是用來創立使用者的誠信檔案。方便誠信使用者進行大金額貸款並對失信使用者做出一系列制裁。

醫學:

隨機森林演算法既可以識別藥物成分的正確組合,也可以通過分析病人的病歷來識別病人可能患哪種疾病。

股票市場:

隨機森林演算法可以用來預測股票的漲跌趨勢。

電子商務:

隨機森林演算法可以根據相似客戶的購買經歷預測某客戶是否喜歡該產品。

隨機森林演算法的利弊

優點:

  1. 隨機森林也可用於分類和迴歸問題。

  2. 處理缺失值並保持丟失資料的準確性。

缺點:

  1. 有利於分類,但不利於迴歸,因為不能預測超出範圍的資料。

  2. 你很難控制模型的損失。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2168607/,如需轉載,請註明出處,否則將追究法律責任。

相關文章