第九篇：隨機森林(Random Forest)

穆晨發表於2017-05-20

隨機森林randomREST

前言

隨機森林非常像《機器學習實踐》裡面提到過的那個AdaBoost演算法，但區別在於它沒有迭代，還有就是森林裡的樹長度不限制。

因為它是沒有迭代過程的，不像AdaBoost那樣需要迭代，不斷更新每個樣本以及子分類器的權重。因此模型相對簡單點，不容易出現過擬合。

下面先來講講它的具體框架流程。

框架流程

隨機森林可以理解為Cart樹森林，它是由多個Cart樹分類器構成的整合學習模式。其中每個Cart樹可以理解為一個議員，它從樣本集裡面隨機有放回的抽取一部分進行訓練，這樣，多個樹分類器就構成了一個訓練模型矩陣，可以理解為形成了一個議會吧。

然後將要分類的樣本帶入這一個個樹分類器，然後以少數服從多數的原則，表決出這個樣本的最終分類型別。

設有N個樣本，M個變數(維度)個數，該演算法具體流程如下：

1. 確定一個值m，它用來表示每個樹分類器選取多少個變數。(注意這也是隨機的體現之一)
2. 從資料集中有放回的抽取 k 個樣本集，用它們建立 k 個樹分類器。另外還伴隨生成了 k 個袋外資料，用來後面做檢測。
3. 輸入待分類樣本之後，每個樹分類器都會對它進行分類，然後所有分類器按照少數服從多數原則，確定分類結果。

效能制約

1. 森林中的每個樹越茂盛，分類效果就越好。
2. 樹和樹的枝葉穿插越多，分類效果就越差。

重要引數

1. 預選變數個數 (即框架流程中的m)；
2. 隨機森林中樹的個數。

這兩個引數的調優非常關鍵，尤其是在做分類或迴歸的時候。

構建隨機森林模型

函式名：randomForest(......)；

函式重要引數說明：

- x，y引數自然是特徵矩陣和標籤向量；

- na.action：是否忽略有缺失值的樣本；

- ntree：樹分類器的個數。500-1000為佳；

- mtry：分枝的變數選擇數；

- importance：是否計算各個變數在模型中的重要性(後面會提到)。

構建好模型之後，帶入predict函式和待預測資料集就可得出預測結果。然而，R語言中對隨機森林這個機制的支援遠遠不止簡單的做分類這麼簡單。它還提供以下這幾個功能，在使用這些功能之前，都要先呼叫randomForest函式架構出模型。

使用隨機森林進行變數篩選

之前的文章提到過使用主成分分析法PCA，以及因子分析EFA，但是這兩種方法都有各自的缺點。它們都是屬於變數組合技術，會形成新的變數，之後一般還需要一個解釋的階段。

對於一些解釋起來比較麻煩，以及情況不是很複雜的情況，直接使用隨機森林進行特徵選擇就可以了，下面為具體步驟：

執行這個指令碼後：

其中的兩列是衡量變數重要性的指標，越高表示該變數對分類的影響越大。第一列是根據精度平均減少值作為標準度量，而第二列則是採用節點不純度的平均減少值作為度量標準。

重要度的計量方法參考下圖（摘自百度文庫）：

使用隨機森林繪製MDS二維圖

通過MDS圖我們能大致看出哪些類是比較容易搞混的：

生成下圖：

可以看出，第二列第三列存在著容易混淆的情況。

小結

R語言包中提供的隨機森林功能包還有很多，對於調優很有幫助，請務必查詢相關資料並掌握。

另外，部分變種的隨機森林演算法還可以用來做迴歸。

機器學習演算法系列（十八）-隨機森林演算法（Random Forest Algorithm）
2022-02-23
機器學習演算法隨機森林randomRESTGo
Bagging（Bootstrap aggregating）、隨機森林（random forests）、AdaBoost
2018-04-02
boot隨機森林randomREST
Machine Learning（13）- Random Forest
2019-06-12
MacrandomREST
Segmentation of retinal OCT images using a random forest classifier
2020-12-30
SegmentationrandomREST
R：microtable包隨機森林
2024-06-13
隨機森林
隨機森林演算法
2019-03-11
隨機森林演算法
隨機森林的祕密
2018-07-30
隨機森林
隨機森林、EM、HMM、LDA
2018-03-27
隨機森林HMMLDA
ML《決策樹（四）Bagging 和 Random Forest》
2021-01-02
randomREST
隨機數種子(random seed)
2021-07-26
隨機random
隨機森林和機器學習
2018-12-14
隨機森林機器學習
決策樹和隨機森林
2020-12-11
隨機森林
隨機森林演算法梳理
2019-03-01
隨機森林演算法
Python生成隨機數random模組
2018-10-02
Python隨機random
6. 整合學習&隨機森林
2020-10-26
隨機森林
Python隨機函式random使用詳解
2023-03-31
Python隨機函式random
Java如何生成隨機數 - Random、ThreadLocalRandom、SecureRandom
2021-12-14
Java隨機randomthread
LevelDB 原始碼解析之 Random 隨機數
2021-03-30
原始碼random隨機
C# 生成隨機數，呼叫Random方法
2018-10-16
C#隨機random
林軒田機器學習技法課程學習筆記10 — Random Forest
2018-07-28
機器學習筆記randomREST
隨機森林R語言預測工具
2024-07-01
隨機森林R語言
隨機森林演算法深入淺出
2023-04-08
隨機森林演算法
一句話總結隨機森林
2018-09-19
隨機森林
【機器學習】--決策樹和隨機森林
2018-03-27
機器學習隨機森林
python–模組之random隨機數模組
2018-10-17
Pythonrandom隨機
聊聊基於Alink庫的隨機森林模型
2023-10-02
隨機森林模型
隨機森林n_estimators 學習曲線
2023-04-05
隨機森林
【機器學習】整合學習——Bagging與隨機森林
2021-09-09
機器學習隨機森林
生成隨機字串應該用random_bytes還是openssl_random_pseudo_bytes
2020-11-18
隨機字串random
【C#】比較 Random 與 RandomNumberGenerator 生成隨機字串
2020-04-02
C#random隨機字串
隨機森林演算法原理與Python實現
2024-04-28
隨機森林演算法Python
隨機森林VS神經網路：哪個更好？
2019-06-11
隨機森林神經網路
python 使用 random模組生成隨機測試資料
2024-07-23
Pythonrandom隨機
JAVA中生成隨機數Random VS ThreadLocalRandom效能比較
2022-12-14
Java隨機randomthread
Random 專案總結 -11 產生隨機數字
2024-04-20
random隨機
random隨機生成10個數，然後氣泡排序
2019-09-20
random隨機排序
Python 隨機（random）模組的不可預測之美
2022-03-01
Python隨機random
概率論與梳理統計-隨機變數random variables
2020-12-04
隨機變數random
Bagging與隨機森林(RF)演算法原理總結
2020-08-22
隨機森林演算法