機器學習 | 詳解GBDT在分類場景中的應用原理與公式推導

TechFlow2019發表於2020-08-17

原文網址 : https://www.cnblogs.com/techflow/p/13517106.html

本文始發於個人公眾號：TechFlow，原創不易，求個關注

今天是機器學習專題的第31篇文章，我們一起繼續來聊聊GBDT模型。

在上一篇文章當中，我們學習了GBDT這個模型在迴歸問題當中的原理。GBDT最大的特點就是對於損失函式的降低不是通過調整模型當中已有的引數實現的，若是通過訓練新的CART決策樹來逼近的。也就是說是通過增加引數而不是調整引數來逼近損失函式最低點。

如果對於這部分不是很理解的話，可以通過下方的連結回顧一下之前的內容：

機器學習 | 詳解GBDT梯度提升樹原理，看完再也不怕面試了

邏輯迴歸損失函式

在我們開始GBDT模型原理的講解和推導之前，我們先來回顧一下邏輯迴歸當中的相關公式和概念。

首先，我們先來寫出邏輯迴歸的預測函式：

\[h_{\theta}(x) = \frac{1}{1 + e^{-\theta^Tx}} \]

影像畫出來是這樣的，其中的$h_{\theta}(x)$表示表示了模型預測x這個樣本屬於類別1的概率。

在二分類問題當中，只有0和1兩個類別，兩個類別的概率只和為1。所以我們可以得到$P(y=0|x;\theta)=1 - h_{\theta}(x)$。

我們希望模型在y=0的時候，使得$1 - h_{\theta}(x)$儘量大，否則則使得$h_{\theta}(x)$儘量大，我們用指數的形式把兩者綜合寫出了它的損失函式L。

\[l(\theta) = -h_{\theta}(x)^y(1 - h_{\theta}(x))^{1-y} \]

這個值涉及到指數，計算起來不太方便，所以我們會對它求對數進行簡化。等式兩邊都取對數之後，可以得到：

\[L(\theta)=log(l(\theta))=-\sum_{i=1}^N[y_i\log h_{\theta}(x_i)+(1 - y_i)\log (1 - h_{\theta}(x_i))] \]

這個就是邏輯迴歸損失函式的由來。

GBDT二分類

我們將GBDT模型應用在二分類的場景當中的原理其實和邏輯迴歸一樣，只不過在邏輯迴歸當中$h_{\theta}(x)$是一個線性函式，而在GBDT當中，$h_{\theta} = \sum_{m=1}^M f_m(x)$，是一個加法模型。

在GBDT的迴歸問題當中，$h_{\theta}$就是GBDT產出的最後結果，而在二分類問題當中，我們還需要對這個結果加上一個sigmoid函式。我們令上面的$h_{\theta}$為$F_M(x)$，所以模型可以表達為：

\[P(y=1|x) = \frac{1}{1 + e^{-F_M(x)}} \]

我們把這個式子帶入邏輯迴歸的損失函式當中，可以得到：

\[\begin{aligned} L(x_i, y_i | F_M(x)) &= -y_i\log (\frac{1}{1 + e^{-F_M(x_i)}}) - (1 - y_i)\log (1 - \frac{1}{1 + e^{-F_M(x_i)}} )\\ &= y_i \log(1 + e^{-F_M(x_i)}) + (1 - y_i)[F_M(x_i) + \log (1 + e^{-F_M(x_i)})] \end{aligned} \]

我們對損失函式計算負梯度，也即計算$L(x, y |F_M(X))$對$F_M(x)$的偏導：

\[-\frac{\partial L}{\partial F_M} = y_i - \frac{1}{1 + e^{-F_M(x)}} = y_i - \hat{y_i} \]

這個負梯度也就是我們常說的殘差，這個殘差的結果和我們之前在迴歸問題當中的推導結果非常近似。它表示預測概率和真實概率的概率差，這個殘差就是下一棵CART樹的訓練目標。

訓練過程

我們再把模型訓練的整個過程給整理一下，把所有的細節串聯起來。

首先我們先明確幾個引數，M表示決策樹的數量。$F_m(x_i)$表示第m輪訓練之後的整體，$F_m(x_i)$即為最終輸出的GBDT模型。

初始化

首先，我們建立第一棵迴歸樹即$f_1(x)$，在二分類問題當中，它是先驗資訊，所以：

\[f_1(x) = \log \frac{p1}{1-p1}$$，p1表示**樣本中類別1的比例** \]
i. 對於第2到第m棵迴歸樹，我們要計算出每一棵樹的訓練目標，也就是前面結果的殘差：

\[r_{mi}=-[\frac{\partial L(y_i, f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m-1}(x)}=y_i - \hat{y_i} \]
ii. 對於當前第m棵子樹而言，我們需要遍歷它的可行的切分點以及閾值，找到最優的預測值c對應的引數，使得儘可能逼近殘差，我們來寫出這段公式：

\[c_{mj}=\mathop{\arg\min}_{c} \ \ \ \sum_{x_i\in R_{mj}}L(y_i, f_{m-1}(x_i) + c) \]
這裡的$R_{mj}$指的是第m棵子樹所有的劃分方法中葉子節點預測值的集合，也就是第m棵迴歸樹可能達到的預測值。其中j的範圍是1,2,3...J。

接著，我們更新$f_m(x) = f_{m-1}(x) + \sum_{j=1}^J c_{mj}I(x \in R_{mj})$，這裡的I是一個函式，如果樣本落在了$R_{mj}$節點上，那麼I=1，否則I=0。
我們得到

\[F_M(x) = f_M(x) = \sum_{m=1}^Mf_m(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj}I(x \in R_{mj}) \]
某條樣本類別為1的概率為：

\[P(x_i) = \frac{1}{1 + e^{-F_M(x_i)}} \]

多分類問題

二分類的問題解決了，多分類也並不困難，其實也只是二分類的一個簡單擴充。

我們假設樣本的類別數量是k，那麼我們需要k個不同的樹集合來擬合每個類別的概率。我們寫出類別q的概率的公式：

\[P(y=q|x) = \frac{e^{F_q(x)}}{\sum_{i=1}^k e^{F_i(x)}} \]

softmax函式的損失函式為：$L = -\sum y_i \log(P(y_i | x))$，雖然從公式裡看這是一個求和值，但是對於多分類問題來說，只會有一個類別為1，其餘均為0，所以只會有一項不為0，我們假設這一項為q。我們代入求出它的負梯度：

\[-\frac{\partial L}{\partial F_q} = y_q - \frac{e^{F_q(x)}}{\sum_{i=1}^k e^{F_i(x)}}= y_q - \hat{y_q} \]

可見在多分類問題當中，這k個樹集合同樣是擬合真實的樣本標籤與預測的概率的差值，本質上和二分類問題是一樣的。

總結

到這裡，關於GBDT在分類場景當中的原理我們也介紹完了。其實整篇推倒下來，無論是過程和結果都和迴歸問題大同小異。只不過由於分類問題用到了sigmoid函式，使得計算偏導以及殘差的過程稍稍複雜了一些，其他並沒有什麼本質差別。

從今天的文章當中我們也可以看出來，GBDT模型適用的範圍很廣，迴歸、二分類以及多分類問題都可以適用，是一個非常強大的模型。也正因此，它在深度學習興起之前一度非常流行，基於它也衍生出了許多的改進的版本和應用。比如XGboost，GBDT + LR等等。也因此在面試的時候經常會問到其中的問題，如果有準備面試的同學，建議一定要將原理吃透哦。

今天的文章到這裡就結束了，如果喜歡本文的話，請來一波素質三連，給我一點支援吧（關注、轉發、點贊）。

機器學習在客戶管理場景中的應用
2018-10-22
機器學習
機器學習在交通標誌檢測與精細分類中的應用
2019-07-24
機器學習
[機器學習 ]RandomForest、GBDT、XGBoost、lightGBM 原理與區別
2021-01-04
機器學習randomREST
Java 讀寫鎖 ReadWriteLock 原理與應用場景詳解
2022-09-30
Java
Zookeeper基礎原理&應用場景詳解
2021-04-21
機器學習 | 詳解GBDT梯度提升樹原理，看完再也不怕面試了
2020-08-06
機器學習梯度面試
從零開始學機器學習——分類器詳解
2024-10-16
機器學習
【機器學習】--GBDT演算法從初始到應用
2018-04-09
機器學習演算法
機器學習在銷售報價單的產品推薦場景中的作用
2018-09-04
機器學習
各種機器學習演算法的應用場景分別是什麼？
2018-11-23
機器學習演算法
【人工智慧】各種機器學習的應用場景分別是什麼？
2018-04-18
人工智慧機器學習
Java反射詳解：入門+使用+原理+應用場景
2022-01-14
Java反射
機器學習在高德地圖軌跡分類的探索和應用
2020-10-16
機器學習地圖
機器學習的技術原理、應用與挑戰
2024-04-01
機器學習
《機器學習Python實現_10_06_整合學習_boosting_gbdt分類實現》
2021-05-05
機器學習Python
機器學習在金融比賽中的應用
2019-02-16
機器學習
機器學習在SAP Cloud for Customer中的應用
2018-09-10
機器學習Cloud
機器學習入門：極度舒適的GBDT原理拆解
2020-07-04
機器學習
機器學習 | 深入SVM原理及模型推導（一）
2020-08-26
機器學習模型
【長篇乾貨】深度學習在文字分類中的應用
2018-04-04
深度學習文字分類
在物聯網中應用機器學習
2019-02-28
機器學習
FIBOS DAPP 應用場景詳解
2019-02-16
APP
Redis詳解以及Redis的應用場景
2018-08-15
Redis
深度模型DNN在個性化推薦場景中的應用
2019-03-01
模型DNN
SAP Leonardo圖片處理相關的機器學習服務在SAP智慧服務場景中的應用
2019-09-28
機器學習
解鎖「SOAR」在不同場景下的應用與實踐
2021-05-25
AI助手：Agent工作流程與應用場景詳解
2024-06-07
AI
Flink基本原理與應用場景
2019-04-11
Apache Hudi在Hopworks機器學習的應用
2021-07-04
Apache機器學習
深度學習的優化器（各類 optimizer 的原理、優缺點及數學推導）
2021-06-30
深度學習優化
機器學習之GBDT(簡單理解)
2018-03-05
機器學習
學習Source Generators之瞭解Source Generators的應用場景
2024-04-12
Debias 技術在金融推薦場景下的應用
2023-03-28
詳解數倉中sequence的應用場景及最佳化
2023-03-09
擴散模型在機器學習中的應用及其挑戰
2024-08-04
模型機器學習
【機器學習】支援向量機分類
2022-07-13
機器學習
史丹佛大學-機器學習的動機與應用
2018-05-26
機器學習
機器學習常用的分類器比較
2018-04-02
機器學習

機器學習 | 詳解GBDT在分類場景中的應用原理與公式推導

邏輯迴歸損失函式

GBDT二分類

訓練過程

多分類問題

總結

相關文章