在整合學習之Adaboost演算法原理小結中,我們對Boosting家族的Adaboost演算法做了總結,本文就對Boosting家族中另一個重要的演算法梯度提升樹(Gradient Boosting Decison Tree, 以下簡稱GBDT)做一個總結。GBDT有很多簡稱,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其實都是指的同一種演算法,本文統一簡稱GBDT。GBDT在BAT大廠中也有廣泛的應用,假如要選擇3個最重要的機器學習演算法的話,個人認為GBDT應該佔一席之地。
1. GBDT概述
GBDT也是整合學習Boosting家族的成員,但是卻和傳統的Adaboost有很大的不同。回顧下Adaboost,我們是利用前一輪迭代弱學習器的誤差率來更新訓練集的權重,這樣一輪輪的迭代下去。GBDT也是迭代,使用了前向分佈演算法,但是弱學習器限定了只能使用CART迴歸樹模型,同時迭代思路和Adaboost也有所不同。
在GBDT的迭代中,假設我們前一輪迭代得到的強學習器是$f_{t-1}(x)$, 損失函式是$L(y, f_{t-1}(x))$, 我們本輪迭代的目標是找到一個CART迴歸樹模型的弱學習器$h_t(x)$,讓本輪的損失函式$L(y, f_{t}(x) =L(y, f_{t-1}(x)+ h_t(x))$最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失儘量變得更小。
GBDT的思想可以用一個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發現損失有10歲,這時我們用6歲去擬合剩下的損失,發現差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數還沒有完,可以繼續迭代下面,每一輪迭代,擬合的歲數誤差都會減小。
從上面的例子看這個思想還是蠻簡單的,但是有個問題是這個損失的擬合不好度量,損失函式各種各樣,怎麼找到一種通用的擬合方法呢?
2. GBDT的負梯度擬合
在上一節中,我們介紹了GBDT的基本思路,但是沒有解決損失函式擬合方法的問題。針對這個問題,大牛Freidman提出了用損失函式的負梯度來擬合本輪損失的近似值,進而擬合一個CART迴歸樹。第t輪的第i個樣本的損失函式的負梯度表示為$$r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)}$$
利用$(x_i,r_{ti})\;\; (i=1,2,..m)$,我們可以擬合一顆CART迴歸樹,得到了第t顆迴歸樹,其對應的葉節點區域$R_{tj}, j =1,2,..., J$。其中J為葉子節點的個數。
針對每一個葉子節點裡的樣本,我們求出使損失函式最小,也就是擬合葉子節點最好的的輸出值$c_{tj}$如下:$$c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$$
這樣我們就得到了本輪的決策樹擬合函式如下:$$h_t(x) = \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$$
從而本輪最終得到的強學習器的表示式如下:$$f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj}) $$
通過損失函式的負梯度來擬合,我們找到了一種通用的擬合損失誤差的辦法,這樣無輪是分類問題還是迴歸問題,我們通過其損失函式的負梯度的擬合,就可以用GBDT來解決我們的分類迴歸問題。區別僅僅在於損失函式不同導致的負梯度不同而已。
3. GBDT迴歸演算法
好了,有了上面的思路,下面我們總結下GBDT的迴歸演算法。為什麼沒有加上分類演算法一起?那是因為分類演算法的輸出是不連續的類別值,需要一些處理才能使用負梯度,我們在下一節講。
輸入是訓練集樣本$T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$, 最大迭代次數T, 損失函式L。
輸出是強學習器f(x)
1) 初始化弱學習器$$f_0(x) = \underbrace{arg\; min}_{c}\sum\limits_{i=1}^{m}L(y_i, c)$$
2) 對迭代輪數t=1,2,...T有:
a)對樣本i=1,2,...m,計算負梯度$$r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)}$$
b)利用$(x_i,r_{ti})\;\; (i=1,2,..m)$, 擬合一顆CART迴歸樹,得到第t顆迴歸樹,其對應的葉子節點區域為$R_{tj}, j =1,2,..., J$。其中J為迴歸樹t的葉子節點的個數。
c) 對葉子區域j =1,2,..J,計算最佳擬合值$$c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$$
d) 更新強學習器$$f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj}) $$
3) 得到強學習器f(x)的表示式$$f(x) = f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$$
4. GBDT分類演算法
這裡我們再看看GBDT分類演算法,GBDT的分類演算法從思想上和GBDT的迴歸演算法沒有區別,但是由於樣本輸出不是連續的值,而是離散的類別,導致我們無法直接從輸出類別去擬合類別輸出的誤差。
為了解決這個問題,主要有兩個方法,一個是用指數損失函式,此時GBDT退化為Adaboost演算法。另一種方法是用類似於邏輯迴歸的對數似然損失函式的方法。也就是說,我們用的是類別的預測概率值和真實概率值的差來擬合損失。本文僅討論用對數似然損失函式的GBDT分類。而對於對數似然損失函式,我們又有二元分類和多元分類的區別。
4.1 二元GBDT分類演算法
對於二元GBDT,如果用類似於邏輯迴歸的對數似然損失函式,則損失函式為:$$L(y, f(x)) = log(1+ exp(-yf(x)))$$
其中$y \in\{-1, +1\}$。則此時的負梯度誤差為$$r_{ti} = -\bigg[\frac{\partial L(y, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)} = y_i/(1+exp(y_if(x_i)))$$
對於生成的決策樹,我們各個葉子節點的最佳負梯度擬合值為$$c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} log(1+exp(-y_i(f_{t-1}(x_i) +c)))$$
由於上式比較難優化,我們一般使用近似值代替$$c_{tj} = \sum\limits_{x_i \in R_{tj}}r_{ti}\bigg / \sum\limits_{x_i \in R_{tj}}|r_{ti}|(1-|r_{ti}|)$$
除了負梯度計算和葉子節點的最佳負梯度擬合的線性搜尋,二元GBDT分類和GBDT迴歸演算法過程相同。
4.2 多元GBDT分類演算法
多元GBDT要比二元GBDT複雜一些,對應的是多元邏輯迴歸和二元邏輯迴歸的複雜度差別。假設類別數為K,則此時我們的對數似然損失函式為:$$L(y, f(x)) = - \sum\limits_{k=1}^{K}y_klog\;p_k(x) $$
其中如果樣本輸出類別為k,則$y_k=1$。第k類的概率$p_k(x) $的表示式為:$$p_k(x) = exp(f_k(x)) \bigg / \sum\limits_{l=1}^{K} exp(f_l(x)) $$
集合上兩式,我們可以計算出第$t$輪的第$i$個樣本對應類別$l$的負梯度誤差為$$r_{til} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f_k(x) = f_{l, t-1}\;\; (x)} = y_{il} - p_{l, t-1}(x_i)$$
觀察上式可以看出,其實這裡的誤差就是樣本$i$對應類別$l$的真實概率和$t-1$輪預測概率的差值。
對於生成的決策樹,我們各個葉子節點的最佳負梯度擬合值為$$c_{tjl} = \underbrace{arg\; min}_{c_{jl}}\sum\limits_{i=0}^{m}\sum\limits_{k=1}^{K} L(y_k, f_{t-1, l}(x) + \sum\limits_{j=0}^{J}c_{jl} I(x_i \in R_{tj}))$$
由於上式比較難優化,我們一般使用近似值代替$$c_{tjl} = \frac{K-1}{K} \; \frac{\sum\limits_{x_i \in R_{tjl}}r_{til}}{\sum\limits_{x_i \in R_{til}}|r_{til}|(1-|r_{til}|)}$$
除了負梯度計算和葉子節點的最佳負梯度擬合的線性搜尋,多元GBDT分類和二元GBDT分類以及GBDT迴歸演算法過程相同。
5. GBDT常用損失函式
這裡我們再對常用的GBDT損失函式做一個總結。
對於分類演算法,其損失函式一般有對數損失函式和指數損失函式兩種:
a) 如果是指數損失函式,則損失函式表示式為$$L(y, f(x)) = exp(-yf(x))$$
其負梯度計算和葉子節點的最佳負梯度擬合參見Adaboost原理篇。
b) 如果是對數損失函式,分為二元分類和多元分類兩種,參見4.1節和4.2節。
對於迴歸演算法,常用損失函式有如下4種:
a)均方差,這個是最常見的迴歸損失函式了$$L(y, f(x)) =(y-f(x))^2$$
b)絕對損失,這個損失函式也很常見$$L(y, f(x)) =|y-f(x)|$$
對應負梯度誤差為:$$sign(y_i-f(x_i))$$
c)Huber損失,它是均方差和絕對損失的折衷產物,對於遠離中心的異常點,採用絕對損失,而中心附近的點採用均方差。這個界限一般用分位數點度量。損失函式如下:
$$L(y, f(x))=
\begin{cases}
\frac{1}{2}(y-f(x))^2& {|y-f(x)| \leq \delta}\\
\delta(|y-f(x)| - \frac{\delta}{2})& {|y-f(x)| > \delta}
\end{cases}$$
對應的負梯度誤差為:
$$r(y_i, f(x_i))=
\begin{cases}
y_i-f(x_i)& {|y_i-f(x_i)| \leq \delta}\\
\delta sign(y_i-f(x_i))& {|y_i-f(x_i)| > \delta}
\end{cases}$$
d) 分位數損失。它對應的是分位數迴歸的損失函式,表示式為$$L(y, f(x)) =\sum\limits_{y \geq f(x)}\theta|y - f(x)| + \sum\limits_{y < f(x)}(1-\theta)|y - f(x)| $$
其中$\theta$為分位數,需要我們在迴歸前指定。對應的負梯度誤差為:
$$r(y_i, f(x_i))=
\begin{cases}
\theta& { y_i \geq f(x_i)}\\
\theta - 1 & {y_i < f(x_i) }
\end{cases}$$
對於Huber損失和分位數損失,主要用於健壯迴歸,也就是減少異常點對損失函式的影響。
6. GBDT的正則化
和Adaboost一樣,我們也需要對GBDT進行正則化,防止過擬合。GBDT的正則化主要有三種方式。
第一種是和Adaboost類似的正則化項,即步長(learning rate)。定義為$\nu$,對於前面的弱學習器的迭代$$f_{k}(x) = f_{k-1}(x) + h_k(x) $$
如果我們加上了正則化項,則有$$f_{k}(x) = f_{k-1}(x) + \nu h_k(x) $$
$\nu$的取值範圍為$0 < \nu \leq 1 $。對於同樣的訓練集學習效果,較小的$\nu$意味著我們需要更多的弱學習器的迭代次數。通常我們用步長和迭代最大次數一起來決定演算法的擬合效果。
第二種正則化的方式是通過子取樣比例(subsample)。取值為(0,1]。注意這裡的子取樣和隨機森林不一樣,隨機森林使用的是放回抽樣,而這裡是不放回抽樣。如果取值為1,則全部樣本都使用,等於沒有使用子取樣。如果取值小於1,則只有一部分樣本會去做GBDT的決策樹擬合。選擇小於1的比例可以減少方差,即防止過擬合,但是會增加樣本擬合的偏差,因此取值不能太低。推薦在[0.5, 0.8]之間。
使用了子取樣的GBDT有時也稱作隨機梯度提升樹(Stochastic Gradient Boosting Tree, SGBT)。由於使用了子取樣,程式可以通過取樣分發到不同的任務去做boosting的迭代過程,最後形成新樹,從而減少弱學習器難以並行學習的弱點。
第三種是對於弱學習器即CART迴歸樹進行正則化剪枝。在決策樹原理篇裡我們已經講過,這裡就不重複了。
7. GBDT小結
GBDT終於講完了,GDBT本身並不複雜,不過要吃透的話需要對整合學習的原理,決策樹原理和各種損失函樹有一定的瞭解。由於GBDT的卓越效能,只要是研究機器學習都應該掌握這個演算法,包括背後的原理和應用調參方法。目前GBDT的演算法比較好的庫是xgboost。當然scikit-learn也可以。
最後總結下GBDT的優缺點。
GBDT主要的優點有:
1) 可以靈活處理各種型別的資料,包括連續值和離散值。
2) 在相對少的調參時間情況下,預測的準確率也可以比較高。這個是相對SVM來說的。
3)使用一些健壯的損失函式,對異常值的魯棒性非常強。比如 Huber損失函式和Quantile損失函式。
GBDT的主要缺點有:
1)由於弱學習器之間存在依賴關係,難以並行訓練資料。不過可以通過自取樣的SGBT來達到部分並行。
以上就是GBDT的原理總結,後面會講GBDT的scikit-learn調參,敬請期待。
(歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com)