資料分析利器：XGBoost演算法最佳解析

hellozhxy發表於2020-12-10

原文網址 : https://blog.csdn.net/hellozhxy/article/details/110952680

XGBoost是一種經典的整合式提升演算法框架，具有訓練效率高、預測效果好、可控引數多、使用方便等特性，是大資料分析領域的一柄利器。在實際業務中，XGBoost經常被運用於使用者行為預判、使用者標籤預測、使用者信用評分等專案中。XGBoost演算法框架涉及到比較多數學公式和優化技巧，比較難懂，容易出現一知半解的情況。由於XGBoost在資料分析領域實在是太經典、太常用，最近帶著敬畏之心，對陳天奇博士的Paper和XGBoost官網重新學習了一下，基於此，本文對XGBoost演算法的來龍去脈進行小結。

本文重點解析XGBoost演算法框架的原理，希望通過本文能夠洞悉XGBoost核心演算法的來龍去脈。對於XGBoost演算法，最先想到的是Boosting演算法。Boosting提升演算法是一種有效且被廣泛使用的模型訓練演算法，XGBoost也是基於Boosting來實現。Boosting演算法思想是對弱分類器基礎上不斷改進提升，並將這些分類器整合在一起，形成一個強分類器。簡而言之，XGBoost演算法可以說是一種整合式提升演算法，是將許多基礎模型整合在一起，形成一個很強的模型。這裡的基礎模型可以是分類與迴歸決策樹CART（Classification and Regression Trees），也可以是線性模型。如果基礎模型是CART樹（如圖1所示），比如第1顆決策樹tree1預測左下角男孩的值為+2，對於第1顆決策樹遺留下來的剩餘部分，使用第2顆決策樹預測值為+0.9，則對男孩的總預測值為2+0.9=2.9。

XGBoost演算法框架可以分為四個階段來理解（如圖2所示）。第一個階段，如何構造目標函式？ 在進行優化求解時，首先需要構造目標函式，有了目標函式才能進行優化求解。這種思路和LR模型（Logistic Regression）是一致。在LR模型中，首先，對於迴歸問題構造平方項損失，對於分類問題構造最大似然損失作為目標函式，然後基於構造好的目標函式，才會考慮採用梯度下降演算法進行優化求解，比如隨機梯度下降、Mini-Batch批量梯度下降、梯度下降等。在這個階段，我們可以得到XGBoost的基本目標函式結構。

第二個階段，目標函式優化求解困難，如何對目標函式近似轉換？ 在第一個階段得到的基本目標函式較為複雜，不是凸函式，沒法使用連續性變數對目標函式直接優化求極值。因此，使用泰勒級數對目標函式進行展開，對目標函式規整、重組後，將目標函式轉換為關於預測殘差的多項式函式。

第三個階段，如何將樹的結構引入到目標函式中？ 第二個階段得到的多項式目標函式是一個複合函式。被預測的殘差和模型複雜度還是未知的函式，需要對這兩個函式進行引數化表示，即將決策樹的結構資訊通過數學符號表示出來。在第三個階段，在樹的形狀確定情況下，可以優化求解出區域性最優解。

第四個階段，如何確定樹的形狀，要不要使用貪心演算法？ 如何在模型空間裡面尋找最優的決策樹形狀，這是一個NP-Hard問題，我們很難對可能存在的樹結構全部羅列出來，尤其在特徵個數很多情況下。因此，在這裡需要使用貪心演算法來求得區域性最優解。

1.如何構造目標函式？

當使用多棵樹來預測時，假設已經訓練了棵樹，則對於第個樣本的（最終）預測值為：

在公式1中，表示對個樣本的預測值，屬於集合範圍內，表示通過第棵樹對第個樣本進行預測，比如第1棵樹預測值為，第2棵樹預測值為，依次類推，將這些樹的預測值累加到一起，則得到樣本的最終預測值。因此，如果要得到樣本的最終預測值，需要訓練得到棵樹。

如果要訓練得到棵樹，首先需要構造訓練的目標函式(如公式2所示)。在構建模型時，不僅需要考慮到模型的預測準確性，還需要考慮到模型的複雜程度，既準確又簡單的模型在實際應用中的效果才是最好的。因此，目標函式由兩部分構成，第一部分表示損失函式，比如平方損失、交叉熵損失、摺頁損失函式等。第一部分表示個樣本總的損失函式值。因為在這裡通過樣本預測值和樣本真實值的比較，可以計算出針對樣本的模型預測損失值。這裡可以暫時先不用考慮損失函式的具體形式，因為這裡的損失函式，可以統一表示迴歸與分類問題的損失函式形式。

公式2的第二部分表示正則項，是用來控制模型的複雜度，模型越複雜，懲罰力度越大，從而提升模型的泛化能力，因為越複雜的模型越容易過擬合。XGBoost的正則化思路跟模型中加/正則化思路一致，不同的地方在於正則化項具體物理含義不同。在這裡表示第棵樹的複雜度，接下來的問題是如何對樹的複雜度進行引數化表示，這樣後面才能進行引數優化。

在損失函式中，是有很多個模型（決策樹）共同參與，通過疊加式的訓練得到。如圖2所示，訓練完第一顆樹後，對於第一棵樹沒有訓練好的地方，使用第二顆樹訓練，依次類推，訓練第個棵樹，最後訓練第顆樹。當在訓練第棵樹時，前面的第1棵樹到第顆樹是已知的，未知的是第棵樹，即基於前面構建的決策樹已知情況下，構建第棵樹。

對於樣本，首先初始化假定第0棵樹為，預測值為，然後在第0棵樹基礎上訓練第1棵樹，得到預測值，在第1棵樹基礎上訓練第2顆樹，又可以得到預測值，依次類推，當訓練第棵樹的時候，前面棵樹的總預測值為，遞推訓練具體過程如下所示：

根據XGBoost的遞推訓練過程，每棵決策樹訓練時會得到樣本對應的預測值，根據樣本預測值和真實值比較，可以計算得到模型預測損失值。又因為訓練所得的每棵決策樹都有對應的結構資訊，因此可以得到每棵決策樹的複雜度。根據這些資訊，可以對目標函式公式2進行簡化，得到公式3。

在公式3中，表示訓練樣本個數，為顆決策樹累加的預測值，為顆決策樹總的複雜度，在訓練第顆決策樹時，這兩個東西是已知的，即在對目標函式進行求最小值優化時候，和為已知。因此，將常數項拿掉，得到公式4作為XGBoost的目標函式。

2.目標函式優化困難，如何對函式近似轉換？

在公式4中，已經得到了需要優化的目標函式，這個目標函式已經是簡化後的函式。對於公式4，沒法進行進一步優化。為了解決目標函式無法進行進一步優化，XGBoost原文是使用泰勒級數展開式技術對目標函式進行近似轉換，即使用函式的1階、2階、3階...階導數和對應的函式值，將目標函式進行多項式展開，多項式階數越多，對目標函式的近似程度越高。這樣做的好處是便於後面優化求解。

令，，帶入到目標函式公式4，得到基於二階泰勒展開式的函式(如公式5所示)，其中，。

在訓練第顆樹時，目標函式（公式5）中，，、是已知的。因此，可以將已知常數項去掉，得到進一步簡化後的目標函式（公式6）。、分別表示第顆決策樹的損失函式的1階、2階導數。前面顆決策樹預測後，通過、將前面第顆決策樹的預測損失資訊傳遞給第顆決策樹。在公式6中，第顆樹的預測函式、樹複雜度函式對於我們來說，仍然都是未知的，因此需要將其引數化，通過引數形式表示出來，才能進行下一步的優化求解。

3.如何將樹結構引入到目標函式中？

接下來的問題是如何對函式、進行引數化表示。首先，對於葉子權重函式，如圖4所示決策樹，有1號、2號、3號葉子節點，這三個葉子節點對應的取值分別為15，12，20，在1號葉子節點上，有{1,3}兩個樣本，在2號葉子節點上，有{4}一個樣本，在3號葉子節點上，有{2,5}兩個樣本。在這裡，使用來表示決策樹的葉子權重值，三個葉子節點對應的葉子權重值為。對於樣本落在決策樹葉子節點的位置資訊，使用表示，表示樣本1落在第1個葉子節點上，表示樣本1落在第3個葉子節點上，表示樣本4落在第2個葉子節點上。

對於第顆樹的葉子權重函式，根據葉子權重值和樣本所在葉子的位置資訊，即可確定函式。因此，我們引入決策樹葉子權重值和樣本所在葉子的位置資訊兩個變數，將其引數化表示成。然而，是一個函式，作為的下標是不利於優化求解。因此，這裡需要將轉化為形式。是根據樣本落在葉子節點的位置資訊直接遍歷計算損失函式。是從葉子節點的角度，對每個葉子節點中的樣本進行遍歷計算損失函式，其中，表示樹的葉子節點。假設，即表示有哪些樣本落在第j個葉子節點上，比如表示樣本{1,3}落在葉子節點1上，表示樣本{4}落在葉子節點2上，表示樣本{2,5}落在葉子節點3上（如上文圖4所示）。在這裡強調一下，將轉換為形式，是可以從數學公式推到得到（比如下式）。根據樣本所在葉子節點位置，計算所有樣本的一階損失得到第一行等式，其中，表示樣本的一階損失，表示樣本對應的葉子節點，表示葉子節點對應的葉子權重值。

對於模型複雜度，表示第顆樹的複雜度。在決策樹裡面，如果要降低樹的複雜度，在訓練決策樹時，可以通過葉子節點中樣本個數、樹的深度等控制決策樹的複雜度。在XGBoost中，是通過葉子節點個數、樹的深度、葉子節點值來控制模型複雜度。XGBoost中的決策樹是分類與迴歸決策樹CART（Classification and Regression Trees）。由於CART是二叉樹，控制葉子節點個數等同於控制了樹的深度。因此，可以使用葉子節點個數來評估樹的複雜度，即葉子節點個數越多（樹的深度越深），決策樹結構越複雜。對於葉子節點值，由於葉子節點值越大，相當於樣本預測值分佈在較少的幾顆決策樹的葉子節點上，這樣容易出現過擬合。如果葉子節點值越小，相當於預測值分佈在較多的決策樹葉子節點上，每顆決策樹參與預測其中的一小部分，過擬合的風險被分散。因此，葉子節點值越大，模型越容易過擬合，等同於決策樹的複雜度越高。綜合起來，如公式7所示，使用葉子節點個數、葉子節點值評估第顆決策樹的複雜度，其中、為超引數。如果希望葉子個數儘量少，則將值儘量調大，如果希望葉子權重值儘量小，則將盡量調大。

將和公式7帶入目標函式（公式6）中，可以得到引數化的目標函式（公式8）。在公式8中，在訓練第顆決策樹時，和這兩部分是已知，為超引數。令，，對公式8進行調整，此時得到目標函式是關於的一元二次拋物線，是目標函式最終的引數化表示形式。拋物線是有極值，對拋物線求極值可以直接套用拋物線極值公式，求解很方便。

基於公式8，對目標函式關於求導，可以求得樹的葉子節點最優的權重值，如公式9所示。

將等式9帶入到公式8中，計算得到樹的目標損失值（如等式10），該等式表示決策樹損失分數，分數越小，說明樹的預測準確度越高、複雜度越低。

4.如何確定樹的形狀？

這裡需要注意到一點，樹的葉子節點最優解和損失函式極小值是在樹的形狀給定後的優化求解。因此，如果要求得葉子節點最優解和損失函式極小值，首先需要確定樹的形狀。如何尋找樹的形狀？最直接的方式是列舉所有可能的形狀，然後計算每種形狀的損失函式，從中選擇損失函式最小的形狀作為模型訓練使用。這樣在樹的形狀確定後，就可以對葉子節點值和損失函式值進行優化求解。這種方式在實際應用中一般不會採用，因為當樣本的特徵集很大時，樹的形狀個數是呈指數級增加，計算這些形狀樹對應損失函式需要消耗大量的計算資源。

為了尋找樹的形狀，我們一般使用貪心演算法來簡化計算，降低計算的複雜度。貪心演算法是在區域性尋找最優解，在每一步迭代時，選擇能使當前區域性最優的方向。XGBoost尋找樹的形狀的思路和傳統決策樹模型建立樹的思路一致。比如傳統決策樹在進行節點分割時，基於資訊熵，選擇資訊熵下降最大的特徵進行分割；對於XGBoost樹模型，基於損失函式，選擇能讓損失函式下降最多的特徵進行分割。如圖5所示，虛線框是已經構造好的樹形狀，如果需要在藍色節點做進一步分裂，此時需要按照某種標準，選擇最好的特徵進行分割。在這裡，XGBoost使用損失函式下降最大的特徵作為節點分裂。

根據公式10，可以計算到藍色節點在分裂前和分裂後的的損失函式值：。兩式相減，則得到特徵如果作為分裂節點時，所能帶來的損失函式下降值大小。因此，依據如下等式，選擇能使最大的特徵作為分裂節點。

5.其它常見問題

關於XGBoost的常見經典問題，這類問題對於深入理解XGBoost模型很重要，因此，本文對此也進行了梳理小結。

(1) XGBoost為什麼需要對目標函式進行泰勒展開？

根據XGBoost官網（如圖6所示），目標損失函式之間存在較大的差別，比如平方損失函式、邏輯損失函式等。對目標函式進行泰勒展開，就是為了統一目標函式的形式，針對迴歸和分類問題，使得平方損失或邏輯損失函式優化求解，可以共用同一套演算法框架及工程程式碼。另外，對目標函式進行泰勒展開，可以使得XGBoost支援自定義損失函式，只需要新的損失函式二階可導即可，從而提升演算法框架的擴充套件性。

相對於GBDT的一階泰勒展開，XGBoost採用二階泰勒展開，可以更精準的逼近真實的損失函式，提升演算法框架的精準性。另外，一階導數描述梯度的變化方向，二階導數可以描述梯度變化方向是如何變化的，利用二階導數資訊更容易找到極值點。因此，基於二階導數資訊能夠讓梯度收斂的更快，類似於牛頓法比SGD收斂更快。

(2) XGBoost如何進行取樣？

XGBoost演算法框架，參考隨機森林的Bagging方法，支援樣本取樣和特徵取樣。由於XGBoost裡沒有交代是有放回取樣，認為這裡的樣本取樣和特徵取樣都是無放回取樣。每次訓練時，對資料集取樣，可以增加樹的多樣性，降低模型過擬合的風險。另外，對資料集取樣還能減少計算，加快模型的訓練速度。在降低過擬合風險中，對特徵取樣比對樣本取樣的效果更顯著。

樣本取樣（如圖7所示），預設是不進行樣本取樣。樣本的取樣的方式有兩種，一種是認為每個樣本平等水平，對樣本集進行相同概率取樣；另外一種認為每個樣本是不平等，每個樣本對應的一階、二階導數資訊表示優先順序，導數資訊越大的樣本越有可能被採到。

特徵取樣（如圖8所示），預設對特徵不進行取樣。對特徵的取樣方式有三種，第一種是在建立每棵樹時進行特徵取樣；第二種特徵取樣範圍是在第一種的基礎上，對於樹的每一層級（樹的深度）進行特徵取樣；第三種特徵取樣範圍是在第二種的基礎上，對於每個樹節點進行特徵取樣。這三種特徵取樣方式有序列效果。比如，當第一、二、三種的特徵取樣比例均是0.5時，如果特徵總量為64個，經過這三種取樣的綜合效果，最終取樣得到的特徵個數為8個。

（3）XGBoost為什麼訓練會比較快？

XGBoost訓練速度快，這個主要是工程實現優化的結果，具體的優化措施如下幾點： 第一、支援並行化訓練。XGBoost的並行，並不是說每棵樹可以並行訓練，XGBoost本質上仍然採用Boosting思想，每棵樹訓練前需要等前面的樹訓練完成後才能開始訓練。XGBoost的並行，指的是特徵維度的並行。在訓練之前，每個特徵按特徵值大小對樣本進行預排序，並儲存為Block結構（如圖8所示），在後面查詢特徵分割點時可以重複使用，而且特徵已經被儲存為一個個Block結構，那麼在尋找每個特徵的最佳分割點時，可以利用多執行緒對每個Block平行計算。

第二、採用近似演算法技術，得到候選分位點。在構造決策樹分裂節點時，當採用精確貪心演算法窮舉計算每個特徵下的所有特徵值增益，如果特徵個數多、特徵取值大，會造成較大的計算量。當樣本資料量大時，特徵值無法完全載入到記憶體中，計算效率低。對於分散式資料集，同樣會面臨無法將特徵值全部載入到本地記憶體的問題。因此，基於這兩個現實問題，採用近似直方圖演算法，將每個特徵取值劃分為常數個分位點，作為候選分割點，從中選擇相對最優的分割點作為決策樹分裂節點。

第三、快取感知訪問技術。對於有大量資料或者說分散式系統來說，不可能將所有的資料都放進記憶體裡面。因此，需要將其放在外存上或者將資料分散式儲存。但是會有一個問題，這樣做每次都要從外存上讀取資料到記憶體，這將會是十分耗時的操作。在XGBoost中，採用預讀取的方式，將下一塊將要讀取的資料預先放進記憶體裡面。這個過程是多開了一個執行緒，該執行緒與訓練的執行緒獨立並負責資料讀取。此外，還要考慮Block的大小問題。如果設定最大的Block來儲存所有樣本在特徵上的值和梯度，Cache未必能一次性處理如此多的梯度做統計。如果設定過小的Block-size，這樣不能充分利用多執行緒的優勢。這樣會出現訓練執行緒已經訓練完資料，但是預讀取執行緒還沒把資料放入記憶體或者cache中。經過測試，Block-size設定為2^16個特徵值是效果最好。

第四、Blocks核外計算優化技術。為了高效使用系統資源，對於機器資源，除了CPU和記憶體外，磁碟空間也可以利用起來處理資料。為了實現這個功能，XGBoost在模型訓練時，會將資料分成多個塊並將每個塊儲存在磁碟上。在計算過程中，使用獨立的執行緒將Block預提取到主記憶體緩衝區，這樣資料計算和磁碟讀取可以同步進行，但由於IO非常耗時，所以還採用了兩種技術來改進這種核外計算。

Block Compression：塊壓縮，並且載入到主記憶體時由獨立的執行緒進行解壓縮。
Block Sharding：塊分片，即將資料分片到多個磁碟，為每個磁碟分配一個執行緒，將資料提取到記憶體緩衝區，然後每次訓練執行緒的時候交替地從每個緩衝區讀取資料，有助於在多個磁碟可用時，增加讀取的吞吐量。

除了這些技術，XGBoost的特徵取樣技術也可以提升計算效率。如果設定特徵取樣比例colsample_by* < 1.0，則在選擇最佳特徵分割點作為分裂節點時，特徵候選集變小，挑選最佳特徵分割點時計算量降低。

（4）XGBoost如何處理缺失值問題？

XGBoost的一個優點是允許特徵存在缺失值。對缺失值的處理方式如圖9所示：在特徵上尋找最佳分割點時，不會對該列特徵missing的樣本進行遍歷，而只對該特徵值為non-missing的樣本上對應的特徵值進行遍歷。對於稀疏離散特徵，通過這個技巧可以大大減少尋找特徵最佳分割點的時間開銷。

在邏輯實現上，為了保證完備性，會將該特徵值missing的樣本分別分配到左葉子節點和右葉子節點，兩種情形都計算一遍後，選擇分裂後增益最大的那個方向（左分支或是右分支），作為預測時特徵值缺失樣本的預設分支方向。如果在訓練中沒有缺失值而在預測中出現缺失，那麼會自動將缺失值的劃分方向放到右子節點。

（5）XGBoost和GBDT的區別是什麼？

XGBoost和GBDT都是基於Boosting思想實現。XGBoost可以認為是在GBDT基礎上的擴充套件。兩者的主要不同如下： 基分類器：GBDT是以分類與迴歸決策樹CART作為基分類器，XGBoost的基分類器不僅支援CART決策樹，還支援線性分類器，此時XGBoost相當於帶L1和L2正則化項的Logistic迴歸（分類問題）或者線性迴歸（迴歸問題）。 導數資訊：GBDT在優化求解時，只是用到一階導數資訊，XGBoost對代價函式做了二階泰勒展開，同時用到一階和二階導數資訊。另外，XGBoost工具支援自定義代價函式，只要函式可以一階和二階求導即可。 正則項：XGBoost在代價函式里加入正則項，用於控制模型的複雜度。正則項裡包含了樹的葉子節點個數、每個葉子節點上輸出的預測值的模的平方和。正則項有利於降低模型的方差variance，使學習出來的模型更加簡單，防止過擬合。GBDT的代價函式中是沒有正則項。 缺失值處理：對於特徵的取值有缺失的樣本，XGBoost可以自動學習出它的分裂方向。另外，XGBoost還做了其它工程優化，包括特徵值Block化、並行化計算特徵增益、近似直方圖演算法、特徵取樣技術等

（6）如何使用XGBoost進行模型訓練？

在使用XGBoost前，可以根據官網說明文件進行安裝（下面有連結，這裡不贅述）。本文采用的資料集是Kaggle平臺房價預測開源資料集（地址如參考文章8所示）。值得說明的一點，在進行模型訓練前，一般需要做資料清洗、特徵工程、樣本劃分、模型引數調優這些過程。針對這些過程，本文在這裡不展開細講。在進行模型訓練前，本文已經完成資料清洗、特徵工程、模型引數調優過程，並得到最終用於模型訓練的樣本集和最優模型引數。如下程式碼，是使用XGBoost進行模型訓練過程。

#### 匯入資料分析基礎包 #####
import pandas as pd 
import matplotlib 
import numpy as np 
import scipy as sp 
import IPython
from IPython import display 
import sklearn 
import random
import time

#### 匯入訓練樣本 #####
# 樣本集特徵
X_train=pd.read_csv('./final_train.csv',sep='\t',index=None)
# 樣本集標籤
y_train=pd.read_csv('./final_y_train.csv',sep='\t',index=None)

### 匯入演算法模型和評分標準 ####
from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process
from xgboost import XGBClassifier
#Common Model Helpers
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn import feature_selection
from sklearn import model_selection
from sklearn import metrics
#Visualization
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import seaborn as sns
from pandas.plotting import scatter_matrix
#Configure Visualization Defaults
#%matplotlib inline = show plots in Jupyter Notebook browser
%matplotlib inline
mpl.style.use('ggplot')
sns.set_style('white')
pylab.rcParams['figure.figsize'] = 12,8

from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression, ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import fbeta_score, make_scorer, r2_score ,mean_squared_error
from sklearn.linear_model import Lasso
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.model_selection import KFold, cross_val_score, train_test_split
# 計算平方誤差
def rmsle(y, y_pred):
    return np.sqrt(mean_squared_error(y, y_pred))

# 模型：Xgboost
from sklearn.model_selection import GridSearchCV
best_reg_xgb = XGBRegressor(learning_rate= 0.01, n_estimators = 5000，                  
                max_depth= 4, min_child_weight = 1.5, gamma = 0, 
                subsample = 0.7, colsample_bytree = 0.6, 
                seed = 27)
best_reg_xgb.fit(X_train, y_train)
pred_y_XGB = best_reg_xgb.predict(X_train)

# 
print (rmsle(pred_y_XGB, y_train))

6.小結

本文從目標函式構建、目標函式優化、樹結構資訊表示、樹形狀確定等四部分，對XGBoost演算法框架進行解析。最後，針對XGBoost的常見問題進行小結。通過本文，洞悉XGBoost框架的底層演算法原理。在使用者行為預判、使用者標籤預測、使用者信用評分等資料分析業務中，經常會使用到XGBoost演算法框架。如果對XGBoost演算法原理理解透徹，在實際業務中的模型訓練過程中，有利於較好地理解模型引數，對模型調參過程幫助較大。

對於文章中表述不妥的地方，歡迎私信於我。

參考文章

(1).陳天奇XGBoost演算法原著：https://dl.acm.org/doi/pdf/10.1145/2939672.2939785 (2).20道XGBoost面試題：https://cloud.tencent.com/developer/article/1500914 (3).XGBoost框架Parameters含義：https://xgboost.readthedocs.io/en/latest/parameter.html (4).XGBoost提升樹官方介紹：https://xgboost.readthedocs.io/en/latest/tutorials/model.html (5).XGBoost官方論壇：https://discuss.xgboost.ai/ (6).GBDT提升樹官方介紹：https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting (7).XGBoost安裝官網說明：https://xgboost.readthedocs.io/en/latest/build.html (8).Kaggle開源資料：https://www.kaggle.com/c/house-prices-advanced-regression-techniques

更多幹貨盡在騰訊技術，官方微信交流群已建立，交流討論可加：Journeylife1900（備註騰訊技術）。

資料分析利器之Pandas
2022-12-05
新一代資料分析利器：Google Dremel原理分析KL
2022-03-21
GoREM
sklearn與XGBoost庫xgboost演算法引數總結
2020-12-27
演算法
說說xgboost演算法
2018-05-14
演算法
IBM SPSS Statistics for Mac/Win：專業資料分析利器
2024-03-06
IBMSPSSMac
寶付大資料分析解析
2019-08-23
大資料
XGBoost演算法原理小結
2019-06-05
演算法
Html 解析利器-goquery
2021-04-18
HTMLGo
最佳的7個大資料分析工具
2022-07-15
大資料
資料同步利器 - canal
2020-02-26
智慧駕駛資料後處理分析利器—INTEWORK-VDA
2020-04-08
好書推薦《資料血緣分析原理與實踐》：資料治理神兵利器
2024-07-05
10.遞迴演算法最佳解析
2020-05-18
遞迴演算法
OpenVPN 協議解析-握手資料包分析
2018-12-14
協議
【機器學習演算法】XGBoost原理
2024-11-30
機器學習演算法
器學習演算法（六）基於天氣資料集的XGBoost分類預測
2023-03-26
演算法
重磅 | 物聯網資料分析利器阿里雲釋出時序資料庫InfluxDB版
2019-05-05
阿里資料庫UX
RAG文件解析利器：Deepdoc
2024-07-29
流資料處理利器
2020-10-09
資料結構：初識（資料結構、演算法與演算法分析）
2020-07-21
資料結構演算法
[演算法] 資料結構 splay(伸展樹)解析
2021-05-31
演算法資料結構
機器學習演算法（15）之Xgboost演算法
2018-09-11
機器學習演算法
xgboost 設定每條資料的重要性
2018-07-25
golang — mgo解析各種資料型別分析
2019-02-16
Golang資料型別
資料探勘與分析概念與演算法
2018-06-05
演算法
資料結構與演算法分析——棧
2019-12-05
資料結構演算法
python 資料視覺化利器
2019-02-28
Python視覺化
（資料科學學習手札161）高效能資料分析利器DuckDB在Python中的使用
2024-06-05
資料科學Python
最佳化sql的利器SQLT
2018-06-20
SQL
【特徵工程】（資料）使用Xgboost篩選特徵重要性
2019-12-14
特徵工程
雲端計算是資料分析的最佳場所嗎?
2018-03-29
解析MySQL資料庫效能最佳化的六大技巧
2021-09-09
MySql資料庫
資料結構與演算法分析——佇列
2019-12-06
資料結構演算法佇列
python之資料結構與演算法分析
2021-04-30
Python資料結構演算法
php效能分析利器：xhprof
2021-02-17
PHP
JMeter：效能測試利器全解析
2024-08-25
JMeter
資料解析
2018-04-08
資料結構與演算法分析——連結串列
2019-12-03
資料結構演算法