XGBoost是一個非常強大的Boosting演算法工具包,以其優秀的效能(效果與速度)在資料科學比賽中長期佔據領先地位,並且在許多大廠的機器學習方案中也是首選模型。 XGBoost在平行計算效率、缺失值處理、控制過擬合、預測泛化能力等方面表現出色。它的主要特點和優勢包括:
- 平行計算效率:XGBoost在平行計算方面的效率非常高,能夠顯著提高計算速度,尤其是在處理大規模資料集時。
- 缺失值處理:XGBoost對缺失值進行了特殊處理,透過學習模型自動選擇最優的缺失值預設切分方向,這一特性使得它在處理包含缺失值的資料集時更加穩健。
- 控制過擬合:除了透過新增正則化項來防止過擬合外,XGBoost還支援行列取樣的方式來進一步防止過擬合,從而增強模型的泛化能力。
- 預測泛化能力:XGBoost在預測泛化能力上表現優異,能夠在最短的時間內用較少的計算資源得到更好的結果。
此外,XGBoost的目標函式由損失函式和模型複雜度兩部分組成,這一設計使得模型在訓練過程中不僅能夠最佳化預測誤差,還能夠控制模型的複雜度,從而避免過擬合,提高模型的泛化能力。這種設計使得XGBoost在處理複雜資料集時表現出色,尤其是在中醫藥領域的應用中,如中藥寒熱藥性識別及寒熱特徵標記視覺化研究中,XGBoost透過其獨特的演算法和最佳化方法,構建了適用於中藥紫外光譜資料的模型,顯著提高了模型的穩定性和外推效能
清華源安裝:pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simpl
輸入 conda list 檢視下載列表是否有