分別利用xgbboost和catboost演算法做特徵重要性排序

Einsteintly發表於2020-11-13

原文網址 : https://blog.csdn.net/Einsteintly/article/details/109680218

分別利用xgbboost和catboost演算法做特徵重要性排序

xgbboost

# -*- coding: utf-8 -*-
import pandas as pd
from sklearn.model_selection import train_test_split
import xgboost as xgb
from matplotlib import pyplot as plt
from sklearn.metrics import confusion_matrix
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.family']='Microsoft YaHei' #顯示中文標籤
plt.style.use ('ggplot') #設定繪圖風格
import seaborn as sns


df = pd.read_csv('***.csv')

df = df.fillna(0)

df.drop(['distinct_id'],axis=1,inplace=True)

df.rename(columns={'is_stay':'是否留存','max(is_login)':'是否登入','start_numbers':'啟動次數','is_play':'是否播放視訊','is_action':'是否評論/收藏/點贊/分享','show_numbers':'視訊曝光數','video_play_numbers':'視訊播放數','real_video_play_numbers':'視訊有效播放數','video_play_time':'視訊播放總時長','video_play_rate':'視訊播放率','video_real_play_rate':'視訊有效播放率','play_time_per_play':'每播放播放時長','play_time_per_show':'每曝光播放時長'},inplace=True) 

X = df.drop(['是否留存'],axis=1)
y = df['是否留存']
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)


xgb_model = xgb.XGBClassifier(learning_rate = 0.1,max_depth = 7,min_child_weight = 5,objective = 'binary:logistic',seed = 0,gamma = 0.1,random_state=0,silent = True)
xgb_model.fit(X_train,y_train)

y_pred = xgb_model.predict(X_test)
cm = confusion_matrix(y_test,y_pred)

fig, ax= plt.subplots(figsize=(10,10))

cmap=sns.cubehelix_palette(start=1.5,rot=3,gamma=0.8,as_cmap=True)
sns.heatmap(cm,annot=True,fmt='g',cmap=cmap,linewidths=1.5,annot_kws={'size':20,'weight':'bold', 'color':'red'})

ax.set_xlabel('Predicted labels')
ax.set_ylabel('True labels')
ax.set_title('Confusion Matrix')
plt.setp(ax.get_yticklabels() , rotation = 360)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
ax.xaxis.set_ticklabels(['未流失', '流失'])
ax.yaxis.set_ticklabels(['未流失', '流失'])
plt.show()

fig,ax = plt.subplots(figsize=(16,9))
xgb.plot_importance(xgb_model,height=0.5,importance_type='gain',xlabel='xgbboost演算法計算出的留存相關特徵重要性',grid=False,ax=ax)
xgb.to_graphviz(xgb_model,num_trees=1,yes_color='#638e5e',no_color='#a40000')

結果展示在這裡插入圖片描述

catboost

# -*- coding: utf-8 -*-
import pandas as pd
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
from sklearn.metrics import confusion_matrix
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.family']='Microsoft YaHei' #顯示中文標籤
plt.style.use ('ggplot') #設定繪圖風格
import seaborn as sns
from catboost import CatBoostClassifier
import numpy as np

df = pd.read_csv('***.csv')

df = df.fillna(0)

df.drop(['distinct_id'],axis=1,inplace=True)

df.rename(columns={'is_stay':'是否留存','max(is_login)':'是否登入','start_numbers':'啟動次數','is_play':'是否播放視訊','is_action':'是否評論/收藏/點贊/分享','show_numbers':'視訊曝光數','video_play_numbers':'視訊播放數','real_video_play_numbers':'視訊有效播放數','video_play_time':'視訊播放總時長','video_play_rate':'視訊播放率','video_real_play_rate':'視訊有效播放率','play_time_per_play':'每播放播放時長','play_time_per_show':'每曝光播放時長'},inplace=True) 

X = df.drop(['是否留存'],axis=1)
y = df['是否留存']
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)

categorical_features_indices = np.where(X_train.dtypes != np.float)[0]
cat_model = CatBoostClassifier(iterations=100, depth=7,cat_features=categorical_features_indices,learning_rate=0.01, loss_function='Logloss',logging_level='Verbose')
cat_model.fit(X_train,y_train,plot=True)

y_pred = cat_model.predict(X_test)
cm = confusion_matrix(y_test,y_pred)

fig, ax= plt.subplots(figsize=(10,10))

cmap=sns.cubehelix_palette(start=1.5,rot=3,gamma=0.8,as_cmap=True)
sns.heatmap(cm,annot=True,fmt='g',cmap=cmap,linewidths=1.5,annot_kws={'size':20,'weight':'bold', 'color':'red'})

ax.set_xlabel('Predicted labels')
ax.set_ylabel('True labels')
ax.set_title('Confusion Matrix')
plt.setp(ax.get_yticklabels() , rotation = 360)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
ax.xaxis.set_ticklabels(['未流失', '流失'])
ax.yaxis.set_ticklabels(['未流失', '流失'])
plt.show()

fea_ = cat_model.feature_importances_
fea_name = cat_model.feature_names_
plt.figure(figsize=(16, 9))
plt.title('catboost演算法計算出的與留存相關特徵重要性')
plt.barh(fea_name,fea_,height =0.5)

結果展示
在這裡插入圖片描述
實際第二種結果更符合當前業務邏輯，區別最大的是二分類特徵，具體邏輯還待進一步思考

使用XGboost模組XGBClassifier、plot_importance來做特徵重要性排序
2019-09-01
Import特徵排序
用xgboost模型對特徵重要性進行排序
2018-08-12
模型特徵排序
xgboost特徵重要性
2019-02-16
特徵
【演算法】關於xgboost特徵重要性的評估
2019-05-29
演算法特徵
XGBoost 輸出特徵重要性以及篩選特徵
2018-08-26
特徵
xgboost輸出特徵重要性排名和權重值
2018-07-29
特徵
xgboost 特徵重要性計算
2018-11-13
特徵
前端和後端分別做什麼？
2023-02-19
前端後端
Java利用Comparator實現分組排序
2019-02-15
Java排序
【特徵工程】（資料）使用Xgboost篩選特徵重要性
2019-12-14
特徵工程
xgboost 特徵重要性選擇 / 看所有特徵哪個重要
2018-06-06
特徵
排序演算法:二分插入排序
2018-07-18
排序演算法
排序演算法之——二分插入排序演算法
2021-09-09
排序演算法
利用LSTM做語言情感分類
2018-09-08
排序演算法 - 氣泡排序和選擇排序
2018-03-11
排序演算法
XGBoost學習（六）：輸出特徵重要性以及篩選特徵
2020-09-03
特徵
特徵重要性評估的隨機森林演算法與Python實現(三)
2024-05-02
特徵隨機森林演算法Python
排序演算法 - 快速插入排序和希爾排序
2018-03-11
排序演算法
go slice/map型別排序（選擇排序演算法）
2019-03-25
Go型別排序演算法
利用java實現插入排序、歸併排序、快排和堆排序
2020-12-06
Java排序
【趙強老師】利用Python完成資料分佈特徵的分析
2021-11-23
Python特徵
一組關鍵字序列，分別給出用希爾排序、直接選擇排序演算法從小到大排序結果
2020-08-05
排序演算法
xgboost模型特徵重要性的不同計算方式
2019-09-17
模型特徵
用xgboost獲取特徵重要性及應用
2019-11-20
特徵
Python演算法分為哪幾類？具備哪些特徵？
2021-05-07
Python演算法特徵
特徵工程特徵選擇 reliefF演算法
2020-11-07
特徵工程演算法
演算法學習之選擇排序和堆排序：
2020-12-05
演算法排序
特徵值和特徵向量
2024-04-25
特徵
用xgboost獲取特徵重要性原理及實踐
2019-04-13
特徵
三分鐘看懂插入排序演算法
2019-01-20
排序演算法
C++筆記劃分與排序演算法
2020-10-15
C++筆記排序演算法
Java實現氣泡排序和插入排序演算法
2024-08-20
Java排序演算法
利用opencv 做一個簡單的人臉識別
2022-07-28
OpenCV
資料結構和演算法(Golang實現)(25)排序演算法-快速排序
2020-04-18
資料結構演算法Golang排序
PHP陣列多個欄位分別排序
2019-02-16
PHP陣列排序
特徵值和特徵向量，thrive
2024-11-04
特徵
特徵融合與特徵互動的區別
2024-04-18
特徵
【JAVA演算法】排序演算法 -- 快速排序
2018-03-28
Java演算法排序

分別利用xgbboost和catboost演算法做特徵重要性排序

相關文章