哪些特徵對我的機器學習模型影響最大?
哪些特徵對我的機器學習模型影響最大?
http://blog.sina.com.cn/s/blog_cfa68e330102zelh.html
測量特徵重要性沒有靈丹妙藥,排列重要性是常用的方法之一。與其他技術相比,它具有以下優點。
-
快速計算
-
易於使用和理解
-
它具有我們想要的特徵重要性度量的屬性。
它是如何工作的 ?
在訓練機器學習模型之後計算置換重要性。這種技術向訓練有素的模型提出問題,如果我們在保留目標和所有其他列的同時隨機打亂一列驗證資料,那將如何影響預測機器學習模型的準確性呢?
對單個列的隨機打亂應該會導致預測不那麼準確,並且我們遠不及任何實際資料。因此,對於一個具有高度重要性的特徵,這種 random-reshuffle會對機器學習模型預測的準確性造成更大的損害。
Fig.1 Random shuffle of 'Height at age 10(cm)' col
如圖1所示,只有“10歲(cm)時的高度”這一列的值被reshuffled ,而其他列中的值與之前一樣。如果這一列對訓練後的模型非常重要那麼這種reshuffle會嚴重影響效能。
Python 程式碼示例
示例資料集是FIFA 2018 Statistics(https://www.kaggle.com/mathan/fifa-2018-match-statistics#FIFA%202018%20Statistics.csv),下面你可以看到一個簡單的RandomForestClassifier正在訓練,以預測來自球隊的球員是否贏得了“Man of the match”獎。Python程式碼如下:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
df = pd.read_csv('FIFA 2018 Statistics.csv')
y = df['Man of the Match']=='Yes'
features = [i for i in df.columns if df[i].dtype in [np.int64]]
X = df[features]
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
model = RandomForestClassifier(random_state=0).fit(train_X, train_y)
然後我們使用'eli5'庫來計算排列重要性,Python程式碼如下:
import eli5
from eli5.sklearn import PermutationImportance
perm = PermutationImportance(model, random_state=1).fit(val_X, val_y)
eli5.show_weights(perm, feature_names=val_X.columns.tolist())
解釋結果
特徵從上到下依次降低。每行中的第一個數字表示通過該特徵的reshuffle 減少了模型效能。第二個數字是特徵列的不同reshuffle 的效能降低的隨機性的度量。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2285277/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 影像Resize方式對深度學習模型效果的影響深度學習模型
- AI和機器學習對量化交易領域的影響AI機器學習
- 《機器學習_05_線性模型_最大熵模型》機器學習模型熵
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- 對孩子成功的機會影響最大的是什麼?
- 哪些公司受華為影響最大?
- 機器學習-特徵提取機器學習特徵
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 大資料對我們生活中的影響有哪些?大資料
- 機器學習中的五個實際問題及其對業務的影響機器學習
- 機器學習的靜態特徵和動態特徵機器學習特徵
- 機器學習之特徵工程機器學習特徵工程
- 虛擬主機對網站有哪些影響?網站
- 5G時代,對學習Web前端開發有哪些影響?Web前端
- 機器學習2-特徵工程機器學習特徵工程
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 機器學習之良好特徵的特點機器學習特徵
- 機器學習的未來——深度特徵融合機器學習特徵
- 【圖機器學習】cs224w Lecture 13 & 14 - 影響力最大化 & 爆發檢測機器學習
- 機器學習模型機器學習模型
- IBM收購紅帽,對誰影響最大?IBM
- OpenAI Sora對遊戲行業影響最大OpenAISora遊戲行業
- 反欺詐中所用到的機器學習模型有哪些?機器學習模型
- 哪些因素會影響伺服器機櫃的正常工作伺服器
- 解析機器人轉型對智慧化的影響力機器人
- 機器學習筆記——特徵標準化機器學習筆記特徵
- 機器學習1-sklearn&字典特徵抽取機器學習特徵
- 機器學習之 基於xgboost的特徵篩選機器學習特徵
- 我所理解的機器學習機器學習
- 論資訊顯示對我生活的影響
- 網路安全學習影響因素有哪些?網路安全學習週期
- Wenet分散式訓練對學習率調整的影響分散式
- 如何管理機器學習模型機器學習模型
- 欺騙機器學習模型機器學習模型
- 機器學習導圖系列(5):機器學習模型及神經網路模型機器學習模型神經網路
- 【Meetup預告】OpenMLDB+OneFlow:連結特徵工程到模型訓練,加速機器學習模型開發特徵工程模型機器學習