哪些特徵對我的機器學習模型影響最大？

dicksonjyl560101發表於2018-12-14

原文網址 : http://blog.itpub.net/29829936/viewspace-2285277/

特徵機器學習模型

哪些特徵對我的機器學習模型影響最大？

http://blog.sina.com.cn/s/blog_cfa68e330102zelh.html

測量特徵重要性沒有靈丹妙藥，排列重要性是常用的方法之一。與其他技術相比，它具有以下優點。

快速計算
易於使用和理解
它具有我們想要的特徵重要性度量的屬性。

它是如何工作的？

在訓練機器學習模型之後計算置換重要性。這種技術向訓練有素的模型提出問題，如果我們在保留目標和所有其他列的同時隨機打亂一列驗證資料，那將如何影響預測機器學習模型的準確性呢？

對單個列的隨機打亂應該會導致預測不那麼準確，並且我們遠不及任何實際資料。因此，對於一個具有高度重要性的特徵，這種 random-reshuffle會對機器學習模型預測的準確性造成更大的損害。

Fig.1 Random shuffle of 'Height at age 10(cm)' col

如圖1所示，只有“10歲(cm)時的高度”這一列的值被reshuffled ，而其他列中的值與之前一樣。如果這一列對訓練後的模型非常重要那麼這種reshuffle會嚴重影響效能。

Python 程式碼示例

示例資料集是FIFA 2018 Statistics(https://www.kaggle.com/mathan/fifa-2018-match-statistics#FIFA%202018%20Statistics.csv)，下面你可以看到一個簡單的RandomForestClassifier正在訓練，以預測來自球隊的球員是否贏得了“Man of the match”獎。Python程式碼如下：


import numpy as np


 import pandas as pd


 from sklearn.model_selection import train_test_split


 from sklearn.ensemble import RandomForestClassifier


  


 df = pd.read_csv('FIFA 2018 Statistics.csv')


 y = df['Man of the Match']=='Yes'


 features = [i for i in df.columns if df[i].dtype in [np.int64]]


 X = df[features]


 train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)


 model = RandomForestClassifier(random_state=0).fit(train_X, train_y)

然後我們使用'eli5'庫來計算排列重要性，Python程式碼如下：


import eli5


 from eli5.sklearn import PermutationImportance


  


 perm = PermutationImportance(model, random_state=1).fit(val_X, val_y)


 eli5.show_weights(perm, feature_names=val_X.columns.tolist())

解釋結果

特徵從上到下依次降低。每行中的第一個數字表示通過該特徵的reshuffle 減少了模型效能。第二個數字是特徵列的不同reshuffle 的效能降低的隨機性的度量。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2285277/，如需轉載，請註明出處，否則將追究法律責任。

影像Resize方式對深度學習模型效果的影響
2021-04-02
深度學習模型
AI和機器學習對量化交易領域的影響
2019-01-24
AI機器學習
《機器學習_05_線性模型_最大熵模型》
2020-05-18
機器學習模型熵
機器學習中，有哪些特徵選擇的工程方法？
2018-07-09
機器學習特徵
對孩子成功的機會影響最大的是什麼？
2021-05-13
哪些公司受華為影響最大？
2018-12-10
機器學習-特徵提取
2019-09-07
機器學習特徵
機器學習 | 特徵工程
2019-08-22
機器學習特徵工程
機器學習——特徵工程
2020-11-02
機器學習特徵工程
機器學習特徵工程
2018-03-03
機器學習特徵工程
大資料對我們生活中的影響有哪些？
2021-10-09
大資料
機器學習中的五個實際問題及其對業務的影響
2020-07-29
機器學習
機器學習的靜態特徵和動態特徵
2022-11-13
機器學習特徵
機器學習之特徵工程
2020-06-14
機器學習特徵工程
虛擬主機對網站有哪些影響？
2019-09-16
網站
5G時代，對學習Web前端開發有哪些影響？
2019-10-19
Web前端
機器學習2-特徵工程
2021-01-17
機器學習特徵工程
面向機器學習的特徵工程一、引言
2018-06-21
機器學習特徵工程
機器學習之良好特徵的特點
2020-06-16
機器學習特徵
機器學習的未來——深度特徵融合
2018-03-07
機器學習特徵
【圖機器學習】cs224w Lecture 13 & 14 - 影響力最大化 & 爆發檢測
2020-05-29
機器學習
機器學習模型
2024-03-30
機器學習模型
IBM收購紅帽，對誰影響最大？
2018-10-29
IBM
OpenAI Sora對遊戲行業影響最大
2024-02-17
OpenAISora遊戲行業
反欺詐中所用到的機器學習模型有哪些？
2018-03-11
機器學習模型
哪些因素會影響伺服器機櫃的正常工作
2020-04-25
伺服器
解析機器人轉型對智慧化的影響力
2022-07-13
機器人
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
機器學習1-sklearn&字典特徵抽取
2021-01-16
機器學習特徵
機器學習之基於xgboost的特徵篩選
2020-03-19
機器學習特徵
我所理解的機器學習
2024-06-11
機器學習
論資訊顯示對我生活的影響
2024-09-29
網路安全學習影響因素有哪些？網路安全學習週期
2021-01-21
Wenet分散式訓練對學習率調整的影響
2023-01-09
分散式
如何管理機器學習模型
2019-01-12
機器學習模型
欺騙機器學習模型
2018-04-06
機器學習模型
機器學習導圖系列（5）：機器學習模型及神經網路模型
2019-04-11
機器學習模型神經網路
初學者如何學習Linux運維？影響運維的有哪些因素？
2019-12-04
Linux運維

哪些特徵對我的機器學習模型影響最大？

它是如何工作的 ？

Python 程式碼示例

解釋結果

相關文章

它是如何工作的？