資訊增益

qq_48566899發表於2020-10-01

在這裡插入圖片描述

import pandas as pd
import numpy as np
df=pd.read_excel(r'C:\Users\Admin\YQnotebook\test.xlsx')

在這裡插入圖片描述
首先建立一個計算資訊熵的函式
entropy資訊熵,公式為在這裡插入圖片描述

def ent(data):
    prob=pd.value_counts(data)/len(data)
    return sum(np.log2(prob)*prob*(-1))
    

然後計算資訊增益

def gin(data,str1,str2):
    e1 = data.groupby(str1).apply(lambda x:ent(x[str2]))
    p1 = pd.value_counts(data[str1]) / len(data[str1])
    e2 = sum(e1 * p1)
    return ent(data[str2]) - e2    

找出資訊增益最大的特徵

def best_gin(data):
    best=0
    gini_lst=[]
    for i in data.ix[:,:-1].columns.tolist():
        cur_gin=gin(data,i,'R')
        gini_lst.append(cur_gin)
    dic=dict(zip(data.ix[:,:-1].columns.tolist(),gini_lst))
    print(dic)
    return max(dic,key=dic.get)

在這裡插入圖片描述

在這裡插入圖片描述
然後要將表中不用了的資料刪除

df.groupby('F').apply(lambda x:print(x))

在這裡插入圖片描述
在這裡插入圖片描述

df[df['F']=='s'].drop('F',axis=1)

在這裡插入圖片描述
然後,再來一次找最好的特徵

best_gin(df1)

在這裡插入圖片描述
在這裡插入圖片描述
然後繼續刪除不用了的資訊
在這裡插入圖片描述

在這裡插入圖片描述
在這裡插入圖片描述

相關文章