分類演算法屬性選擇度量--資訊增益、增益率、Gini指標

shuaishuai3409發表於2015-11-22

屬性選擇度量就是分裂規則,用來確定分裂屬性和分裂子集


資訊增益

資訊增益:某屬性的資訊增益值越大,這個屬性作為一棵樹的根節點就能使這棵樹更簡潔,降低樹的高度。衡量給定屬性劃分訓練樣本的能力。計算資訊增益的公式需要用到“熵”(Entropy)。

熵:衡量任意樣本集的純度,熵越小,樣本純度越高。以二分類為例,
熵
H(X)表示熵,橫座標表示類別A在這兩個類{A,B}中的百分比,越接近0.5,表示兩個類對抗越明顯。值越接近0,表示某個類佔的比例越大或越小,也就是樣本純度越高。

相關文章