《機器學習實戰》第3章決策樹程式清單3-1 計算給定資料集的夏農熵calcShannonEnt()執行過程

王明輝發表於2018-02-01

from math import log

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    print("樣本總數：" + str(numEntries))

    labelCounts = {} #記錄每一類標籤的數量

    #定義特徵向量featVec
    for featVec in dataSet:
        
        currentLabel = featVec[-1] #最後一列是類別標籤

        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0;

        labelCounts[currentLabel] += 1 #標籤currentLabel出現的次數
        print("當前labelCounts狀態：" + str(labelCounts))

    shannonEnt = 0.0

    for key in labelCounts:
        
        prob = float(labelCounts[key]) / numEntries #每一個類別標籤出現的概率

        print(str(key) + "類別的概率：" + str(prob))
        print(prob * log(prob, 2) )
        shannonEnt -= prob * log(prob, 2) 
        print("熵值：" + str(shannonEnt))

    return shannonEnt


def createDataSet():
    dataSet = [
        # [1, 1, 'yes'],
        # [1, 0, 'yes'],
        # [1, 1, 'no'],
        # [0, 1, 'no'],
        # [0, 1, 'no'],
        # #以下隨意新增，用於測試熵的變化，越混亂越衝突，熵越大
        # [1, 1, 'no'],
        # [1, 1, 'no'],
        # [1, 1, 'no'],
        # [1, 1, 'no'],
        # [1, 1, 'maybe'],
        # [1, 1, 'maybe1']
        # 用下面的8個比較極端的例子看得會更清楚。如果按照這個規則繼續增加下去，熵會繼續增大。
        # [1,1,'1'],
        # [1,1,'2'],
        # [1,1,'3'],
        # [1,1,'4'],
        # [1,1,'5'],
        # [1,1,'6'],
        # [1,1,'7'],
        # [1,1,'8'],

        # 這是另一個極端的例子，所有樣本的類別是一樣的，有序，不混亂，此時熵為0
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],
        [1,1,'1'],        
    ]

    labels = ['no surfacing', 'flippers']

    return dataSet, labels

def testCalcShannonEnt():

    myDat, labels = createDataSet()
    print(calcShannonEnt(myDat))

if __name__ == '__main__':
    testCalcShannonEnt()
    print(log(0.000002, 2))

以下輸出結果是每個樣本的類別都不同時的輸出結果：

樣本總數：8
當前labelCounts狀態：{'1': 1}
當前labelCounts狀態：{'1': 1, '2': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1, '4': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1, '7': 1}
當前labelCounts狀態：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1, '7': 1, '8': 1}
1類別的概率：0.125
-0.375
熵值：0.375
2類別的概率：0.125
-0.375
熵值：0.75
3類別的概率：0.125
-0.375
熵值：1.125
4類別的概率：0.125
-0.375
熵值：1.5
5類別的概率：0.125
-0.375
熵值：1.875
6類別的概率：0.125
-0.375
熵值：2.25
7類別的概率：0.125
-0.375
熵值：2.625
8類別的概率：0.125
-0.375
熵值：3.0
3.0
-18.931568569324174
[Finished in 1.3s]

from math import log
def calcShannonEnt(dataSet):numEntries = len(dataSet)print("樣本總數：" + str(numEntries))
labelCounts = {} #記錄每一類標籤的數量
#定義特徵向量featVecfor featVec in dataSet:currentLabel = featVec[-1] #最後一列是類別標籤
if currentLabel not in labelCounts.keys():labelCounts[currentLabel] = 0;
labelCounts[currentLabel] += 1 #標籤currentLabel出現的次數print("當前labelCounts狀態：" + str(labelCounts))
shannonEnt = 0.0
for key in labelCounts:prob = float(labelCounts[key]) / numEntries #每一個類別標籤出現的概率
print(str(key) + "類別的概率：" + str(prob))print(prob * log(prob, 2) )shannonEnt -= prob * log(prob, 2) print("熵值：" + str(shannonEnt))
return shannonEnt

def createDataSet():dataSet = [# [1, 1, 'yes'],# [1, 0, 'yes'],# [1, 1, 'no'],# [0, 1, 'no'],# [0, 1, 'no'],# #以下隨意新增，用於測試熵的變化，越混亂越衝突，熵越大# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'maybe'],# [1, 1, 'maybe1']# 用下面的8個比較極端的例子看得會更清楚。如果按照這個規則繼續增加下去，熵會繼續增大。# [1,1,'1'],# [1,1,'2'],# [1,1,'3'],# [1,1,'4'],# [1,1,'5'],# [1,1,'6'],# [1,1,'7'],# [1,1,'8'],
# 這是另一個極端的例子，所有樣本的類別是一樣的，有序，不混亂，此時熵為0[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],]
labels = ['no surfacing', 'flippers']
return dataSet, labels
def testCalcShannonEnt():
myDat, labels = createDataSet()print(calcShannonEnt(myDat))
if __name__ == '__main__':testCalcShannonEnt()print(log(0.000002, 2))

【Python機器學習實戰】決策樹和整合學習（二）——決策樹的實現
2021-08-25
Python機器學習
資訊熵（夏農熵）
2020-10-11
熵
【Python機器學習實戰】決策樹和整合學習（一）
2021-08-19
Python機器學習
機器學習：決策樹
2020-08-01
機器學習
機器學習實戰（三）決策樹ID3：樹的構建和簡單分類
2018-05-17
機器學習
機器學習|決策樹-sklearn實現
2020-12-19
機器學習
機器學習——決策樹模型
2023-12-26
機器學習模型
機器學習之決策樹
2024-06-09
機器學習
【Python機器學習實戰】決策樹與整合學習（三）——整合學習（1）
2021-08-30
Python機器學習
機器學習 - 決策樹：技術全解與案例實戰
2023-12-11
機器學習
機器學習——決策樹模型：Python實現
2020-11-09
機器學習模型Python
夏農熵-互資訊-entropy
2024-10-09
熵
【Python機器學習實戰】決策樹與整合學習（四）——整合學習（2）GBDT
2021-09-03
Python機器學習
Python機器學習：決策樹001什麼是決策樹
2020-12-24
Python機器學習
決策樹在機器學習的理論學習與實踐
2018-03-29
機器學習
機器學習之決策樹在sklearn中的實現
2019-03-06
機器學習
【機器學習】--決策樹和隨機森林
2018-03-27
機器學習隨機森林
機器學習筆記（四）決策樹
2020-10-28
機器學習筆記
機器學習Sklearn系列：（三）決策樹
2021-07-16
機器學習
機器學習之決策樹(Decision Tree)python實現
2018-06-12
機器學習Python
機器學習之決策樹原理和sklearn實踐
2019-06-24
機器學習
《機器學習：演算法原理和程式設計實踐》3：決策樹的發展
2018-07-07
機器學習演算法程式設計
【Python機器學習實戰】決策樹與整合學習（六）——整合學習（4）XGBoost原理篇
2021-09-11
Python機器學習
01 決策樹 - 數學理論概述 - 熵
2018-10-29
熵
我用白話+案例給你講講機器學習中的決策樹
2018-11-16
機器學習
機器學習演算法（五）：基於企鵝資料集的決策樹分類預測
2023-03-25
機器學習演算法
機器學習 Day 9 | 決策樹基礎
2018-08-16
機器學習
機器學習之決策樹演算法
2019-07-28
機器學習演算法
機器學習之決策樹ID3(python實現)
2019-02-27
機器學習Python
《機器學習Python實現_09_02_決策樹_CART》
2020-05-27
機器學習Python
機器學習(五)：通俗易懂決策樹與隨機森林及程式碼實踐
2021-02-25
機器學習隨機森林
圖解機器學習 | 決策樹模型詳解
2022-03-10
圖解機器學習模型
【機器學習】實現層面決策樹並用graphviz視覺化樹
2020-10-28
機器學習視覺化
機器學習實戰原始碼和資料集下載
2018-07-18
機器學習原始碼
《統計學習方法》——從零實現決策樹
2021-03-17
漫談計算機組成原理(一)之程式執行的過程
2018-05-17
計算機
機器學習之使用sklearn構造決策樹模型
2019-07-30
機器學習模型
機器學習經典演算法之決策樹
2019-06-16
機器學習演算法
決策樹詳解，從熵說起
2020-10-25
熵

《機器學習實戰》第3章決策樹程式清單3-1 計算給定資料集的夏農熵calcShannonEnt()執行過程

相關文章