【資料探勘】樸素貝葉斯演算法計算ROC曲線的面積

weixin_33941350發表於2014-10-30

題記:

         近來關於資料探勘學習過程中,學習到樸素貝葉斯運算ROC曲線。也是本節實驗課題,roc曲線的計算原理以及如果統計TP、FP、TN、FN、TPR、FPR、ROC面積等等。往往運用ROC面積評估模型準確率,一般認為越接近0.5,模型準確率越低,最好狀態接近1,完全正確的模型面積為1.下面進行展開介紹:


 

ROC曲線的面積計算原理

一、樸素貝葉斯法的工作過程框架圖

             

二、利用weka工具,找到訓練的預處理資料          

1、利用樸素貝葉斯演算法對weather.nominal.arff檔案進行處理,然後選擇temperature開啟,選擇編輯找到預處理資料如圖1-1所示:

 

圖1-1 完整天氣資料資訊圖

2、根據上面的訓練元組計算每個類的先驗概率,公式為P(C)

     2.1、計算先驗概率

            P(play=yes)=9/14=0.643

            P(play=no)=5/14=0.357

     2.2、 計算條件概率,根據公式P(X|C)

 

3、再根據公式(展示其中一個元組進行概率分類X= (outlook=sunny,temperature=mid,humidity=yes,windy=sunny)代入上述資料:

      3.1、 P(X|paly=yes)=P(outlook=sunny|play=yes)* P(temperature=mid|play=yes)* P(humidity=yes|play=yes)* P (outlook=sunny|play=yes))

                同理計算:P(X|paly=no)

       3.2、通過結果比較,得出元組play

       3.3、然後進行概率的計算

4、再引用《資料探勘概念與技術》中P244頁方法,如圖1-2所示:

 

圖1-2 返回資料樣例

 

如上圖為樣例非真實資料:因為根據3.3可以計算每個元組的概率,利用概率大小進行類的排序。再根據先驗概率進行TP、FP、TN、FN的真實資料,並且不難算出TPR和FPR的資料

5、再引用《資料探勘概念與技術》中P245頁知識,以FPR作為x軸,TPR作為Y軸,繪製資料的ROC曲線,將4中的資料分別代入進去,得到如圖1-3所示:

 

 

圖1-3 返回資料圖

根據以上圖形,利用數學方法得到ROC曲線面積為0.9222.然後再利用weka檢視工具資料,如圖1-4所示:

 

圖1-4 weka返回資料

 

參考資料:

[1]  使用Weka進行資料探勘http://www.cnblogs.com/bluewelkin/p/3538599.html

[2]  WEKA使用(基礎配置+垃圾郵件過濾+聚類分析+關聯挖掘)http://www.cnblogs.com/bitpeach/p/3770606.html

[3] ROC曲線下面積的計算方法(http://wenku.baidu.com/view/3d2ac9202f60ddccda38a07a.html?re=view

[4] 韓家煒,資料探勘概念與技術,P243-P245。

[5] 分類(資料探勘) (http://wenku.baidu.com/link?url=EdT7Xxs-a_423oM-48ih-KxtTEPrXeejci0-XSM1yk9xbkZGTvWqyiZNpZwUA8a-dlf-kReHlS63u9PXXXuDJFCsdmbpZ2kex5BhwTysWHe&qq-pf-to=pcqq.c2c

相關文章