使用樸素貝葉斯過濾垃圾郵件

娃哈哈店長發表於2020-02-03

原文網址 : https://learnku.com/articles/40034?order_by=created_at&

樸素貝葉斯分類器 (Naive Bayes Classifier， NBC) 發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。同時，NBC 模型所需估計的引數很少，對缺失資料不太敏感，演算法也比較簡單。之所以成為 “樸素” 是因為整個形式化過程只做最原始、最簡單的假設。樸素貝葉斯在資料較少的情況下仍然有效，可以處理多類別問題。

樸素貝葉斯演算法詳解：https://boywithacoin.cn/article/fen-lei-su...

電子郵件垃圾過濾，具體流程

先收集資料，具體資料在https://github.com/Freen247/database/tree/...
將文字檔案解析成詞條向量
檢查詞條確保解析的正確性
訓練/測試/使用演算法

由於程式中更需要使用第三方庫，我們需要先下載依賴包 pip install feedparser

0x00實現詞表到向量轉換

使用物件導向思路，構造bayes物件：

#!/usr/bin/python
# -*- coding: utf-8 -*-
#__author__ : stray_camel
#pip_source : https://mirrors.aliyun.com/pypi/simple
import sys,os

class Bayes():
    def __init__(self, 
    absPath:"Directory of the current file"== os.path.dirname(os.path.abspath(__file__)),
    ):
        self.absPath = absPath

建立函式返回一個包含所有文件中出現的不重複詞的list：

 #contain all documents and list without duplicate words
    def createVocabList(self, 
    dataSet:dict(type="", help = "the source data"),
    )->dict(type=list, help = "Deduplicated list"):
        vocabSet=set([])#creat an empty set,'set' is a list without duplicate words
        for document in dataSet:
            vocabSet=vocabSet|set(document) #create an union of two sets
        return list(vocabSet)

同時我們還需要一個函式使用詞彙表或想要檢查的所有單詞作為輸入，然後為其中每一個單詞構造一個特徵。一旦給定一篇文件，該文件就會轉換為詞向量。


    #determine if a term appears in the documents
    def setOfWords2Vec(self, 
    vocabList = dict(type="", help="a glossary "), 
    inputSet = dict(type="", help="The word you want to detect"), 
    )-> = dict(type="", help="Word vector"):
        returnVec = [0]*len(vocabList)
        for word in inputSet:
            if word in vocabList:
                returnVec[vocabList.index(word)] = 1
            else:
                print("單詞: %s 不在我的詞彙裡面!" % word)#Returns a document vector indicating whether a word has appeared 1/0 in the input document
        return returnVec

0x01實現bayes分類器訓練函式

使用樸素貝葉斯分類器訓練函式：

    #naive bayes classfication training function
    def trainNB0(self,trainMatrix,trainCategory):
        numTrainDocs=len(trainMatrix)
        numWords=len(trainMatrix[0])
        pAbusive=sum(trainCategory)/float(numTrainDocs)
        p0Num = ones(numWords)
        p1Num = ones(numWords)
        p0Denom = 2.0
        p1Denom = 2.0
        for i in range(numTrainDocs):#Iterate through all documents
            if trainCategory[i]==1:
                p1Num+=trainMatrix[i]
                p1Denom+=sum(trainMatrix[i])
            else:
                p0Num+=trainMatrix[i]
                p0Denom+=sum(trainMatrix[i])

        p1Vect = log(p1Num / p1Denom)
        p0Vect = log(p0Num / p0Denom)
        return p0Vect, p1Vect, pAbusive

0x02實現垃圾郵件測試函式

使用spamTest()對貝葉斯垃圾郵件分類器，進行自動化處理。匯入資料夾spam和ham下的文字檔案，並將他們解析成詞列表。案例中共有20封電子郵件，其中10封郵件被隨機選擇為測試集，分類器所要的機率計算指利用訓練集中的文件完成。這種隨機選擇一部分作為訓練集，而剩餘的部分作為測試集的過程稱為留存交叉驗證。

spamTest()：

 #filtering email, training+testing
    def spamTest(self):
        docList=[]; classList=[]; fullText=[]
        # iterate through all the test files, A total of 26
        for i in range(1,26):
            wordList = self.textParse(open(self.absPath+'/email/spam/%d.txt' % i, "rb").read().decode('GBK', 'ignore'))
            docList.append(wordList)
            fullText.extend(wordList)
            classList.append(1)
            wordList = self.textParse(open(self.absPath+'/email/ham/%d.txt' % i, "rb").read().decode('GBK', 'ignore'))
            docList.append(wordList)
            fullText.extend(wordList)
            classList.append(0)
        vocabList=self.createVocabList(docList)

        trainingSet = list(range(50))
        testSet=[]

        for i in range(10):
            # random.uniform(x,y)  Returns a float random number from x to y
            randIndex=int(random.uniform(0,len(trainingSet)))
            testSet.append(trainingSet[randIndex])
            del(trainingSet[randIndex])
        trainMat=[]; trainClasses=[]
        for docIndex in trainingSet:
            trainMat.append(self.setOfWords2Vec(vocabList,docList[docIndex]))
            trainClasses.append(classList[docIndex])
        p0V,p1V,pSpam=self.trainNB0(np.array(trainMat),np.array(trainClasses))
        errorCount=0
        for docIndex in testSet:
            wordVector=self.setOfWords2Vec(vocabList,docList[docIndex])
            if self.classifyNB(np.array(wordVector),p0V,p1V,pSpam)!=classList[docIndex]:
                errorCount+=1
                print("分類錯誤的是： %s" %vocabList[docIndex])
        print('錯誤率是:',float(errorCount)/len(testSet))

最終函式執行結果如下圖：

if __name__ == "__main__":
    test = Bayes()
    test.spamTest()

分類錯誤的是：
scifinance now automatically generates gpu-enabled pricing & risk model source code that runs up to 50-300
分類錯誤的是： tended in the latest release. this includes:

錯誤率是: 0.2

本作品採用《CC 協議》，轉載必須註明作者和本文連結

文章！！首發於我的部落格Stray_Camel(＾Ｕ＾)ノ~ＹＯ。

第7章基於樸素貝葉斯的垃圾郵件分類
2018-09-22
概率分類之樸素貝葉斯分類（垃圾郵件分類python實現）
2020-10-05
Python
樸素貝葉斯模型
2024-03-13
模型
ML-樸素貝葉斯
2019-03-20
樸素貝葉斯分類
2023-01-27
樸素貝葉斯和半樸素貝葉斯（AODE）分類器Python實現
2019-12-30
Python
（實戰）樸素貝葉斯實現垃圾分類_201121
2020-11-21
樸素貝葉斯與Laplace平滑
2023-03-07
樸素貝葉斯演算法
2022-04-12
演算法
樸素貝葉斯—印第安人
2020-12-01
樸素貝葉斯/SVM文字分類
2018-10-25
文字分類
分類演算法-樸素貝葉斯
2020-01-17
演算法
監督學習之樸素貝葉斯
2020-02-14
樸素貝葉斯實現文件分類
2019-10-07
04_樸素貝葉斯演算法
2020-05-30
演算法
樸素貝葉斯分類流程圖介紹
2018-05-09
流程圖
Sklearn中的樸素貝葉斯分類器`
2020-10-20
樸素貝葉斯--新浪新聞分類例項
2019-03-02
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
[譯] Sklearn 中的樸素貝葉斯分類器
2018-08-28
HanLP-樸素貝葉斯分類預測缺陷
2019-07-22
HanLP
機器學習Sklearn系列：（四）樸素貝葉斯
2021-07-18
機器學習
樸素貝葉斯演算法的實現與推理
2022-05-06
演算法
簡單易懂的樸素貝葉斯分類演算法
2018-09-21
演算法
《統計學習方法》——樸素貝葉斯程式碼實現
2021-02-28
樸素貝葉斯入門例項之就是這麼簡單
2019-02-21
Python機器學習 — 樸素貝葉斯演算法（Naive Bayes）
2018-07-10
Python機器學習演算法AI
100天搞定機器學習|Day15 樸素貝葉斯
2019-08-05
機器學習
資料探勘從入門到放棄（三）：樸素貝葉斯
2020-09-25
詳解樸素貝葉斯的來源，原理以及例項解析
2020-11-01
Python機器學習筆記：樸素貝葉斯演算法
2019-05-18
Python機器學習筆記演算法
有監督學習——支援向量機、樸素貝葉斯分類
2023-03-15
機器學習演算法（二）: 樸素貝葉斯(Naive Bayes)
2020-12-23
機器學習演算法AI
樸素貝葉斯深度解碼：從原理到深度學習應用
2023-11-17
深度學習
樸素貝葉斯：幫助AI產品經理“小步快跑，快速迭代”
2019-09-15
AI
樸素貝葉斯分類-實戰篇-如何進行文字分類
2020-11-25
文字分類
高階人工智慧系列（一）——貝葉斯網路、機率推理和樸素貝葉斯網路分類器
2022-11-20
人工智慧
機器學習經典演算法之樸素貝葉斯分類
2019-06-22
機器學習演算法

使用樸素貝葉斯過濾垃圾郵件

0x00實現詞表到向量轉換

0x01實現bayes分類器訓練函式

0x02實現垃圾郵件測試函式

相關文章