《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Thinkgamer_gyt發表於2015-08-22

原文網址 : https://blog.csdn.net/gamer_gyt/article/details/47860945

機器學習演算法文字分類Python

============================================================================================

《機器學習實戰》系列部落格是博主閱讀《機器學習實戰》這本書的筆記，包含對其中演算法的理解和演算法的Python程式碼實現

另外博主這裡有機器學習實戰這本書的所有演算法原始碼和演算法所用到的原始檔，有需要的留言

============================================================================================

附：之所以成為樸素貝葉斯是因為其假設了各個特徵之間是獨立的

關於樸素貝葉斯分類演算法的理解請參考：http://blog.csdn.net/gamer_gyt/article/details/47205371

Python程式碼實現：

#encoding:utf-8

from numpy import *

#詞表到向量的轉換函式
def loadDataSet():
    postingList = [['my','dog','has','flea','problems','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop','posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]      #1,侮辱  0,正常
    return postingList,classVec

def createVocabList(dataSet):
    vocabSet = set([])  #呼叫set方法,建立一個空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)     #建立兩個集合的並集
    return list(vocabSet)
'''
def setOfWords2Vec(vocabList,inputSet):
    returnVec = [0]*len(vocabList)   #建立一個所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print "the word:%s is not in my Vocabulary" % word
    return returnVec
'''

def bagOfWords2VecMN(vocabList,inputSet):
    returnVec = [0]*len(vocabList)   #建立一個所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec


#樸素貝葉斯分類器訓練集
def trainNB0(trainMatrix,trainCategory):  #傳入引數為文件矩陣，每篇文件類別標籤所構成的向量
    numTrainDocs = len(trainMatrix)      #文件矩陣的長度
    numWords = len(trainMatrix[0])       #第一個文件的單詞個數
    pAbusive = sum(trainCategory)/float(numTrainDocs)  #任意文件屬於侮辱性文件概率
    #p0Num = zeros(numWords);p1Num = zeros(numWords)        #初始化兩個矩陣，長度為numWords，內容值為0
    p0Num = ones(numWords);p1Num = ones(numWords)        #初始化兩個矩陣，長度為numWords，內容值為1
    #p0Denom = 0.0;p1Denom = 0.0                         #初始化概率
    p0Denom = 2.0;p1Denom = 2.0 
    for i in range(numTrainDocs):
        if trainCategory[i]==1:
            p1Num +=trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num +=trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #p1Vect = p1Num/p1Denom #對每個元素做除法
    #p0Vect = p0Num/p0Denom
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

#樸素貝葉斯分類函式
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)   #元素相乘
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1>p0:
        return 1
    else:
        return 0

def testingNB():
    listOPosts,listClasses = loadDataSet()   #產生文件矩陣和對應的標籤
    myVocabList = createVocabList(listOPosts) #建立並集
    trainMat = []   #建立一個空的列表
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))  #使用詞向量來填充trainMat列表
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))  #訓練函式
    testEntry = ['love','my','dalmation']   #測試文件列表
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #宣告矩陣
    print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)
    testEntry = ['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry))    #宣告矩陣
    print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)

呼叫方式：

進入該檔案所在目錄，輸入python，執行

>>>import bayes

>>>bayes.testingNB()

樸素貝葉斯和半樸素貝葉斯（AODE）分類器Python實現
2019-12-30
Python
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
樸素貝葉斯分類-實戰篇-如何進行文字分類
2020-11-25
文字分類
（實戰）樸素貝葉斯實現垃圾分類_201121
2020-11-21
樸素貝葉斯實現文件分類
2019-10-07
樸素貝葉斯/SVM文字分類
2018-10-25
文字分類
機器學習經典演算法之樸素貝葉斯分類
2019-06-22
機器學習演算法
概率分類之樸素貝葉斯分類（垃圾郵件分類python實現）
2020-10-05
Python
樸素貝葉斯分類
2023-01-27
Sklearn中的樸素貝葉斯分類器`
2020-10-20
分類演算法-樸素貝葉斯
2020-01-17
演算法
[譯] Sklearn 中的樸素貝葉斯分類器
2018-08-28
有監督學習——支援向量機、樸素貝葉斯分類
2023-03-15
樸素貝葉斯分類和預測演算法的原理及實現
2018-03-28
演算法
【機器學習基礎】樸素貝葉斯對B站彈幕分類（是否永久封禁）
2020-10-08
機器學習
簡單易懂的樸素貝葉斯分類演算法
2018-09-21
演算法
第7章基於樸素貝葉斯的垃圾郵件分類
2018-09-22
Python機器學習 — 樸素貝葉斯演算法（Naive Bayes）
2018-07-10
Python機器學習演算法AI
Python機器學習筆記：樸素貝葉斯演算法
2019-05-18
Python機器學習筆記演算法
樸素貝葉斯分類流程圖介紹
2018-05-09
流程圖
【火爐煉AI】機器學習010-用樸素貝葉斯分類器解決多分類問題
2018-08-06
AI機器學習
Python實現利用樸素貝葉斯模型（NBC）進行問句意圖分類
2021-07-15
Python模型
樸素貝葉斯--新浪新聞分類例項
2019-03-02
HanLP-樸素貝葉斯分類預測缺陷
2019-07-22
HanLP
機器學習讀書筆記：貝葉斯分類器
2020-10-05
機器學習筆記
機器學習演算法筆記之4：貝葉斯分類器
2020-04-06
機器學習演算法筆記
機器學習Sklearn系列：（四）樸素貝葉斯
2021-07-18
機器學習
機器學習演算法（二）: 樸素貝葉斯(Naive Bayes)
2020-12-23
機器學習演算法AI
【火爐煉AI】機器學習013-用樸素貝葉斯分類器估算個人收入階層
2018-08-07
AI機器學習
高階人工智慧系列（一）——貝葉斯網路、機率推理和樸素貝葉斯網路分類器
2022-11-20
人工智慧
樸素貝葉斯演算法的實現與推理
2022-05-06
演算法
《統計學習方法》——樸素貝葉斯程式碼實現
2021-02-28
Spark機器學習實戰 (十一) - 文字情感分類專案實戰
2019-04-19
Spark機器學習
基於sklearn的分類器實戰
2019-05-25
100天搞定機器學習|Day15 樸素貝葉斯
2019-08-05
機器學習
機器學習之紅樓夢作者判斷(貝葉斯分類)
2018-05-27
機器學習
Pytext實戰-構建一個文字分類器有多快
2019-03-02
文字分類
樸素貝葉斯演算法
2022-04-12
演算法
什麼是機器學習的分類演算法？【K-近鄰演算法(KNN)、交叉驗證、樸素貝葉斯演算法、決策樹、隨機森林】
2022-04-04
機器學習演算法KNN隨機森林

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

相關文章