《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現
============================================================================================
《機器學習實戰》系列部落格是博主閱讀《機器學習實戰》這本書的筆記,包含對其中演算法的理解和演算法的Python程式碼實現
另外博主這裡有機器學習實戰這本書的所有演算法原始碼和演算法所用到的原始檔,有需要的留言
============================================================================================
附:之所以成為樸素貝葉斯是因為其假設了各個特徵之間是獨立的關於樸素貝葉斯分類演算法的理解請參考:http://blog.csdn.net/gamer_gyt/article/details/47205371
Python程式碼實現:
#encoding:utf-8
from numpy import *
#詞表到向量的轉換函式
def loadDataSet():
postingList = [['my','dog','has','flea','problems','help','please'],
['maybe','not','take','him','to','dog','park','stupid'],
['my','dalmation','is','so','cute','I','love','him'],
['stop','posting','stupid','worthless','garbage'],
['mr','licks','ate','my','steak','how','to','stop','him'],
['quit','buying','worthless','dog','food','stupid']]
classVec = [0,1,0,1,0,1] #1,侮辱 0,正常
return postingList,classVec
def createVocabList(dataSet):
vocabSet = set([]) #呼叫set方法,建立一個空集
for document in dataSet:
vocabSet = vocabSet | set(document) #建立兩個集合的並集
return list(vocabSet)
'''
def setOfWords2Vec(vocabList,inputSet):
returnVec = [0]*len(vocabList) #建立一個所含元素都為0的向量
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] = 1
else:
print "the word:%s is not in my Vocabulary" % word
return returnVec
'''
def bagOfWords2VecMN(vocabList,inputSet):
returnVec = [0]*len(vocabList) #建立一個所含元素都為0的向量
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1
return returnVec
#樸素貝葉斯分類器訓練集
def trainNB0(trainMatrix,trainCategory): #傳入引數為文件矩陣,每篇文件類別標籤所構成的向量
numTrainDocs = len(trainMatrix) #文件矩陣的長度
numWords = len(trainMatrix[0]) #第一個文件的單詞個數
pAbusive = sum(trainCategory)/float(numTrainDocs) #任意文件屬於侮辱性文件概率
#p0Num = zeros(numWords);p1Num = zeros(numWords) #初始化兩個矩陣,長度為numWords,內容值為0
p0Num = ones(numWords);p1Num = ones(numWords) #初始化兩個矩陣,長度為numWords,內容值為1
#p0Denom = 0.0;p1Denom = 0.0 #初始化概率
p0Denom = 2.0;p1Denom = 2.0
for i in range(numTrainDocs):
if trainCategory[i]==1:
p1Num +=trainMatrix[i]
p1Denom += sum(trainMatrix[i])
else:
p0Num +=trainMatrix[i]
p0Denom += sum(trainMatrix[i])
#p1Vect = p1Num/p1Denom #對每個元素做除法
#p0Vect = p0Num/p0Denom
p1Vect = log(p1Num/p1Denom)
p0Vect = log(p0Num/p0Denom)
return p0Vect,p1Vect,pAbusive
#樸素貝葉斯分類函式
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
p1 = sum(vec2Classify * p1Vec) + log(pClass1) #元素相乘
p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
if p1>p0:
return 1
else:
return 0
def testingNB():
listOPosts,listClasses = loadDataSet() #產生文件矩陣和對應的標籤
myVocabList = createVocabList(listOPosts) #建立並集
trainMat = [] #建立一個空的列表
for postinDoc in listOPosts:
trainMat.append(setOfWords2Vec(myVocabList,postinDoc)) #使用詞向量來填充trainMat列表
p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses)) #訓練函式
testEntry = ['love','my','dalmation'] #測試文件列表
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #宣告矩陣
print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)
testEntry = ['stupid','garbage']
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #宣告矩陣
print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)
呼叫方式:
進入該檔案所在目錄,輸入python,執行
>>>import bayes
>>>bayes.testingNB()
相關文章
- 樸素貝葉斯和半樸素貝葉斯(AODE)分類器Python實現Python
- 機器學習之樸素貝葉斯分類機器學習
- 樸素貝葉斯分類-實戰篇-如何進行文字分類文字分類
- (實戰)樸素貝葉斯實現垃圾分類_201121
- 樸素貝葉斯實現文件分類
- 樸素貝葉斯/SVM文字分類文字分類
- 機器學習經典演算法之樸素貝葉斯分類機器學習演算法
- 概率分類之樸素貝葉斯分類(垃圾郵件分類python實現)Python
- 樸素貝葉斯分類
- Sklearn中的樸素貝葉斯分類器`
- 分類演算法-樸素貝葉斯演算法
- [譯] Sklearn 中的樸素貝葉斯分類器
- 有監督學習——支援向量機、樸素貝葉斯分類
- 樸素貝葉斯分類和預測演算法的原理及實現演算法
- 【機器學習基礎】樸素貝葉斯對B站彈幕分類(是否永久封禁)機器學習
- 簡單易懂的樸素貝葉斯分類演算法演算法
- 第7章 基於樸素貝葉斯的垃圾郵件分類
- Python機器學習 — 樸素貝葉斯演算法(Naive Bayes)Python機器學習演算法AI
- Python機器學習筆記:樸素貝葉斯演算法Python機器學習筆記演算法
- 樸素貝葉斯分類流程圖介紹流程圖
- 【火爐煉AI】機器學習010-用樸素貝葉斯分類器解決多分類問題AI機器學習
- Python實現 利用樸素貝葉斯模型(NBC)進行問句意圖分類Python模型
- 樸素貝葉斯--新浪新聞分類例項
- HanLP-樸素貝葉斯分類預測缺陷HanLP
- 機器學習讀書筆記:貝葉斯分類器機器學習筆記
- 機器學習演算法筆記之4:貝葉斯分類器機器學習演算法筆記
- 機器學習Sklearn系列:(四)樸素貝葉斯機器學習
- 機器學習演算法(二): 樸素貝葉斯(Naive Bayes)機器學習演算法AI
- 【火爐煉AI】機器學習013-用樸素貝葉斯分類器估算個人收入階層AI機器學習
- 高階人工智慧系列(一)——貝葉斯網路、機率推理和樸素貝葉斯網路分類器人工智慧
- 樸素貝葉斯演算法的實現與推理演算法
- 《統計學習方法》——樸素貝葉斯程式碼實現
- Spark機器學習實戰 (十一) - 文字情感分類專案實戰Spark機器學習
- 基於sklearn的分類器實戰
- 100天搞定機器學習|Day15 樸素貝葉斯機器學習
- 機器學習之紅樓夢作者判斷(貝葉斯分類)機器學習
- Pytext實戰-構建一個文字分類器有多快文字分類
- 樸素貝葉斯演算法演算法
- 什麼是機器學習的分類演算法?【K-近鄰演算法(KNN)、交叉驗證、樸素貝葉斯演算法、決策樹、隨機森林】機器學習演算法KNN隨機森林