《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現
============================================================================================
《機器學習實戰》系列部落格是博主閱讀《機器學習實戰》這本書的筆記,包含對其中演算法的理解和演算法的Python程式碼實現
另外博主這裡有機器學習實戰這本書的所有演算法原始碼和演算法所用到的原始檔,有需要的留言
============================================================================================
附:之所以成為樸素貝葉斯是因為其假設了各個特徵之間是獨立的關於樸素貝葉斯分類演算法的理解請參考:http://blog.csdn.net/gamer_gyt/article/details/47205371
Python程式碼實現:
#encoding:utf-8
from numpy import *
#詞表到向量的轉換函式
def loadDataSet():
postingList = [['my','dog','has','flea','problems','help','please'],
['maybe','not','take','him','to','dog','park','stupid'],
['my','dalmation','is','so','cute','I','love','him'],
['stop','posting','stupid','worthless','garbage'],
['mr','licks','ate','my','steak','how','to','stop','him'],
['quit','buying','worthless','dog','food','stupid']]
classVec = [0,1,0,1,0,1] #1,侮辱 0,正常
return postingList,classVec
def createVocabList(dataSet):
vocabSet = set([]) #呼叫set方法,建立一個空集
for document in dataSet:
vocabSet = vocabSet | set(document) #建立兩個集合的並集
return list(vocabSet)
'''
def setOfWords2Vec(vocabList,inputSet):
returnVec = [0]*len(vocabList) #建立一個所含元素都為0的向量
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] = 1
else:
print "the word:%s is not in my Vocabulary" % word
return returnVec
'''
def bagOfWords2VecMN(vocabList,inputSet):
returnVec = [0]*len(vocabList) #建立一個所含元素都為0的向量
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1
return returnVec
#樸素貝葉斯分類器訓練集
def trainNB0(trainMatrix,trainCategory): #傳入引數為文件矩陣,每篇文件類別標籤所構成的向量
numTrainDocs = len(trainMatrix) #文件矩陣的長度
numWords = len(trainMatrix[0]) #第一個文件的單詞個數
pAbusive = sum(trainCategory)/float(numTrainDocs) #任意文件屬於侮辱性文件概率
#p0Num = zeros(numWords);p1Num = zeros(numWords) #初始化兩個矩陣,長度為numWords,內容值為0
p0Num = ones(numWords);p1Num = ones(numWords) #初始化兩個矩陣,長度為numWords,內容值為1
#p0Denom = 0.0;p1Denom = 0.0 #初始化概率
p0Denom = 2.0;p1Denom = 2.0
for i in range(numTrainDocs):
if trainCategory[i]==1:
p1Num +=trainMatrix[i]
p1Denom += sum(trainMatrix[i])
else:
p0Num +=trainMatrix[i]
p0Denom += sum(trainMatrix[i])
#p1Vect = p1Num/p1Denom #對每個元素做除法
#p0Vect = p0Num/p0Denom
p1Vect = log(p1Num/p1Denom)
p0Vect = log(p0Num/p0Denom)
return p0Vect,p1Vect,pAbusive
#樸素貝葉斯分類函式
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
p1 = sum(vec2Classify * p1Vec) + log(pClass1) #元素相乘
p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
if p1>p0:
return 1
else:
return 0
def testingNB():
listOPosts,listClasses = loadDataSet() #產生文件矩陣和對應的標籤
myVocabList = createVocabList(listOPosts) #建立並集
trainMat = [] #建立一個空的列表
for postinDoc in listOPosts:
trainMat.append(setOfWords2Vec(myVocabList,postinDoc)) #使用詞向量來填充trainMat列表
p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses)) #訓練函式
testEntry = ['love','my','dalmation'] #測試文件列表
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #宣告矩陣
print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)
testEntry = ['stupid','garbage']
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #宣告矩陣
print testEntry,'classified as:',classifyNB(thisDoc,p0V,p1V,pAb)
呼叫方式:
進入該檔案所在目錄,輸入python,執行
>>>import bayes
>>>bayes.testingNB()
相關文章
- 樸素貝葉斯和半樸素貝葉斯(AODE)分類器Python實現Python
- 樸素貝葉斯分類-實戰篇-如何進行文字分類文字分類
- 樸素貝葉斯實現文件分類
- 機器學習之樸素貝葉斯分類機器學習
- 樸素貝葉斯/SVM文字分類文字分類
- 《機器學習實戰》4.4使用樸素貝葉斯進行文件分類機器學習
- 分類演算法-樸素貝葉斯演算法
- 概率分類之樸素貝葉斯分類(垃圾郵件分類python實現)Python
- 樸素貝葉斯分類器的應用
- 機器學習經典演算法之樸素貝葉斯分類機器學習演算法
- 機器學習筆記之樸素貝葉斯分類演算法機器學習筆記演算法
- 樸素貝葉斯演算法的python實現 -- 機器學習實戰演算法Python機器學習
- [譯] Sklearn 中的樸素貝葉斯分類器
- (實戰)樸素貝葉斯實現垃圾分類_201121
- 機器學習實戰(三)--樸素貝葉斯機器學習
- 機器學習之貝葉斯分類(python實現)機器學習Python
- 樸素貝葉斯分類和預測演算法的原理及實現演算法
- 樸素貝葉斯分類器的應用(轉載)
- chapter7:樸素貝葉斯及文字---非結構化文字分類APT文字分類
- 《機器學習實戰》程式清單4-2 樸素貝葉斯分類器訓練函式機器學習函式
- 簡單易懂的樸素貝葉斯分類演算法演算法
- 樸素貝葉斯分類流程圖介紹流程圖
- 機器學習之用Python從零實現貝葉斯分類器機器學習Python
- 第7章 基於樸素貝葉斯的垃圾郵件分類
- 樸素貝葉斯分類演算法(Naive Bayesian classification)演算法AI
- 貝葉斯實現文字分類C++實現文字分類C++
- 資料探勘(8):樸素貝葉斯分類演算法原理與實踐演算法
- 【機器學習基礎】樸素貝葉斯對B站彈幕分類(是否永久封禁)機器學習
- 樸素貝葉斯演算法的python實現演算法Python
- 機器學習|樸素貝葉斯演算法(二)-用sklearn實踐貝葉斯機器學習演算法
- Python實現 利用樸素貝葉斯模型(NBC)進行問句意圖分類Python模型
- 第五篇:樸素貝葉斯分類演算法原理分析與程式碼實現演算法
- 複習機器學習演算法:貝葉斯分類器機器學習演算法
- 演算法雜貨鋪:分類演算法之樸素貝葉斯分類(Naive Bayesian classification)演算法AI
- 機器學習筆記(七)貝葉斯分類器機器學習筆記
- 基於樸素貝葉斯的定位演算法演算法
- 樸素貝葉斯演算法的實現與推理演算法
- 第六篇:基於樸素貝葉斯分類演算法的郵件過濾系統演算法