資料探勘領域十大經典演算法之—樸素貝葉斯演算法（附程式碼）

weixin_33895657發表於2018-09-18

原文網址 : https://blog.csdn.net/weixin_33895657/article/details/87145995

NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立;貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論(即貝葉斯定理)作為支撐。

簡介

NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立;貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論(即貝葉斯定理)作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。

基本思想

(1)病人分類的例子

某個醫院早上收了六個門診病人，如下表：

現在又來了第七個病人，是一個打噴嚏的建築工人。請問他患上感冒的概率有多大?

根據貝葉斯定理：

因此，這個打噴嚏的建築工人，有66%的概率是得了感冒。同理，可以計算這個病人患上過敏或腦震盪的概率。比較這幾個概率，就可以知道他最可能得什麼病。

這就是貝葉斯分類器的基本方法：在統計資料的基礎上，依據某些特徵，計算各個類別的概率，從而實現分類。

(2)樸素貝葉斯分類器的公式

假設某個體有n項特徵(Feature)，分別為F1、F2、…、Fn。現有m個類別(Category)，分別為C1、C2、…、Cm。貝葉斯分類器就是計算出概率最大的那個分類，也就是求下面這個算式的最大值：

由於 P(F1F2…Fn) 對於所有的類別都是相同的，可以省略，問題就變成了求

的最大值。

樸素貝葉斯分類器則是更進一步，假設所有特徵都彼此獨立，因此

上式等號右邊的每一項，都可以從統計資料中得到，由此就可以計算出每個類別對應的概率，從而找出最大概率的那個類。

雖然”所有特徵彼此獨立”這個假設，在現實中不太可能成立，但是它可以大大簡化計算，而且有研究表明對分類結果的準確性影響不大。

(3)拉普拉斯平滑(Laplace smoothing)

也就是引數為1時的貝葉斯估計，當某個分量在總樣本某個分類中(觀察樣本庫/訓練集)從沒出現過，會導致整個例項的計算結果為0。為了解決這個問題，使用拉普拉斯平滑/加1平滑進行處理。

它的思想非常簡單，就是對先驗概率的分子(劃分的計數)加1，分母加上類別數;對條件概率分子加1，分母加上對應特徵的可能取值數量。這樣在解決零概率問題的同時，也保證了概率和依然為1。

eg：假設在文字分類中，有3個類，C1、C2、C3，在指定的訓練樣本中，某個詞語F1，在各個類中觀測計數分別為=0，990，10，即概率為P(F1/C1)=0，P(F1/C2)=0.99，P(F1/C3)=0.01，對這三個量使用拉普拉斯平滑的計算方法如下：

1/1003 = 0.001，991/1003=0.988，11/1003=0.011

實際應用場景

• 文字分類

• 垃圾郵件過濾

• 病人分類

• 拼寫檢查

樸素貝葉斯模型

樸素貝葉斯常用的三個模型有：

• 高斯模型：處理特徵是連續型變數的情況

• 多項式模型：最常見，要求特徵是離散資料

• 伯努利模型：要求特徵是離散的，且為布林型別，即true和false，或者1和0

程式碼實現

基於多項式模型的樸素貝葉斯演算法(在github獲取)

測試資料集為MNIST資料集，獲取地址train.csv

執行結果

我這裡為大家準備了一些學習資料，大家覺得對自己有幫助的可以加我QQ：3300863615 免費領取哦

樸素貝葉斯演算法
2022-04-12
演算法
機器學習經典演算法之樸素貝葉斯分類
2019-06-22
機器學習演算法
分類演算法-樸素貝葉斯
2020-01-17
演算法
04_樸素貝葉斯演算法
2020-05-30
演算法
資料探勘從入門到放棄（三）：樸素貝葉斯
2020-09-25
樸素貝葉斯模型
2024-03-13
模型
樸素貝葉斯演算法的實現與推理
2022-05-06
演算法
資料探勘十大經典演算法
2020-11-03
演算法
簡單易懂的樸素貝葉斯分類演算法
2018-09-21
演算法
ML-樸素貝葉斯
2019-03-20
樸素貝葉斯分類
2023-01-27
樸素貝葉斯和半樸素貝葉斯（AODE）分類器Python實現
2019-12-30
Python
監督學習之樸素貝葉斯
2020-02-14
演算法金 | AI 基石，無處不在的樸素貝葉斯演算法
2024-06-10
演算法AI
Python機器學習 — 樸素貝葉斯演算法（Naive Bayes）
2018-07-10
Python機器學習演算法AI
Python機器學習筆記：樸素貝葉斯演算法
2019-05-18
Python機器學習筆記演算法
機器學習演算法（二）: 樸素貝葉斯(Naive Bayes)
2020-12-23
機器學習演算法AI
樸素貝葉斯與Laplace平滑
2023-03-07
樸素貝葉斯—印第安人
2020-12-01
《統計學習方法》——樸素貝葉斯程式碼實現
2021-02-28
樸素貝葉斯/SVM文字分類
2018-10-25
文字分類
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
樸素貝葉斯實現文件分類
2019-10-07
樸素貝葉斯分類和預測演算法的原理及實現
2018-03-28
演算法
樸素貝葉斯分類流程圖介紹
2018-05-09
流程圖
使用樸素貝葉斯過濾垃圾郵件
2020-02-03
Sklearn中的樸素貝葉斯分類器`
2020-10-20
樸素貝葉斯入門例項之就是這麼簡單
2019-02-21
樸素貝葉斯--新浪新聞分類例項
2019-03-02
[譯] Sklearn 中的樸素貝葉斯分類器
2018-08-28
HanLP-樸素貝葉斯分類預測缺陷
2019-07-22
HanLP
機器學習Sklearn系列：（四）樸素貝葉斯
2021-07-18
機器學習
樸素貝葉斯：幫助AI產品經理“小步快跑，快速迭代”
2019-09-15
AI
04貝葉斯演算法-貝葉斯網路
2018-12-19
演算法
（實戰）樸素貝葉斯實現垃圾分類_201121
2020-11-21
樸素貝葉斯深度解碼：從原理到深度學習應用
2023-11-17
深度學習
資料探勘十大演算法
2019-02-21
演算法
【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐
2018-09-11
資料科學機器學習演算法

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（附程式碼）

相關文章