樸素貝葉斯和半樸素貝葉斯(AODE)分類器Python實現

ckxllf發表於2019-12-30

  一、概述

  機器學習最後一次實驗,要求實現樸素貝葉斯和AODE的半樸素貝葉斯分類器。由於老師說可以呼叫現成的相關機器學習的庫,所以我一開始在做樸素貝葉斯分類器的時候,直接呼叫了sklearn庫,很方便,可是問題來了,在做AODE半樸素貝葉斯分類器的時候,並沒有找到整合好的方法。所以就想著自己把半樸素貝葉斯分類器實現了,樸素貝葉斯分類就直接呼叫庫算了。可是讓人頭大的是,上來就直接實現AODE分類器還是不太科學,還得從基本的貝葉斯原理到樸素貝葉斯開始,所以我又從頭看,主要看的這篇部落格 西瓜書讀書筆記——第七章:貝葉斯分類器,寫的非常好,看完之後就基本弄懂了。我感覺實現起來,樸素貝葉斯和半樸素貝葉斯有很多相似之處,索性就先把樸素貝葉斯實現了,正好也能加深一下理解,然後再實現AODE半樸素貝葉斯分類器就會容易些了。

  二、貝葉斯分類器

  2.1 樸素貝葉斯分類器

  (1)貝葉斯分類基本思想簡單解釋

  首先,貝葉斯分類的思想很簡單,假設資料一共有nnn種類別,即Label={L1,L2,⋯ ,Ln}Label=\{L_1,L_2,\cdots,L_n\}Label={L1,L2,⋯,Ln},給定一個樣本資料x={x1,x2,⋯ ,xm}x=\{x_1,x_2,\cdots,x_m\}x={x1,x2,⋯,xm},注意,這裡的xxx是一個樣本資料,x1,x2,⋯ ,xmx_1,x_2,\cdots,x_mx1,x2,⋯,xm表示這個資料有mmm維特徵,當知道了樣本資料xxx,根據xxx計算出來這個資料屬於每一種類別的機率P={PL1,PL2,⋯ ,PLn}P=\{P_{L_1},P_{L_2},\cdots,P_{L_n}\}P={PL1,PL2,⋯,PLn},最後將這個資料xxx劃分為最大機率對應的類別。比如,如果argmax{PL1,PL2,⋯ ,PLn}=L2argmax\{P_{L_1},P_{L_2},\cdots,P_{L_n}\}=L_2argmax{PL1,PL2,⋯,PLn}=L2,那麼xxx就被劃分為L2L_2L2。

  (2)貝葉斯分類基本原理

  其次,貝葉斯分類的實現也很簡單。現在已經知道了基本原理,設xxx所屬的類別為ccc,xix_ixi代表樣本xxx的第iii個屬性值(第iii個維度的值),那麼上面所說的要求樣本xxx屬於每種類別的機率就記為P(c∣x)P(c|x)P(c∣x),根據貝葉斯模型和極大似然估計原理,那麼就有:

  P(c∣x)=P(x∣c)P(c)P(x)=P(c)P(x)∏i=1mP(xi∣c)

  P(c|x)=\frac{P(x|c)P(c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^mP(x_i|c)

  P(c∣x)=P(x)P(x∣c)P(c)=P(x)P(c)i=1∏mP(xi∣c)

  其中P(x)=∏i=1mP(xi)P(x)=\prod_{i=1}^mP(x_i)P(x)=∏i=1mP(xi),對於資料xxx來說,計算對應的每一種類別的機率時,P(x)P(x)P(x)是相同的,所以為了計算方便,可以省略掉,記為:

  P(c∣x)∝P(c)∏i=1mP(xi∣c)

  P(c|x)\propto P(c)\prod_{i=1}^mP(x_i|c)

  P(c∣x)∝P(c)i=1∏mP(xi∣c)(注:在實現時,為了防止機率連乘導致趨近於0,將∏i=1mP(xi∣c)\prod_{i=1}^mP(x_i|c)∏i=1mP(xi∣c)取對數變成連加)所以最終計算xxx所對應的類別就有:

  L(x)=argmaxP(c)∏i=1mP(xi∣c)

  L(x)=argmax P(c)\prod_{i=1}^mP(x_i|c)

  L(x)=argmaxP(c)i=1∏mP(xi∣c)這裡c是所要求的值。根據這個公式就知道,要求xxx所屬的類別,只要求出P(c)P(c)P(c)和P(xi∣c)P(x_i|c)P(xi∣c)就行了。

  設整個樣本資料集為DDD,當∣D∣|D|∣D∣足夠大時(即樣本數量足夠多),就可以利用頻率估計機率(大數定律)來計算出先驗機率P(c)P(c)P(c),

  P(c)=∣Dc∣∣D∣

  P(c)=\frac{|D_c|}{|D|}

  P(c)=∣D∣∣Dc∣∣D∣|D|∣D∣代表所有資料的數量,∣Dc∣|D_c|∣Dc∣表示類別為ccc的樣本的數量。現在P(c)P(c)P(c)很容易的求出來了,然後就是P(xi∣c)P(x_i|c)P(xi∣c)了。

  然而,對於樣本屬性xix_ixi來說,其可分為連續性樣本屬性和離散型樣本屬性。先理解一下什麼是“離散型樣本屬性”,那麼“連續型”就比較容易理解了。

  “離散型樣本屬性”:比如,對於西瓜AAA來說,AAA就是整個西瓜家族裡面的一個樣本,那麼AAA的屬性就會有{外皮顏色,敲擊聲音,觸控手感,⋯ }\{外皮顏色,敲擊聲音,觸控手感,\cdots\}{外皮顏色,敲擊聲音,觸控手感,⋯},而對於“外皮顏色”這個屬性來說,它的取值可能有{黃色,綠色,青綠色,⋯ }\{黃色,綠色,青綠色,\cdots\}{黃色,綠色,青綠色,⋯},這個屬性的取值是離散的,有限的,那麼這個屬性就是“離散型”屬性了,另外兩個屬性也是一樣。對於離散型樣本屬性的條件機率計算公式也是根據頻率估計機率得到:

  P(xi∣c)=∣Dc,xi∣∣Dc∣

  P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}

  P(xi∣c)=∣Dc∣∣Dc,xi∣∣Dc,xi∣|D_{c,x_i}|∣Dc,xi∣為類別ccc中的所有資料的第iii個屬性值為xix_ixi的樣本的數量。

  “連續型樣本屬性”:還是對西瓜AAA來說,AAA除了上面提到的那些屬性之外,還有{含糖量,水分}\{含糖量,水分\}{含糖量,水分}這些屬性,這兩個屬性如果以定量方法(精確地測量數值)來表示,比如含糖量為45.678%45.678\%45.678%,這樣就叫做“連續型”屬性了,但是如果以定性方法來表示,比如將含糖量劃分為{低,中,高}\{低,中,高\}{低,中,高}三個等級,那麼就是“離散型”屬性了。對於連續型樣本屬性的條件機率計算公式使用高斯核密度估計(應該是這麼叫吧,希望數理統計沒白學)得到:

  P(xi∣c)=12πσc,iexp(−(xi−μc,i)22σc,i2)

  P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp\left(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}}\right)

  P(xi∣c)=2πσc,i1exp(−2σc,i2(xi−μc,i)2)其中μc,i\mu_{c,i}μc,i和σc,i\sigma_{c,i}σc,i分別為第ccc類樣本在第iii個屬性取值的均值和標準差。

  為了避免資料集不充分而導致估計機率為0的情況,需要在實現過程中引入拉普拉斯修正(具體拉普拉斯修正方法也很簡單),但我為了圖方便,直接在先驗機率和條件機率(針對離散型屬性)的分子和分母都 +1 了(實際測試中,並沒有發現有太大的差別)。

  2.2 AODE半樸素貝葉斯分類器

  首先,要知道什麼是AODE(Averaged One-Dependent Estimator),就要先了解什麼是SPODE(Super-Parent One-Dependent Estimator)。在上面所講的樸素貝葉斯分類都是基於樣本的所有屬性是相互獨立的,那麼如果某些屬性存在依賴關係怎麼辦呢。SPODE就是假設樣本的每個屬性都依賴於某一個屬性,這個屬性就叫做“超父”。比如,將x1x_1x1屬性設定為“超父”,那麼計算xxx屬於第ccc類資料的機率公式為:

  P(c∣x)∝P(c)∏i=1mP(xi∣c,x1)

  P(c|x)\propto P(c)\prod_{i=1}^mP(x_i|c,x_1)

  P(c∣x)∝P(c)i=1∏mP(xi∣c,x1)而AODE就是在此基礎上,將樣本的屬性依次作為超父來計算機率,最後求和,同時,假設類別ccc也依賴於樣本的屬性,那麼計算xxx屬於類別ccc的機率公式為:

  P(c∣x)∝∑i=1mP(c,xi)∏j=1mP(xj∣c,xi)

  P(c|x)\propto \sum_{i=1}^m P(c,x_i)\prod_{j=1}^mP(x_j|c,x_i)

  P(c∣x)∝i=1∑mP(c,xi)j=1∏mP(xj∣c,xi)同樣的,利用頻率估計機率的方法可以得到:

  P(xj∣c,xi)=∣Dc,xi,xj∣∣Dc,xi∣

  P(x_j|c,x_i)=\frac{|D_{c,x_i,x_j}|}{|D_{c,x_i}|}

  P(xj∣c,xi)=∣Dc,xi∣∣Dc,xi,xj∣與樸素貝葉斯分類相同,實現時也要引入拉普拉斯修正,我還是分子分母都 +1 了。

  透過觀察xxx屬於類別ccc的機率公式就能看出,這個方法的時間複雜度很高,實際上,對於每一個樣本,計算出分別屬於哪一個類的機率一共有三層迴圈(不知是否有最佳化方法,但是時間複雜度幾乎不可能降低了)。實現之後,這個方法並沒有進行實驗結果的驗證,因為時間代價太大,所以我猜測,這也是為什麼sklearn中有樸素貝葉斯卻沒有AODE半樸素貝葉斯方法的原因了。

  三、實驗結果與程式碼

  3.1 實驗結果

  對於樸素貝葉斯分類器的實現,我只實現了離散型樣本屬性的分類(連續性屬性也比較容易,只要把條件機率函式換成高斯核即可),使用了MNIST、Yale和COIL20這三個資料對其進行了實驗,使用ACC評價標準對其進行評價。(注:由於AODE時間成本過高,不太適合屬性維度較多資料,我沒有進行資料實驗,所以我也不知道對不對,不過按照樸素貝葉斯的思路來應該也不會錯吧。。。)

  方法\資料  MNIST  Yale  COIL20

  McQueen_NBC  0.95  1  1

  GaussianNB  0.55  0.8  1

  這裡我就沒有將資料集劃分成測試集和訓練集了,這三組資料測試集是在訓練集中每個類別資料分別抽取前0.005%,0.1%,0.01%得到的。McQueen_NBC方法是我自己實現的樸素貝葉斯分類器(實際上是多項式貝葉斯),適用於離散屬性樣本,而GaussianNB是呼叫的sklearn庫的方法,這個方法是基於連續型屬性的,由結果可以看出,在MNIST和Yale這兩個資料上,連續型準確率不如離散型(因為這兩個資料是離散型樣本資料)。

  3.2 完整程式碼

  datadvi.py

  from scipy.io import loadmat

  import numpy as np

  def divdata():

  filename = 'C:/Users/ALIENWARE/Documents/作業/機器學習/datasets/' + input("input name of data file: ")

  data = loadmat(filename)

  # print(data['X'])

  if filename == 'C:/Users/ALIENWARE/Documents/作業/機器學習/datasets/COIL20.mat':

  dataX = data['fea']

  dataY = data['gnd'][0]

  else:

  dataX = data['X']

  dataY = data['Y'].T[0]

  print(len(dataX[0]))

  divideornot = input("divide data or not?(Yes/No): ")

  if divideornot == 'Yes':

  dataX_train = []

  dataX_predict = []

  dataY_train = []

  dataY_predict = []

  num_Y = np.unique(dataY).astype(int)

  for i in range(len(num_Y)):

  temp = dataY == num_Y[i]

  temp.astype(float)

  num_Y[i] = np.sum(temp)

  flag = 0

  for j in range(len(dataY)):

  if temp[j] == 1:

  if flag < int(round(0.9 * num_Y[i])):

  dataX_train.append(dataX[j])

  dataY_train.append(dataY[j])

  flag += 1

  else:

  dataX_predict.append(dataX[j])

  dataY_predict.append(dataY[j])

  dataX_train = np.array(dataX_train)

  dataX_predict = np.array(dataX_predict)

  dataY_train = np.array(dataY_train)

  dataY_predict = np.array(dataY_predict)

  return dataX_train,dataX_predict,dataY_train,dataY_predict

  else:

  return dataX,dataX,dataY,dataY

  def decreaseData(dataX,dataY):

  dataX_train = []

  dataY_train = []

  num_Y = np.unique(dataY).astype(int)

  print("this data has {} samples".format(len(dataX)))

  ratio = float(input("input the ratio you want to decrease: "))

  for i in range(len(num_Y)):

  temp = dataY == num_Y[i]

  temp.astype(float)

  num_Y[i] = np.sum(temp)

  flag = 0

  for j in range(len(dataY)):

  if temp[j] == 1:

  if flag < round(ratio * num_Y[i]):

  dataX_train.append(dataX[j])

  dataY_train.append(dataY[j])

  flag += 1

  dataX_train = np.array(dataX_train)

  dataY_train = np.array(dataY_train)

  print(dataX_train)

  return dataX_train,dataY_train

  Acc.py

  import numpy as np

  def acc(L1, L2):

  sum = np.sum(L1[:]==L2[:])

  return sum/len(L2)

  NBC.py

  import math

  import numpy as np

  import datadvi

  import Acc

  #載入資料

  def loadData(filename):

  return datadvi.divdata()

  #按標籤類別生成不同標籤樣本組成的集合,返回值為每種類別樣本的索引

  def divSamples(dataY):

  label = np.unique(dataY)

  D = []

  for i in label:

  D.append(np.argwhere(dataY==i).T[0])

  return np.array(D)

  # 計算第c類樣本在第i個屬性上取值的均值和標準差,smaple_cIndx是第c類樣本的索引(用於連續型屬性,此次未用到)

  def calcMuSig(sample_cIndx,i,D):

  mu = np.average(D[sample_cIndx][:,i])

  sigma = np.std(D[sample_cIndx][:,i])

  return mu,sigma

  #計算類先驗機率P(c),

  def beforeProb(sample_cIndx,D):

  return float(len(sample_cIndx)+1)/(D.shape[0]+1)

  #計算離散型條件機率P(xi|c)

  def condProb_disp(i,xi,sample_cIndx,D):

  numerator = np.sum(D[sample_cIndx][:,i]==xi)+1

  denominator = len(sample_cIndx)+1

  return float(numerator)/denominator

  #計算連續型條件機率P(xi|c)

  def condProb_cont(i,xi,sample_cIndx,D):

  mu,sigma = calcMuSig(sample_cIndx,i,D)

  prob = 1/(math.sqrt(2*3.14)*sigma)*math.exp(-float((xi-mu)*(xi-mu))/(2*sigma*sigma))

  return prob 鄭州婦科醫院哪家好

  #計算類後驗機率P(c|x)

  def afterProb(sample_x,c,dataX,dataY):

  sample_c = divSamples(dataY)

  p = beforeProb(sample_c[c],dataX)

  #p = beforeProb(sample_c[c],dataX)

  p1 = 0

  for i in range(len(sample_x)):

  p1 += math.log10(condProb_disp(i,sample_x[i],sample_c[c],dataX))

  #p1 *= condProb_cont(i,sample_x[i],sample_c[c],dataX) #會下溢

  return p*p1

  #計算最大機率對應的類

  def argMaxProb_c(sample_x,dataX,dataY):

  label = np.unique(dataY)

  argProb1 = []

  for c in label:

  temp_prob = afterProb(sample_x,c-1,dataX,dataY)

  argProb1.append(temp_prob)

  argProb = np.array(argProb1)

  return label[np.argmax(argProb)]

  #將所有資料分類

  def bayesClassifier(dataPredict,dataX,dataY):

  pred = []

  for sample_x in dataPredict:

  pred.append(argMaxProb_c(sample_x,dataX,dataY))

  print(len(pred))

  return pred

  dataX_train, dataX_predict, dataY_train, dataY_predict = datadvi.divdata()

  dataX_predict,dataY_predict = datadvi.decreaseData(dataX_predict,dataY_predict)

  print(len(dataX_predict))

  sample_c = divSamples(dataY_train)

  pred = bayesClassifier(dataX_predict,dataX_train,dataY_train)

  print(pred)

  print(Acc.acc(pred,dataY_predict))

  AODE.py

  import math

  import numpy as np

  import datadvi

  import Acc

  import RBFNN

  #載入資料

  def loadData(filename):

  return datadvi.divdata()

  #按標籤類別生成不同標籤樣本組成的集合,返回值為每種類別樣本的索引

  def divSamples(dataY):

  label = np.unique(dataY)

  D = []

  for i in label:

  D.append(np.argwhere(dataY==i).T[0])

  return np.array(D)

  #計算先驗機率P(c,xi)

  def beforeProb(sample_cIndx,i,xi,D):

  numerator = len(np.argwhere(D[sample_cIndx][:,i]==xi).T[0])+1 #索引改變了,但是數量沒變

  denominator = D.shape[0]+1 #此處1需被替換為N*Ni

  return float(numerator)/denominator

  #計算條件機率P(xj|c,xi)

  def condProb(i,xi,j,xj,sample_cIndx,D):

  D_c = D[sample_cIndx]

  D_c_xi = D_c[np.argwhere(D_c[:,i]==xi).T[0]]

  D_c_xi_xj = D_c_xi[np.argwhere(D_c_xi[:,j]==xj).T[0]]

  numerator = len(D_c_xi_xj)+1

  denominator = len(D_c_xi)+1

  return float(numerator)/denominator

  #計算後驗機率P(c|x)

  def afterProb(sample_x,c,dataX,dataY):

  sample_c = divSamples(dataY)

  prob = 0

  for i in range(len(sample_x)):

  p1 = 0

  p = beforeProb(sample_c[c],i,sample_x[i],dataX)

  for j in range(len(sample_x)):

  p1 += math.log10(condProb(i,sample_x[i],j, sample_x[j],sample_c[c], dataX)) #防止下溢

  prob += p*p1

  return prob

  #計算最大機率對應的類

  def argMaxProb_c(sample_x,dataX,dataY):

  label = np.unique(dataY)

  argProb1 = []

  for c in label:

  temp_prob = afterProb(sample_x, c - 1, dataX, dataY)

  argProb1.append(temp_prob)

  argProb = np.array(argProb1)

  return label[np.argmax(argProb)]

  #將所有資料分類

  def bayesClassifier(dataPredict,dataX,dataY):

  pred = []

  for sample_x in dataPredict:

  label_pred = argMaxProb_c(sample_x,dataX,dataY)

  pred.append(label_pred)

  print(len(pred))

  return pred

  dataX_train, dataX_predict, dataY_train, dataY_predict = datadvi.divdata()

  dataX_predict,dataY_predict = datadvi.decreaseData(dataX_predict,dataY_predict)

  print(len(dataX_predict))

  pred = bayesClassifier(dataX_predict,dataX_train,dataY_train)

  print(Acc.acc(pred,dataY_predict))


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2671203/,如需轉載,請註明出處,否則將追究法律責任。

相關文章