《機器學習實戰》4.4使用樸素貝葉斯進行文件分類

王明輝發表於2018-02-23

  這一節中關於概率分佈的描述,省略了一些語句,所以有點看不明白,經過反覆推敲琢磨分析以後,把這些省略的文字補足,這樣就能看懂了。【】中為補充的文字。

  文中的“需要”的意思是“需要足夠的資料樣本來得到好的概率分佈”  


 

  假設詞彙表中有1000個單詞。要得到好的概率分佈,就需要足夠的資料樣本,假定樣本數為N,【這樣就可以得到好的概率分佈】。前面講到的約會網站示例中有1000個例項,手寫識別示例中每個數字有200個樣本,而決策樹示例中有24個樣本。其中,24個樣本有點少【,可能得不到好的概率分佈,統計學上至少要達到30】,200個樣本好一些,而1000個樣本就非常好了。約會網站例子中有三個特徵。由統計學知,如果每個特徵需要N個樣本【來達到好的概率分佈】,那麼對於10個特徵將需要N10個樣本【來達到好的概率分佈】【特徵a1需要n個,a2需要n個,所以10個特徵是n*n*n...*n】,對於包含1000個特徵的詞彙表將需要N1000個樣本【來達到好的概率分佈】。可以看到,所需要的樣本數會隨著特徵數目增大而迅速增長。

 


 本文來自http://www.cnblogs.com/Sabre/p/8460670.html

 

相關文章