資料統計分析 — 泊松分佈

VipSoft發表於2023-10-30

在一指定時間範圍內或在指定的面積或體積內某一事件出現的次數的分佈,他們對應的隨機變數的機率服從的分佈叫做泊松分佈,泊松分佈是二項分佈的極限
工作中用到的比較少,比二項分佈還少
例如:

  • 某企業中每月某裝置出現故障的次數
  • 單位時間內到達某一服務檯需要服務的顧客人數

舉個例子

小王的嬸嬸新開了一個包子鋪,生意還不錯,但是有一天小王去買包子,看見嬸嬸一籌莫展,問其原因,原來是因為包子鋪6點-10點營業,這一週頭有兩天包子蒸少了,不到8點就賣完了,後來吸取教訓蒸多了,又因為賣不完而不新鮮了,早上6點-10點到底蒸多少包子合適呢?

還好小王學過統計學,嬸嬸把饅頭資料簡單假設如下:
image

我們想一想,首先能不能用均值,我們算一下平均數
image
如果按照平均數,則5天中有2天都供不應求,這個不太合適
image

這可該怎麼辦?

我們換個思路,包子在6點-10點之間,每個包子的命運只有兩個結果,要麼賣出了,要麼沒賣出,那我們可以把6點-10點這個時間段當成一條有長度的線,假設分成20等份,假設每個時間段上放一個包子,要麼賣出去了,要麼沒賣出去,類似於拋8次硬幣,要麼出現正面,要麼出現反面,我們計算一下,賣出去7個包子的機率,利用二項分佈公式

image
如果我們把時間段分成n等份,則賣出7個包子的機率為
image

運用極限,把時間段分的越細越好,並計算在這個時間段內賣出 k 個饅頭的機率為:
image
對於這個p該怎麼計算呢?
我們知道它服從二項分佈,二項分佈的期望為np,則
image
因此
image

推導過程(瞭解就行):
image
image
假設每天準備65個包子,μ在這裡可以直接使用均值50來計算,最後得出

機率為98.2%,其實大部分時候我們基本能滿足每天的需求,因為資料量小,所有可能實際意義不是很明顯,這裡只是為了教學參考。

Excel使用Poisson.dist函式計算結果:
image
函式介紹
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)

OISSON.DIST 函式語法具有下列引數:

  • X 必需。 事件數。
  • Mean 必需。 期望值。
  • cumulative 必需。 一邏輯值,確定所返回的機率分佈的形式。 如果 cumulative 為 TRUE,則 POISSON.DIST 返回發生的隨機事件數在零(含零)和 x(含 x)之間的累積泊松機率;如果為 FALSE,則 POISSON 返回發生的事件數正好是 x 的泊松機率密度函式。

泊松分佈是二項分佈的極限

在n重伯努利實驗中,當成功的機率很小,實驗次數很大時,二項分佈可近似等於泊松分佈

在實際應用中,當p<=0.25,n>20,np<=25時,用泊松分佈近似二項分佈的效果良好
image

連續型隨機變數的機率分佈
德國的高斯
image
法國的拉普拉斯
image
回到最開始的業務場景

透過統計描述,分析師已經瞭解了配件A過去的日消耗量波動情況,現希望基於歷史資料設定庫存控制線,要求該庫存量能夠保證99%的使用日不會出現庫存斷貨情況。

該怎麼辦呢?

控制線設定成均數可以嗎?

肯定是不可以的,因為均值只是代表一般水平,換句話說,有大概一半的資料在均數以下,有一半在以上,如果把均數設定為庫存控制線,最多也就只能滿足50%左右的使用日不會出現庫存斷貨情況

如果使用百分位數呢?

計算P99位置的數值,這樣理論是可以的,但是百分位數對於樣本量比較大的資料集才具有意義,樣本量太小,實際意義不大

舉個例子:零件日消耗量分佈從1-100,我們隨機抽取50個樣本,計算P99,要求這個值要大於99%的日消耗,假設這個樣本資料的最大值是80,比這個數小的是78,最終我們計算出來的是78,顯然跟100差的很遠,這個資料拿到實際應用中,是不滿足要求的,因為樣本量少造成的誤差太大的緣故。

那該怎麼辦?
那就用到接下來要講的內容
從頻數分佈到機率分佈
image

那我們來分析一下
直方圖/頻率圖的性質
直條的面積實質上就是頻率(或者百分比)
面積=直條高度X寬度(組距) = 頻率
因此直條的面積相加等於1
當樣本量越來越大,頻率(面積) 趨向機率
並且組距越來越小時,直方條的頂縮成點並且各個直方條的頂連線成一條曲線,這條曲線就是 機率密度分佈曲線
機率密度的概念和固體的密度基本類似
哪個地方的機率大說明密度就大
image
這就是正態分佈

相關文章