工作以後才發現,難的不是統計學,而是我們的教材寫得不好。比起高等數學,統計概念其實容易理解多了。
我舉一個例子,什麼是泊松分佈和指數分佈?恐怕大多數人都說不清楚。
我可以在10分鐘內,讓你毫不費力地理解這兩個概念。
一、泊松分佈
日常生活中,大量事件是有固定頻率的。
- 某醫院平均每小時出生3個嬰兒
- 某公司平均每10分鐘接到1個電話
- 某超市平均每天銷售4包xx牌奶粉
- 某網站平均每分鐘有2次訪問
它們的特點就是,我們可以預估這些事件的總數,但是沒法知道具體的發生時間。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?
有可能一下子出生6個,也有可能一個都不出生。這是我們沒法知道的。
泊松分佈就是描述某段時間內,事件具體的發生機率。
上面就是泊松分佈的公式。等號的左邊,P 表示機率,N表示某種函式關係,t 表示時間,n 表示數量,1小時內出生3個嬰兒的機率,就表示為 P(N(1) = 3) 。等號的右邊,λ 表示事件的頻率。
接下來兩個小時,一個嬰兒都不出生的機率是0.25%,基本不可能發生。
接下來一個小時,至少出生兩個嬰兒的機率是80%。
泊松分佈的圖形大概是下面的樣子。
可以看到,在頻率附近,事件的發生機率最高,然後向兩邊對稱下降,即變得越大和越小都不太可能。每小時出生3個嬰兒,這是最可能的結果,出生得越多或越少,就越不可能。
二、指數分佈
指數分佈是事件的時間間隔的機率。下面這些都屬於指數分佈。
- 嬰兒出生的時間間隔
- 來電的時間間隔
- 奶粉銷售的時間間隔
- 網站訪問的時間間隔
指數分佈的公式可以從泊松分佈推斷出來。如果下一個嬰兒要間隔時間 t ,就等同於 t 之內沒有任何嬰兒出生。
反過來,事件在時間 t 之內發生的機率,就是1減去上面的值。
接下來15分鐘,會有嬰兒出生的機率是52.76%。
接下來的15分鐘到30分鐘,會有嬰兒出生的機率是24.92%。
指數分佈的圖形大概是下面的樣子。
可以看到,隨著間隔時間變長,事件的發生機率急劇下降,呈指數式衰減。想一想,如果每小時平均出生3個嬰兒,上面已經算過了,下一個嬰兒間隔2小時才出生的機率是0.25%,那麼間隔3小時、間隔4小時的機率,是不是更接近於0?
三、總結
一句話總結:泊松分佈是單位時間內獨立事件發生次數的機率分佈,指數分佈是獨立事件的時間間隔的機率分佈。
請注意是"獨立事件",泊松分佈和指數分佈的前提是,事件之間不能有關聯,否則就不能運用上面的公式。
[說明] 本文受到 nbviewer 文件的啟發。
(正文完)
================================================
以下為廣告部分。歡迎大家在我的網路日誌投放廣告,推廣自己的產品。
[贊助商廣告]
在我之前的部落格中,給大家推薦過"幫最優秀的工程師找工作"的 100offer 。時隔半年,我收到了一封朋友來信,講自己的職業選擇,文中也提到了 100offer 。讀完後,不禁有些感觸,推薦給大家。
只是,漸漸會有一些不安,得空反思,發覺自己在做的這些事,於個人成長而言價值不大。譬如我會用jQuery,它簡潔、高效,但我並不知道為何可以這樣;再如HashMap、HashTable主要區別在於執行緒安全與否,但原理是什麼我還不清楚??
今年年初,決心離開南研所,並離開南京這座城市......(點選此處閱讀原文)
同時決定文尾再幫我的贊助商 100offer 做次推廣,1次申請,10個優質offer,1份更好的工作。有需求的程式設計師們去註冊申請拍賣吧。
(完)