機器學習數學複習 - 1.概率論基礎

乾貨滿滿張雜湊發表於2021-06-28

概率相關

從骰子實驗引出的各種概率概念

1.投骰子,出現點數為 6 的概率 $\frac{1}{6}$. 投骰子,已知出現點數為偶數,出現點數為 6 的概率則是 $\frac{1}{3}$,這個概率即 條件概率

2.條件概率為:假設我們知道 A 事件已經發生,在此基礎上我們想知道 B 事件發生的概率,這個概率為條件概率,記作 $P(B|A)$

3.古典概率模型:假設一個實驗,有 $\Omega$ 個等可能性的結果,事件 A 包含其中 $X$ 個結果,事件 B 包含其中 $Y$ 個結果,$Z$ 代表其中交叉的事件:

image

事件 A 發生的概率:$P(A) = \frac{X}{\Omega}$;事件 B 發生的概率:$P(B) = \frac{Y}{\Omega}$;事件 A、B 都發生的概率:$P(AB) = \frac{Z}{\Omega}$如果事件 A 已經發生,那麼事件 B 也發生的概率是 $P(B|A) = \frac{Z}{X}$,將公式展開: 這個公式就是條件概率公式
$$
P(B|A) = \frac{\frac{Z}{\Omega}}{\frac{X}{\Omega}}= \frac{P(AB)}{P(A)}
$$

4.如果條件概率 $P(B|A)$ 大於 $P(B)$,代表事件 A 的發生會促進事件 B 的發生,例如上面投骰子的例子。還有可以看下圖,本身 $P(B)$ 的概率是比較小的,在事件 A 已發生的情況下,由於相交部分較多,事件 B 發生的概率也提升了:

image

5.如果條件概率 $P(B|A)$ 小於 $P(B)$,代表事件 A 不會促進事件 B 的發生,例如事件 A 為投骰子點數為偶數,事件 B 為投骰子點數小於 < 4,事件 A 和 事件 B 發生的概率都為 $1/2$,事件 A、B 同時發生的概率是 $1/6$,條件概率 $P(B|A)$ 為 $1/3$。還有可以看下圖,本身 $P(B)$ 的概率是比較大的,在事件 A 已發生的情況下,由於相交部分較少,事件 B 發生的概率被降低了:

image

6.如果條件概率 $P(B|A)$ 等於 0,代表事件 A 與事件 B 完全不相交,即事件 A 發生則事件 B 一定不會發生,事件 A 與事件 B 是不相容事件,或者是互斥事件。如下圖所示:

image

7.還有可能條件概率 $P(B|A)$ 等於 $P(B)$,在這種情況下其實就是事件 A、B 的發生互不相關,例如有兩個骰子,事件 A 為骰子 1 投出點數 6,事件 B 為骰子 2 投出點數 2,事件 A 和 事件 B 發生的概率都為 $1/6$,那麼事件 A、B 同時發生的概率是 $\frac{1}{36}$,條件概率 $P(B|A)$ 等於 $\frac{1}{6}$,我們一般稱這種為獨立事件。如下圖所示:

image

全概率公式與骰子實驗驗證

假設有 $A_1,A_2,...,A_n$ 這些互斥事件,包含了實驗所有可能的結果:

image

即有$P(A_1) + P(A_2) + ... + P(A_n) = 1$。拿剛剛的骰子舉例,其實就是拋一次骰子,點數分別為 1,2,3,4,5,6.

假設再有一個事件 B,用古典概率表示如圖:

image

事件 B 的概率,可以通過事件 B 在 $A_1,A_2,...,A_n$ 這些互斥事件上的條件概率以及這些事件的概率進行計算,即全概率公式:
$$
條件:P(A_1) + P(A_2) + ... + P(A_n) = 1
$$
$$
結果:P(B) = P(B\Omega) = P(BA_1) + P(BA_2) + ... + P(BA_n) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + ... + P(A_n)P(B|A_n)
$$
例如事件 B 就是投出的骰子為偶數,$P(B) = \frac{1}{2}$,$P(A_{點數=1})P(B|A_{點數=1}) + P(A_{點數=2})P(B|A_{點數=2}) + P(A_{點數=3})P(B|A_{點數=3}) + P(A_{點數=4})P(B|A_{點數=4}) + P(A_{點數=5})P(B|A_{點數=5}) + P(A_{點數=6})P(B|A_{點數=6}) = \frac{1}{6} * 0 + \frac{1}{6} * 1 + \frac{1}{6} * 0 + \frac{1}{6} * 1 + \frac{1}{6} * 0 + \frac{1}{6} * 1 = \frac{1}{2}$

全概率公式的使用:足球預測

全概率公式的意義在於:在大多數情況下,我們是很難像骰子實驗一樣直接得出事件 B 的概率的,我們需要限定事件的樣本空間,根據現有樣本抽象出事件 $A_1,A_2,...,A_n$,同時統計這些事件上 B 發生的概率,最後得出事件 B 的概率。

舉個例子即推測本次歐洲盃英國隊對陣德國隊,英國隊勝利的概率,我們可以通過歷史比賽資料(例如近幾屆歐洲盃比賽資料,以及兩隊對陣比賽資料)估算出英國隊進球數為 0,1,2,3,4,5... 的概率,德國隊進球數為 0,1,2,3,4,5... 的概率,其中英國隊進球數大於德國隊即英國隊勝利的概率。這就是全概率公式的一種應用。

由因推果與由果推因

全概率公式就是由因推果,一個典型的例子就是上面提到本次歐洲盃英國隊對陣德國隊,英國隊勝利的概率的推測。我們根據以往比賽資料,可以算出英國隊還有德國隊的平均進球,進球概率一般符合泊松分佈(這個我們之後還會提到,還會用這個例子詳細分析),根據泊松分佈,我們可以可以得出英國隊還有德國隊進球數 n 的概率,假設英國隊平均進球為 1.67,德國隊平均進球為 1.52 則(我們這裡只考慮到進球數為 4 的情況):

球隊 進球數為 0 進球數為 1 進球數為 2 進球數為 3 進球數為4
英國隊 0.1882 0.3144 0.2625 0.1461 0.061
德國隊 0.2187 0.3324 0.2527 0.128 0.0486

假設 $P(A_0)$ 為英國隊進球數為 0 的概率並以此類推:

$$
P(A_0) = 0.1882
$$
$$
P(A_1) = 0.3144
$$
$$
P(A_2) = 0.2625
$$
$$
P(A_3) = 0.1461
$$
$$
P(A_4) = 0.061
$$

假設 $P(B)$ 為英國隊勝利的概率,則根據全概率公式有:

$$
P(B) = P(A_0)P(B|A_0) + P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3) + P(A_4)P(B|A_4)
$$
$$
P(B|A_0) = 0
$$
$$
P(B|A_1) = 德國隊進球為 0 的概率 = 0.2187
$$
$$
P(B|A_2) = 德國隊進球為 0,1 的概率 = 0.2187 + 0.3324 = 0.5511
$$
$$
P(B|A_3) = 德國隊進球為 0,1,2 的概率 = 0.2187 + 0.3324 + 0.2527 = 0.8038
$$
$$
P(B|A_4) = 德國隊進球為 0,1,2,3 的概率 = 0.2187 + 0.3324 + 0.2527 + 0.128 = 0.9318
$$
$$
P(B) = 0.1882 * 0 + 0.3144 * 0.2187 + 0.2625 * 0.5511 + 0.1461 * 0.8038 + 0.061 * 0.9318 = 0.3877
$$

但是,現實問題中,我們經常還會遇到由果推因的問題,例如我們體檢,檢測出來了膽囊息肉,那它究竟是否是腫瘤形成的還是膽固醇形成的或者是其他原因呢?這就需要我們從這個結果推測形成的原因。這就引出了貝葉斯公式

從足球預測例子理解先驗概率與後驗概率

在提到貝葉斯公式之前,我們先搞清楚兩個概念,先驗概率後驗概率

先驗概率一般是通過經驗得出,即根據歷史採集到的資料,沒有做任何限制,得出的經驗概率。上面的例子提到的通過歷史比賽資料推測出來的兩隊進球數的概率,就是先驗概率。這時候假設比賽開始,然後發生了一個事件,德國隊後衛失誤被英國隊凱恩先進了一球,這時候我們需要在這個前提下重新計算兩隊進球數的概率,這個就是後驗概率

先驗概率即完全根據歷史資料推測出的經驗概率,沒有任何已發生前提情況下的概率。後驗概率即觀察到某個現象需要對先驗概率進行修正的概率。可以這樣簡單理解,比賽開始前,估計的概率一般就是先驗概率,比賽開始後,發生紅黃牌,點球,進球,換人等等這些事件後,對概率進行修正後得出的就是後驗概率。

貝葉斯公式與膽囊息肉形成原因推測

假設有事件 A、B,則:
$$
P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}
$$
這就是貝葉斯公式,我們再結合起來全概率公式,假設我們事件 $A_1, A_2, ..., A_n$ 這些互斥事件構成了樣本空間的全集,則有:

$$
P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + ... + P(B|A_n)P(A_n)}
$$

我們來用膽囊息肉形成原因推測舉個例子,假設我們統計到在某個醫院一百萬個病人樣本中,患有腫瘤的有 8%,其中的 20% 曾經發現膽囊息肉,具有高膽固醇症狀的人有 80%,其中 40% 曾經發現膽囊息肉,剩下其他的 12% 中 30% 曾經發現膽囊息肉。假設 $A_1$ 為患有腫瘤,$A_2$ 為膽固醇,$A_3$ 為其他。$B$ 為膽囊息肉。則膽囊息肉為腫瘤的概率為:

$$
P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + P(B|A_3)P(A_3)} = \frac{0.2 * 0.08}{0.2 * 0.08 + 0.4 * 0.8 + 0.3 * 0.12} = 0.043
$$

相關文章