機器學習數學知識積累之概率論

世有因果知因求果發表於2018-06-25

排列組合遵循的加法原理和乘法原理

加法原理

設完成一件事有m種方式,第一種方式有$n_1$種方法,第二種方式有$n_2$種方法,...,第m種方式有$n_m$種方法,

 則完成這件事兒,一共就有$n_1+n_2+n_3+..+n_m$種方法

乘法原理

設完成一件事兒有$ r $個步驟,第一個步驟有$ n_1 $ 種方法,第二個步驟有$ n_2 $ 種方法,第三個步驟有$ n_3 $ 種方法,...第n個步驟有$ n_r $ 種方法,

 則完成這件事兒一共就有 $ n_1 \times n_2 \times n_3 \times ... \times n_r $種方法

排列與組合

排列的定義

從n個不同元素中,任取m(m≤n,m與n均為自然數,下同)個元素按照一定的順序排成一列,叫做從n個不同元素中取出m個元素的一個排列;從n個不同元素中取出m(m≤n)個元素的所有排列的個數,叫做從n個不同元素中取出m個元素的排列數,用符號 A(n,m)表示。

組合的定義

從n個不同元素中,任取m(m≤n)個元素併成一組,叫做從n個不同元素中取出m個元素的一個組合;從n個不同元素中取出m(m≤n)個元素的所有組合的個數,叫做從n個不同元素中取出m個元素的組合數。用符號 C(n,m) 表示。

如何判斷是排列還是組合問題?排列和組合的共同點是從n個不同元素中取出m個元素,不同點是是否和順序有關,和順序有關就是排列問題,和順序無關就是組合問題。一般地組合數等於排列數除以次序

樣本空間

實驗的所有基本結果的集合被稱為樣本空間,一般記為$S$,樣本空間中的每一個實驗結果被稱為樣本點,每一個基本的實驗結果單個構成的事件被稱為基本事件,基本事件必然兩兩互斥。樣本點的數目可以是有限的,也可能是無限的???

樣本空間抽象示例(二維隨機變數聯合分佈)

事件(集合)的計算性質

由於概率論中的事件實際上就是樣本空間中樣本值(結果)的集合,很多概率計算也會應用到集合的性質,下面羅列出來常用的計算性質,其中對偶律對於多個集合都是滿足的。

事件往往用語言來描述,但是我們需要具有將語言描述對映為集合的抽象能力。比如$E=投骰子出現偶數$的事件等價於$E=\{ 2,4,6 \}$

事件空間是由樣本空間中的值(結果)任意組合形成的所有集合集,比如執公平骰子的點數形成的樣本空間為{1},{2},{3},{4},{5},{6}。那麼一個事件:$E(骰子的結果是偶數)={2,4,6}$,這裡的骰子數值任意組合可以形成相應的事件空間,比如$E(骰子的結果<3)={1,2},E(骰子的結果不大於5)={1,2,3,4}$等。。

$\overline{ABC} = \bar A \bigcup \bar B \bigcup \bar C$

$\overline{A \bigcup B \bigcup C} = \bar A \bar B \bar C$

概率

概率反映了人們對某些事件的瞭解程度。以下幾個原因導致為什麼會產生概率這個學科:

1. 人們對這個世界的無知。由於世界太複雜,人類並不能很好的把握事件發生的因果關係,這時就只能通過觀察來發現事件發生的機會,比如新生兒是男孩還是女孩,暑假天氣超過35度的會是哪些天。。。像這類問題,人們可能對影響結果的因素並無準確把握,因此只能通過觀察來總結事件發生的規律來認識世界;

2. 某些事件本身就具有隨機性,即使"相同"的測試條件,結果卻具有不確定性,不可預測性,比如我們抽獎時具體會抽到哪一張票這個也是完全隨機的,受票箱中票的分佈,抽獎人當時的心情,抽的地點等多重影響,這就表現出其隨機的特性。再比如執骰子,本身出來的是1,2,3,4,5,6哪一個點本身就是隨機的,結果受我們出力大小,投擲方向,地面光滑,空氣溼度等等因素所影響,在投骰子之前我們無法預知結果。

3.即便有時對於某些事件發生的規律有了本質瞭解,但是聯合起來研究非常複雜,我們可能傾向於結合起來當作隨機現象去研究。比如研究熱運動的現象,雖然每個分子熱運動的規律有成熟的理論模型,但是我們往往關心的是物質(巨量分子)的熱運動規律,而不是單個分子的情況,理論上雖然可以通過建立每個分子的熱運動方程去研究,但是數量太過巨大,每個分子的運動又具有獨立性,這時我們可能希望從巨集觀層面通過隨機現象來研究

正因為這兩個原因,我們使用統計學的方法去了解這類隨機現象具有的統計特徵,從而從概率上來把握這些現象

在個別實驗中結果的出現具有不確定性,但在大量重複試驗中又呈現規律性的非確定性現象稱為隨機現象

大量同類隨機現象所呈現的固有規律(不以人們的主觀意志而改變)為隨機現象的統計規律性

概率論與數理統計就是研究揭示隨機現象的統計規律性的數學學科。

概率定義的演變

頻率學派:概率表徵為大量實驗觀察後得到的事件發生的頻率

貝葉斯學派:概率為根據以往的資料或者經驗,形成的關於隨機事件發生可能性的主觀印象--是一個先驗資訊,比如:考察某地區男嬰的出身概率;考察某人是某案件嫌疑人的概率

如果既沒有辦法做大量隨機實驗,又沒有任何主觀印象,這時也就是說我們對待研究的現象是無資訊的,這種情況下貝葉斯假設基本事件發生是沒有任何偏好的,都是等可能的。

概率的公理化定義:

頻率學派和貝葉斯學派都是有道理的,但是沒有將概率提升到數學理論的高度,前蘇聯科學家柯爾莫哥洛夫做了更進一步的抽象:

概率為一個函式 

非負性: $1>P>0$

規範性:$P(S)=1$

可加性: $P(A+B+C) = P(A)+P(B)+P(C), A,B,C兩兩互斥$

 

概率和頻率

頻率是n次實驗中事件發生的次數除以總的實驗次數,頻率是一個隨機變數,其值隨著實驗次數不同而不同。

概率是隨機事件發生可能性大小的客觀度量!!概率具有客觀性和唯一性

依據大數定律,當實驗次數趨於無窮大時,頻率趨近於概率

隨機試驗

為了研究隨機現象的統計規律性,需要對隨機現象進行觀察和實驗。隨機實驗具有以下特點:

1. 可以在 " 相同 " 條件下重複進行: 可重複性

2.可以弄清實驗的全部結果: 結果可知性

3. 實驗前不能預言將出現哪個結果: 不可預言性

隨機事件,樣本空間

隨機實驗中可能發生也可能不發生的事情稱為隨機事件。比如,執硬幣觀察正反面出現的情況這個實驗,"出現正面"和出現反面這兩種結果都可以看成隨機事件。需要注意的是如果出現與實驗目的無關的情況,也不能稱之為事件。比如拋硬幣時骰子可能既沒不是正面也不是反面而是樹立起來不倒,這個結果不是我們關心的結果,因此不作為事件。

$A=\{出現正面\}, B=\{出現反面\}$

再例如:$E3$:記錄某電話總檯一天接到的呼叫次數這個實驗中,以下都為事件:

$A =\{呼叫次數為偶數\} $ 複合事件:由若干基本事件組合而成的事件,是樣本空間的子集

$B =\{呼叫次數為奇數\} $

$C =\{呼叫次數大於3\} $

$A_i =\{呼叫次數為i\} , i = 0,1,2,3,4.. $ 基本事件:必然發生一個並且僅發生一個的最簡單互斥事件,為單點集,$A_0,A_1,A_2,A_3,..A_i$

$\Omega  =\{呼叫次數為0或者正整數\} $ 必然事件對應著樣本空間這個全集  

樣本空間是所有基本事件組成的集合,通過將事件和集合做了一一對應,我們就可以使用集合論的知識方便對隨機現象進行數學研究。

概率的度量

概率大於0並且小於1,其值可以和幸運大轉盤上面的畫出的周長長度來度量

 

等可能概型:只要假設基本事件發生的機會均等,我們就稱為等可能概型,分為:古典概型(有限個樣本點:離散變數)幾何概型(無限個樣本點:連續變數)

古典概率的性質

1. $0\leqslant P(A) \leqslant 1$

2. P(S) = 1

3. 若事件A,B互斥,則

$P(A+B) = P(A)+P(B)$

4. $P(\bar{A}) = 1-P(A)$

5. $P(\varnothing)=0$

6. $若 A\subset B ,則 P(A)\leqslant P(B)並且 P(B-A)=P(B)-P(A)$

7. $P(A-B) = P(A) - P(AB)$

古典概率的演算法

$$P(A) = \frac{k}{n} = \frac{A中包含的基本事件數}{S中基本事件總數}$$

條件概率$P(A|B)$

上面我們提到概率反映了人們對某些事件的瞭解程度。比如對於同一個選擇題,如果讓一個完全不懂行的學渣來做,那麼其由於完全不懂,正解是A的概率就是0.25。但是對於一個學霸來說,他可能已經完全可以排除其中的C,D項,但是對於A,B兩項卻拿不準,那麼對該學霸來說,正解是A的概率就等於0.5了。從這裡也可以看出當得知某些事情發生之後,我們對事情的瞭解也可能會發生改變。

這也可以引入下面的條件概率

$P(A|B) = P(AB)/P(B)$ B發生的前提下A發生的概率為B這個樣本空間中A的樣本數比率

條件概率也可以理解成A在B中所佔有的比例

條件概率樣本空間降低直觀理解

古典條件概率$P(A|B)$的計算中,由於基本事件等概率,我們可以直接把條件事件B當作新的樣本空間按照無條件概率的方式來計算,隨後使用$E=AB$的樣本點數除以新的樣本空間樣本總數。但是對於非古典概率,由於事件發生的可能性並不均等,故而不能用這個思路,而必須用條件概率定義來計算。

 

條件概率也滿足概率的三條公理化定義,因此條件概率也具有古典概率的所有屬性。就是$P(.|B)$可以認為是一種新的運算定義,滿足:

$$P((A-B)|C) = P(A|C) - P(AB|C)$$

若$A_1,A_2,..A_n$互斥,則條件概率$P((A_1+A_2+...+A_n)|B) = P(A_1|B) + P(A_2|B) +...+ P(A_n|B) $

$$P(\bar{A}|B) = 1-P(A|B)$$

$$P(A_1-A_2|B) = P(A_1|B) - P(A_1A_2|B)$$

$$P(A_1\bigcup A_2|B) = P(A_1|B) + P(A_2|B) - P(A_1A_2|B)$$

乘法定理

$P(AB)=P(A)P(B|A)=P(B)P(A|B)$

全概率公式

$$P(B) = P(B\bigcap S) = P(B\bigcap \{A_1,A_2,..,A_n\}) = P(BA_1)+P(BA_2)+..+P(BA_n) = \sum P_{A_i}P_{B|A_i}$$

$ A_1,A_2,..A_n為S的一個劃分,每個B總會伴隨A_i發生而發生$

全概率可以理解為:先將導致B發生的所有條件都找全了,$A_1,A_2 ... A_n$, 然後將這些發生條件下的條件概率全部加起來就會得到B的總體概率,其中$A_1,A_2,...A_n$是所有能夠導致B發生的事件集合,並且兩兩互斥。 這就是為什麼叫做全概率的原因。

如下圖所示,$ A_1,A_2,..A_6$是能夠導致B發生的所有原因,B的概率就等於B在$ A_1,A_2,..A_6$條件下的條件概率的和集。全概率公式適合於事件還未發生,求解目標事件發生的概率預測,知因求果型問題的概率預測

可以用下圖更清楚地看出,使用一個$S$的有限劃分,將樣本空間分割,這些子空間和我們關注的事件交集比較好求解,注意本例是非古典概率計算(發生概率不均等)。其思想是化整為零

貝葉斯定理

 

$$P(A_i|B)=\frac{P(A_iB)}{P(B)} = \frac {P(A_i)P(B|A_i)}{\sum P(A_j)P(B|A_j)}$$

注意其數學含義可以理解為所有導致B發生的原因中$A_i$項所佔的比例,

$P(A_i)$被稱為驗前概率,$P(A_i|B)$被稱為驗後概率貝葉斯公式可以認為是使用$A_i$事件的驗前概率來求解已知實際事件發生結果後的驗後概率

貝葉斯定理解決的是已知結果,去找導致這個結果的原因的概率的問題。貝葉斯定理的兩種應用:

1. 執果尋因型的原因事件概率計算

2. 基於新資訊(事件已經發生)修正先驗概率(計算後驗概率)

貝葉斯概率是一個條件概率,他的重要性是在於將先驗概率和後驗概率有機地結合起來。用實驗獲得的資料實現對原因$A_k$的重新認識。在實驗之前,對$A_k$的認識$P(A_k)$為先驗概率

在實驗之後,在$B$發生的條件下的$A_k$的條件概率$P(A_k|B)$為後驗概率後驗概率的更新加深了對該原因$A_k$的認識。在隨後,一般會使用這個新的後驗概率作為新的先驗概率使用,再次實驗

會根據新的實驗資料再次對這個先驗概率做修正,形成新的先驗概率。

以銀行信用評估模為例子,銀行在對一個新的客戶評估是否放貸時,由於對該客戶無任何認識,會給他設定一個初始信用等級,後續通過還款記錄不斷更新對該客戶的信用登記評估。

設 $B="小李守信", P(B)為小李守信的概率$,銀行可能會給小李一個初始信用等級,假設$P(B)=P(\bar B) = 0.5 A="小李按期還款事件", P(A|B) = 0.9, P(A|\bar B) = 0.5$,

1. 根據以上假設,使用全概率公式計算初始按期還款的概率

$P(A)= P(B)P(A|B)+P(\bar B)P(A|\bar B)=0.7$

2.銀行檢測到小李第一次按時還款,也就是$A$事件發生了,該事件發生,銀行從中對小你有什麼新的後驗認識呢?根據貝葉斯定理,我們來計算後驗概率(在$A$發生的條件下,$B$事件的條件概率)

$P(B|A) = \frac{P(B)P(A|B)}{P(B)P(A|B)+P(\bar B)P(A|\bar B)}=0.64$

注意:銀行從小李的一次按期還款事件就有充足的信心將小李守信等級從先驗的守信概率0.5提高到後驗的0.64!!

銀行會使用新的後驗概率作為後續信用評估模型中使用的先驗概率,更新信用資料如下: $P(B) = P(B|A)= 0.64,  P(\bar B) = 0.36$

3.這時如果小李再次提出貸款申請,銀行將使用全概率公式重新計算其按期還款的概率

$P(A)= P(B)P(A|B)+P(\bar B)P(A|\bar B)=0.756$,這裡也可以看到銀行重新計算的還款概率也得到有效提升從0.7上升到0.756

4. 如果小李再次有按時還款的記錄,銀行進一步依據貝葉斯公式,重新計算其信用概率$P(B|A) = 0.76$,進一步提高。

後驗概率密度:

$$f_{X\mid Y=y}(x) = {f_X(x) L_{X\mid Y=y}(x) \over {\int_{- \infty}^\infty f_X(x) L_{X\mid Y=y}(x)\,dx}}$$

注意:

LX | Y = y(x) = fY | X = x(y) 是似然函式

似然函式

似然函式是一種關於統計模型引數$\theta$, (比如$\theta$可能是概率$p$)的函式。給定輸出x時,關於引數θ的似然函式L(θ|x)(在數值上)等於給定引數θ後變數X的概率

$$L(\theta|x) = P(X=x|\theta)$$

概率(probability)和似然(likelihood),都是指可能性,都可以被稱為概率,但在統計應用中有所區別。概率是給定某一引數值,求某一結果的可能性的函式。似然函式往往用於給定了某一結果,去求解某一引數值的可能性。往往我們認為使得似然函式取得最大值的統計模型引數最為合理,最有說服力

例子:

考慮投擲一枚硬幣的實驗。通常來說,已知投出的硬幣正面朝上和反面朝上的概率各自是pH = 0.5,便可以知道投擲若干次後出現各種結果的可能性。比如說,投兩次都是正面朝上的概率是0.25。用條件概率表示,就是:

P(\mbox{HH} \mid p_H = 0.5) = 0.5^2 = 0.25

其中H表示正面朝上。

在統計學中,我們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的資訊。我們可以建立一個統計模型:假設硬幣投出時會有pH 的概率正面朝上,而有1 − pH 的概率反面朝上。這時,條件概率可以改寫成似然函式:

L(p_H =  0.5 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.5) =0.25

也就是說,對於取定的似然函式,在觀測到兩次投擲都是正面朝上時,pH = 0.5 的似然性是0.25(這並不表示當觀測到兩次正面朝上時pH = 0.5 的概率是0.25)。

如果考慮pH = 0.6,那麼似然函式的值也會改變。

L(p_H = 0.6 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.6) =0.36

注意到似然函式的值變大了。這說明,如果引數pH 的取值變成0.6的話,結果觀測到連續兩次正面朝上的概率要比假設pH = 0.5時更大。也就是說,引數pH 取成0.6 要比取成0.5 更有說服力,更為“合理”。總之,似然函式的重要性不是它的具體取值,而是當引數變化時函式到底變小還是變大。對同一個似然函式,如果存在一個引數值,使得它的函式值達到最大的話,那麼這個值就是最為“合理”的引數值。這就是最大似然估計的本質思想

在這個例子中,似然函式實際上等於:

L(p_H = \theta  \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = \theta) =\theta^2, 其中0 \le p_H  \le 1

如果取pH = 1,那麼似然函式達到最大值1。也就是說,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的概率為1是最合理的。

類似地,如果觀測到的是三次投擲硬幣,頭兩次正面朝上,第三次反面朝上,那麼似然函式將會是:

L(p_H = \theta  \mid \mbox{HHT}) = P(\mbox{HHT}\mid p_H = \theta) =\theta^2(1 - \theta), 其中T表示反面朝上,0 \le p_H  \le 1

這時候,似然函式的最大值將會在p_H = \frac{2}{3}的時候取到。也就是說,當觀測到三次投擲中前兩次正面朝上而後一次反面朝上時,估計硬幣投擲時正面朝上的概率p_H = \frac{2}{3}是最合理的。

再比如,如果兩次投擲取得的結果是$\{H,T\}$,則似然函式是:

$L(\theta | HT) = p(1-p)$,該函式取得極大值的點在0.5,也就是說硬幣正反面等概率時最有可能出現$\{H,T\}$的實驗結果,這和我們的直觀相符。

概率論中的獨立事件(independent)vs互斥(不相容)事件(disjoint)

互斥事件/不相容事件(disjoint)

事件互不相容又叫互斥(disjoint),即兩個事件不能同時發生.正是因為這一點實際上所有互斥事件都不是相互獨立的(dependent),因為假設事件A發生,那麼B必然不發生,反之亦然。或者說如果A發生,那麼B發生的概率必然為0 $P(A|B) = 0$;也可以說A和B同時發生的概率為0, $P(AB)=0$

逆事件(對立事件,互補)(complemetary)

如果$A\bigcup B = S  並且A \bigcap B = 0$,則稱$A和B$為逆事件,互補事件。也就是說互補事件必然是互斥事,不可能同時發生。並且兩個事件必然充滿整個樣本空間,兩個互補事件概率之和為1

獨立事件(independent)

事件相互獨立指兩個事件各自的發生與否與另一個事件的發生與否沒有任何關係;比如:A與B獨立,那麼如果A發生,B可能發生也可能不發生,B是否發生以及發生的概率和A是否發生沒有任何關係

相互獨立的事件可能是互斥的,也可能不互斥. $P(A∩B) = P(A)P(B)$ 是事件獨立的充分必要條件. $P(A|B)=P(A)$

在現實生活中,事件之間相互獨立並不是非常普遍的事情,很多時候由於我們未知的影響因子的存在會去影響著A發生後對B發生概率(只是我們並沒有辦法找出來或者解釋清除是什麼因素而已),而這或許就是我們機器學習需要去發現的規律所在

二項概率公式(n重伯努利實驗A或者$\bar A$發生k次的概率)

$$P_n(k) = \binom{n}{k}p^k(1-p)^{n-k}$$

常見例子:擲骰子n次,出現k次6點的概率多少?連續射擊目標50次,每次擊中的概率0.08,那麼至少命中兩次的概率多少?這兩個問題都可以看作n重伯努利實驗,並使用上述公式

二項概率泊松逼近定理:

當$n\geq 10, p \leq 0.1$時可以使用以下公式,當$n\geq 10, p \geq 0.9$時可以使用逆事件

$$P_n(k) = \binom{n}{k}p^k(1-p)^{n-k} \approx \frac{\lambda ^k}{k!} e^{-\lambda} 其中 \lambda = np$$

什麼是mosaic plot?

mosaic plot對於研究兩個及兩個以上categorical變數之間關係具有非常直觀的優點:

比如上面圖中就可以明顯看到titanic號上面大部分是男性,大約佔63%, 而針對男女兩類人分別考察其死亡率,可以看到男性死亡率遠遠高於女性,這一點實際上還原了當時撞山事故後的一個救生原則:婦女和兒童優先上救生船。

http://www.pmean.com/definitions/mosaic.htm

先驗概率vs後驗概率

http://blog.sina.com.cn/s/blog_4ce95d300100fwz3.html

驗前概率(先驗概率)就是通常說的概率,驗後概率(後驗概率)是一種條件概率,但條件概率不一定是驗後概率。貝葉斯公式是由驗前概率求驗後概率的公式
舉一個簡單的例子:一口袋裡有3只紅球、2只白球,採用不放回方式摸取,求:
⑴ 第一次摸到紅球(記作A)的概率;驗前概率
⑵ 第二次摸到紅球(記作B)的概率;驗前概率
⑶ 已知第二次摸到了紅球,求第一次摸到的是紅球的概率。驗後概率
解:⑴ P(A)=3/5,這就是驗前概率
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,這就是驗後概率。

隨機變數及其意義

引入隨機變數是為了把實驗結果用數字化的方式來表達,$X=x$實際上對應著樣本空間中的事件,其代表了編碼為數值$x$對應的那個事件。隨機變數的本質實際上是一個函式,$X:S - R$將文字描述的事件對映為便於數學表達和運算的數字。比如“骰子投擲得到大於3這個點數”這是一個事件,文字描述非常繁瑣,但是如果用X這個隨機變數代表骰子點數的話,則很容易得到用隨機變數表示式替代的等價事件。($X>3$)。再比如下面的$X$對映函式

$X(骰子點數為5)=5,X(骰子點數為1)=1$

隨機變數的概率分佈律(概率密度)對應著事件的概率,求一個事件的概率就等於求隨機變數取某些值的概率

這樣就將隨機事件及其概率的研究就演變為隨機變數及其取值規律的研究

隨機變數的種類

按照隨機變數對映取值的形式分類為離散隨機變數和連續隨機變數

離散隨機變數的值是有限的或可數的或無限個離散數字;$X(遲到)=0,X(早退)=1,X(正常)=2,X(缺席)=3$。甚至即便對映後的值可能是無數多個,但是隻要其值是一個離散的數字也歸類為離散隨機變數,比如$X(經過多少次實驗才能最終成功)=1,2,3,。。。$

連續型隨機變數:只要對映後的數字為不可數的無窮多個數值,那麼就是連續隨機變數。比如$X(幸運之輪的結果)=(0,1)$

可數vs不可數

比如偶數集合$\{2,4,6,8,10,12....\}$雖然是無窮大, 但是隻要你有恆心,該集合中的任何一個數字總歸能被數到;

再比如$(0,1)$之間的實數的集合,你是無法窮盡數到所有的數字的,這個就是不可數

概率累積函式CDF

$F_X(x) = P(X \leq x)$

CDF很重要的作用是計算隨機變數落在某個範圍內的概率

CDF有個重要的特點是$- \infty$為0,在$+ \infty$為1

 

離散型概率分佈列(PMF)

對於離散型變數,PMF描述變數在各個離散值上的概率分佈

常用的離散分佈

0-1分佈(兩點分佈,伯努利分佈) $X\sim B(1,p)$ 1 表示為1次伯努利實驗, p為成功的概率

概率密度

$$P(X=k) = p^k(1-p)^{1-k} , k=0,1, 0 < p <1$$

二項分佈(Binomial distribution)($X\sim B(n,p)$)

概率密度:

$$P(X = k) = \binom{n}{k}p^kq^{n-k}, k = 0,1,...,n, 0 < p <1 ,q = 1 - p$$

注意當n=1的時候二項分佈就成為兩點分佈,也就是隻做1次伯努利實驗其結果就是兩點分佈

描述有放回抽樣

概率累計函式(CDF):

 

二項分佈描述n重伯努利試驗中"成功"出現次數X的概率分佈

泊松分佈($X\sim P(\lambda)$)

$$P(X=k)=  \frac{\lambda ^ke^{-\lambda}}{k!} , \lambda > 0, k = 0,1,2,...$$

引數λ是單位時間(或單位面積)內隨機事件的平均發生率

它多出現在當X表示在一定的時間或空間內出現的事件個數這種場合。在一定時間內某交通路口所發生的事故個數,是一個典型的例子。

常見應用:某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈P(λ)。

泊松分佈可作為二項分佈的極限而得到。一般的說,若

  

,其中n很大,p很小,因而

  

不太大時,X的分佈接近於泊松分佈

  

幾何分佈($X\simeq G(p)$)

$$P(X=k)=  q^{k-1}p , \lambda > 0, k = 0,1,2,..., 0 < p < 1, q = 1-p$$

常見應用:在伯努利實驗中,設每次實驗成功的概率均為p($0<p<1$),獨立重複實驗直到首次出現成功為止所需實驗的次數X服從幾何分佈

幾何分佈具有無記憶性的特點$P(X> n + m|X>n) =  P(X>m)$

超幾何分佈描述不放回抽樣,當抽樣數很大而抽樣數n很小時可以用二項分佈來逼近超幾何分佈

數理統計中常用做置信估計的概率分佈模型:卡方分佈,t分佈, F分佈

卡方分佈

若n個相互獨立的隨機變數ξ₁、ξ₂、……、ξn ,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這n個服從標準正態分佈的隨機變數的平方和
  
構成一新的隨機變數,其卡方分佈分佈規律稱為  分佈(chi-square distribution),其中引數  稱為自由度,正如正態分佈中均數方差不同就是另一個正態分佈一樣,自由度不同就是另一個
  分佈。記為  或者  (其中  , 為限制條件數)。
卡方分佈是由正態分佈構造而成的一個新的分佈,當自由度  很大時,  分佈近似為正態分佈。

 

t分佈

如果一個隨機變數是由一個服從正態分佈的隨機變數除以一個服從卡方分佈的變數組成的,則該變數服從t分佈,t分佈是正態分佈的小樣本形態。

比如對於正態分佈樣本的均值變換為$t = \frac{\bar X - \mu}{S_{\bar X}} = \frac{\bar X - \mu}{S/ \sqrt n}$後就服從自由度為n-1的t分佈

t分佈是於自由度$v$有關的一組曲線,隨著$v$的增大接近標準正態分佈

 

F分佈

設$X,Y$是兩個相互獨立的遵循卡方分佈的隨機變數$X \sim \chi ^2(n_1),Y \sim \chi ^2(n_2)$,則

$F = \frac{X/n_1}{Y/n_2} = \frac {n2}{n1} \cdot \frac {X}{Y} \sim F(n_1,n_2)$服從自由度為n1,n2的F分佈 

 

為什麼我們要學習概率分佈?

1. 很多事物背後的概率模型($P(X)$)我們是不知道的,因此很難對這類事物的概率做有效研究;

2. 但是如果我們對事物的運作方式及其本質弄清楚後,我們會發現那些事物可能與已知的概率分佈的本質相同或者接近,那麼我們便可以採用該已知的概率分佈去近似模擬該事物的運作

3.利用我們已知熟悉的概率分佈模型去計算各式各樣事件的概率

連續型隨機變數的概率密度

和離散型隨機變數的PMF對應,連續型變數我們用PDF:概率密度來描述概率的分佈。

連續性隨機變數幾個常用概率分佈

均勻分佈(等可能)(Uniform) $X\sim U(a,b) $

$$f(x) = \left\{\begin{matrix}\frac{1}{b-a},a\leq x\leq b\\ 0, other \end{matrix}\right.$$

指數分佈$X\sim E(\lambda)$

$$f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x},0 <  x \\ 0, 0 \leq x \end{matrix}\right.$$

指數分佈往往用於描述"壽命"衰減等現象

正態分佈$X\sim N(\mu, \sigma ^2)$

$$f(x) = \frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{(x-\mu )^2}{2\sigma ^2}} ,( - \infty < x < + \infty )$$

當$\mu=0, \sigma =1$時為標準正態分佈。標準正態分佈具有以下特殊性質:

1. 概率密度函式是偶函式$\varphi (-x) = \varphi (x) $

2. 概率分佈函式具有以下性質$\phi (-x) = 1 - \phi (x)$

一般正態分佈$X\sim N(\mu, \sigma ^2)$的CDF函式$F(x)$和標準正態分佈的CDF函式$\phi(x)$之間的關係為:

$$F(x) = \phi(\frac{x-\mu}{\sigma})$$

也就是說任何普通正態分佈都可以變換為標準正態分佈,這一點在機器學習的特徵變換中經常使用

$$\frac{X-\mu}{\sigma} \sim N(0,1)$$

我們也可以利用這一點來計算正態分佈某範圍的概率值:

$若X \sim N(\mu,\sigma^2), \forall  a < b,有:$

$P(a <X<b)=F(b) - F(a) = \phi(\frac{b-\mu}{\sigma}) - \phi(\frac{a-\mu}{\sigma})$

經過變換後,我們只要查詢標準正態分佈表就可以求得對應的概率了。

正態分佈下隨機變數$X$的中心化/標準化變換:

中心化:

$X_* = X-E(X); E(X_*) = 0, D(X_*) = D(X)$

標準化:

$X_* = \frac{X-E(X)}{\sqrt {D(X)}}; E(X_*) = 0, D(X_*) = 1$

正態分佈的應用:

測量一個物體長度的誤差,打靶偏離中心點的距離,電子管噪聲電壓和電流,飛機材料的疲勞應力等

隨機變數函式$g(X)$的概率密度

我們這裡只羅列一個正態分佈變數的線性變換函式的概率密度性質,非常重要,可以直接使用:正態分佈的隨機變數線性變換後依然服從正態分佈!

若$ X \sim N(\mu,\sigma^2)$則,

$Y=aX+b \sim N(a\mu+b,a^2\sigma^2)$

可以推廣n個獨立的正態分佈變數的線性組合仍為正態分佈,即:

下面給出隨機變數函式的概率密度計算一般方法(適用於連續性和離散型變數)

多緯聯合分佈率

很多隨機現象需要多個隨機變數來描述,比如打靶時,命中點的位置需要用座標X,Y來表示,研究天氣現象時,描述天氣需要氣溫X,氣壓Y,風速Z等變數來表示。

二維隨機變數$(X,Y)$的分佈函式

$F(X,Y)=P(X\leq x, Y \leq y) -\infty < x,y<+\infty$

幾何意義:

邊緣分佈函式:

我們只列出一個實用的離散型二維隨機變數聯合分佈列,可以看到兩個變數的表橫向縱向概率之和都為0,這在pandas中的crosstab考察概率是相對應的。

$p_{X,Y}(x,y)= P(X=x, Y =y)$

二維正態分佈$(X,Y) \sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho )$

 

統計量

統計量依賴且只依賴於樣本x1,x2,…xn;它不含總體分佈的任何未知引數。從樣本推斷總體(見統計推斷)通常是通過統計量進行的。例如x1,x2,…,xn是從正態總體N(μ,1)(見正態分佈)中抽出的簡單隨機樣本,其中總體均值(見數學期望)μ是未知的,為了對μ作出推斷,計算樣本均值。可以證明,在一定意義下,包含樣本中有關μ的全部資訊,因而能對μ作出良好的推斷。這裡只依賴於樣本x1,x2,…,xn,是一個統計量。

期望($E[X]$)和均值

均值是一個統計學概念,是後驗資料,是對統計得到的樣本取均值;

期望是概率與數理統計的概念,是先驗資料是根據經驗的概率分佈“預測"的樣本均值

如果我們的概率分佈是正確的假設的話,那麼當實驗次數足夠大時,樣本的均值就趨向於期望。

數學期望的計算性質

離散型隨機變數的期望:

$$E[X]=\sum p_ix_i$$

如果說概率是頻率隨樣本趨於無窮的極限,那麼期望就是平均數隨樣本趨於無窮的極限

常用分佈的數學期望和方差:

連續型隨機變數的期望:

$$E(X) = \int_{-\infty }^{+\infty}x \cdot f(x)dx$$

可以看到實際上就是用x代替離散型定義的$x_i$,用$f(x)dx$代替離散型定義的$p_i$,其中$f(x)$是隨機變數x的概率密度函式

隨機變數函式的期望

設$Y = g(x)$,則:

1. 如果x是離散型變數:

$$E(Y)=E[g(X)]=\sum g(x_i)p_i$$

2. 如果x是連續型變數:

$$E(Y) = E(g(x)) = \int_{-\infty }^{+\infty}g(x) \cdot f(x)dx$$

方差$D(X)$

定義:$D(X) = E[X-E(X)]^{2} $ 也就是說方差是$[X-E(X)]^{2}$的數學期望(均值)

常用計算公式 $D(X) = E(X^{2}) - (E(X))^{2}$

方差$D(X)$的性質

協方差及相關係數

先假設有兩個隨機變數$X,Y及其均值分別為\bar X, \bar Y$,這兩個隨機變數容量為n的樣本,我們由$X,Y$構造兩個向量(可以這麼認為,對於隨機變數組成的向量,其均值才是原點):

$\vec{x} = (X_1-\bar X, X_2-\bar X,..,X_i - \bar X,..X_n-\bar X); \vec{y} = (Y_1-\bar Y, Y_2-\bar Y,..,Y_i - \bar Y,..Y_n-\bar Y)$

協方差是隨機變數的波動之乘積的期望

樣本方差

$S_X^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2 = \frac{\vec{x} \cdot \vec{x}}{n-1}$

$S_Y^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i-\bar Y)^2 = \frac{\vec{y} \cdot \vec{y}}{n-1}$

樣本協方差:

樣本計算式:$S_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y) = \frac{\vec{x} \cdot \vec{y}}{n-1}$

理論定義式:$Cov(X,Y) = E([X-E(X)][Y-E(Y)]) = E(XY) - E(X)E(Y)$

若X,Y互相獨立,則$S_{XY},Cov(X,Y) = 0$ ,協方差為0;$S_{XY},Cov(X,Y) > 0 $ 則稱X,Y是正相關($X - \bar X與 Y- \bar Y$同大同小的概率比較大);若$ S_{XY},Cov(X,Y) < 0 $ 則稱X,Y是負相關($X - \bar X與 Y- \bar Y$大小相反的概率比較大

若協方差為0,不能推出$X,Y$獨立,也就是說雖然線性無關,但是有可能非線性方式相關。獨立是一個強條件,是沒有任何關係

特徵工程中,如果兩個變數的協方差絕對值比較大的話,則說明X,Y是線性相關的,那麼就應該剔除掉一個,否則出現"多重共線性"

一般來說通過協方差就能描述兩個向量之間的關係了,但是由於協方差的值會受到向量長度本身的影響,因此很難判斷其相關的程度,為解決該問題,我們引入相關係數這個概念以消除向量長度的影響。

給定一個特徵向量$(X_1,X_2,...,X_n)$兩兩計算其協方差會形成一個nxn的協方差矩陣,這個矩陣在PCA降緯時使用.

$$C= \begin{bmatrix} c_{11} & c_{12} & ... & c_{1n}\\  c_{21} & c_{22} & ... & c_{2n}\\  ... & ... & ... & ...\\  c_{n1} & c_{n2} & ... & c_{nn} \end{bmatrix}$$

相關係數:

樣本計算式:$r = \frac{\vec{x}\cdot \vec{y}}{|\vec{x}|\times |\vec{y}|}=cos(\theta)$

從這個定義中我們看出,相關係數實際上是描述$X,Y$分別相均值平移後的向量夾角的餘弦值,範圍為$(-1,+1)$,如果為0表示向量正交垂直,說明兩向量無關,如果為1,則線性正相關,如果為-1則線性負相關

相關係數又稱為標準協方差

理論定義式:$\rho _{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt {D(Y)}}$

當$\rho _{XY}$ 為1時,說明完全線性相關,如果比較小,則說明線性相關程度越低

散點圖和相關係數值的直觀對映

協方差的性質

  • $cov(X,Y)=cov(Y,X)$
  • $cov(X,C) = 0$
  • $cov(kX,lY) = klcov(X,Y)$
  • $cov(\sum_{i=1}^{m} X_i, \sum_{j=1}^{n} Y_j) = \sum_{i=1}^{m}\sum_{j=1}^{n}cov(X_i,Y_j)$
  • $D(X\pm Y) = D(X)+D(Y)\pm 2E((X-E(X)(Y- E(Y)) = D(X)+D(Y)\pm 2 \rho (X,Y) \sqrt {D(X)D(Y)}$

兩個隨機變數的相關vs獨立

 

一般情況下不相關是無法得出獨立的結論的,但是,對於二維正態分佈$(X,Y) \sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho )$,不獨立和不相關是等價的!!!

 

互資訊$I(X,Y)$

 

https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF

http://www.cnblogs.com/liugl7/p/5385061.html

決定係數(coefficient of Determination)和相關係數(correlation of Coefficient)

https://blog.csdn.net/danmeng8068/article/details/80143306

先看以下幾個定義:

a. Sum of Squares Due to Error

b. total sum of squares

c. sum of squares due to regression

 

以上三者之間存在以下關係:

決定係數用於判斷迴歸方程的擬合程度,也就是通過model得出的因變數的變化有百分之多少可以由自變數來解釋,從而判斷擬合的程度。在Y的總平方和中,由X引起的平方和所佔的比例,記為$R^{2}$ (R的平方). 當$R^{2}$接近於1時,表示模型參考價值越高,

相關係數:測試因變數自變數之間的線性關係的,也就是說自變數發生變化時,因變數的變化情況如何

 似然函式,損失函式和最大似然估計

https://www.cnblogs.com/hejunlin1992/p/7976119.html

似然函式是關於統計模型中的引數函式,表示模型引數的似然性。往往通過求解當似然函式最大時的引數作為最優引數

損失函式則是機器學習中用於度量模型效果的函式,他是模型引數的函式,給定資料集,只和模型引數有關。

sk-learn vs statemodel

https://blog.thedataincubator.com/2017/11/scikit-learn-vs-statsmodels/

dummy variable trap - one-hot encoding

我們知道,對於categorical型別的feature必須編碼成適合於應用到機器學習模型中去的數值,而編碼的方法常見的就是sklearn的one-hot encoding.但是我們必須注意的是對於有n個類別值的變數編碼時只能使用n-1個dummy variable,否則將發生多重共線性問題!

sklearn dummy編碼已經考慮到這個場景。one-hot編碼也應該有相關引數來控制。在實際工程實踐中,我們應該選擇佔比最高的類別作為基準類別,否則即使使用了n-1變數,也會殘存比較嚴重的共線性問題。比如a,b,c,d四個類別,a只有1%的佔比,那麼如果選擇a為基準,參與運算的為b,c,d三個dummy variable,那麼絕大部分時間裡面b+c+d =1 存線上性問題!

有序定性變數的Redit scoring

上面我們談到通過dummy encoding或者one-hot encoding,我們很方便有效地完成了category型別feature的數值化編碼,但是如果我們的category變數本身是有序或者出現頻率大不相同的情況,比如成績不及格,及格,良好,優秀,傑出,這些類別值本身是有一定的順序含義的,僅僅dummy encoding可能會丟失這些有價值的資訊。再比如雖然對於男女這個cate變數本身不具有序列意義,但是如果資料集中男生比例67%,女生比例33%,那麼可以使用Redit scoring編碼:

$B_i = \sum {_{j<i}p_j} - \sum {_{j>i}p_j}$

最後得到$B_{male} = -0.33, B_{female} = 0.67$ 

 

相關文章