一文帶你零基礎深入理解隨機變數,機率分佈與統計量

Lily發表於2023-11-07

一. 隨機事件與機率

1.1 隨機現象

在自然界和人類活動中,發生的現象多種多樣,比如下列這些現象:

1. 偶數能被2整除            2. 光的速度是常數         3. 一家門店一天之內的訂單量

4. 一個新生兒可能是男生也可能是女生    5. AB實驗存在對照組和實驗組   6. 李華上廁所的時間

不難發現,其中①②⑤這類現象在一定條件下必然發生,我們稱這類現象是確定性現象。在③④⑥現象中,事先無法預知會出現哪個結果,我們稱這類結果不確定的現象為隨機現象。

 

由於隨機現象結果在一次實驗中不缺定的,在大量重複試驗中結果將呈現某種規律性,例如相對比較穩定的性別比例,這種規律性稱為統計規律性。為了研究隨機現象的統計規律性,就要對客觀事物進行觀察,觀察的過程叫隨機試驗(簡稱試驗)。例如,為了研究一家門店的客流情況,可以反覆地觀察並記錄門店的客流。

 

隨機試驗有三個特點:(1)在相同的條件下試驗可以重複進行;(2)每次試驗的結果不止一種,但是試驗之前必須明確試驗的所有可能結果;(3)每次試驗將會出現什麼樣的結果是事先無法預知的.

 

PS:實驗:為了檢驗某種科學理論或假設而進行某種操作或從事某種活動。試驗:為了察看某事的結果或某物的效能而從事某種活動。

 

1.2 樣本空間

隨機試驗的一切可能結果組成的集合稱為樣本空間,記為Ω={ω},其中ω表示試驗的每一個可能結果,又稱為樣本點,即樣本空間為全體樣本點的集合。

下面給出以③④⑥為隨機試驗的樣本空間:Ω3={0, 1, 2, ..., n, ...},Ω4={'Male','female'},Ω6={t: t>0},樣本空間中的元素可以是數,也可以不是數.從樣本空間中含有樣本點的個數來看,可以是有限個也可以是無限個;可以是可列個也可以是不可列個。

 

1.3 隨機事件

在隨機試驗中,常常會關心其中某一些結果是否出現.例如,一家門店的客流,關心客流是否低於800;李華上廁所的時間是否超過20分鐘等.這些在一次試驗中可能出現,也可能不出現的一類結果稱為隨機事件,簡稱為事件,隨機事件通常用大寫字母A,B,C,…表示。例如關心客流是否低於800,定義A=“門店客流大於800”是一個可能發生也可能不發生的隨機事件,可描述為A={n: n>800 | n ∈N},它是樣本空間Ω={n: n ∈N}的一個子集.所以,從集合的角度來說,樣本空間的部分樣本點組成的集合稱為隨機事件。

必然事件:Ω  不可能事件:∅ 

 

1.4 機率的定義和性質

在n次試驗中如果事件A出現了a次,則稱比值a/n為這n次試驗中事件A出現的頻率.a稱為事件A發生的頻數.機率的統計定義為:隨著試驗次數n的增大,頻率值逐步“穩定”到一個實數,這個實數稱為事件A發生的機率。(還有公理化定義)

機率的性質

① P(Ω) = 1  ② P(∅) = 0  ③  

 

1.5 條件機率,全機率和貝葉斯公式

條件機率是指在某隨機事件A發生的條件下,另一隨機事件B發生的機率,記為P(B|A),它與P(B)是不同的兩類機率.設E是隨機試驗,Ω是樣本空間,A,B是隨機試驗E上的兩個隨機事件且P(A)>0,稱 P(B | A) = P(AB) / P(A) 為在事件A發生的條件下事件B發生的機率,稱為條件機率,記為P(B|A)。例如:假設一批顧客中有客單為25元,35元,50元的顧客共200人,100人, 50人,現從中抽取一位顧客,發現其客單不是50元,則抽取的顧客客單為25元的機率可表示為 P(客單為25 | 客單不為50)

設B1,B2,…,Bn為樣本空間Ω的一個完備事件組,且P(Bi)>0(i=1,2,…,n),A為任一事件,則

其中,完備事件組即對樣本空間的一個分割。

設B1,B2,…,Bn為樣本空間Ω的一個完備事件組,且P(Bi) > 0 (i=1,2,…,n),A為滿足條件P(A)>0的任一事件,則

以下圖為例:其中B1,B2, ..., B6,對整個樣本空間進行了劃分,他們之間兩兩的交集為空集,並且並集為整個樣本空間。

思考題:n(n≤365)個人中至少有兩個人的生日相同的機率是多少?

 

二. 隨機變數與分佈

2.1 隨機變數的定義

在隨機試驗E中,Ω是相應的樣本空間,如果對Ω中的每一個樣本點ω,有唯一一個實數X(ω)與它對應,那麼就把這個定義域為Ω的單值實值函式X=X(ω)稱為(一維)隨機變數.隨機變數一般用大寫字母X,Y等來表示,隨機變數的取值一般用小寫字母x,y等來表示.如果一個隨機變數僅可能取有限或可列個值,則稱其為離散型隨機變數.如果一個隨機變數的取值充滿了數軸上的一個區間(或某幾個區間的並),則稱其為非離散型隨機變數.連續型隨機變數就是非離散型隨機變數中最常見的一類隨機變數.

隨機變數的定義可直觀解釋為:隨機變數X是樣本點的函式,這個函式的自變數是樣本點,可以是數,也可以不是數,定義域是樣本空間,而因變數必須是實數.這個函式可以讓不同的樣本點對應不同的實數,也可以讓多個樣本點對應於一個實數.

 

2.2 隨機變數的分佈函式

設X是一個隨機變數,對於任意實數x,稱函式 F(x) = P(X≤x),-∞<x<+∞為隨機變數X的分佈函式.對任意的兩個實數-∞<a<b<+∞,有 P(a<X≤b) = F(b) - F(a).因此,只要已知X的分佈函式,就可以知道 X 落在任一區間(a,b]內的機率,所以說,分佈函式可以完整地描述一個隨機變數的統計規律性.

從這個定義可以看出: (1) 分佈函式是定義在(-∞,+∞)上,取值在[0,1]上的一個函式;(2) 任一隨機變數X都有且僅有一個分佈函式,有了分佈函式,就可計算與隨機變數X相關事件的機率問題.

例1. 設一盒子中裝有10個球,其中5個球上標有數字1,3個球上標有數字2,2個球上標有數字3.從中任取一球,記隨機變數X表示為“取得的球上標有的數字”,求X的分佈函式F(x).

  解: 根據題意可知,隨機變數X可取1,2,3,可知對應的機率值分別為0.5,0.3,0.2.分佈函式的定義為 F(x) = P(X≤x),因此當 x<1 時,機率 P(X≤x) = 0;當1≤x<2時,機率P(X≤x)=P(X=1)=0.5;當2≤x<3時,機率P(X≤x)=P(X=1)+P(X=2)=0.5+0.3=0.8;當x≥3時,隨機事件{X≤x}為必然事件,因此P(X≤x)=1,即 P(X≤x) = P(X=1) + P(X=2) + P(X=3) = 0.5 + 0.3 + 0.2 = 1.

 

 

2.3 離散型隨機變數及其分佈律

設E是隨機試驗,Ω是相應的樣本空間,X是Ω上的隨機變數,若X的值域(記為ΩX)為有限集或可列集,此時稱X為(一維)離散型隨機變數.若一維離散型隨機變數X的取值為x1,x2,…,xn,…,稱相應的機率P(X=xi) = pi,i=1,2,…為離散型隨機變數X的分佈律(或分佈列、機率函式).若一維離散型隨機變數X的取值為x1,x2,…,xn,…,稱相應的機率P(X=xi)=pi,i=1,2,…為離散型隨機變數X的分佈律(或分佈列、機率函式).

 

2.3 連續型隨機變數及其密度函式

連續型隨機變數的取值充滿了數軸上的一個區間(或某幾個區間的並),在這個區間裡有無窮不可列個實數,因此當我們描述連續型隨機變數時,用來描述離散型隨機變數的分佈律就沒法再使用了,而要改用機率密度函式來表示.設E是隨機試驗,Ω是相應的樣本空間,X是Ω上的隨機變數,F(x) 是X的分佈函式,若存在非負函式 f(x) 使得

則稱X為 (一維) 連續型隨機變數,f(x) 稱為X的 (機率) 密度函式,滿足:(1) 非負性 f(x) ≥ 0,-∞<x<+∞;(2) 規範性

機率密度函式 f(x) 與分佈函式 F(x) 之間的關係如圖所示,F(x) = P(X≤x) 恰好是 f(x) 在區間 (-∞,x] 上的積分,也即是圖中陰影部分的面積.

連續型隨機變數具有下列性質: (1)分佈函式 F(x) 是連續函式,在 f(x) 的連續點處,F′(x) = f(x) ;(2)對任意一個常數c,-∞<c<+∞,P(X=c) = 0,所以,在事件 {a≤X≤b} 中剔除 X=a 或剔除 X=b ,都不影響機率的大小,即P(a≤X≤b) = P(a<X≤b) = P(a≤X<b) = P(a<X<b).需注意的是,這個性質對離散型隨機變數是不成立的,恰恰相反,離散型隨機變數計算的就是“點點機率”.

 

2.3 常見的離散型和連續型隨機變數

常見的離散型隨機變數:二項分佈,泊松分佈,超幾何分佈,幾何分佈與負二項分佈......

常見的連續型隨機變數:均勻分佈,指數分佈,正態分佈,幾何分佈與負二項分佈......

 

三. 隨機變數的數字特徵

3.1 期望與方差

離散型隨機變數X的數學期望,也稱作期望或均值,計算公式如下:

連續型隨機變數X的數學期望,也稱作期望或均值,計算公式如下:

設X是一個隨機變數,如果E{[X-E(X)]2}存在,則稱

為隨機變數X的方差.稱方差 D(X) 的算術平方根

為隨機變數X的標準差.

在機器學習的建模中,通常會出資料進行標準化,標準化的計算公式為:

X*為X的標準化隨機變數,標準化隨機變數將其中心平移至原點,使其分佈不偏左也不偏右,其期望為0;同時將隨機變數取值壓縮至原來的 1/sqrt(D(x)) 使其分佈不疏也不密,壓縮改變了分佈的波動程度,方差變為1,這就是“標準化”的含義.

 

3.2 協方差

協方差:設(X,Y)是二維隨機變數,如果E{ [ X - E(X) ] [ Y - E(Y) ] }存在,則稱:

協方差反映了X和Y之間的關係,究竟是什麼關係?可設Z = [X-E(X)][Y-E(Y)],cov(X, Y) = E(Z).若cov(X, Y) > 0,事件{ Z > 0 }更有可能發生,即事件{ X > E(X) } ∩ { Y > E(Y) }或{ X < E(X) } ∩ { Y < E(Y) }發生的可能性更大,說明X和Y均有同時大於或同時小於各自平均值的趨勢;若cov(X, Y) < 0,事件{ Z < 0 }更有可能發生,即事件{ X > E(X) } ∩ { Y < E(Y) }或{ X < E(X) } ∩ { Y > E(Y) }發生的可能性更大,說明X和Y中有一個有大於其平均值的趨勢另一個有小於其平均值的趨勢.所以說協方差反映了隨機變數X和Y之間“協同”變化的關係.當Y就是X時,cov(X, Y) = cov(X, X) = D(X) 協方差即為方差,這就是我們稱其為協方差的原因.

 

3.3 相關係數

協方差考察了隨機變數之間協同變化的關係,但在使用中存在這樣一個問題.例如,要討論新生嬰兒的身高X和體重Y的協方差,若採用兩種不同的單位,米和千克或者釐米和克,後者協方差是前者的100000倍!由於量綱的不同導致X與Y的協方差前後不同.為避免這樣的情形發生,將隨機變數標準化,再求協方差cov(X*,Y*),這就是隨機變數X和Y的相關係數,又稱為標準化協方差.所以有相關係數的定義如下: 

當|ρXY|=1時,(X,Y)的取值(x,y)在直線y=ax+b上的機率為1,稱X與Y完全線性相關;

當ρXY=1時,(X,Y)的取值(x,y)在斜率大於0的直線y=ax+b上的機率為1,稱X與Y完全正線性相關;

當ρXY=-1時,(X,Y)的取值(x,y)在斜率小於0的直線y=ax+b上的機率為1,稱X與Y完全負線性相關.

當ρXY>0時,稱X與Y正線性相關;當ρXY<0時,稱X與Y負線性相關.

隨機變數相互獨立和線性無關都刻畫了隨機變數之間的關係,相互獨立時一定線性無關,但反之不一定成立,例如下面的例子.

 

3.4 其他數字特徵

對於隨機變數X,X的k階原點矩為:

 X的k階中心矩為:

 

其中,期望為一階原點矩,方差/標準差為二階中心矩,變異係數為標準差和均值的絕對值的比值,偏度與三階中心距相關,用於衡量隨機變數分佈的不對稱性,峰度為與四階中心矩相關,用於衡量機率密度在均值處峰值的高低特徵。

關於矩:https://www.bilibili.com/read/cv25074265/ 

 

相關文章