如果需要小編其他數學基礎部落格,請移步小編的GitHub地址
傳送門:請點選我
如果點選有誤:https://github.com/LeBron-Jian/DeepLearningNote
這裡我打算再補充一下關於概率論與數理統計的基礎。
(注意:目前自己補充到的所有知識點,均按照自己網課視訊中老師課程知識點走的,同時一些公式是網友辛辛苦苦敲的,這裡用到那個部落格均在文末補充地址,不過這裡首先表示感謝!!)
1,基本概念
1.1 隨機試驗的概念
在自然界的現象中,分為必然現象和隨機現象。隨機現象在相同的條件下,大量重複試驗中呈現出的規律性稱為統計規律性。
隨機試驗:對隨機現象所作的觀察,測量等試驗統稱為隨機試驗,簡稱試驗,用E表示。
隨機試驗有如下特點:
- 1,可以在相同條件下重複進行
- 2,所有可能結果不止一個,且事先已知
- 3,每次試驗總是出現可能結果之一,但出現哪一個,試驗前還不能確定
1.2 樣本點,樣本空間,隨機事件的概念
基本事件(又稱樣本點):指隨機試驗的每一個可能結果,用 e 表示。
樣本空間:基本事件或樣本點的全體構成的集合,用 S 表示。
樣本點與樣本空間的關係:
這裡需要注意的是,條件概率的樣本空間:
隨機事件:樣本空間 S 的某個子集A,稱為隨機事件,簡稱事件 A。當且僅當 A 中某個樣本點出現,稱為 A 發生。事件 A 可以用語言表示,也可以用集合表示。
必然事件:樣本空間 S 包含所有的基本事件,故在每次試驗中都發生,因此稱為必然事件。
不可能事件:Ø 不包含任何基本事件,故在每次試驗中不發生因此稱為不可能事件。
下面舉個例子
1.3 概率與頻率
概率論中,頻率和概率的概念是很重要的,兩者既有聯絡也有本質的不同,有必要專門區分一下。
對於一個不確定事件發生的可能性大小,我們希望找到一個合適的數來表徵它。而為了引出這個表示不確定事件可能性大小的數,我們引入頻率來給概念。簡單來說就是引入頻率來引出概率。
頻率:描述的是事件發生的頻繁程度。嚴格的定義是:在相同的條件下,進行 n 次試驗,事件 A 發生的次數Na 稱為事件 A 的頻數,比值 Na/n 稱為事件 A 發生的頻率。顯然知道頻率是屬於 [0, 1]的。
概率:設 E 是隨機試驗(一定是要隨機的),S是樣本空間(就是可能出現的每種情況),對於 E 的每個事件 A 賦予一個實數,記做 P(A),稱為事件 A 的概率,如果集合函式P(*) 滿足以下條件:
- 1,非負性:P(A) ≥ 0
- 2,規範性:對必然事件S,有 P(S) = 1
- 3,可列可加性:對於兩兩互不相容事件,或事件的概率 = 各單獨事件的概率之和
實際上,在還沒有概率這個概念的時候,大量的重複試驗表明,隨著重複次數 n 的逐漸增大,某事件 A的頻率會呈現出穩定性,逐漸趨於某個常數,這種“頻率穩定性”是通常所說的統計規律性。而這個常數就是可以描述事件可能性大小的概率,就是概率定義中的賦予的實數。後來出現的概率的概念,是因為在實際中,我們不可能對每一個事件都要做大量的實驗,然後通過頻率穩定性來求概率。
總結一下:概率表示某事件出現的可能性大小,最初通過頻率穩定性來引出與求得。
舉個例子:比如上面提到的拋硬幣事件,當拋硬幣次數分別為5, 50, 500次,我們分別做10組實驗,我們很明顯的發現,當次數越多時,頻率趨於穩定,為0.5左右。
1.4 為什麼要使用概率呢?
概率論是用於表示不確定性陳述的數學框架,即它是對事物不確定性的度量。
在人工智慧領域,我們主要以兩種方式來使用概率論。首先,概率法則告訴我們AI系統應該如何推理,所以我們設計一些演算法來計算或者近似由概率論匯出的表示式。其次,我們可以用概率和統計從理論上分析我們提出的 AI 系統的行為。
電腦科學的許多分支處理的物件都是完全確定的實體,但機器學習卻大量使用概率論。實際上如果你理解機器學習的工作原理你就會覺得這個很正常。因為機器學習大部分時候處理的都是不確定量或隨機量。
在概率論中概率依其計算方式不同,可分為古典概率,試驗概率和主觀概率,下面學習一下。
2,古典概率與幾何概率
古典概率通常又稱事前概率,是指當隨機事件中可能發生的結果及其出現的次數都可以由演繹或外推法得知,而無需經過任何統計試驗即可計算各自可能發生結果的概念。
2.1 古典概率
關於古典概率是以這樣的假設為基礎的,即隨機現象所能發生的事件是有限的,互不相容的,而且每個基本事件發生的可能性相等。我們稱此試驗為古典概率試驗。
在古典概率下,事件 A 的概率定義為:
一般來說,如果在全部可能出現的基本事件範圍內構成事件 A 的基本事件有 a 個,不構成事件 A 的事件有 b 個,則出現 A 的概率為:P(A) =a/(a+b)。
舉個例子:一袋中有 8個球,編號為1~8,其中 1~3 號為紅球,4~8 號為黃球,設摸到每一球的可能性相等,從中隨機摸一球,記A = {摸到紅球},求 P(A)。
2.2 幾何概率
幾何概率是可以用幾何方法求得的概率,向某一可度量的區域內投一質點,如果所投的點落在門中任意區域 g 內的可能性大小與 g 的度量成正比,而與 g 的位置和形狀無關,則稱這個隨機試驗為幾何型隨機試驗或幾何概率,此處的度量就是測量,一維指長度,二維指面積,三維指體積等。
樣本點在空間區域中均勻分佈的概率模型。此處試驗的可能結果是歐幾里得空間中的點,所有樣本點的集合 Ω 是此空間中的一個幾何圖形,對於 Ω 的任何可測子集A,稱:
P(A) 為事件 A的幾何概率。
幾何概型是一種概率模型,在這個模型下,隨機試驗所有可能的結果是無限的,並且每個基本結果發生的概率是相同的。例如一個人從家到單位的時間可能是8:00~9:00 之間的任意一個時刻;往一個方格中投一個石子,石子落在方格中任意一點,這些試驗出現的結果都是無限多個,屬於幾何概型。一個實驗是否為幾何概型在與這個試驗是否具有幾何概型的兩個特徵——無限性和等可能性,只有同時具備這兩個特點的概型才是幾何概型。
面積示例:思考下面這種問題方式,不用從幾何導代數,要依靠幾何,從代數到幾何。比如我們先定義了 x 和 y 點,都被特徵化到了 0~60,很顯然幾何上就是一個正方形,然後互相只等 15 min,那就差的絕對值小於等於 15 就行了,然後根據這個畫圖即可。
角度示例:這個問題想出 x 和角度的取值範圍都很簡單,然後可以把他們轉化為幾何和代數,可以把 x 看做值域,角度看做定義域,這個圖上就畫出了一篇空間。然後建立一個滿足要求的方程:方程的思想是針的中心點和邊的距離 0 到某個方程,這樣 x 的方程式就出來了。然後畫在圖上,積分求面積即可。
3, 條件概率
3.1 條件概率的定義
很多情況下,我們感興趣的是某個事件在給定其他事件發生時出現的概率,這種概率叫條件概率,表示為 P(A|B),讀作:在B的條件下A的概率。條件概率可用決策樹進行計算,條件概率的謬論是假設P(A|B) 大致等於P(B|A)。
我們將給定 X=x 時 Y=y 發生的概率記為 P(Y=y | X=x) ,這個概率可以通過下面的公式來計算:
3.2 條件概率例題
例題1:
條件概率P(B|A) 的求解思路為:
因為已經知道事件A必須發生,所以只需要在 A發生的範圍內考慮問題,即現在的樣本空間為A,因為在事件A發生的情況下事件B發生,等價於事件A和事件B同時發生,即AB發生。
例題2:
例題3:
3.3 條件概率基本定理
獨立性:設A,B為量隨機事件,當且僅當兩個隨機事件 A 和 B 滿足 P(A∩B) = P(A)P(B) 的時候,他們才是統計獨立的,這樣聯合概率可以表示為各自概率的簡單乘積。
同樣,若 P(B|A) = P(B),即 P(AB)=P(A)*P(B),即 P(A|B) = P(A),則稱A, B 相互獨立;
以及,若 P(A|B) = P(A),即 P(AB)=P(A)*P(B),即 P(B|A) = P(B),則稱A, B 相互獨立;
換句話說,如果A和B是相互獨立的,那麼A在B這個前提下的條件概率就是A自身的概率,同樣,B在A的前提下的條件概率就是B自身的概率。
互斥性:當且僅當 A 與 B 滿足 P(A∩B) = 0 且 P(A)≠0,P(B)≠0 的時候,A與B是互斥的。因此,P(A|B)=0, P(B|A)=0,換句話說,如果B已經發生,由於A不能和B在同一場合下發生,那麼A發生的概率為零;同樣,如果A已經發生,那麼B發生的概率為0。
舉個例子:
4,一維隨機變數
隨機變數(random variable)表示隨機試驗各種結果的實值單值函式。隨機事件不論與數量是否直接有關,都可以數量化,即都能用數量化的方式表達。隨機變數可以是離散的或者連續的,按照隨機變數可能渠道的值,可以把他們分為兩種基本型別:離散型隨機變數和連續型隨機變數,下面一一學習。
4.1 一維離散型隨機變數
離散型(discrete)隨機變數即在一定區間內取值為有限個或可數個。例如某地區某年人口的出生數,死亡數,某藥物治療某病病人的有效數,無效數等。離散型隨機變數通常依據概率質量函式分類,主要分為:伯努利隨機變數,二項隨機變數,幾何隨機變數和泊松隨機變數。
定義:設X為離散型隨機變數,它的一切取值可能為X1, X2,...Xn,記為:
稱上式為X的概率函式,又稱為X的概率分佈,它本身是一個概率值,X是隨機變數的取值。
比如我們來擲骰子,找到離散型隨機變數 X的所有可能取值,則得到離散型隨機變數取值的概率:
f(xi) = P(X=xi) 為離散型隨機變數的概率函式。
對於離散型隨機變數的概率分佈有以下兩個基本性質:
舉個例子,假設我們有一批房子,那中介一天賣出的房源數量肯定是有限的:
就是說賣多少套房的概率均在我們的規劃中,賣房子肯定是有限多個可能的,這樣就可以畫出售樓的概率分佈。
4.2 一維連續型隨機變數
連續型(continuous)隨機變數即在一定區間內變數取值有無限個,或數值無法一一列舉出來。例如某地區男性健康成人的身高值,體重值等。有幾個重要的連續隨機變數常常出現在概率論中,如:均勻隨機變數,指數隨機變數,伽馬隨機變數和正態隨機變數。
密度:一個物體,我們如果問其中一個點的質量是多少?這該怎麼求呢?由於這個點實在太小了,那麼質量就為0了。但是其中的一大塊是由很多個點組成的,這時我們就可以根據密度來求其質量了。
概率密度:對於連續型隨機變數X,我們不能給出其取每一個值的概率也就是畫不出來那個分佈表,這裡我們選擇使用密度來表示其概率分佈!
下面舉個例子,假設我們有一組零件,由於各種因素的影響,其長度是各不相等的,如下:
所以我們考慮通過某個區域來求其概率分佈,首先我們繪製其頻率分佈直方圖,如下所示:
結合兩個圖來看,我們發現通過繪製頻率分佈直方圖可以解決問題,雖然看起來有點粗糙,但當我們把樣本資料增加,分組數也同時在增加,這樣的輪廓是不是越來越細緻,接近一條曲線,而這條曲線就是我們想要的。
連續型隨機變數的定義:對於隨機變數 X 的分佈函式為 F(x),若存在一個非負的可積函式 f(x),使得對任意實數x有:
則稱 X 為連續型隨機變數,稱 f(x) 為 X 的概率密度函式(Probability Density Function),簡稱概率密度或密度。
由其定義可知,連續型隨機變數 X 的分佈函式 F(x) 在 x 點的函式值等於其概率密度函式 f(x) 在區間 (-∞, x] 上的積分。
概率密度函式用數學公式表示就是一個積分,也可以把概率形象的說成面積!
4.3 簡單隨機抽樣
簡單隨機抽樣也稱為單純隨機抽樣,純隨機抽樣,SRS抽樣,是指從總體N個單元中任意抽取 n 個單位作為樣本,使每隔可能的樣本被抽中的概率相等的一種抽樣方法。
定義:一般的,設一個總體含有 N 個個體,如果通過逐個抽取的方法從中抽取一個樣本,且每次抽取時各個個體被抽到的概率相等,則這樣的抽樣方法叫做簡單隨機抽樣。
簡單隨機抽樣的特點:
- 1,簡單隨機抽樣要求被抽取的樣本的總數個數N是有限的
- 2,簡單隨機抽樣樣本數 n 小於等於樣本總體的個數N
- 3,簡單隨機抽樣是從總體中逐個抽取的
- 4,簡單隨機抽樣是一種不可放回的抽取
- 5,系統抽樣抽樣的每個個體入樣的可能性均為 n/N
簡單說就是:每個樣本單位被抽中的概率相等,樣本的每個單位完全獨立,彼此間無一定的關聯性和排斥性。
簡單隨機抽樣是最基本的抽樣方法,分為重複抽樣和不重複抽樣。在重複抽樣中,每次抽中的單位仍然放回總體,樣本中的單位可能不止一次被抽中。不重複抽樣中,抽中的單位不再放回總體,樣本中的單位只能抽中一次。
舉個例子:
5, 二維隨機變數
5.1 二維隨機變數的定義
以前我們只關心一個指標,現在要更操心了,例如根據學生的身高(X)和體重(Y)來觀察學生的身體狀況。這就不僅僅是X和Y各種的情況,還需要了解其互相的關係。
二維隨機變數的定義:一般,設E是一個隨機試驗,它的樣本空間 S={e},設 X=X(e) 和 Y=Y(e), S是定義在S上的隨機變數,由他們構成一個向量(X, Y),叫做二維隨機變數或二維隨機向量。
二維隨機變數的聯合函式:若(X, Y)是隨機變數,對於任意的實數x, y,有:
F(x, y) 表示隨機點(X , Y) 在以(x, y)為頂點且位於該點左下方無窮矩陣內的概率。
用聯合分佈函F(x, y) 表示矩陣域概率:
二維隨機變數的性質
5.2 二維離散型隨機變數
若二維隨機變數(X, Y)全部可能取到的不同值是有限對或可列無限對,則稱(X, Y)是離散型隨機變數。
離散型隨機變數的聯合概率分佈為:設(X, Y)所有可能取值為(xi, yi), i=1,2,....,稱:
為二維離散型隨機變數(X, Y)的聯合概率分佈。
例1:設隨機變數 X 在1, 2, 3, 4四個整數中等可能的取一個值,另一個隨機變數 Y 在1~X 中等可能地取一整數值,試求(X, Y)的聯合概率分佈。
(X=i, Y=j)的取值情況為:i=1,2,3,4;j 取不大於 i 的正整數
(X, Y)的聯合概率分佈為:
用圖展示為:
5.3 二維連續型隨機變數
二維隨機變數(X, Y)的分佈函式 F(x, y) 如果存在非負函式 f(x, y),則對於任意x, y有:
則稱(X, Y)為連續型的二維隨機變數,f(x, y) 為其概率密度。
例1:設二維隨機變數 (X, Y) 具有概率密度:
(1)求常數k
(2)求分佈函式 F(x, y)
(3)求P(Y≤X)的概率
5.4 二維離散隨機變數的邊緣分佈函式
對於離散型隨機變數(X, Y),分佈律為:
X, Y 的邊緣分佈律為:
5.5 二維連續隨機變數邊緣分佈函式
定義:二維隨機變數(X,Y)作為整體,有分佈函式F(x, y),其中X和Y都是隨機變數,他們的分佈函式記為:FX(x), FY(y) 稱為邊緣分佈函式。
在分佈函式F(x, y) 中,令 y → +∞,就能得到 FX(x),如下:
同理可得:
概邊緣分佈:由聯合分佈函式可以得到邊緣分佈函式
5.6 連續型的邊緣概率密度函式
對於連續型隨機變數(X, Y),概率密度為 f(x, y),則X, Y的邊緣概率密度為:
事實上:
同理:
例1:
例2:
6,期望與方差
6.1 一維情況的期望
在概率論和統計學中,數學期望是實驗中每次可能結果的概率乘以其結果的綜合。它是最基本的數學特徵之一,反映隨機變數平均值的大小。
假設 X 是一個離散隨機變數,其可能的取值有 :{x1, x2, .....xn},各個取值對應的概率取值為:P(xk), k =1,2,3...n,則其數學期望被定義為:
假設 X 是一個連續型隨機變數,其概率密度函式為 P(x),則其數學期望被定義為:
例1:隨機變數X滿足於均勻分佈,求其期望。
6.2 二維情況的期望
若(X, Y)~P(X=xi, Y=yi} = pij ,i,j=1,2,....,則Z=g(X, Y) 的期望為:
若二維連續型隨機變數(X, Y)的概率密度為:z = g(x, y),設:
絕對收斂,則有:
例1:
例2:
6.3 數學期望的性質
常見性質如下:
例1:
6.4 方差
數學期望反映了隨機變數的取值水平,衡量隨機變數相對於數學期望的分散程度則是另一個數學特徵。
概率論中,方差用來衡量隨機變數與其數學期望之間的偏離程度;統計中的方差為樣本方差,是各個樣本資料分別與其平均數之差的平方和的平均數,數學表示式如下:
6.5 協方差
在概率論和統計學中,協方差被用於衡量兩個隨機變數 X 和 Y 之間的總體誤差,數學定義為:
7,大數定律與中心極限定理
7.1 大數定律
概率論歷史上第一個極限定理屬於伯努利,後人稱之為“大數定律”。概率論中討論隨機變數序列的算術平均值向數學期望的演算法平均值收斂的定理。
定義為:在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。通俗的說,這定理就是,在試驗不變的條件下,重複試驗多次,隨機事件的頻率近似於它的概率,即偶爾中包含著某種必然。
注意:小的樣本試驗不足以以偏概全是因為有一些侷限性。
大數定理是一種描述當實驗次數很大時所呈現的概率性質的定理。但是注意到,大數定理並不是經驗規律,而是在一些附加條件熵經嚴格證明了的定理。他是一種自然規律因而通常不叫定理而是大數定律。而我們所說的大數定理通常是經過數學家證明以數學家名字命名的大數定理,如伯努利大數定理。
7.2 馬爾科夫不等式
在概率論中,馬爾科夫不等式給出了隨機變數的函式大於等於某正數的概率的上界。馬爾科夫不等式把概率關聯到數學期望,給出了隨機變數的累積分佈函式一個寬泛但仍有用的界。
百度百科定義:設 X 為一非負隨機變數,則 P(|X| ≥ a) ≤ E(|X|)/a。若用測度領域的術語來表示,馬爾科夫不等式可表示為若 (X, Σ, μ) 是一個測度空間,f 為可測的擴充套件實數的函式,且 ε ≥ 0,則:
講道理,死記硬背,好像沒有用。學習了知乎大佬的解釋,有一些明白:
馬爾科夫不等式是這樣寫的(離散情況):
其中 X ≥ 0
我們通過 μ = 1.3 , σ = 0.25 的正態分佈解釋下,首先, P(X ≥ a) 就是指的是曲線下 X ≥ a 部分的面積:
來感受一下馬爾科夫不等式:
可見,越大越平均值,概率越低。
下面寫一下馬爾科夫不等式的證明,不過不是很嚴格。
證明:
下面的正面雖然是用正態分佈來演示的,但是實際上是與分佈無關的。
之前我們說過,P(X ≥ a) 就是指的是曲線下 X ≥ a 部分的面積:
要擴大這部分面積很簡單,就是讓曲線 X ≥ a 的部分變 “高”一些,至於 X < a 的部分,怎麼變化都沒有關係,反正這部分和計算曲線沒有關係:
很顯然, P(X ≥ a) 是小於擴大後的面積的。
通過什麼數學方式讓 X ≥ a 的部分變得“高”一些呢?
根據下圖:
我們很容易得到:
那問題就很簡單了,乘上 X/a:
根據期望的定義有:
顯然:
因此有:
綜上,得到要證明的目標:
其中 X ≥ 0
7.3 切比雪夫不等式
切比雪夫不等式就是刻畫事物偏離它本質的偏離程度的大小的概率。其實切比雪夫不等式是馬爾科夫不等式的特殊情況,而且還進一步的關係:這兩個不等式作者是師生關係(切比雪夫是馬爾科夫的老師)。馬爾科夫不等式可用來證明切比雪夫不等式。
在隨機變數分佈位置的情況下,我們只知道均值和方差,切比雪夫不等式給出了 x 落入均值為中心的 ε 鄰域概率的概率範圍。
切比雪夫不等式是這樣寫的:
其中 k >0, μ 是期望, σ 是標準差。
我們還是通過 μ = 1.3, σ = 0.25 的正態分佈來感受一下切比雪夫不等式:
可見,越遠離平均值,概率越低。
下面看一下切比雪夫不等式的證明,上面也說過需要通過馬爾科夫不等式證明。
馬爾科夫不等式是這樣的:
我們把 |X - μ | 代入:
很顯然等價於:
令 k = a / σ ,容易得到 k>0:
所以馬爾科夫不等式、切比雪夫不等式只是對概率的一個估計,有可能不是很準確,但總比瞎想要準確。
7.4 中心極限定理
中心極限定理,是指概率論中討論隨機變數序列部分和分佈漸進於整體分佈的一類定理。這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變數近似服從正態分佈的條件。它是概率論中最重要的一類定理,有廣泛的實際應用背景。
樣本的平均值約等於總體的平均值,不管總體是什麼分佈,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈現正態分佈。
中心極限定理描述的是一個實際的現象,有了這個定理就能解決很多問題了,比如我們可以描述對樣本進行觀察,得到總體的情況。
下面看一個例子
選取一個均勻分佈 [0, 1],它被稱為均勻分佈,因為在0~1之間選擇值的概率相等,因此它的概率密度函式(PDF)是水平的直線。現在我們假設從這個分佈中隨機抽取20個樣本(綠點)並計算這些樣本的均值,我們得到一個值,在這個例子中是 0.5,用虛線表示。讓我們把平均值畫在直方圖上。由於這個柱狀圖到目前為止只有一個平均值,它並沒有告訴我們任何其他資訊(左圖)。繼續從相同分佈中提取更多的隨機樣本,計算各自的平均值並將這些平均值繪製在直方圖上,我們開始得到一個有趣的結果。
隨著我們從均勻分佈中抽取越來越多的隨機樣本,並在直方圖上繪製樣本均值,我們得到一個正態分佈結果如下(見右曲線)。
所以說:我們從均勻的資料分佈開始,但是從中抽取的樣本均值是正態分佈。
例2:這次從中指數分佈中提取樣本
我們再將隨機抽取 20個樣本,計算樣本的均值,並將其繪製在直方圖上。計算 100 這樣的均值並將其繪製在直方圖上,這樣的分佈對我們來說並不陌生。樣本均值是正態分佈。
所以說:我們從指數分佈開始,但從中抽取樣本的均值得到正態分佈。
因此中心極限定理意味著即使資料分佈不是正態的,從中抽取的樣本均值的分佈也是正態的。
在分析領域,我們每天都會遇到各種各樣的資料,而源資料的分佈並不總是被我們所知道的,但是,因為我們瞭解中心極限定理,所以我們甚至不需要關係源資料的分佈,因為我們總是可以得到正態分佈。
為了使中心極限定理能夠起作用,我們必須能夠計算出樣本的平均值。有一個分佈較柯西分佈,沒有樣本均值,從而中心極限定理並不適用於它。
可以通過此網站模擬中心極限定理的現象:http://onlinestatbook.com/stat_sim/sampling_dist/index.html
參考地址:https://zhuanlan.zhihu.com/p/25197792
https://baijiahao.baidu.com/s?id=1665261046335447411&wfr=spider&for=pc
https://baijiahao.baidu.com/s?id=1608791032601803539&wfr=spider&for=pc
https://blog.csdn.net/weixin_48619768/article/details/108139107
https://www.zhihu.com/question/27821324