圖解AI數學基礎 | 概率與統計

ShowMeAI發表於2022-02-24

ShowMeAI研究中心

作者:韓信子@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/83
本文地址http://www.showmeai.tech/article-detail/163
宣告:版權所有,轉載請聯絡平臺與作者並註明出處


1.概率論及在AI中的使用

概率(Probability),反映隨機事件出現的可能性大小。事件\(A\)出現的概率,用\(P(A)\)表示。

概率論(Probability Theory),是研究隨機現象數量規律的數學分支,度量事物的不確定性。

概率論&應用 Probability Theory

機器學習大部分時候處理的都是不確定量或隨機量。因此,相對電腦科學的其他許多分支而言,機器學習會更多地使用概率論。很多典型的機器學習演算法模型也是基於概率的,比如樸素貝葉斯(Naive Bayesian)等。

在人工智慧領域,概率論有廣泛的應用

  • 可以藉助於概率方法設計演算法(概率型模型,如樸素貝葉斯演算法)。
  • 可以基於概率與統計進行預測分析(如神經網路中的softmax)。

2.隨機變數(Random Variable)

簡單地說,隨機變數是指隨機事件的數量表現,是可以『隨機』地取不同值的『變數』。通常,用大寫字母來表示隨機變數本身,而用帶數字下標的小寫字母來表示隨機變數能夠取到的值。

  • 例如,\(X\)為隨機變數,\(x_{1}\)\(x_{2}\)\(x_{i}\)是隨機變數\(X\)可能的取值。

隨機變數 Random Variable

隨機變數可以分為『離散型隨機變數』和『連續型隨機變數』:

  • 離散型隨機變數(discrete random variable):即在一定區間內變數取值為有限個(或可數個)。例如,某地區某年的出生人口數。

  • 連續型隨機變數(continuous random variable):即在一定區間內變數取值為無限個(或數值無法一一列舉出來)。例如,某地區男性健康成人的體重值。

3.隨機向量(Random Vector)

隨機向量 Random Vector

將幾個隨機變數按順序放在一起,組成向量的形式,就是隨機向量。

在樣本空間全部都一樣的情況下,一個\(n\)維的隨機向量是\(x \overrightarrow{(\xi)}=\left(\begin{array}{c} x_{1}(\xi) \\ x_{2}(\xi) \\ \cdots \\ x_{n}(\xi) \end{array}\right)\)

其中,\(\xi\)就是樣本空間中的樣本點。隨機變數是1維隨機向量的特殊情況。

4.概率分佈(Probability Distribution)

廣義上,概率分佈用於表述隨機變數取值的概率規律。或者說,給定某隨機變數的取值範圍,概率分佈表示該隨機事件出現的可能性。

狹義地,概率分佈指隨機變數地概率分佈函式,也稱累積分佈函式(Cumulative Distribution Function,CDF)。

概率分佈 Probability Distribution

離散型隨機變數的概率分佈

  • 使用分佈列描述離散型隨機變數的概率分佈,即給出離散型隨機變數的全部取值及每個值的概率。

  • 常見的離散型隨機變數的分佈有:單點分佈、0-1分佈、幾何分佈、二項分佈、泊松分佈等。

連續型隨機變數的概率分佈

如果隨機變數\(X\)的分佈函式為\(F(x)\),存在非負函式\(f (x)\)使對於任意實數\(x\)\(F(x)=\int_{-\infty}^{x} f(t) d t\),則稱\(X\)為連續型隨機變數 ,其中函式\(f(x)\)稱為\(X\)的概率密度函式。

常見的連續型隨機變數的分佈有:正態分佈、均勻分佈、指數分佈、\(t-\)分佈、\(F-\)分佈、\(\xi^{2}-\)分佈等。

機器學習中一個典型的概率分佈應用,是分類問題中,很多模型最終會預估得到樣本屬於每個類別的概率,構成1個概率向量,表徵類別概率分佈。

5.條件概率(Conditional Probability)

條件概率 Conditional Probability

很多情況下我們感興趣的是,某個事件在給定其它事件發生時出現的概率,這種概率叫條件概率。

給定\(A\)\(B\)發生的概率記為\(P(B \mid A)\),概率的計算公式為:\(P(B \mid A)=\frac{P(A B)}{P(A)}\)

6.貝葉斯公式(Bayes’ Theorem)

先看看什麼是“先驗概率”和“後驗概率”,以一個例子來說明:

先驗概率:某疾病在人群中發病率為0.1%,那某人沒有做檢驗之前,預計患病率為\(P(\text { 患病 })=0.1 \%\),這個概率就叫做『先驗概率』。

後驗概率:該疾病的檢測準確率為95%,即該病患者檢測顯示陽性的概率為95%(檢測顯示陰性的概率為5%),即\(P(\text { 顯示陽性|患病 })=95\%\);或者說未患病的檢測者,檢測結果顯示陰性的概率為95%,檢測顯示陽性的概率為5%。那麼,檢測顯示為陽性時,此人的患病概率\(P(\text { 患病| 顯示陽性})\)就叫做『後驗概率』。

貝葉斯公式 Bayes' Theorem

貝葉斯公式:貝葉斯提供了一種利用『先驗概率』計算『後驗概率』的方法

  • 條件概率公式:\(P(B \mid A)=\frac{P(A B)}{P(A)}\)\(P(A \mid B)=\frac{P(A B)}{P(B)}\)

  • 由條件概率公式變換得到乘法公式:\(P(A B)=P(B \mid A) P(A)=P(A \mid B) P(B)\)

  • 將條件概率公式和乘法公式結合:\(P(B \mid A)=\frac{P(A \mid B) \cdot P(B)}{P(A)}\)

  • 引入全概率公式:\(P(A)=\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)\)

  • 將全概率代入\(P(B \mid A)\),可以得到貝葉斯公式:\(P\left(B_{i} \mid A\right)=\frac{P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}{\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}\)

上述例子的計算結果:
\(\begin{aligned} P(\text { 患病 } \mid \text { 顯示陽性 }) &=\frac{P(\text { 顯示陽性|患病 }) P(\text { 患病 })}{P(\text { 顯示陽性 })} \\ &=\frac{P(\text { 顯示陽性|患病 }) P(\text { 患病 })}{P(\text { 顯示陽性|患病 }) P(\text { 患病 })+P(\text { 顯示陽性|無病) } P(\text { 無病 })} \\ &=\frac{95 \% * 0.1 \%}{95 \% * 0.1 \%+5 \% * 99.9 \%}=1.86 \% \end{aligned}\)

貝葉斯公式貫穿了機器學習中隨機問題分析的全過程。從文字分類到概率圖模型,其基本分類都是貝葉斯公式。

期望、方差、協方差等主要反映資料的統計特徵。機器學習的一個很大應用就是資料探勘等,因此這些基本的統計概念也是很有必要掌握。另外,像後面的EM演算法中,就需要用到期望的相關概念和性質。

7.期望(Expectation)

在概率論和統計學中,數學期望是試驗中每次可能結果的概率乘以其結果的總和。期望是最基本的數學特徵之一,反映隨機變數平均值的大小。

期望 Expectation

假設\(X\)是一個離散型隨機變數,其可能的取值有\(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\),各取值對應的概率取值為\(P\left(x_{k}\right)\)\(k=1, 2, \ldots, n\)。其數學期望被定義為:

\[E(X)=\sum_{k=1}^{n} x_{k} P\left(x_{k}\right) \]

假設\(x\)是一個連續型隨機變數,其概率密度函式為\(f(x)\),其數學期望被定義為:

\[E(x)=\int_{-\boldsymbol{\omega}}^{+\boldsymbol{w}} x f(x) d x \]

8.方差(Variance)

在概率論和統計學中,樣本方差,是各個樣本資料分別與其平均數之差的平方和的平均數。方差用來衡量隨機變數與其數學期望之間的偏離程度。

方差 Variance

離散型:(\(\mu\)表示期望)

\[D(X)=\sum_{k=1}^{n} \left(x_{k}-\mu\right)^{2} \]

一個快速計算方差的公式(即平方的期望減去期望的平方):

\[D(X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-[E(X)]^{2} \]

連續型:(\(\mu\)表示期望)

\[D(x)=\int(x-\mu)^{2} f(x) d x \]

9.協方差(Covariance)

協方差 Covariance

在概率論和統計學中,協方差被用於衡量兩個隨機變數\(X\)\(Y\)之間的總體誤差。期望值分別為\(E[X]\)\(E[Y]\)的兩個實隨機變數\(X\)\(Y\)之間的協方差為:

\[Cov(X,Y) =E { [X-E(X)][Y-E(Y)] } =E(XY)-E(X)E(Y) \]

以下是幾個常用等式:
\(Cov(X, Y)=Cov(Y, X)\)
\(Cov(X, X)=D(X)\)
\(D(X+Y)=D(X)+D(Y)+2 Cov(X, Y)\)
\(Cov(X, Y)=E(X Y)-E(X) E(Y)\)

10.相關係數(Correlation coefficient)

相關係數 Correlation Coefficient

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,用以研究變數之間線性相關程度。相關係數有多種定義方式,較為常用的是皮爾遜相關係數。從協方差中會得到引申,就是關聯絡數,即:(\(\sigma\)是標準差)

\[\rho = \frac{Cov(X,Y)}{\sigma _{x} \sigma _{y}} \]

這個公式還有另外的一個表達形式:

\[\rho = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} \]

11.常見分佈函式

常見分佈函式 Distribution Function

1)伯努利分佈(Bernoulli Distribution)(離散型)

在概率論和統計學中,伯努利分佈也叫0-1分佈,是單個二值型離散隨機變數的分佈。

伯努利分佈 Bernoulli Distribution

  • 概率分佈函式:\(P(X=k)=p^{k}(1-p)^{1-k}\)
  • 期望:\(E(X)=p\)
  • 方差:\(D(X)=p(1-p)\)

2)幾何分佈(Geometric Distribution)(離散型)

在概率論和統計學中,幾何分佈是離散型概率分佈,數學符號為\(X\sim G(p)\)。其定義為:在\(n\)次伯努利試驗中,試驗\(k\)次才得到第一次成功的機率(即前\(k-1\)次皆失敗,第\(k\)次成功的概率)
幾何分佈 Geometric Distribution

  • 概率分佈函式:\(P(X=k)=(1-p)^{k-1} p\)
  • 期望:\(E(X)=\frac{1}{p}\)
  • 方差:\(D(X)=\frac{1-p}{p^{2}}\)

3)二項分佈(Binomial Distribution)(離散型)

在概率論和統計學中,二項分佈即重複\(n\)次伯努利試驗,各次試驗之間都相互獨立,並且每次試驗中只有兩種可能的結果,而且這兩種結果發生與否相互對立,數學符號為\(X∼B(n,p)\)

二項分佈 Binomial Distribution
如果每次試驗時,事件發生的概率為\(p\),不發生的概率為\(1-p\),則\(n\)次重複獨立試驗中發生\(k\)次的概率為:\(P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}\)

  • 期望:\(E(X)=n p\)

  • 方差:\(D(X)=n p(1-p)\)

4)泊松分佈(Poisson Distribution)(離散型)

在概率論和統計學中,泊松分佈是一種統計與概率學裡常見到的離散概率分佈,用於描述某段時間內事件具體的發生概率,數學符號為\(X∼\pi \left ( \lambda \right )\)

泊松分佈 Poisson Distribution
泊松分佈的引數\(\lambda\)表示單位時間(或單位面積)內隨機事件的平均發生次數,其概率分佈函式為:\(P(X=k)=\frac{(\lambda )^{k} e^{-\lambda}}{k !}\)

  • 期望:\(E(X)=\lambda\)
  • 方差:\(D(X) = \lambda\)

例如,某醫院平均每小時出生2.5個嬰兒( λ=2.5 ),那麼接下來一個小時,會出生幾個嬰兒?

  • 沒有嬰兒出生(\(k=0\))的概率為:\(P(X=0)=\frac{(2.5)^{0} \cdot e^{-2.5}}{0 !} \approx 0.082\)

  • 有1個嬰兒出生(\(k=1\))的概率為:\(P(X=1)=\frac{(2.5)^{1} \cdot e^{-2.5}}{1 !} \approx 0.205\)

  • 有2個嬰兒出生(\(k=2\))的概率為:\(P(X=2)=\frac{(2.5)^{2} \cdot e^{-2.5}}{2 !} \approx 0.257\)

k 0 1 2 ···
p 0.082 0.205 0.257 ···

通常,柏鬆分佈也叫等待概率,是一種比二項分佈應用場景更為豐富的概率模型,在數控、電商優化中也經常能見到它的影子。

5)正態分佈(Normal Distribution)(連續型)

在概率論和統計學中,正態分佈又叫高斯分佈(Gaussian Distribution),其曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形。數學符號為\(X∼N\left(\mu, \sigma^{2}\right)\)

正態分佈 Normal Distribution
若隨機變數\(X\)服從一個數學期望為\(\mu\)、方差為\(\sigma^{2}\)的正態分佈,其概率分佈函式:\(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}\)

  • 期望:\(E(X)=\mu\)
  • 方差:\(D(X)=\sigma^{2}\)

6)均勻分佈(Uniform Distribution)(連續型)

在概率論和統計學中,均勻分佈也叫矩形分佈,它是對稱概率分佈,在相同長度間隔的分佈概率是等可能的。

均勻分佈由兩個引數\(a\)\(b\)定義,數學符號為\(X∼U (a, b)\)(其中,\(a\)為數軸上較小值,\(b\)為數軸上較大值)。

均勻分佈 Gaussian Distribution
其概率分佈函式:$f(x)=\frac{1}{b-a} , a

  • 期望:\(E(X)=\frac{a+b}{2}\)
  • 方差:\(D(X) = \frac{(b-a)^{2}}{12}\)

7)指數分佈(Exponential Distribution)(連續型)

在概率論和統計學中,指數分佈與其他分佈的最大不同之處在於,隨機變數\(X\)指的是不同獨立事件發生的時間間隔值,時間越長事件發生的概率指數型增大(減小),數學符號為\(X∼E(\lambda)\)

指數分佈 Exponential Distribution
指數分佈的引數\(\lambda\)表示單位時間(或單位面積)內隨機事件的平均發生次數,其概率分佈函式為:\(f(x) = \lambda e^{-\lambda x}, x\ge 0\)

  • 期望:\(E(X)=\frac{1}{\lambda}\)
  • 方差:\(D(X)=\frac{1}{\lambda^{2}}\)

在我們日常的消費領域,通常的目的是求出在某個時間區間內,會發生隨機事件的概率有多大。如:銀行視窗服務、交通管理、火車票售票系統、消費市場研究報告中被廣泛運用。

例如:某醫院平均每小時出生2.5個嬰兒( λ=2.5 )。如果到下一個嬰兒出生需要的間隔時間為 t (即時間 t 內沒有任何嬰兒出生)。

  • 間隔15分鐘(\(X=\frac{1}{4}\))後才有嬰兒出生的概率為:\(f(\frac{1}{4}) = 2.5 e^{-2.5 \cdot \frac{1}{4}} \approx 0.9197\)
  • 間隔30分鐘(\(X=\frac{1}{2}\))後才有嬰兒出生的概率為:\(f(\frac{1}{2}) = 2.5 e^{-2.5 \cdot \frac{1}{2}} \approx 0.7163\)

一些總結:

常見分佈函式 Distribution Function

常見分佈函式 Distribution Function

12.拉格朗日乘子法(Lagrange Multiplier)

在求解最優化問題中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)條件是兩種最常用的方法。

在機器學習的過程中,我們經常遇到在有限制的情況下,最大化表示式的問題。如:
\(maxf(x,y)s.t. \quad g(x,y)=0\)

此時我們可以構造\(L(x,y,\lambda )=f(x,y) − \lambda \left ( g(x,y) -c \right )\),其中\(\lambda\)稱為拉格朗日乘子。接下來要對拉格朗日函式\(L(x,y,\lambda )\)求導,令其為0,解方程即可。

以下是圖文解釋:
拉格朗日乘子法 Lagrange Multiplier

紅線標出的是約束\(g(x,y)=c\)的點的軌跡。藍線是\(f(x,y)\)的等高線。箭頭表示斜率,和等高線的法線平行,從梯度的方向上來看顯然有\(d_{1}>d_{2}\)

紅色的線是約束。如果沒有這條約束,\(f(x,y)\)的最小值應該會落在最小那圈等高線內部的某一點上。現在加上了約束,正好落在這條紅線上的點才可能是滿足要求的點。也就是說,應該是在\(f(x,y)\)的等高線正好和約束線\(g(x,y)\)相切的位置。

對約束也求梯度\(\nabla g(x,y)\)(如圖中紅色箭頭所示),可以看出要想讓目標函式\(f(x,y)\)的等高線和約束相切\(g(x,y)\),則他們切點的梯度一定在一條直線上。也即在最優化解的時候\(\nabla f(x,y)=λ \nabla g(x,y)-C\),即\(\nabla [f(x,y)+λ(g(x,y)−c)]=0,λ≠0\)

那麼拉格朗日函式\(L(x,y,\lambda )=f(x,y) − \lambda \left ( g(x,y) -c \right )\)在達到極值時與\(f(x,y)\)相等,因為\(F(x,y)\)達到極值時\(g(x,y)−c\)總等於零。

簡單的說,\(L(x,y,λ)\)取得最優化解的時候,也就是\(L(x,y,λ)\)取極值的時候。此時\(L(x,y,λ)\)的導數為0,即\(\nabla L(x,y,\lambda )=\nabla \left [ f(x,y) − \lambda \left ( g(x,y) -c \right ) \right ] =0\),可以得出\(f(x,y)\)\(g(x,y)\)梯度共線,此時就是在條件約束\(g(x,y)\)下,\(f(x,y)\)的最優化解。

在支援向量機模型(SVM)的推導中,很關鍵的一步就是利用拉格朗日對偶性,將原問題轉化為對偶問題。

13.最大似然估計(Maximum Likelihood Estimate)

最大概似估計(MLE)是一種粗略的數學期望,指在模型已定、引數\(\theta\)未知的情況下,通過觀測資料估計未知引數\(\theta\)的一種思想或方法。

最大似然估計的哲學內涵就是:我們對某個事件發生的概率未知,但我們做了一些實驗,有過一些對這個事件的經歷(經驗),那麼我們認為,這個事件的概率應該是能夠與我們做的實驗結果最吻合。當然,前提是我們做的實驗次數應當足夠多。

舉個例子,假設我們要統計全國人口的身高。首先假設這個身高服從服從正態分佈,但是該分佈的均值。我們沒有人力與物力去統計全國每個人的身高,但是可以通過取樣,獲取部分人的身高,然後通過最大似然估計來獲取上述假設中的正態分佈的均值。

最大似然估計 Maximum Likelihood Estimate, MLE

最大似然函式的求解思想是:給定樣本取值後,該樣本最有可能來自引數\(\theta\)為何值的總體。即:尋找\(\bar{\theta}_{M LE}\)使得觀測到樣本資料的可能性最大。
最大似然函式估計值的一般求解步驟是

  • 寫出似然函式\(L\left(\theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)=\left\{\begin{array}{l} \prod_{i=1}^{n} p\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \\ \prod_{i=1}^{n} f\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \end{array}\right.\)
  • 對似然函式取對數
  • 兩邊同時求導數
  • 令導數為0解出似然方程

在機器學習中也會經常見到極大似然的影子。比如後面的邏輯斯特迴歸模型(LR),其核心就是構造對數損失函式後運用極大似然估計。

ShowMeAI相關文章推薦

ShowMeAI系列教程推薦

showmeai.tech

相關文章