作者:韓信子@ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/83
本文地址:http://www.showmeai.tech/article-detail/163
宣告:版權所有,轉載請聯絡平臺與作者並註明出處
1.概率論及在AI中的使用
概率(Probability),反映隨機事件出現的可能性大小。事件\(A\)出現的概率,用\(P(A)\)表示。
概率論(Probability Theory),是研究隨機現象數量規律的數學分支,度量事物的不確定性。
機器學習大部分時候處理的都是不確定量或隨機量。因此,相對電腦科學的其他許多分支而言,機器學習會更多地使用概率論。很多典型的機器學習演算法模型也是基於概率的,比如樸素貝葉斯(Naive Bayesian)等。
在人工智慧領域,概率論有廣泛的應用:
- 可以藉助於概率方法設計演算法(概率型模型,如樸素貝葉斯演算法)。
- 可以基於概率與統計進行預測分析(如神經網路中的softmax)。
2.隨機變數(Random Variable)
簡單地說,隨機變數是指隨機事件的數量表現,是可以『隨機』地取不同值的『變數』。通常,用大寫字母來表示隨機變數本身,而用帶數字下標的小寫字母來表示隨機變數能夠取到的值。
- 例如,\(X\)為隨機變數,\(x_{1}\)、\(x_{2}\)、\(x_{i}\)是隨機變數\(X\)可能的取值。
隨機變數可以分為『離散型隨機變數』和『連續型隨機變數』:
-
離散型隨機變數(discrete random variable):即在一定區間內變數取值為有限個(或可數個)。例如,某地區某年的出生人口數。
-
連續型隨機變數(continuous random variable):即在一定區間內變數取值為無限個(或數值無法一一列舉出來)。例如,某地區男性健康成人的體重值。
3.隨機向量(Random Vector)
將幾個隨機變數按順序放在一起,組成向量的形式,就是隨機向量。
在樣本空間全部都一樣的情況下,一個\(n\)維的隨機向量是\(x \overrightarrow{(\xi)}=\left(\begin{array}{c} x_{1}(\xi) \\ x_{2}(\xi) \\ \cdots \\ x_{n}(\xi) \end{array}\right)\)
其中,\(\xi\)就是樣本空間中的樣本點。隨機變數是1維隨機向量的特殊情況。
4.概率分佈(Probability Distribution)
廣義上,概率分佈用於表述隨機變數取值的概率規律。或者說,給定某隨機變數的取值範圍,概率分佈表示該隨機事件出現的可能性。
狹義地,概率分佈指隨機變數地概率分佈函式,也稱累積分佈函式(Cumulative Distribution Function,CDF)。
離散型隨機變數的概率分佈:
-
使用分佈列描述離散型隨機變數的概率分佈,即給出離散型隨機變數的全部取值及每個值的概率。
-
常見的離散型隨機變數的分佈有:單點分佈、0-1分佈、幾何分佈、二項分佈、泊松分佈等。
連續型隨機變數的概率分佈:
如果隨機變數\(X\)的分佈函式為\(F(x)\),存在非負函式\(f (x)\)使對於任意實數\(x\)有\(F(x)=\int_{-\infty}^{x} f(t) d t\),則稱\(X\)為連續型隨機變數 ,其中函式\(f(x)\)稱為\(X\)的概率密度函式。
常見的連續型隨機變數的分佈有:正態分佈、均勻分佈、指數分佈、\(t-\)分佈、\(F-\)分佈、\(\xi^{2}-\)分佈等。
機器學習中一個典型的概率分佈應用,是分類問題中,很多模型最終會預估得到樣本屬於每個類別的概率,構成1個概率向量,表徵類別概率分佈。
5.條件概率(Conditional Probability)
很多情況下我們感興趣的是,某個事件在給定其它事件發生時出現的概率,這種概率叫條件概率。
給定\(A\)時\(B\)發生的概率記為\(P(B \mid A)\),概率的計算公式為:\(P(B \mid A)=\frac{P(A B)}{P(A)}\)
6.貝葉斯公式(Bayes’ Theorem)
先看看什麼是“先驗概率”和“後驗概率”,以一個例子來說明:
先驗概率:某疾病在人群中發病率為0.1%,那某人沒有做檢驗之前,預計患病率為\(P(\text { 患病 })=0.1 \%\),這個概率就叫做『先驗概率』。
後驗概率:該疾病的檢測準確率為95%,即該病患者檢測顯示陽性的概率為95%(檢測顯示陰性的概率為5%),即\(P(\text { 顯示陽性|患病 })=95\%\);或者說未患病的檢測者,檢測結果顯示陰性的概率為95%,檢測顯示陽性的概率為5%。那麼,檢測顯示為陽性時,此人的患病概率\(P(\text { 患病| 顯示陽性})\)就叫做『後驗概率』。
貝葉斯公式:貝葉斯提供了一種利用『先驗概率』計算『後驗概率』的方法:
-
條件概率公式:\(P(B \mid A)=\frac{P(A B)}{P(A)}\),\(P(A \mid B)=\frac{P(A B)}{P(B)}\)
-
由條件概率公式變換得到乘法公式:\(P(A B)=P(B \mid A) P(A)=P(A \mid B) P(B)\)
-
將條件概率公式和乘法公式結合:\(P(B \mid A)=\frac{P(A \mid B) \cdot P(B)}{P(A)}\)
-
引入全概率公式:\(P(A)=\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)\)
-
將全概率代入\(P(B \mid A)\),可以得到貝葉斯公式:\(P\left(B_{i} \mid A\right)=\frac{P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}{\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}\)
上述例子的計算結果:
\(\begin{aligned}
P(\text { 患病 } \mid \text { 顯示陽性 }) &=\frac{P(\text { 顯示陽性|患病 }) P(\text { 患病 })}{P(\text { 顯示陽性 })} \\
&=\frac{P(\text { 顯示陽性|患病 }) P(\text { 患病 })}{P(\text { 顯示陽性|患病 }) P(\text { 患病 })+P(\text { 顯示陽性|無病) } P(\text { 無病 })} \\
&=\frac{95 \% * 0.1 \%}{95 \% * 0.1 \%+5 \% * 99.9 \%}=1.86 \%
\end{aligned}\)
貝葉斯公式貫穿了機器學習中隨機問題分析的全過程。從文字分類到概率圖模型,其基本分類都是貝葉斯公式。
期望、方差、協方差等主要反映資料的統計特徵。機器學習的一個很大應用就是資料探勘等,因此這些基本的統計概念也是很有必要掌握。另外,像後面的EM演算法中,就需要用到期望的相關概念和性質。
7.期望(Expectation)
在概率論和統計學中,數學期望是試驗中每次可能結果的概率乘以其結果的總和。期望是最基本的數學特徵之一,反映隨機變數平均值的大小。
假設\(X\)是一個離散型隨機變數,其可能的取值有\(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\),各取值對應的概率取值為\(P\left(x_{k}\right)\),\(k=1, 2, \ldots, n\)。其數學期望被定義為:
假設\(x\)是一個連續型隨機變數,其概率密度函式為\(f(x)\),其數學期望被定義為:
8.方差(Variance)
在概率論和統計學中,樣本方差,是各個樣本資料分別與其平均數之差的平方和的平均數。方差用來衡量隨機變數與其數學期望之間的偏離程度。
離散型:(\(\mu\)表示期望)
一個快速計算方差的公式(即平方的期望減去期望的平方):
連續型:(\(\mu\)表示期望)
9.協方差(Covariance)
在概率論和統計學中,協方差被用於衡量兩個隨機變數\(X\)和\(Y\)之間的總體誤差。期望值分別為\(E[X]\)與\(E[Y]\)的兩個實隨機變數\(X\)與\(Y\)之間的協方差為:
以下是幾個常用等式:
\(Cov(X, Y)=Cov(Y, X)\)
\(Cov(X, X)=D(X)\)
\(D(X+Y)=D(X)+D(Y)+2 Cov(X, Y)\)
\(Cov(X, Y)=E(X Y)-E(X) E(Y)\)
10.相關係數(Correlation coefficient)
相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,用以研究變數之間線性相關程度。相關係數有多種定義方式,較為常用的是皮爾遜相關係數。從協方差中會得到引申,就是關聯絡數,即:(\(\sigma\)是標準差)
這個公式還有另外的一個表達形式:
11.常見分佈函式
1)伯努利分佈(Bernoulli Distribution)(離散型)
在概率論和統計學中,伯努利分佈也叫0-1分佈,是單個二值型離散隨機變數的分佈。
- 概率分佈函式:\(P(X=k)=p^{k}(1-p)^{1-k}\)
- 期望:\(E(X)=p\)
- 方差:\(D(X)=p(1-p)\)
2)幾何分佈(Geometric Distribution)(離散型)
在概率論和統計學中,幾何分佈是離散型概率分佈,數學符號為\(X\sim G(p)\)。其定義為:在\(n\)次伯努利試驗中,試驗\(k\)次才得到第一次成功的機率(即前\(k-1\)次皆失敗,第\(k\)次成功的概率)
- 概率分佈函式:\(P(X=k)=(1-p)^{k-1} p\)
- 期望:\(E(X)=\frac{1}{p}\)
- 方差:\(D(X)=\frac{1-p}{p^{2}}\)
3)二項分佈(Binomial Distribution)(離散型)
在概率論和統計學中,二項分佈即重複\(n\)次伯努利試驗,各次試驗之間都相互獨立,並且每次試驗中只有兩種可能的結果,而且這兩種結果發生與否相互對立,數學符號為\(X∼B(n,p)\)。
如果每次試驗時,事件發生的概率為\(p\),不發生的概率為\(1-p\),則\(n\)次重複獨立試驗中發生\(k\)次的概率為:\(P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}\)
-
期望:\(E(X)=n p\)
-
方差:\(D(X)=n p(1-p)\)
4)泊松分佈(Poisson Distribution)(離散型)
在概率論和統計學中,泊松分佈是一種統計與概率學裡常見到的離散概率分佈,用於描述某段時間內事件具體的發生概率,數學符號為\(X∼\pi \left ( \lambda \right )\)。
泊松分佈的引數\(\lambda\)表示單位時間(或單位面積)內隨機事件的平均發生次數,其概率分佈函式為:\(P(X=k)=\frac{(\lambda )^{k} e^{-\lambda}}{k !}\)
- 期望:\(E(X)=\lambda\)
- 方差:\(D(X) = \lambda\)
例如,某醫院平均每小時出生2.5個嬰兒( λ=2.5 ),那麼接下來一個小時,會出生幾個嬰兒?
-
沒有嬰兒出生(\(k=0\))的概率為:\(P(X=0)=\frac{(2.5)^{0} \cdot e^{-2.5}}{0 !} \approx 0.082\)
-
有1個嬰兒出生(\(k=1\))的概率為:\(P(X=1)=\frac{(2.5)^{1} \cdot e^{-2.5}}{1 !} \approx 0.205\)
-
有2個嬰兒出生(\(k=2\))的概率為:\(P(X=2)=\frac{(2.5)^{2} \cdot e^{-2.5}}{2 !} \approx 0.257\)
k | 0 | 1 | 2 | ··· |
---|---|---|---|---|
p | 0.082 | 0.205 | 0.257 | ··· |
通常,柏鬆分佈也叫等待概率,是一種比二項分佈應用場景更為豐富的概率模型,在數控、電商優化中也經常能見到它的影子。
5)正態分佈(Normal Distribution)(連續型)
在概率論和統計學中,正態分佈又叫高斯分佈(Gaussian Distribution),其曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形。數學符號為\(X∼N\left(\mu, \sigma^{2}\right)\)。
若隨機變數\(X\)服從一個數學期望為\(\mu\)、方差為\(\sigma^{2}\)的正態分佈,其概率分佈函式:\(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}\)
- 期望:\(E(X)=\mu\)
- 方差:\(D(X)=\sigma^{2}\)
6)均勻分佈(Uniform Distribution)(連續型)
在概率論和統計學中,均勻分佈也叫矩形分佈,它是對稱概率分佈,在相同長度間隔的分佈概率是等可能的。
均勻分佈由兩個引數\(a\)和\(b\)定義,數學符號為\(X∼U (a, b)\)(其中,\(a\)為數軸上較小值,\(b\)為數軸上較大值)。
其概率分佈函式:$f(x)=\frac{1}{b-a} , a
- 期望:\(E(X)=\frac{a+b}{2}\)
- 方差:\(D(X) = \frac{(b-a)^{2}}{12}\)
7)指數分佈(Exponential Distribution)(連續型)
在概率論和統計學中,指數分佈與其他分佈的最大不同之處在於,隨機變數\(X\)指的是不同獨立事件發生的時間間隔值,時間越長事件發生的概率指數型增大(減小),數學符號為\(X∼E(\lambda)\)。
指數分佈的引數\(\lambda\)表示單位時間(或單位面積)內隨機事件的平均發生次數,其概率分佈函式為:\(f(x) = \lambda e^{-\lambda x}, x\ge 0\)
- 期望:\(E(X)=\frac{1}{\lambda}\)
- 方差:\(D(X)=\frac{1}{\lambda^{2}}\)
在我們日常的消費領域,通常的目的是求出在某個時間區間內,會發生隨機事件的概率有多大。如:銀行視窗服務、交通管理、火車票售票系統、消費市場研究報告中被廣泛運用。
例如:某醫院平均每小時出生2.5個嬰兒( λ=2.5 )。如果到下一個嬰兒出生需要的間隔時間為 t (即時間 t 內沒有任何嬰兒出生)。
- 間隔15分鐘(\(X=\frac{1}{4}\))後才有嬰兒出生的概率為:\(f(\frac{1}{4}) = 2.5 e^{-2.5 \cdot \frac{1}{4}} \approx 0.9197\)
- 間隔30分鐘(\(X=\frac{1}{2}\))後才有嬰兒出生的概率為:\(f(\frac{1}{2}) = 2.5 e^{-2.5 \cdot \frac{1}{2}} \approx 0.7163\)
一些總結:
12.拉格朗日乘子法(Lagrange Multiplier)
在求解最優化問題中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)條件是兩種最常用的方法。
在機器學習的過程中,我們經常遇到在有限制的情況下,最大化表示式的問題。如:
\(maxf(x,y)s.t. \quad g(x,y)=0\)
此時我們可以構造\(L(x,y,\lambda )=f(x,y) − \lambda \left ( g(x,y) -c \right )\),其中\(\lambda\)稱為拉格朗日乘子。接下來要對拉格朗日函式\(L(x,y,\lambda )\)求導,令其為0,解方程即可。
以下是圖文解釋:
紅線標出的是約束\(g(x,y)=c\)的點的軌跡。藍線是\(f(x,y)\)的等高線。箭頭表示斜率,和等高線的法線平行,從梯度的方向上來看顯然有\(d_{1}>d_{2}\)。
紅色的線是約束。如果沒有這條約束,\(f(x,y)\)的最小值應該會落在最小那圈等高線內部的某一點上。現在加上了約束,正好落在這條紅線上的點才可能是滿足要求的點。也就是說,應該是在\(f(x,y)\)的等高線正好和約束線\(g(x,y)\)相切的位置。
對約束也求梯度\(\nabla g(x,y)\)(如圖中紅色箭頭所示),可以看出要想讓目標函式\(f(x,y)\)的等高線和約束相切\(g(x,y)\),則他們切點的梯度一定在一條直線上。也即在最優化解的時候\(\nabla f(x,y)=λ \nabla g(x,y)-C\),即\(\nabla [f(x,y)+λ(g(x,y)−c)]=0,λ≠0\)。
那麼拉格朗日函式\(L(x,y,\lambda )=f(x,y) − \lambda \left ( g(x,y) -c \right )\)在達到極值時與\(f(x,y)\)相等,因為\(F(x,y)\)達到極值時\(g(x,y)−c\)總等於零。
簡單的說,\(L(x,y,λ)\)取得最優化解的時候,也就是\(L(x,y,λ)\)取極值的時候。此時\(L(x,y,λ)\)的導數為0,即\(\nabla L(x,y,\lambda )=\nabla \left [ f(x,y) − \lambda \left ( g(x,y) -c \right ) \right ] =0\),可以得出\(f(x,y)\)與\(g(x,y)\)梯度共線,此時就是在條件約束\(g(x,y)\)下,\(f(x,y)\)的最優化解。
在支援向量機模型(SVM)的推導中,很關鍵的一步就是利用拉格朗日對偶性,將原問題轉化為對偶問題。
13.最大似然估計(Maximum Likelihood Estimate)
最大概似估計(MLE)是一種粗略的數學期望,指在模型已定、引數\(\theta\)未知的情況下,通過觀測資料估計未知引數\(\theta\)的一種思想或方法。
最大似然估計的哲學內涵就是:我們對某個事件發生的概率未知,但我們做了一些實驗,有過一些對這個事件的經歷(經驗),那麼我們認為,這個事件的概率應該是能夠與我們做的實驗結果最吻合。當然,前提是我們做的實驗次數應當足夠多。
舉個例子,假設我們要統計全國人口的身高。首先假設這個身高服從服從正態分佈,但是該分佈的均值。我們沒有人力與物力去統計全國每個人的身高,但是可以通過取樣,獲取部分人的身高,然後通過最大似然估計來獲取上述假設中的正態分佈的均值。
最大似然函式的求解思想是:給定樣本取值後,該樣本最有可能來自引數\(\theta\)為何值的總體。即:尋找\(\bar{\theta}_{M LE}\)使得觀測到樣本資料的可能性最大。
最大似然函式估計值的一般求解步驟是:
- 寫出似然函式\(L\left(\theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)=\left\{\begin{array}{l} \prod_{i=1}^{n} p\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \\ \prod_{i=1}^{n} f\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \end{array}\right.\)
- 對似然函式取對數
- 兩邊同時求導數
- 令導數為0解出似然方程
在機器學習中也會經常見到極大似然的影子。比如後面的邏輯斯特迴歸模型(LR),其核心就是構造對數損失函式後運用極大似然估計。