數學與程式設計——概率論與數理統計

Inside_Zhang發表於2015-11-12
  • D(x)=E{[xE(x)]2}
    D(x)=E\{[x-E(x)]^2\}
    :相對於平均數差距的平方的期望;
  • 數理統計一詞的理解:mathematical stats,也即用數學的觀點審視統計,為什麼沒有數理概率,因為概率本身即為數學,而對於統計,random variable 的性質並不全然瞭解,所以數理統計在一些書裡又被稱作:stats in inference(統計推論,已知 ⇒ 未知)
    • 概率與統計的中心問題,都是random variable,

PMF與PDF

PMF:probability mass function,概率質量函式,是離散型隨機變數在各特定取值上的概率。與概率密度函式(PDF:probability density function)的不同之處在於:概率質量函式是對離散型隨機變數定義的,本身代表該值的概率;概率密度函式是針對連續型隨機變數定義的,本身不是概率(連續型隨機變數單點測度為0),只有在對連續隨機變數的pdf在某一給定的區間內進行積分才是概率。

notation

假設X

X
是一個定義在可數樣本空間S
S
上的離散型隨機變數SR
S\subseteq R
,則其概率質量函式PMF為:

fX(x)={Pr(X=x),0,xSxRS
\begin{equation} f_X(x)= \left \{ \begin{array}{ll} Pr(X=x), & x\in S \\ 0, & x\in \mathbb R\setminus S \end{array} \right. \end{equation}

注意這在所有實數上,包括那些X

X
不可能等於的實數值上,都定義了pmf,只不過在這些X
X
不可能取的實數值上,fX(x)
f_X(x)
取值為0(xRS,Pr(X=x)=0
x\in \mathbb R\setminus S, Pr(X=x)=0
)。

離散型隨機變數概率質量函式(pmf)的不連續性決定了其累積分佈函式(cdf)也不連續。

共軛先驗(conjugate prior)

所謂共軛(conjugate),描述刻畫的是兩者之間的關係,單獨的事物不構成共軛,舉個通俗的例子,兄弟這一概念,只能是兩者才能構成兄弟。所以,我們講這兩個人是兄弟關係,A是B的兄弟這兩個分佈成共軛分佈關係,A是B的共軛分佈

p(θ|X)=p(θ)p(X|θ)p(x)
p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(x)}
  • p(X|θ)

    p(X|\theta)
    :似然(likelihood)

  • p(θ)

    p(\theta)
    :先驗(prior)

  • p(X)

    p(X)
    :歸一化常數(normalizing constant)

我們定義:如果先驗分佈(p(θ)

p(\theta)
)和似然函式(p(X|θ)
p(X|\theta)
)可以使得先驗分佈(p(θ)
p(\theta)
)和後驗分佈(p(θ|X)
p(\theta|X)
)有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那麼就稱先驗分佈與似然函式是共軛的(成Beta分佈與二項分佈是共軛的)。

幾個常見的先驗分佈與其共軛分佈

先驗分佈 共軛分佈
伯努利分佈 beta distribution
\textrm{beta distribution}
Multinomial
\textrm{Multinomial}
Dirichlet Distribution
\textrm{Dirichlet Distribution}
Gaussian, Given variance, mean unknown Gaussian Distribution
\textrm{Gaussian Distribution}
Gaussian, Given mean, variance unknown Gamma Distribution
\textrm{Gamma Distribution}
Gaussian, both mean and variance unknown Gaussian-Gamma Distribution
\textrm{Gaussian-Gamma Distribution}

最大似然估計(MLE)

首先來看,大名鼎鼎的貝葉斯公式:

p(θ|X)=p(θ)p(X|θ)p(X)
p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}

可將θ

\theta
看成欲估計的分佈的引數,X
X
表示樣本,p(X|θ)
p(X|\theta)
則表示似然。

現給定樣本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,,xN}

\mathcal{D}=\{x_1,x_2,\ldots,x_N\}
,似然函式為:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

p(D|θ)=n=1Np(xn|θ)
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

為便於計算,再將其轉換為對數似然函式形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)
lnp(D|θ)=n=1Nlnp(xn|θ)
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)

我們不妨以伯努利分佈為例,利用最大似然估計的方式計算其分佈的引數(pp

p
),伯努利分佈其概率密度函式(pdf)為:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

fX(x)=px(1p)1x=p,q1p,0,x=1,x=0,otherwise
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

整個樣本集的對數似然函式為:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

lnp(D|θ)=n=1Nlnp(xn|θ)=n=1Nln(θxn(1θ)1xn)=n=1Nxnlnθ+(1xn)ln(1θ)
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

等式兩邊對\thetaθ

\theta
求導:
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

ln(D|θ)θ=Nn=1xnθN1θ+Nn=1xn1θ
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

令其為0,得:

θml=Nn=1xnN
\theta_{ml}=\frac{\sum_{n=1}^Nx_n}{N}

Beta分佈

f(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1=1B(a,b)μa1(1μ)b1
f(\mu|a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}=\frac1{B(a,b)}\mu^{a-1}(1-\mu)^{b-1}

Beta

Beta
分佈的峰值在a1b+a2
\frac{a-1}{b+a-2}
處取得。其中Γ(x)0ux1eudu
\Gamma(x)\equiv\int_0^\infty u^{x-1}e^{-u}du
有如下性質:

Γ(x+1)=xΓ(x)Γ(1)=1andΓ(n+1)=n!
\Gamma(x+1)=x\Gamma(x)\\ \Gamma(1)=1\quad and \quad \Gamma(n+1)=n!

我們來看當先驗分佈為Beta
Beta
分佈時的後驗分佈:
p(θ)=1B(a,b)θa1(1θ)b1p(X|θ)=(nk)θk(1θ)nkp(θ|X)=1B(a+k,b+nk)θa+k1(1θ)b+nk1
p(\theta)=\frac1{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\\ p(X|\theta)=\binom n k \theta^k(1-\theta)^{n-k}\\ p(\theta|X)=\frac1{B(a+k,b+n-k)}\theta^{a+k-1}(1-\theta)^{b+n-k-1}

對應於python中的math.gamma()及matlab中的gamma()函式(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b))。

條件概率(conditional probability)

P(X|Y)
P(X|Y)

讀作:P
P
of X
X
given Y
Y
,下劃線讀作given
X
X
:所關心事件
Y
Y
:條件(觀察到的,已發生的事件),conditional

條件概率的計算

仍然從樣本空間(sample space)的角度出發。此時我們需要定義新的樣本空間(給定條件之下的樣本空間)。所以,所謂條件(conditional),本質是對樣本空間的進一步收縮,或者叫求其子空間。

比如一個人答題,有A,B,C,D

A,B,C,D
四個選項,在答題者對題目一無所知的情況下,他答對的概率自然就是14
\frac14
,而是如果具備一定的知識,排除了A,C
A,C
兩個錯誤選項,此時他答對的概率簡單計算就增加到了12
\frac12

本質是樣本空間從S={A,B,C,D}

S=\{A, B, C, D\}
,變為了S={B,D}
S'=\{B, D\}

新樣本空間下P(A|A/C)=0,P(C|A/C)=0
P(A|排除A/C)=0,P(C|排除A/C)=0
,歸納出來,也即某實驗結果(outcome,oi
o_i
)與某條件Y
Y
不相交
,則:

P(oi|Y)=0
P(o_i|Y)=0

最後我們得到條件概率的計算公式:

P(oi|Y)=P(oi)P(o1)+P(o2)++P(on)=P(oi)P(Y)Y={o1,o2,,on}
P(o_i|Y)=\frac{P(o_i)}{P(o_1)+P(o_2)+\cdots+P(o_n)}=\frac{P(o_i)}{P(Y)}\\ Y=\{o_1,o_2,\ldots,o_n\}

考慮某事件X={o1,o2,q1,q2}

X=\{o_1, o_2, q_1, q_2\}
,已知條件Y={o1,o2,o3}
Y=\{o_1,o_2,o_3\}
發生了,則:

P(X|Y)=P(o1|Y)+P(o2|Y)+0+0=P(o1)P(Y)+P(o2)P(Y)=P(XY)P(Y)
P(X|Y)=P(o_1|Y)+P(o_2|Y)+0+0=\frac {P(o_1)}{P(Y)}+\frac {P(o_2)}{P(Y)}=\frac{P(X\cap Y)}{P(Y)}

條件概率與貝葉斯公式

條件概率:

P(X|Y)=P(XY)P(Y)
P(X|Y)=\frac{P(X\cap Y)}{P(Y)}

貝葉斯公式:

P(X|Y)=P(X)P(Y|X)P(Y)
P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}

其實是可從條件概率推導貝葉斯公式的:

P(A|B)=P(B|A)=P(A|B)P(B)===P(B|A)=P(AB)P(B)P(AB)P(A)P(AB)P(B)P(B)P(AB)P(A)P(B|A)P(A|B)P(B)P(A)
\begin{split} P(A|B)=&\frac{P(A\cap B)}{P(B)}\\ P(B|A)=&\frac{P(A\cap B)}{P(A)}\\ P(A|B)P(B)=&\frac{P(A\cap B)}{P(B)}P(B)\\ =&P(A\cap B)\\ =&P(A)P(B|A)\\ P(B|A)=&\frac{P(A|B)P(B)}{P(A)} \end{split}

證明:P(B,p|D)=P(B|p,D)P(p|D)
P(B,p|D)=P(B|p,D)P(p|D)

P(B,p|D)====P(B,p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p|D)
\begin{split} P(B,p|D)=&\frac{P(B, p, D)}{P(D)}\\ =&\frac{P(B|p, D)P(p, D)}{P(D)}\\ =&P(B|p,D)\frac{P(p,D)}{P(D)}\\ =&P(B|p,D)P(p|D) \end{split}

References

[1] 概率質量函式

相關文章