第二週【任務2】貝葉斯估計,估計、偏差和方差,邏輯迴歸

西風瘦馬1912發表於2020-12-03

任務名稱:貝葉斯估計,估計、偏差和方差,邏輯迴歸

任務簡介:學習花書5.5-5.7.1章,觀看講解視訊(1.估計、偏差和方差 2.貝葉斯估計 3.邏輯迴歸)

任務詳解:

  1. 貝葉斯公式,另外一種引數估計方法貝葉斯估計,以及應用

  2. 邏輯迴歸做二分類

打卡要求:(不少於20字,不少於2張圖片)

a. 掌握貝葉斯公式,理解貝葉斯估計,完成浙大概率論p19例7(需打卡提交截圖)

b. 說出貝葉斯估計與極大似然估計的最本質的不同點,以及各自的優缺點(需提交文字)

c. 獨立手推邏輯迴歸(需提交截圖)

1. 掌握貝葉斯公式,理解貝葉斯估計,完成浙大概率論p19例7(需打卡提交截圖)

題目:對以往資料分析結果表明,當機器調整良好時,產品的合格率為98%,而當機器發生故障時,其合格率為55%。每天早上機器開動時,機器調整良好的概率為95%。試求已知某日早上第一件產品是合格品時,機器調整良好的概率是多少?

設“產品合格”為事件A,“機器調整良好”為事件B,因此所求事件的概率為:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + P ( A ∣ B ˉ ) P ( B ˉ ) = 0.98 × 0.95 0.98 × 0.95 + 0.55 × 0.05 = 0.97216 P(B\mid A) = \dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B) + P(A \mid \bar{B}) P(\bar{B})} = \dfrac{0.98\times 0.95}{0.98\times 0.95 + 0.55\times 0.05} = 0.97216 P(BA)=P(AB)P(B)+P(ABˉ)P(Bˉ)P(AB)P(B)=0.98×0.95+0.55×0.050.98×0.95=0.97216
這裡的概率 P ( B ) P(B) P(B)是根據以往的資料分析得到的,因此叫做先驗概率,而在得到資訊(第一件產品是合格品)之後再重新加以修正的概率 P ( B ∣ A ) P(B\mid A) P(BA)就叫後驗概率

從本質上說,貝葉斯公式就是由果推因,from result to reason

2. 說出貝葉斯估計與極大似然估計的最本質的不同點,以及各自的優缺點

貝葉斯估計和極大似然估計是統計中兩種對模型的引數確定的方法,前者來自貝葉斯學派,後者來自概率主義學派。

概率注意學派認為引數雖然未知,但是確實客觀存在的固定值,可以通過優化似然函式等準則來確定引數值,也就是使似然函式最大的引數 θ \theta θ就是最好的 θ \theta θ。 因此先把各個樣本的概率綜合再求導。

數學表達為:
argmax ⁡ θ P ( X ∣ θ ) \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) θargmaxP(Xθ)
因此任務就是利用訓練集 D D D估計引數 θ \theta θ,直接建模。這也就是判別式模型。

貝葉斯學派認為引數是未觀察到的隨機變數,其本身也有分佈,因此可假定引數服從一個先驗分佈 P ( θ ) P(\theta) P(θ),然後基於觀測到的資料來計算引數的後驗分佈。因此認為使 P ( X ∣ θ ) P ( θ ) P(\boldsymbol{X} \mid \theta) P(\theta) P(Xθ)P(θ)取最大值的 θ \theta θ就是最好的 θ \theta θ

數學表達為:
argmax ⁡ θ P ( θ ∣ X ) = argmax ⁡ θ P ( X ∣ θ ) P ( θ ) \underset{\theta}{\operatorname{argmax}} P(\theta \mid X) = \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) P(\theta) θargmaxP(θX)=θargmaxP(Xθ)P(θ)
這樣得到的就是生成式模型。

貝葉斯估計的缺點:類條件概率 P ( X ∣ θ ) P(X\mid \theta) P(Xθ)是所有屬性上的聯合概率,難以從有限的訓練集中直接估計而得。假設樣本的d個屬性都是二值的,則樣本空間將有 2 d 2^d 2d種可能的取值,在現實應用中,這個值往往遠大於訓練樣本數。

極大似然估計的缺點:估計結果的準確性嚴重依賴於所假設的概率分佈形勢是否符合潛在的真是資料分佈。在實際應用中,欲做出能較好的接近潛在真實分佈的假設,往往需要在一定程度上利用關於應用任務本身的經驗知識。

3. 獨立手推邏輯迴歸

指數族分佈是一類分佈的總稱,該類分佈的分佈律(概率密度函式)的一般形式如下:
p ( y ; η ) = b ( y ) exp ⁡ ( η T T ( y ) − a ( η ) ) = b ( y ) exp ⁡ [ η ( θ ) ⋅ T ( y ) − A ( θ ) ] = b ( y ) exp ⁡ ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) = b ( y ) exp ⁡ ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta})) p(y;η)=b(y)exp(ηTT(y)a(η))=b(y)exp[η(θ)T(y)A(θ)]=b(y)exp(η(θ)T(y)A(θ))=b(y)exp(η(θ)T(y)A(θ))
其中, η \eta η稱為該分佈的自然引數; T ( y ) T(y) T(y)為充分統計量,視具體的分佈情況而定, 通常是等於隨機變數y本身; a ( y ) a(y) a(y)是配分函式; b ( y ) b(y) b(y)是關於隨機變數 y y y的函式。常見的伯努利分佈和正態分佈均屬於指數族分佈。【 η \eta η的T不是充分統計量的T,是向量轉置的意思】上面不同行對應 θ \theta θ y y y分別是向量和標量的情況。

首先證明伯努利分佈屬於指數族分佈。

伯努利分佈
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p(y) = \phi^{y}(1-\phi)^{1-y} p(y)=ϕy(1ϕ)1y
其中 y ∈ { 0 , 1 } y \in\{0,1\} y{0,1}, p ( y = 1 ) = ϕ p(y=1)=\phi p(y=1)=ϕ.對上式做恆等變形:
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y = exp ⁡ ( ln ⁡ ( ϕ y ( 1 − ϕ ) 1 − y ) ) = exp ⁡ ( ln ⁡ ϕ y + ln ⁡ ( 1 − ϕ ) 1 − y ) = exp ⁡ ( y ln ⁡ ϕ + ( 1 − y ) ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ln ⁡ ϕ + ln ⁡ ( 1 − ϕ ) − y ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ( ln ⁡ ϕ − ln ⁡ ( 1 − ϕ ) ) + ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ln ⁡ ( ϕ 1 − ϕ ) + ln ⁡ ( 1 − ϕ ) ) \begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned} p(y)=ϕy(1ϕ)1y=exp(ln(ϕy(1ϕ)1y))=exp(lnϕy+ln(1ϕ)1y)=exp(ylnϕ+(1y)ln(1ϕ))=exp(ylnϕ+ln(1ϕ)yln(1ϕ))=exp(y(lnϕln(1ϕ))+ln(1ϕ))=exp(yln(1ϕϕ)+ln(1ϕ))
對比指數族分佈的一般形式,我們有
b ( y ) = 1 η = ln ⁡ ( ϕ 1 − ϕ ) T ( y ) = y a ( η ) = − ln ⁡ ( 1 − ϕ ) = ln ⁡ ( 1 + e η ) \begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned} b(y)ηT(y)a(η)=1=ln(1ϕϕ)=y=ln(1ϕ)=ln(1+eη)
第二步,我麼先給廣義線性模型提出三條假設:

  1. 在給定 x x x的條件下,假設隨機變數 y y y服從某個指數族分佈
  2. 在給定 x x x的條件下,我們的目標是得到一個模型 h ( x ) h(x) h(x)能預測出 T ( y ) T(y) T(y)的期望值。
  3. 假設該指數族分佈的自然引數 η \eta η x x x呈線性關係,即 η = w T x \eta=w^{T}x η=wTx

因為對數機率迴歸是在對一個二分類問題進行建模,並且假設被建模的隨機變數取值為0或者1,我們可以假設 y y y服從伯努利分佈。因此如果要構建一個線性模型來預測在給定 x x x的條件下 y y y的取值的話,可以考慮使用廣義線性模型來進行建模。

第三步,構建對數機率迴歸。已知 y y y服從伯努利分佈,而伯努利分佈屬於指數族分佈,所以滿足廣義線性模型的第一條假設,接著根據第二條假設我們可以推得模型 h ( x ) h(x) h(x)的表示式為
h ( x ) = E [ T ( y ∣ x ) ] h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})] h(x)=E[T(yx)]
由於伯努利分佈的 T ( y ∣ x ) = y ∣ x T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x} T(yx)=yx,所以:
h ( x ) = E [ y ∣ x ] = 1 × p ( y = 1 ∣ x ) + 0 × p ( y = 0 ∣ x ) = p ( y = 1 ∣ x ) = ϕ h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi h(x)=E[yx]=1×p(y=1x)+0×p(y=0x)=p(y=1x)=ϕ
所以:
h ( x ) = ϕ h(\boldsymbol{x})=\phi h(x)=ϕ
在第一步中我們有:
η = ln ⁡ ( ϕ 1 − ϕ ) e η = ϕ 1 − ϕ e − η = 1 − ϕ ϕ e − η = 1 ϕ − 1 1 + e − η = 1 ϕ 1 1 + e η = ϕ \begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{\eta}} = \phi \end{array} η=ln(1ϕϕ)eη=1ϕϕeη=ϕ1ϕeη=ϕ111+eη=ϕ11+eη1=ϕ
所以我們有:
h ( x ) = ϕ = 1 1 + e − η h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\eta}} h(x)=ϕ=1+eη1
根據第三條假設 η = w T x \eta=\boldsymbol{w}^{T} \boldsymbol{x} η=wTx,最終有
h ( x ) = ϕ = 1 1 + e − w T x = p ( y = 1 ∣ x ) h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x}) h(x)=ϕ=1+ewTx1=p(y=1x)
此即為對數機率迴歸模型

相關文章