第二週【任務2】貝葉斯估計,估計、偏差和方差,邏輯迴歸
任務名稱:貝葉斯估計,估計、偏差和方差,邏輯迴歸
任務簡介:學習花書5.5-5.7.1章,觀看講解視訊(1.估計、偏差和方差 2.貝葉斯估計 3.邏輯迴歸)
任務詳解:
-
貝葉斯公式,另外一種引數估計方法貝葉斯估計,以及應用
-
邏輯迴歸做二分類
打卡要求:(不少於20字,不少於2張圖片)
a. 掌握貝葉斯公式,理解貝葉斯估計,完成浙大概率論p19例7(需打卡提交截圖)
b. 說出貝葉斯估計與極大似然估計的最本質的不同點,以及各自的優缺點(需提交文字)
c. 獨立手推邏輯迴歸(需提交截圖)
1. 掌握貝葉斯公式,理解貝葉斯估計,完成浙大概率論p19例7(需打卡提交截圖)
題目:對以往資料分析結果表明,當機器調整良好時,產品的合格率為98%,而當機器發生故障時,其合格率為55%。每天早上機器開動時,機器調整良好的概率為95%。試求已知某日早上第一件產品是合格品時,機器調整良好的概率是多少?
設“產品合格”為事件A,“機器調整良好”為事件B,因此所求事件的概率為:
P
(
B
∣
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
∣
B
)
P
(
B
)
+
P
(
A
∣
B
ˉ
)
P
(
B
ˉ
)
=
0.98
×
0.95
0.98
×
0.95
+
0.55
×
0.05
=
0.97216
P(B\mid A) = \dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B) + P(A \mid \bar{B}) P(\bar{B})} = \dfrac{0.98\times 0.95}{0.98\times 0.95 + 0.55\times 0.05} = 0.97216
P(B∣A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ)P(A∣B)P(B)=0.98×0.95+0.55×0.050.98×0.95=0.97216
這裡的概率
P
(
B
)
P(B)
P(B)是根據以往的資料分析得到的,因此叫做先驗概率,而在得到資訊(第一件產品是合格品)之後再重新加以修正的概率
P
(
B
∣
A
)
P(B\mid A)
P(B∣A)就叫後驗概率。
【從本質上說,貝葉斯公式就是由果推因,from result to reason 】
2. 說出貝葉斯估計與極大似然估計的最本質的不同點,以及各自的優缺點
貝葉斯估計和極大似然估計是統計中兩種對模型的引數確定的方法,前者來自貝葉斯學派,後者來自概率主義學派。
概率注意學派認為引數雖然未知,但是確實客觀存在的固定值,可以通過優化似然函式等準則來確定引數值,也就是使似然函式最大的引數 θ \theta θ就是最好的 θ \theta θ。 因此先把各個樣本的概率綜合再求導。
數學表達為:
argmax
θ
P
(
X
∣
θ
)
\underset{\theta}{\operatorname{argmax}} P(X \mid \theta)
θargmaxP(X∣θ)
因此任務就是利用訓練集
D
D
D估計引數
θ
\theta
θ,直接建模。這也就是判別式模型。
貝葉斯學派認為引數是未觀察到的隨機變數,其本身也有分佈,因此可假定引數服從一個先驗分佈 P ( θ ) P(\theta) P(θ),然後基於觀測到的資料來計算引數的後驗分佈。因此認為使 P ( X ∣ θ ) P ( θ ) P(\boldsymbol{X} \mid \theta) P(\theta) P(X∣θ)P(θ)取最大值的 θ \theta θ就是最好的 θ \theta θ。
數學表達為:
argmax
θ
P
(
θ
∣
X
)
=
argmax
θ
P
(
X
∣
θ
)
P
(
θ
)
\underset{\theta}{\operatorname{argmax}} P(\theta \mid X) = \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) P(\theta)
θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
這樣得到的就是生成式模型。
貝葉斯估計的缺點:類條件概率 P ( X ∣ θ ) P(X\mid \theta) P(X∣θ)是所有屬性上的聯合概率,難以從有限的訓練集中直接估計而得。假設樣本的d個屬性都是二值的,則樣本空間將有 2 d 2^d 2d種可能的取值,在現實應用中,這個值往往遠大於訓練樣本數。
極大似然估計的缺點:估計結果的準確性嚴重依賴於所假設的概率分佈形勢是否符合潛在的真是資料分佈。在實際應用中,欲做出能較好的接近潛在真實分佈的假設,往往需要在一定程度上利用關於應用任務本身的經驗知識。
3. 獨立手推邏輯迴歸
指數族分佈是一類分佈的總稱,該類分佈的分佈律(概率密度函式)的一般形式如下:
p
(
y
;
η
)
=
b
(
y
)
exp
(
η
T
T
(
y
)
−
a
(
η
)
)
=
b
(
y
)
exp
[
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
]
=
b
(
y
)
exp
(
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
)
=
b
(
y
)
exp
(
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
)
p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta}))
p(y;η)=b(y)exp(ηTT(y)−a(η))=b(y)exp[η(θ)⋅T(y)−A(θ)]=b(y)exp(η(θ)⋅T(y)−A(θ))=b(y)exp(η(θ)⋅T(y)−A(θ))
其中,
η
\eta
η稱為該分佈的自然引數;
T
(
y
)
T(y)
T(y)為充分統計量,視具體的分佈情況而定, 通常是等於隨機變數y本身;
a
(
y
)
a(y)
a(y)是配分函式;
b
(
y
)
b(y)
b(y)是關於隨機變數
y
y
y的函式。常見的伯努利分佈和正態分佈均屬於指數族分佈。【
η
\eta
η的T不是充分統計量的T,是向量轉置的意思】上面不同行對應
θ
\theta
θ和
y
y
y分別是向量和標量的情況。
首先證明伯努利分佈屬於指數族分佈。
伯努利分佈
p
(
y
)
=
ϕ
y
(
1
−
ϕ
)
1
−
y
p(y) = \phi^{y}(1-\phi)^{1-y}
p(y)=ϕy(1−ϕ)1−y
其中
y
∈
{
0
,
1
}
y \in\{0,1\}
y∈{0,1},
p
(
y
=
1
)
=
ϕ
p(y=1)=\phi
p(y=1)=ϕ.對上式做恆等變形:
p
(
y
)
=
ϕ
y
(
1
−
ϕ
)
1
−
y
=
exp
(
ln
(
ϕ
y
(
1
−
ϕ
)
1
−
y
)
)
=
exp
(
ln
ϕ
y
+
ln
(
1
−
ϕ
)
1
−
y
)
=
exp
(
y
ln
ϕ
+
(
1
−
y
)
ln
(
1
−
ϕ
)
)
=
exp
(
y
ln
ϕ
+
ln
(
1
−
ϕ
)
−
y
ln
(
1
−
ϕ
)
)
=
exp
(
y
(
ln
ϕ
−
ln
(
1
−
ϕ
)
)
+
ln
(
1
−
ϕ
)
)
=
exp
(
y
ln
(
ϕ
1
−
ϕ
)
+
ln
(
1
−
ϕ
)
)
\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned}
p(y)=ϕy(1−ϕ)1−y=exp(ln(ϕy(1−ϕ)1−y))=exp(lnϕy+ln(1−ϕ)1−y)=exp(ylnϕ+(1−y)ln(1−ϕ))=exp(ylnϕ+ln(1−ϕ)−yln(1−ϕ))=exp(y(lnϕ−ln(1−ϕ))+ln(1−ϕ))=exp(yln(1−ϕϕ)+ln(1−ϕ))
對比指數族分佈的一般形式,我們有
b
(
y
)
=
1
η
=
ln
(
ϕ
1
−
ϕ
)
T
(
y
)
=
y
a
(
η
)
=
−
ln
(
1
−
ϕ
)
=
ln
(
1
+
e
η
)
\begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned}
b(y)ηT(y)a(η)=1=ln(1−ϕϕ)=y=−ln(1−ϕ)=ln(1+eη)
第二步,我麼先給廣義線性模型提出三條假設:
- 在給定 x x x的條件下,假設隨機變數 y y y服從某個指數族分佈
- 在給定 x x x的條件下,我們的目標是得到一個模型 h ( x ) h(x) h(x)能預測出 T ( y ) T(y) T(y)的期望值。
- 假設該指數族分佈的自然引數 η \eta η和 x x x呈線性關係,即 η = w T x \eta=w^{T}x η=wTx
因為對數機率迴歸是在對一個二分類問題進行建模,並且假設被建模的隨機變數取值為0或者1,我們可以假設 y y y服從伯努利分佈。因此如果要構建一個線性模型來預測在給定 x x x的條件下 y y y的取值的話,可以考慮使用廣義線性模型來進行建模。
第三步,構建對數機率迴歸。已知
y
y
y服從伯努利分佈,而伯努利分佈屬於指數族分佈,所以滿足廣義線性模型的第一條假設,接著根據第二條假設我們可以推得模型
h
(
x
)
h(x)
h(x)的表示式為
h
(
x
)
=
E
[
T
(
y
∣
x
)
]
h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})]
h(x)=E[T(y∣x)]
由於伯努利分佈的
T
(
y
∣
x
)
=
y
∣
x
T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x}
T(y∣x)=y∣x,所以:
h
(
x
)
=
E
[
y
∣
x
]
=
1
×
p
(
y
=
1
∣
x
)
+
0
×
p
(
y
=
0
∣
x
)
=
p
(
y
=
1
∣
x
)
=
ϕ
h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi
h(x)=E[y∣x]=1×p(y=1∣x)+0×p(y=0∣x)=p(y=1∣x)=ϕ
所以:
h
(
x
)
=
ϕ
h(\boldsymbol{x})=\phi
h(x)=ϕ
在第一步中我們有:
η
=
ln
(
ϕ
1
−
ϕ
)
e
η
=
ϕ
1
−
ϕ
e
−
η
=
1
−
ϕ
ϕ
e
−
η
=
1
ϕ
−
1
1
+
e
−
η
=
1
ϕ
1
1
+
e
η
=
ϕ
\begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{\eta}} = \phi \end{array}
η=ln(1−ϕϕ)eη=1−ϕϕe−η=ϕ1−ϕe−η=ϕ1−11+e−η=ϕ11+eη1=ϕ
所以我們有:
h
(
x
)
=
ϕ
=
1
1
+
e
−
η
h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\eta}}
h(x)=ϕ=1+e−η1
根據第三條假設
η
=
w
T
x
\eta=\boldsymbol{w}^{T} \boldsymbol{x}
η=wTx,最終有
h
(
x
)
=
ϕ
=
1
1
+
e
−
w
T
x
=
p
(
y
=
1
∣
x
)
h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x})
h(x)=ϕ=1+e−wTx1=p(y=1∣x)
此即為對數機率迴歸模型
相關文章
- 機器學習中的MLE、MAP和貝葉斯估計機器學習
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 2、從引數估計的角度理解邏輯迴歸邏輯迴歸
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 貝葉斯迴歸簡介
- 概率圖模型基礎 - 貝葉斯網路引數學習(貝葉斯估計+碎權更新法)模型
- 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解公式
- 01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)演算法
- 貝葉斯統計和因果推斷在轉轉估價中的落地實踐
- 機器學習(三):樸素貝葉斯+貝葉斯估計+BP人工神經網路習題手算|手工推導與習題計算機器學習神經網路
- 通過貝葉斯公式來評估功能難度和返工率公式
- 貝葉斯線性迴歸簡介(附完整程式碼)
- 機器學習之邏輯迴歸:計算概率機器學習邏輯迴歸
- 【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗機器學習模型
- 貝葉斯思想概述:從貝葉斯定理到貝葉斯網路
- 邏輯斯蒂迴歸與最大熵模型初探熵模型
- PyTorch基礎——均值、(無偏估計)方差PyTorch
- 機器學習之邏輯迴歸:計算機率機器學習邏輯迴歸計算機
- 數理統計8:點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法Vue
- 【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法?機器學習邏輯迴歸函式
- 迴歸模型-評估指標模型指標
- 04貝葉斯演算法-貝葉斯網路演算法
- 從貝葉斯方法談到貝葉斯網路
- 邏輯迴歸模型邏輯迴歸模型
- 貝葉斯推斷 && 概率程式設計初探程式設計
- 機器學習_統計模型之(一)貝葉斯公式機器學習模型公式
- 貝葉斯公式公式
- 監控和估計 Informix Dynamic Server 中邏輯日誌的使用情況ORMServer
- 迴歸預測評估指標指標
- 機器學習中貝葉斯建模和機率程式設計簡介機器學習程式設計
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 機器學習_統計模型之(二)貝葉斯網路機器學習模型
- Python邏輯迴歸Python邏輯迴歸
- 機器學習之邏輯迴歸機器學習邏輯迴歸
- 機器學習整理(邏輯迴歸)機器學習邏輯迴歸
- 淺談邏輯迴歸邏輯迴歸
- chapter6:概率及樸素貝葉斯--樸素貝葉斯APT