第一週【任務2】無約束最優化

西風瘦馬1912發表於2020-11-29

任務名稱: 極大似然估計以及優化理論

任務簡介:學習和閱讀花書3-4章,觀看並理解講解視訊(極大似然估計 、無約束優化 、有約束優化)

任務詳解:

1、學習花書3-4章內容,重點關注:

2、觀看講解視訊,進一步理解下列知識點:

  • 極大似然估計,以及用極大似然估計來估計高斯分佈的引數
  • 從極大似然估計的角度重新看多元線性迴歸,與最小二乘的等價性
  • 無約束最優化,梯度下降法,梯度的思想來源與推導。牛頓法的兩種解釋
  • 有約束優化,拉格朗日乘子法的直觀意義,等式約束,不等式約束,kkt條件

打卡要求:打卡提交作業(不少於2張圖片,不少於20字)

a. 理解以及會運用極大似然估計,完成浙大概率論與數理統計第四版p174的第11題(截圖或拍照,然後打卡提交作業)

b.求函式 z = x exp ⁡ ( 2 y ) z=x\exp(2y) z=xexp(2y)在(1,1)點的梯度(需打卡提交作業)

c. 理解梯度下降,理解牛頓法,理解kkt條件

1.浙大概率論與數理統計第四版p174的第11題

(1) 最大似然估計量

首先我們有對數似然函式
L = ln ⁡ [ P ( x 1 ; θ ) P ( x 2 ; θ ) ⋯ P ( x n ; θ ) ] = ln ⁡ [ 1 θ x 1 1 − θ θ 1 θ x 2 1 − θ θ ⋯ 1 θ x n 1 − θ θ ] = − n ln ⁡ θ + 1 − θ θ [ ∑ i = 1 n ln ⁡ x i ] L=\ln \left[P\left(x_{1} ; \theta\right) P\left(x_{2} ; \theta\right) \cdots P\left(x_{n} ; \theta\right)\right]=\ln[\frac{1}{\theta}x_1^{\frac{1-\theta}{\theta}} \frac{1}{\theta}x_2^{\frac{1-\theta}{\theta}}\cdots \frac{1}{\theta}x_n^{\frac{1-\theta}{\theta}}]\\ =-n\ln\theta + \frac{1-\theta}{\theta}[\sum_{i=1}^{n}\ln x_i] L=ln[P(x1;θ)P(x2;θ)P(xn;θ)]=ln[θ1x1θ1θθ1x2θ1θθ1xnθ1θ]=nlnθ+θ1θ[i=1nlnxi]
然後求導取0:
∂ L ∂ θ = − n θ + − θ − ( 1 − θ ) θ 2 [ ∑ i = 1 n ln ⁡ x i ] = − n θ + − 1 θ 2 [ ∑ i = 1 n ln ⁡ x i ] = 0 ⇒ θ ^ = − 1 n [ ∑ i = 1 n ln ⁡ x i ] \frac{\partial L}{\partial \theta}=-\frac{n}{\theta}+\frac{-\theta-(1-\theta)}{\theta^2}[\sum_{i=1}^{n}\ln x_i] = -\frac{n}{\theta}+\frac{-1}{\theta^2}[\sum_{i=1}^{n}\ln x_i]=0 \Rightarrow \hat{\theta} = -\frac{1}{n}[\sum_{i=1}^{n}\ln x_i] θL=θn+θ2θ(1θ)[i=1nlnxi]=θn+θ21[i=1nlnxi]=0θ^=n1[i=1nlnxi]

(2)證明 θ ^ \hat{\theta} θ^ θ \theta θ的無偏估計量

我們已經有 θ ^ = − 1 n [ ∑ i = 1 n ln ⁡ x i ] \hat{\theta} = -\frac{1}{n}[\sum_{i=1}^{n}\ln x_i] θ^=n1[i=1nlnxi],因此令
E [ θ ^ ] = E [ − 1 n [ ∑ i = 1 n ln ⁡ x i ] ] = − 1 n ∑ i = 1 n E [ ln ⁡ x i ] E[\hat{\theta}]=E[-\frac{1}{n}[\sum_{i=1}^{n}\ln x_i]]=-\frac{1}{n}\sum_{i=1}^{n}E[\ln x_i] E[θ^]=E[n1[i=1nlnxi]]=n1i=1nE[lnxi]
我們就要求
E [ ln ⁡ x ] = ∫ 0 1 ln ⁡ x × 1 θ x 1 − θ θ d x = ∫ 0 1 ln ⁡ x ⋅ d ( x 1 θ ) = x 1 θ ln ⁡ x ∣ 0 1 − ∫ 0 1 x 1 θ d ( ln ⁡ x ) = 0 − 0 − θ ∫ 0 1 1 θ x 1 θ − 1 d x = 0 − θ = − θ E[\ln x] = \int^1_{0}\ln x\times \frac{1}{\theta}x^{\frac{1-\theta}{\theta}}dx=\int^{1}_{0}\ln x\cdot d(x^{\frac{1}{\theta}})=\left.x^{\frac{1}{\theta}} \ln x\right|_{0} ^{1} - \int^{1}_{0}x^{\frac{1}{\theta}}d(\ln x) \\ = 0 - 0 - \theta \int^{1}_{0} \frac{1}{\theta}x^{\frac{1}{\theta}-1}dx=0 - \theta=-\theta E[lnx]=01lnx×θ1xθ1θdx=01lnxd(xθ1)=xθ1lnx0101xθ1d(lnx)=00θ01θ1xθ11dx=0θ=θ
所以
E [ θ ^ ] = − 1 n ∑ i = 1 n E [ ln ⁡ x i ] = − 1 n n ( − θ ) = θ E[\hat{\theta}]=-\frac{1}{n}\sum_{i=1}^{n}E[\ln x_i]=-\frac{1}{n}n(-\theta)= \theta E[θ^]=n1i=1nE[lnxi]=n1n(θ)=θ
因此 θ ^ \hat{\theta} θ^ θ \theta θ的無偏估計量

2.求 z = x exp ⁡ ( 2 y ) z=x\exp(2y) z=xexp(2y)在(1, 1)點梯度

z = f ( x , y ) = x exp ⁡ ( 2 y ) z=f(x, y)=x\exp(2y) z=f(x,y)=xexp(2y),因此
∇ f = ( ∂ f ∂ x , ∂ f ∂ y ) = ∂ f ∂ x i + ∂ f ∂ y j = exp ⁡ ( 2 y ) i + 2 x exp ⁡ ( 2 y ) j \nabla f=\left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right)=\frac{\partial f}{\partial x} \mathbf{i}+\frac{\partial f}{\partial y} \mathbf{j} = \exp(2y)\mathbf{i}+2x\exp(2y) \mathbf{j} f=(xf,yf)=xfi+yfj=exp(2y)i+2xexp(2y)j
在(1, 1), 有 exp ⁡ ( 2 ) i + 2 exp ⁡ ( 2 y ) j \exp(2)\mathbf{i}+2\exp(2y) \mathbf{j} exp(2)i+2exp(2y)j

相關文章