nndl-復旦-神經網路與深度學習筆記第二章習題

CHH3213發表於2020-11-19

第二章習題

參考資料https://www.cnblogs.com/douzujun/p/13285715.html

  • 習題 2-1 分析為什麼平方損失函式不適用於分類問題.

    分類問題中的標籤,是沒有連續的概念的。每個標籤之間的距離也是沒有實際意義的,所以預測值 和 標籤兩個向量之間的平方差這個值不能反應分類這個問題的優化程度。 假設分類問題的類別是1,2,3 那麼對於一個真實類別為2的樣本X,模型的分類結果是 1 或 3,平方損失函式得到的結果都一樣,顯然不適合。

在這裡插入圖片描述

解 : y n 維 數 為 1 ∗ 1 ; w n 和 w n 維 數 為 n ∗ 1                                     解:y_n維數為1*1; w_n和w_n維數為n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ yn11wnwnn1                                   

顯 然 : w T x n = x n T w 顯然:w^Tx_n=x_n^Tw wTxn=xnTw

故 : R ( w ) = 1 2 ∑ n = 1 N r n ( y n − x n T w ) 2 故:R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2} R(w)=21n=1Nrn(ynxnTw)2

對 R ( w ) 求 導 並 讓 其 為 0 , 得 : R ( w ) = ∑ n = 1 N − r n x n ( y n − x n T w ) = 0 對R(w)求導並讓其為0,得:R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0 R(w)0R(w)=n=1Nrnxn(ynxnTw)=0

即 : w ∗ = ( ∑ n = 1 N ( r n x n x n T ) − 1 ) ( ∑ n = 1 N r n x n y n ) 即: w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n}) w=(n=1N(rnxnxnT)1)(n=1Nrnxnyn)

r(n): 為每個樣本都分配了權重,相當於對每個樣本都設定了不同的學習率,即,理解成對每個樣本重視程度不同
在這裡插入圖片描述在這裡插入圖片描述
在這裡插入圖片描述

答 : 已 知 :                                                                               R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 要 求 : w ∗ = ( X X T + λ I ) − 1 X y 解 : R ( w ) = 1 2 ( y − X T w ) T ( y − X T w ) + 1 2 λ w T w 令 ∂ R ( w ) ∂ w = 0 , 得 : ∂ R ( w ) ∂ w = − X ( y − X T w ) + λ w = 0 解 得 : w ∗ = ( X X T + λ I ) − 1 X y 得 證 答:\quad 已知:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求:w^*=(XX^T+\lambda I)^{-1}Xy\\ 解:R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得:\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得證                                                                              R(w)=21yXTw2+21λw2w=(XXT+λI)1XyR(w)=21(yXTw)T(yXTw)+21λwTwwR(w)=0,wR(w)=X(yXTw)+λw=0:w=(XXT+λI)1Xy

在這裡插入圖片描述

答:
已 知 : log ⁡ p ( y ∣ X ; w , δ ) = ∑ n = 1 N log ⁡ N ( y n ; w T x n , δ 2 ) 注 : N ( y n ; w T x n , δ 2 ) = 1 2 π δ e x p ( − ( y n − w T x n ) 2 2 δ 2 ) 目 的 : w M L = ( X X T ) − 1 X y 令 ∂ log ⁡ p ( y ∣ X ; w , δ ) ∂ w = 0 , 化 簡 得 : ∂ ( ∑ n = 1 N − ( y n − w T x n ) 2 2 β ) ∂ w = 0 ∂ 1 2 ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = 0 − X ( y − X T w ) = 0 得 : w M L = ( X X T ) − 1 X y 已知:\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注:\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的:w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化簡得:\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得: \\ w^{ML}=(XX^T)^{-1}Xy\\ logp(yX;w,δ)=n=1NlogN(yn;wTxn,δ2)N(yn;wTxn,δ2)=2π δ1exp(2δ2(ynwTxn)2)wML=(XXT)1Xywlogp(yX;w,δ)=0,w(n=1N2β(ynwTxn)2)=0w21yXTw2=0X(yXTw)=0wML=(XXT)1Xy

在這裡插入圖片描述

1 ) x    服 從    N ( x n ; μ , δ 2 ) :                                       log ⁡ N ( x n ; μ , δ 2 ) = log ⁡ 1 2 π δ e x p ( − ( x n − μ ) 2 2 δ 2 ) = 1 2 l o g 1 2 π δ 2 − ( x n − μ ) 2 2 δ 2 似 然 函 數 :     log ⁡ p ( x ∣ μ , δ ) = ∑ n = 1 N log ⁡ N ( x n ; μ , δ 2 ) = N 2 l o g 1 2 π δ 2 − ∑ n = 1 N ( x n − μ ) 2 2 δ 2 令 ∂ log ⁡ p ( x ∣ μ , δ ) ∂ μ = 0 , 化 簡 得 : ∑ n = 1 N x n δ 2 = N μ δ 2 故 :      μ M L = ∑ n = 1 N x n N 1)\quad x~~服從~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函式:~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化簡得:\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故:~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N} 1)x    N(xn;μ,δ2):                                     logN(xn;μ,δ2)=log2π δ1exp(2δ2(xnμ)2)=21log2πδ212δ2(xnμ)2   logp(xμ,δ)=n=1NlogN(xn;μ,δ2)=2Nlog2πδ21n=1N2δ2(xnμ)2μlogp(xμ,δ)=0,n=1Nδ2xn=δ2Nμ    μML=Nn=1Nxn

在這裡插入圖片描述

  • 一元:

    “我”、“打了”、“張三”
    x 1 = [ 1 , 1 , 1 ] x 2 = [ 1 , 1 , 1 ] x_1=[1, 1, 1]\\ x_2=[1,1,1] x1=[1,1,1]x2=[1,1,1]

  • 二元:

    “#我”、“我打了”、“打了張三 ”、“張三打了”、“打了我“
    x 1 = [ 1 , 1 , 1 , 1 , 0 ] x 2 = [ 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1] x1=[1,1,1,1,0]x2=[0,0,0,1,1]

  • 三元:

    ”##我“、”#我打了“、”我打了張三“、”打了張三#“、”張三打了我“、”打了我#“
    x 1 = [ 1 , 1 , 1 , 1 , 0 , 0 ] x 2 = [ 0 , 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1] x1=[1,1,1,1,0,0]x2=[0,0,0,0,1,1]
    詞袋模型將文字看作詞的集合, 不考慮詞序資訊, 不能精確地表示文字資訊

在這裡插入圖片描述

真實類別\預測類別123
1110
2021
3112

相關文章