nndl-復旦-神經網路與深度學習筆記第二章習題
第二章習題
參考資料https://www.cnblogs.com/douzujun/p/13285715.html
-
習題 2-1 分析為什麼平方損失函式不適用於分類問題.
分類問題中的標籤,是沒有連續的概念的。每個標籤之間的距離也是沒有實際意義的,所以預測值 和 標籤兩個向量之間的平方差這個值不能反應分類這個問題的優化程度。 假設分類問題的類別是1,2,3 那麼對於一個真實類別為2的樣本X,模型的分類結果是 1 或 3,平方損失函式得到的結果都一樣,顯然不適合。
解 : y n 維 數 為 1 ∗ 1 ; w n 和 w n 維 數 為 n ∗ 1 解:y_n維數為1*1; w_n和w_n維數為n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 解:yn維數為1∗1;wn和wn維數為n∗1
顯 然 : w T x n = x n T w 顯然:w^Tx_n=x_n^Tw 顯然:wTxn=xnTw
故 : R ( w ) = 1 2 ∑ n = 1 N r n ( y n − x n T w ) 2 故:R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2} 故:R(w)=21n=1∑Nrn(yn−xnTw)2
對 R ( w ) 求 導 並 讓 其 為 0 , 得 : R ( w ) = ∑ n = 1 N − r n x n ( y n − x n T w ) = 0 對R(w)求導並讓其為0,得:R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0 對R(w)求導並讓其為0,得:R(w)=n=1∑N−rnxn(yn−xnTw)=0
即 : w ∗ = ( ∑ n = 1 N ( r n x n x n T ) − 1 ) ( ∑ n = 1 N r n x n y n ) 即: w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n}) 即:w∗=(n=1∑N(rnxnxnT)−1)(n=1∑Nrnxnyn)
r(n): 為每個樣本都分配了權重,相當於對每個樣本都設定了不同的學習率,即,理解成對每個樣本重視程度不同。
答 : 已 知 : R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 要 求 : w ∗ = ( X X T + λ I ) − 1 X y 解 : R ( w ) = 1 2 ( y − X T w ) T ( y − X T w ) + 1 2 λ w T w 令 ∂ R ( w ) ∂ w = 0 , 得 : ∂ R ( w ) ∂ w = − X ( y − X T w ) + λ w = 0 解 得 : w ∗ = ( X X T + λ I ) − 1 X y 得 證 答:\quad 已知:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求:w^*=(XX^T+\lambda I)^{-1}Xy\\ 解:R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得:\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得證 答:已知: R(w)=21∣∣y−XTw∣∣2+21λ∣∣w∣∣2要求:w∗=(XXT+λI)−1Xy解:R(w)=21(y−XTw)T(y−XTw)+21λwTw令∂w∂R(w)=0,得:∂w∂R(w)=−X(y−XTw)+λw=0解得:w∗=(XXT+λI)−1Xy得證
答:
已
知
:
log
p
(
y
∣
X
;
w
,
δ
)
=
∑
n
=
1
N
log
N
(
y
n
;
w
T
x
n
,
δ
2
)
注
:
N
(
y
n
;
w
T
x
n
,
δ
2
)
=
1
2
π
δ
e
x
p
(
−
(
y
n
−
w
T
x
n
)
2
2
δ
2
)
目
的
:
w
M
L
=
(
X
X
T
)
−
1
X
y
令
∂
log
p
(
y
∣
X
;
w
,
δ
)
∂
w
=
0
,
化
簡
得
:
∂
(
∑
n
=
1
N
−
(
y
n
−
w
T
x
n
)
2
2
β
)
∂
w
=
0
∂
1
2
∣
∣
y
−
X
T
w
∣
∣
2
∂
w
=
0
−
X
(
y
−
X
T
w
)
=
0
得
:
w
M
L
=
(
X
X
T
)
−
1
X
y
已知:\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注:\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的:w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化簡得:\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得: \\ w^{ML}=(XX^T)^{-1}Xy\\
已知:logp(y∣X;w,δ)=n=1∑NlogN(yn;wTxn,δ2)注:N(yn;wTxn,δ2)=2πδ1exp(−2δ2(yn−wTxn)2)目的:wML=(XXT)−1Xy令∂w∂logp(y∣X;w,δ)=0,化簡得:∂w∂(∑n=1N2β−(yn−wTxn)2)=0∂w∂21∣∣y−XTw∣∣2=0−X(y−XTw)=0得:wML=(XXT)−1Xy
1 ) x 服 從 N ( x n ; μ , δ 2 ) : log N ( x n ; μ , δ 2 ) = log 1 2 π δ e x p ( − ( x n − μ ) 2 2 δ 2 ) = 1 2 l o g 1 2 π δ 2 − ( x n − μ ) 2 2 δ 2 似 然 函 數 : log p ( x ∣ μ , δ ) = ∑ n = 1 N log N ( x n ; μ , δ 2 ) = N 2 l o g 1 2 π δ 2 − ∑ n = 1 N ( x n − μ ) 2 2 δ 2 令 ∂ log p ( x ∣ μ , δ ) ∂ μ = 0 , 化 簡 得 : ∑ n = 1 N x n δ 2 = N μ δ 2 故 : μ M L = ∑ n = 1 N x n N 1)\quad x~~服從~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函式:~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化簡得:\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故:~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N} 1)x 服從 N(xn;μ,δ2): logN(xn;μ,δ2)=log2πδ1exp(−2δ2(xn−μ)2)=21log2πδ21−2δ2(xn−μ)2似然函數: logp(x∣μ,δ)=n=1∑NlogN(xn;μ,δ2)=2Nlog2πδ21−n=1∑N2δ2(xn−μ)2令∂μ∂logp(x∣μ,δ)=0,化簡得:n=1∑Nδ2xn=δ2Nμ故: μML=N∑n=1Nxn
-
一元:
“我”、“打了”、“張三”
x 1 = [ 1 , 1 , 1 ] x 2 = [ 1 , 1 , 1 ] x_1=[1, 1, 1]\\ x_2=[1,1,1] x1=[1,1,1]x2=[1,1,1] -
二元:
“#我”、“我打了”、“打了張三 ”、“張三打了”、“打了我“
x 1 = [ 1 , 1 , 1 , 1 , 0 ] x 2 = [ 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1] x1=[1,1,1,1,0]x2=[0,0,0,1,1] -
三元:
”##我“、”#我打了“、”我打了張三“、”打了張三#“、”張三打了我“、”打了我#“
x 1 = [ 1 , 1 , 1 , 1 , 0 , 0 ] x 2 = [ 0 , 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1] x1=[1,1,1,1,0,0]x2=[0,0,0,0,1,1]
詞袋模型將文字看作詞的集合, 不考慮詞序資訊, 不能精確地表示文字資訊
真實類別\預測類別 | 1 | 2 | 3 |
---|---|---|---|
1 | 1 | 1 | 0 |
2 | 0 | 2 | 1 |
3 | 1 | 1 | 2 |
相關文章
- 深度學習與神經網路學習筆記一深度學習神經網路筆記
- 深度學習筆記------卷積神經網路深度學習筆記卷積神經網路
- 深度學習卷積神經網路筆記深度學習卷積神經網路筆記
- Andrew NG 深度學習課程筆記:神經網路、有監督學習與深度學習深度學習筆記神經網路
- 深度學習系列(2)——神經網路與深度學習深度學習神經網路
- 吳恩達《神經網路與深度學習》課程筆記(1)– 深度學習概述吳恩達神經網路深度學習筆記
- Neural Networks and Deep Learning(神經網路與深度學習) - 學習筆記神經網路深度學習筆記
- 再聊神經網路與深度學習神經網路深度學習
- 深度學習與圖神經網路深度學習神經網路
- 吳恩達《神經網路與深度學習》課程筆記(4)– 淺層神經網路吳恩達神經網路深度學習筆記
- 吳恩達《神經網路與深度學習》課程筆記(5)– 深層神經網路吳恩達神經網路深度學習筆記
- 深度學習筆記8:利用Tensorflow搭建神經網路深度學習筆記神經網路
- 神經網路和深度學習神經網路深度學習
- 語音學習筆記12------直觀理解深度學習與卷積神經網路筆記深度學習卷積神經網路
- 深度學習入門筆記(十八):卷積神經網路(一)深度學習筆記卷積神經網路
- 神經網路與深度學習 課程複習總結神經網路深度學習
- 深度學習與圖神經網路學習分享:CNN 經典網路之-ResNet深度學習神經網路CNN
- 【深度學習】神經網路入門深度學習神經網路
- AI之(神經網路+深度學習)AI神經網路深度學習
- NLP與深度學習(二)迴圈神經網路深度學習神經網路
- 初探神經網路與深度學習 —— 感知器神經網路深度學習
- 全連線神經網路學習筆記神經網路筆記
- 《深度學習Ng》課程學習筆記01week3——淺層神經網路深度學習筆記神經網路
- Ng深度學習筆記——卷積神經網路基礎深度學習筆記卷積神經網路
- 【深度學習篇】--神經網路中的卷積神經網路深度學習神經網路卷積
- 吳恩達《神經網路與深度學習》課程筆記(3)– 神經網路基礎之Python與向量化吳恩達神經網路深度學習筆記Python
- 【深度學習】1.4深層神經網路深度學習神經網路
- 深度學習教程 | 深層神經網路深度學習神經網路
- 深度學習三:卷積神經網路深度學習卷積神經網路
- 神經網路和深度學習(1):前言神經網路深度學習
- 幾種型別神經網路學習筆記型別神經網路筆記
- 卷積神經網路學習筆記——SENet卷積神經網路筆記SENet
- 吳恩達《神經網路與深度學習》課程筆記(2)– 神經網路基礎之邏輯迴歸吳恩達神經網路深度學習筆記邏輯迴歸
- 深度學習與圖神經網路學習分享:訊息傳遞模式深度學習神經網路模式
- 深度學習與圖神經網路學習分享:Graph Embedding 圖嵌入深度學習神經網路
- 卷積神經網路學習筆記——Siamese networks(孿生神經網路)卷積神經網路筆記
- 撒花!《神經網路與深度學習》中文教程正式開源!復旦邱錫鵬所著神經網路深度學習
- 深度學習與CV教程(4) | 神經網路與反向傳播深度學習神經網路反向傳播