深度學習-理論學習關鍵示意圖

Data_Designer發表於2020-10-03

最近敲程式碼總感覺有點迷,很多東西直接使用Tensorflow或者Pytorch封裝好的模組總感覺不得勁兒,算了還是惡補一下李老師的課吧,把該弄懂的東西都搞清楚。
正則化:為了減小噪聲資料帶來的預測偏差,λ越大,曲線越趨向於平滑(水平)。

image-20201002100628681

Bias and Variance:沒瞄準和打不準

偏差過大:redesign model

方差大:collect data(資料變換)、regularization

image-20201001160556541 image-20201001161637796

Cross validation:保證public testing set 與 private Testing set一致,因為你的test也只是樣本,而不是真實的資料分佈。

Gradient Decent:梯度是函式值增加最快的方向,所以要取反,且梯度越大,斜率越大。

Adaptive learning rate: 各個引數應該不同,且應該隨著t的增大而縮小

Adagrad:

image-20201001173103645

SGD:針對loss做文章,隨機取一個樣本進行loss計算

image-20201001174633410

Momentum:

image-20201002095540607 image-20201001194731303

Adam:

image-20201001195553850

Feature Scaling:求微分的時候會偏向於輸入大的部分(x),所以需要進行歸一化

image-20201001175152127

Maximum Likelihood:求導可得

image-20201001204509637

Sigmod Function

image-20201001210349115

Logistics Function:公式推導

image-20201001211704235 image-20201001211843734 image-20201001212250911 image-20201001213053837

判別模型和生成模型:判別模型在大資料量的情況下較優

image-20201001214558576

鏈式法則

image-20201002084855386

Backpropagation

image-20201002091516805

梯度消失:層數過多,後層根據前層已經下降(sigmod )到local minimal

image-20201002092632033

Early Stopping

image-20201002100334749

Dropout

image-20201002101542085 image-20201002101503097

CNN:單個Filter可以實現Property2,單個Filter中相同的feature,share同一組Weight,可以看圖三理解一下。多個Conv_maxpool輸出還是out_filter的數目,不是指數增長。

image-20201002110534705 image-20201002111053372 image-20201002111800015 image-20201002112623925 image-20201002112814189 image-20201002231631866 image-20201002232606997

RNN:當然memory中存入output也可以;LSTM中的Linear weight是訓練出來的scalar,LSTM對照於DNN僅僅是將一個Neuro換成一個LSTM cell,4倍於RNN的引數。GRU相比於LSTM少了一個門,但效果類似且不容易Overfitting;LSTM可以解決Gradient vanishing的問題。

simple rnn:

image-20201003081840288 image-20201003082235653

lstm:

image-20201003082509414 image-20201003083007457 image-20201003083623442

lstm簡單形態,C就是C,H就是H,不會影響輸入。

image-20201003084512688

lstm最終形態,每層的C和H都會於下一個X一起影響輸入。

image-20201003084622464

Word Embedding:類似於對映到更高的dimention追尋詞根(class),需要共享引數。

image-20201003104408621 image-20201003104550164

Encoder and Decoder: 如果train的時候輸入下一個的輸入是reference,會存在bias,test時候會無法預期,可以採用scheduled sampling decide。

image-20201003111806785 image-20201003135000538 image-20201003135842063

**Attention-based-model:**a是計算得到的z和h的相似度,具體相似度的計算方法可以自己選擇。其實C是一個資訊抽取的集合。

image-20201003114050585 image-20201003114703563 image-20201003120157367

相關文章