深度學習-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)

村頭陶員外發表於2017-11-22

之前總結過RNNLM

RNNLM

，是一個SequenceModel，其結構類似如下：

這裡寫圖片描述

這裡面是一個一個的輸出。我們如果以這種方式做機器翻譯，每一個時刻輸入一個詞，相應的翻譯一個詞，顯然這種一個一個單詞的翻譯方式不是很好，因為沒有聯絡上下文進行翻譯。我們希望先把一整句話餵給模型，然後模型在這一個整句的角度上來進翻譯。這樣翻譯的效果更好。

所以本篇博文要總結的是Seq2Seq Model，給出一個完整的句子，能得出另外一個完整的句子。

下面我們以機器翻譯來講解下面幾個要點。

Encoder-Decoder模型

網路結構

這裡寫圖片描述

其中f1,f2,f3

{f}_{1},{f}_{2},{f}_{3}

是輸入資訊做完

embedding

後的矩陣，Encoder部分是一個兩層的

LSTM

神經網路，這個神經網路不做任何輸出，只輸出最後一步的

h,c

，我們可以理解這個

h,c

是已經總結了的輸入資訊，

Decoder部分

也是一個兩層的

LSTM

神經網路，並且其隱藏層

h,c

的初始值為

Encoder

部分輸出的

h,c

，然後在

Decoder

部分進行翻譯。

注意在Encoder

Encoder

部分每一步並不預測任何東西，其初始的

h,c

為全零向量，並且與

Decoder

是完全不同的引數。

Encoder−Decoder
Encoder-Decoder
的引數集合

首先注意Encoder

Encoder

和

Decoder

部分都是兩層的

LSTM

神經網路。回顧下

LSTM Cell

LSTM\ Cell

大致結構：

這裡寫圖片描述

以及它的計算公式：

這裡寫圖片描述

Encoder−Decoder

Encoder-Decoder

超引數

num_layers=n,hidden size=d(embedding的維度)
num\_layers=n, hidden\ size=d(embedding的維度)
vocab for F=VF(輸入單詞的個數),vocab for E=VE（輸出單詞的個數）
vocab\ for\ F = {V}_{F}(輸入單詞的個數) , vocab\ for\ E = {V}_{E}（輸出單詞的個數）

Encoder

部分引數

Input:input embedding for f:VF∗d
Input: input\ embedding\ for\ f : {V}_{F} ∗ d
LSTM
LSTM
：第一層,第二層: 2∗(8d2+4d)
2*(8{d}^{2} +4d)
（我們可以看上面LSTM
LSTM
的計算公式，對於i,f,o,g
i,f,o,g
四個公式，每個公式都有兩個引數矩陣，每個矩陣大小都是d∗d
d*d
，再加上四個bias
bias
引數矩陣，故每層共有(8d2+4d)
(8{d}^{2} +4d)
個引數）

Decoder

部分引數

Input:input embedding for e:VE∗d
Input: input\ embedding\ for\ e: {V}_{E} ∗ d
LSTM
LSTM
：第一層,第二層: 2∗(8d2+4d)
2*(8{d}^{2} +4d)
Output
Output

output embedding for e：VE∗d
output\ embedding\ for\ e： {V}_{E} ∗ d

output bias for e：VE
output\ bias\ for\ e： {V}_{E}

Beam Search

Mismatch between Train and Test
Mismatch\ between\ Train\ and\ Test

首先需要注意到模型訓練和模型預測是兩個不同的過程，在訓練時，我們知道每一步真正的reference

reference

，而在預測時是不知道每一步的

reference

的。

這裡寫圖片描述

在上圖的網路結構中，都是以上一時刻真正的reference

reference

作為下一時刻的

input

來訓練模型。

那麼train

train

出這樣一個模型，應該如何進行預測呢？因為在預測階段我們是不知道

reference

的，我們可以嘗試這樣做，把上一次的輸出作為下一次的輸入。

這裡寫圖片描述

很顯然，這樣做的後果很嚴重：

這裡寫圖片描述

一步錯，步步錯！

那麼應如何解決上面這個問題呢？我們嘗試這樣做，現在假設語料庫只有A,B

A,B

兩個

word

，那麼：

這裡寫圖片描述

我們看上圖的LSTM

LSTM

結構，共有三個時間段，第一個時間段會輸出兩個單詞

P(A),P(B)

的概率，並不真正的輸出最大概率對應的

word

作為當時刻的輸出，分別以

[A,B]T

{[A,B]}^{T}

作為下一個時刻的輸入，然後得到這一時刻輸出

P(A),P(B),P(A),P(B)

的概率矩陣，以此類推，直到最後我們可以得到輸出是

AAA,AAB,ABA,ABB,.....

各個序列的概率，選擇概率最大的作為真正的輸出序列。

這裡需要注意，在Decoder

Decoder

部分，第三個時間步處兩個輸入的B
B
表示不同的含義，第一個B
B
的前驅為A
A
，第二個B
B
的前驅為B
B
。

這樣我們可以計算出輸出序列P(AAA)=0.6∗0.4∗0.5=0.12,P(AAB)=0.6∗0.4∗0.5=0.12,P(ABA)=0.6∗0.6∗0.4=0.144....

P(AAA)=0.6*0.4*0.5=0.12,P(AAB)=0.6*0.4*0.5=0.12,P(ABA)=0.6*0.6*0.4=0.144....

如此類推計算，可以計算出最大概率對應的序列，作為預測結果。

在語料庫中的words

words

很少的情況下，可以利用這樣類似於窮舉的方式來獲得概率最大的那個序列作為預測結果，但是如果語料庫中的

words

很多時，這種窮舉的方式肯定就變得不可行了，那麼這個時候應該如何做呢？

可以嘗試這樣做，例如語料庫有3個words

words

，我們可以設定

Beam size=2

Beam\ size = 2

，也就是每次選擇前一時刻輸出概率最大的前2個words
words
作為當前的輸入。

這裡寫圖片描述

這裡需要注意，當對應輸入是a,b

a,b

時，輸出最大概率的兩個word
word
為b,c
b,c
，並且其前驅都是a
a
，那麼此時以b
b
為前驅的就丟掉了。

這裡寫圖片描述

當語料庫中只有兩個words

words

時，取

Beam size=2

Beam\ size=2

時，其過程如下：

這裡寫圖片描述

可以以下面這張圖更好的理解Beam Search

Beam\ Search

過程：

這裡寫圖片描述

注意在每個時間步時，可能有相同的word

word

作為輸入，但是他們的意義是不同的，其前驅不一樣。

Attention

上面講的傳統的Encoder−Decoder

Encoder-Decoder

神經網路結構在應對較短文字翻譯時效果不錯，但是隨著文字長度的增加，其翻譯效果會迅速的惡化。由此提出了

Attention

這種結構，使得模型能夠學習如何對

input

和

output

進行對齊。

簡單來說，例如將“我愛你”翻譯成 "i love you"

"i\ love\ you"

，這裡模型如何學習到如何將翻譯出的

"i"

對齊到(

attention

) 到”我“。

例如下圖：

這裡寫圖片描述

那麼問題來了，如何讓模型學習對其(Attention

Attention

) 呢？

在attention

attention

的原始論文中是這樣說的：

這裡寫圖片描述

這裡我久不從數學公式角度來說明，只說下它的大致思路。

上圖中上半部分為Decoder

Decoder

，其中

為其

hidden−states

hidden-states

輸出資訊，

為其

output

。下半部分為

Encoder

，

為其

Input

，

為

hidden−states

hidden-states

。

假設在 t

時刻，其

Decoder

部分對應的

hidden−states

hidden-states

為

{S}_{t}

，這個時候，我們把

{S}_{t}

與

Encoder

部分的所有

hidden−state

hidden-state

資訊做個相似度的計算，得出

at,1,at,2,at,3,...

{a}_{t,1},{a}_{t,2},{a}_{t,3},...

，然後再把這些計算出來的相似度做個

softmax

，再進行如下計算：

這裡寫圖片描述

將得出的cj

{c}_{j}

作為

Decoder

部分的輸入。

這樣講的估計有許多人沒明白咋回事，為什麼這樣做就能Attention

Attention

呢？

我覺得這篇原始論文講的雖然詳細但是不夠直觀。我引用下臺大李宏毅教授所講attention

attention

的

ppt

來詳細進行講解。

這裡寫圖片描述

假設我們再Encoder

Encoder

部分輸入“機器學習” 四個字，經過

word−Embedding

word-Embedding

以後作為輸入餵給一個

RNN

，然後經過隱藏層得出隱藏層資訊

h1,h2,...

{h}_{1},{h}_{2},...

，這時候在

Decoder

部分的第一個時刻的

hidden−state

hidden-state

假設為

{z}_{0}

，

{z}_{0}

的和

h1,h2,,,

{h}_{1},{h}_{2},,,

進行相似度的計算，得出各個時刻的

a10,a20,...

{a}^{1}_{0},{a}^{2}_{0},...

，然後在

{a}^{i}

與對應的

{h}^{i}

相乘求和得到這

{c}_{0}

，其大致過程如下：

這裡寫圖片描述

我們可以看出encoder

encoder

和

decoder

是聯合的進行訓練，在訓練過程中，在某個時刻模型會學習到當前應該

focus

到

input

的哪一部分，這體現在

a10,a20,...

{a}^{1}_{0},{a}^{2}_{0},...

不同的係數權重上，

attention

就是在學習這些係數。

得出的C0

{C}_{0}

作為

Decoder

的下一時刻的輸入。後面的時刻同理。

這裡寫圖片描述

其實對於attention

attention

沒有固定的套路，例如

softmax

這一步不一定非要做，聽說有人做實驗發現不做

softmax

效果還好些。其變種有很多。

深度學習的Attention模型
2017-10-12
深度學習模型
深度學習的seq2seq模型
2019-02-21
深度學習模型
深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）
2020-05-15
深度學習模型筆記RNN
深度學習（Deep Learning）
2022-08-17
深度學習
《DEEP LEARNING·深度學習》
2024-05-05
深度學習
語言模型（五）—— Seq2Seq、Attention、Transformer學習筆記
2020-12-02
模型ORM筆記
深度學習 DEEP LEARNING 學習筆記（一）
2020-07-24
深度學習筆記
深度學習 DEEP LEARNING 學習筆記（二）
2020-07-24
深度學習筆記
【深度學習系列】遷移學習Transfer Learning
2018-02-01
深度學習遷移學習
Beam Search快速理解及程式碼解析
2021-11-02
機器學習(Machine Learning)&深度學習(Deep Learning)資料
2016-08-04
機器學習Mac深度學習
Deep Learning（深度學習）學習筆記整理系列
2016-08-22
深度學習筆記
【深度學習】大牛的《深度學習》筆記，Deep Learning速成教程
2018-04-07
深度學習筆記
深度學習（Deep Learning）優缺點
2020-02-23
深度學習
深度學習中的注意力機制(Attention Model)
2018-11-05
深度學習
深度學習模型調優方法（Deep Learning學習記錄）
2020-08-05
深度學習模型
Deep Learning（深度學習）學習筆記整理系列之（一）
2013-04-08
深度學習筆記
《深度學習》PDF Deep Learning: Adaptive Computation and Machine Learning series
2019-12-17
深度學習APTMac
【深度學習篇】--Seq2Seq模型從初識到應用
2018-06-07
深度學習模型
深度學習不得不會的遷移學習Transfer Learning
2019-04-19
深度學習遷移學習
貝葉斯深度學習（bayesian deep learning）
2019-01-17
深度學習
Deep Reinforcement Learning 深度增強學習資源
2016-01-24
深度學習教程 | Seq2Seq序列模型和注意力機制
2022-04-14
深度學習模型
注意力(Attention)與Seq2Seq的區別
2021-02-13
使用Python實現深度學習模型：序列到序列模型（Seq2Seq）
2024-06-06
Python深度學習模型
Searching with Deep Learning 深度學習的搜尋應用
2019-04-16
深度學習
Seq2Seq那些事：詳解深度學習中的“注意力機制”
2019-01-22
深度學習
Neural Networks and Deep Learning(神經網路與深度學習) - 學習筆記
2017-04-23
神經網路深度學習筆記
Sphinx Search 學習 (一)
2020-04-04
Machine Learning Mastery 部落格文章翻譯：深度學習與 Keras
2019-04-11
MacAST深度學習Keras
deep learning深度學習之學習筆記基於吳恩達coursera課程
2017-09-19
深度學習筆記吳恩達
系統學習NLP（十五）--seq2seq
2019-03-12
乾貨｜當深度學習遇見自動文字摘要，seq2seq+attention
2021-09-09
深度學習
深度學習FPGA實現基礎知識6(Deep Learning（深度學習）學習資料大全及CSDN大牛部落格推薦)
2017-10-01
深度學習FPGA
attention注意力機制學習
2020-11-06
圖學習(一)Graph Attention Networks
2020-11-29
深度學習（一）深度學習學習資料
2015-05-01
深度學習
小白的深度優先搜尋（Depth First Search）學習日記（Python）
2024-04-09
Python

深度學習-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)

Encoder-Decoder模型

網路結構

Encoder−DecoderEncoder-Decoder 的引數集合

Beam Search

Mismatch between Train and TestMismatch\ between\ Train\ and\ Test

Attention

相關文章

Encoder−Decoder
Encoder-Decoder
的引數集合

Mismatch between Train and Test
Mismatch\ between\ Train\ and\ Test