RNN-Encoder Decoder架構中引入的注意力機制

一夜了發表於2018-06-15

原文網址 : https://blog.csdn.net/yiyele/article/details/80698683

一.簡介

注意力機制是在Encoder與Deconder架構中針對輸出不同的序列（分詞）在輸入序列中所佔權重一樣，或者使用同一個C向量的不足中，引入了能夠學習針對不同輸出序列在不同輸入序列所佔的比重不同的一個機制，例如，“我喜歡足球”與“i like football”這個翻譯中，‘i’這個詞的翻譯明顯與“我”這個輸入詞對應，與後面“喜歡足球”的關係不大，因此，這種注意力機制能夠明顯的提升翻譯效果。
以下內容是我在看完《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》這篇論文後做的一個簡要總結。

二.詳細介紹

論文中提出，注意力機制共同學習輸入輸出序列對應關係以及翻譯比傳統的Encoder-Deconder架構要好。尤其是在長句子的翻譯上，由於Encoder-Decoder在長句子中表現不好，Cho et al. (2014b) 這篇論文顯示了隨著句子的增長，傳統的Encoder-Decoder架構表現越來越糟，尤其是對文字中最長的句子。
注意力機制解決了這個問題，每次在翻譯中生成一個單詞，都會在輸入中找到與之最相關的資訊。該模型都會根據輸入中相關的單詞位置資訊以及先前的目標詞來預測當前目標詞。
最為重要的是這種方式並不是將整個輸入文字學習到一個簡單的固定長度的向量中，而是編碼整個輸入到一個向量序列中，並從中選擇適宜的向量子集解碼翻譯。

2.1 RNN Encoder-Decoder

文中提出了一個使用兩個RNN網路的Encoder-Decoder架構，一個用於Encoder，一個用於Decoder。能夠同時學到對應關係和進行翻譯。
在Encoder中，編碼器學習輸入序列 $(x_{1}, x_{2} . . . x_{T_{x}})$

(x_1,x_2...x_{T_x})

到向量C中，如下所示：

h_{t} = f (x_{t}, h_{t - 1})

h_t=f(x_t,h_{t-1})

並且：

C = q (h_{1}, h_{2} . . . . h_{T_{x}})

C = q({h_1,h_2....h_{T_x}})

其中

h_{t}

h_t

是在時間t的隱藏狀態，Ｃ是從隱藏狀態中生成的向量，ｆ和ｑ是非線性的函式，例如，Sutskever et al使用LSTM作為f，Ｃ為

h_{T_{x}}

h_{T_x}

。
在已知輸入文件向量C以及

y_{1}, . . . y_{t^{'} - 1}

{y_1,...y_{t'-1}}

，Decoder被訓練用來預測下一個詞語

y_{t^{'}}

y_{t'}

，

p (y) = \prod_{t = 1}^{T} p (y_{t} | (y_{1}, . . . y_{t - 1}), c)

p(y)=\prod_{t=1}^T p(y_t | (y_1,...y_{t-1}),c)

其中，

y = (y_{1}, . . . ., y_{T_{y}})

y=(y_1,....,y_{T_y})

，在RNN中，每個條件模型被指定為：

p (y_{t} | (y_{1}, . . . y_{t - 1}), c) = g (y_{t - 1}, s_{t}, c)

p(y_t | (y_1,...y_{t-1}),c)=g(y_{t-1},s_t,c)

其中g是一個非線性的，多層的函式，

s_{t}

s_t

是RNN的隱藏層。

2.2 注意力機制

注意力機制本文主要是使用在了Encoder-Decoder架構中，其中使用雙向RNN作為Encoder，而解碼器Decoder主要搜尋輸入序列進行翻譯。

2.2.1 Decoder

在新的架構中，文中新的條件概率為：

p (y_{t} | y_{1}, . . ., y_{t - 1}, c) = g (y_{t - 1}, s_{t}, c_{i})

p(y_t | y_1,...,y_{t-1},c)=g(y_{t-1},s_t,c_i)

其中

s_{t}

s_t

是RNN的在時間t的隱藏狀態，可以計算為：

s_{i} = f (s_{i - 1}, y_{i - 1}, c_{i})

s_i=f(s_{i-1},y_{i-1},c_i)

其中，

c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j}

c_i=\sum_{j=1}^{T_x} \alpha_{ij}h_j

，

α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}

\alpha_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}

，

e_{i j} = a (s_{i - 1}, h_{j})

e_{ij}=a(s_{i-1},h_j)

。

e_{i j}

e_{ij}

這個引數主要評價位置i的輸入與位置j附近輸入之間的匹配關係。這個引數主要依靠RNN隱藏狀態

s_{i - 1}

s_{i-1}

以及輸入序列第j個標籤

h_{j}

h_j

。

e_{i j}

e_{ij}

計算公式為：

具體如下圖所示：

文中將ａ作為前饋神經網路的引數與其它模型一起訓練，與傳統的機器翻譯不同，the alignment並不認為是一個潛在的變數，alignment model直接計算soft alignment，允許反向傳播損失函式的梯度，梯度能夠同翻譯模型一起訓練，讓 $α_{i j}$

\alpha_{ij}

作為目標詞

y_{i}

y_i

與輸入詞

x_{j}

x_j

之間的一種分佈，並與

C_{i}

C_i

加權求和。

α_{i j}

\alpha_{ij}

在隱藏狀態

s_{i - 1}

s_{i-1}

決定

s_{i}

s_i

和生成

y_{i}

y_i

中反應了

h_{j}

h_j

的重要性，換一句話說，解碼器Decoder決定了關注哪些輸入序列，在這種注意力機制下，一些資訊會擴散到annotation中去，並在解碼器Decoder中被選擇。

2.2.2 Encoder-雙向RNN

文中提到，傳統的RNN讀取有序的輸入序列，然後在一些場景中，針對每一個單詞，我們希望不僅能夠學習到前面單詞的資訊，而且能夠學習到後面單詞的資訊。
雙向RNN是由前向以及後向的RNN組成，前向的RNN讀取輸入序列 $(x_{1}, . . . ., x_{T_{x}})$

(x_1,....,x_{T_x})

，然後計算前向的隱藏狀態

(\vec{h_{1}}, . . . \vec{h_{T_{x}}})

(\overrightarrow{h_1},...\overrightarrow{h_{T_x}})

，而後向的RNN讀取

(x_{T_{x}}, . . . ., x_{1})

(x_{T_x},....,x_1)

，然後學習後向的隱藏狀態

(\overset{\leftarrow}{h_{1}}, . . . \overset{\leftarrow}{h_{T_{x}}})

(\overleftarrow{h_1},...\overleftarrow{h_{T_x}})

。因此，我們能夠得到每個輸入詞語的隱藏狀態

h_{j} = [\vec{h_{j}^{T}}, \overset{\leftarrow}{h_{h_{j}^{T}}}]

h_j=[\overrightarrow{h_j^T},\overleftarrow{h_{h_j^T}}]

。在這種方式下，

h_{j}

h_j

將會表示前向以及後向的單詞。由於RNN更傾向於表示最近的輸入，所以，

h_{j}

h_j

會更注重於

x_{j}

x_j

附近的單詞。

實驗驗證

這裡寫圖片描述
其中30表示句子長度最長為30,50表示句子長度最長為50個單詞。RNNsearch為文中提出的模型。

計算機視覺中的注意力機制
2019-02-15
計算機視覺
注意力機制
2024-04-07
目標檢測中的注意力機制
2018-12-03
注意力機制----RNN中的self-attention
2020-11-08
RNN
通俗理解自注意力機制和多頭注意力機制
2024-12-09
深度學習中的注意力機制(Attention Model)
2018-11-05
深度學習
注意力機制在圖卷積中的應用
2019-04-15
卷積
You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構
2024-05-12
模型架構
深入探討微服務架構中的同步通訊機制
2024-08-09
微服務架構
什麼是注意力機制？
2024-04-07
attention注意力機制學習
2020-11-06
淺析注意力(Attention)機制
2024-11-17
自適應注意力機制在Image Caption中的應用
2018-05-10
APT
多頭注意力機制的python實現
2024-07-09
Python
三種Transformer模型中的注意力機制介紹及Pytorch實現：從自注意力到因果自注意力
2024-10-13
ORM模型PyTorch
8.1 Attention（注意力機制）和Transformer
2020-01-08
ORM
深入理解圖注意力機制
2019-02-19
輕量級的架構決策記錄機制
2022-12-15
架構
為什麼使用自注意力機制？
2018-09-17
umich cv-6-2 注意力機制
2023-10-31
架構設計（三）：引入快取
2022-12-15
架構快取
HDFS 02 - HDFS 的機制：副本機制、機架感知機制、負載均衡機制
2021-02-20
負載
哈佛大學提出變分注意力：用VAE重建注意力機制
2018-07-26
Seq2Seq那些事：詳解深度學習中的“注意力機制”
2019-01-22
深度學習
從各種注意力機制窺探深度學習在NLP中的神威
2018-10-08
深度學習
Cloud Foundry架構和訊息處理機制
2018-12-19
Cloud架構
spring cloud微服務架構-Eureka保護機制
2020-01-17
SpringCloud微服務架構
Sigmoid注意力一樣強，蘋果開始重新審視注意力機制
2024-09-18
Sigmoid蘋果
自注意力機制(2)-多頭自注意層
2024-09-23
CNN中的注意力機制綜合指南：從理論到Pytorch程式碼實現
2024-09-02
CNNPyTorch
Kafka 架構和原理機制 (圖文全面詳解)
2022-11-01
Kafka架構
Vue專案預渲染機制引入實踐
2018-09-02
Vue
記一次引入Elasticsearch的系統架構實戰
2021-12-27
Elasticsearch架構
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
Falcon Mamba: 首個高效的無注意力機制 7B 模型
2024-09-05
模型
CAP：多重注意力機制，有趣的細粒度分類方案 | AAAI 2021
2022-06-24
AI
【機器學習】李宏毅——自注意力機制(Self-attention)
2022-12-16
機器學習
架構中的“大象”
2023-11-10
架構