深度學習的Attention模型

超人汪小建發表於2017-10-12

深度學習模型

前言

前面看到谷歌發表的運用在機器翻譯上的論文《Attention is all you need》，很是讓人驚訝，這是一種全新的模型，與之前的經典的seq2seq模型改動較大，它完全摒棄了RNN或CNN神經網路，大大簡化了模型的複雜度，而且效果還相當好。當然Attention模型可以單獨使用，但這篇文章我們來看看Attention的機制及怎麼與經典的seq2seq結合。

seq2seq

前面我們有詳細的文章介紹了seq2seq的機制以及如何用TensorFlow來實現seq2seq。可到《深度學習的seq2seq模型》、《TensorFlow實現seq2seq》閱讀。

seq2seq模型結構基本都大同小異，下面用一種常見結構進行說明，我們可以看到decoder將不同時刻的輸入最後用一個狀態C來表示,encoder部分的不同時刻的輸出則為

，且有

，可以看到，不同時刻的輸入被編碼成C，而不同時刻的輸出與上一時刻的輸出、當前時刻的隱含狀態、編碼狀態C都相關，而當前時刻隱含狀態由於上一時刻的隱含狀態、上個時刻輸出、編碼C相關。

seq2seq缺點

seq2seq模型是處理序列問題的大殺器，由它實現的encoder-decoder模型讓其在很多場景都發揮著強大的作用，得到了很不錯的效果。但它也有自己的侷限性，被認為最大限制了seq2seq能力的就在於編碼和解碼之間的唯一聯絡就是一個固定長度的語義向量C。

我們可以看到上面，encoder的不同時刻的輸入都被編碼成狀態C，這個便是語義向量。從這個角度去看，它將整個序列的資訊壓縮到一個固定長度的向量中去了。對於短序列來說，這種做法可能問題不大，但如果是較長較複雜的佇列，則該語義向量可能無法完全表示整個序列的資訊。而且先輸入的序列的資訊會被後輸入的序列資訊稀釋掉。輸入序列越長，這個現象就越嚴重。如果我們得到一個有損的語義編碼，那對後面的解碼也很可能會產生影響。

另外seq2seq模型一般會使用RNN，而RNN因為與上一時刻狀態相關，所以不能並行運算，效率低。但這是所有使用RNN的侷限性，除非不使用它。

Attention模型

為了解決語義損失和資訊稀釋的問題，提出了Attention模型，Attention即注意力，它是模擬了人類的視覺注意機制而來，比如當觀察某個畫面時，注意力聚焦到其中某一部分，其餘部分則變得模糊。

按照圖，我們們往下詳細看Attention模型怎麼與seq2seq結合。對於decoder，輸出為

這裡的C已經與前面說到的seq2seq的語義向量C不同了，已經不再是將所有輸入進行編碼，下面會說到C怎麼計算。再看隱含狀態，

C向量計算公式為，

我們可以將其中的a看成是各個時刻的輸出的不同時刻的輸入對應的權重，其實就可以使用softmax來計算，它的計算公式為，

其中，

通過上面幾個公式就基本描述了seq2seq與Attention的結合，其中每個輸出多了注意力向量參與，注意力的權重由上一時刻隱含狀態與encoder的各個輸入的隱含狀態共同決定。

在seq2seq模型上加上Attention模型，克服了語義損失和資訊稀釋的問題，但是它也引入了額外的成本，對於m個輸入，n個輸出的結構中，Attention引數也達到了m*n的數量級。

以下是廣告和相關閱讀

========廣告時間========

鄙人的新書《Tomcat核心設計剖析》已經在京東銷售了，有需要的朋友可以到 item.jd.com/12185360.ht… 進行預定。感謝各位朋友。

為什麼寫《Tomcat核心設計剖析》

=========================

相關閱讀：
《深度學習的seq2seq模型》
《TensorFlow實現seq2seq》

歡迎關注：

相關文章

大模型學習筆記：attention 機制
2024-11-24
大模型筆記
深度學習中的注意力機制(Attention Model)
2018-11-05
深度學習
深度學習模型
2018-12-07
深度學習模型
深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）
2020-05-15
深度學習模型筆記RNN
深度學習中的Normalization模型
2018-08-29
深度學習ORM模型
Docker部署深度學習模型
2024-06-05
Docker深度學習模型
深度學習的seq2seq模型
2019-02-21
深度學習模型
【吳恩達深度學習筆記】5.3序列模型和注意力機制Sequence models&Attention mechanism
2020-12-09
吳恩達深度學習筆記模型
語言模型（五）—— Seq2Seq、Attention、Transformer學習筆記
2020-12-02
模型ORM筆記
「深度學習系列」CNN模型的視覺化
2019-08-27
深度學習CNN模型視覺化
深度學習網路模型的輕量化方法
2021-07-17
深度學習模型
NLP與深度學習（六）BERT模型的使用
2021-10-09
深度學習模型
深度學習模型壓縮方法概述
2023-03-14
深度學習模型
深度學習模型調參總結
2021-08-27
深度學習模型
4步助你找到正確的深度學習模型！
2018-11-06
深度學習模型
[譯]深度學習模型的簡單優化技巧
2019-01-29
深度學習模型優化
Deep Crossing模型——經典的深度學習架構
2020-10-31
ROS模型深度學習架構
深度學習中的Normalization模型（附例項&公式）
2019-07-09
深度學習ORM模型公式
圖學習(一)Graph Attention Networks
2020-11-29
深度學習模型調優方法（Deep Learning學習記錄）
2020-08-05
深度學習模型
深度學習模型設計經驗分享
2019-03-03
深度學習模型
深度學習模型可解釋性初探
2018-10-13
深度學習模型
深度學習（模型引數直方圖）
2024-10-03
深度學習模型直方圖
深度學習之卷積模型應用
2022-11-19
深度學習卷積模型
機器閱讀理解Attention-over-Attention模型
2021-09-09
模型
乾貨｜當深度學習遇見自動文字摘要，seq2seq+attention
2021-09-09
深度學習
基於深度學習模型Wide&Deep的推薦
2018-11-16
深度學習模型IDE
影像Resize方式對深度學習模型效果的影響
2021-04-02
深度學習模型
人工智慧-深度學習-生成模型：GAN經典模型--＞InfoGAN
2021-01-02
人工智慧深度學習模型
人工智慧-深度學習-生成模型：GAN經典模型--＞VAEGAN
2021-01-02
人工智慧深度學習模型
attention注意力機制學習
2020-11-06
52 個深度學習目標檢測模型
2020-03-27
深度學習模型
深度學習 CNN 和 RNN 等模型簡介
2019-12-17
深度學習CNNRNN模型
深度學習中的Lipschitz約束：泛化與生成模型
2018-10-16
深度學習模型
利用docker部署深度學習模型的一個最佳實踐
2018-09-06
Docker深度學習模型
Sunny.Xia的深度學習(四)MMOE多工學習模型實戰演練
2020-12-20
深度學習模型
初創公司如何訓練大型深度學習模型
2021-12-10
深度學習模型
NLP與深度學習（五）BERT預訓練模型
2021-09-30
深度學習模型
RealFormer: 殘差式 Attention 層的Transformer 模型
2022-02-08
ORM模型