為什麼使用自注意力機制？

路雪發表於2018-09-17

原文網址 : https://www.jiqizhixin.com/articles/2018-09-17-5

多種不同架構對神經機器翻譯（NMT）都很有效，從迴圈架構 (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構 (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017)，以及最近提出的完全自注意力（Transformer）模型 (Vaswani et al., 2017)。由於框架之間的對比主要依據 BLEU 值展開，因此弄清楚哪些架構特性對 BLEU 值有貢獻從本質上講是比較困難的。

迴圈神經網路（RNN）(Elman, 1990) 可以輕鬆處理可變長度的輸入句子，因此是 NMT 系統的編碼器和解碼器的自然選擇。RNN 的大部分變體（如 GRU 和 LSTM）解決了訓練迴圈神經網路的長距離依賴難題。Gehring 等人（2017）介紹了一種編碼器和解碼器都基於 CNN 的神經架構，並報告其 BLEU 值高於基於 RNN 的 NMT 模型。此外，該模型訓練期間對所有分詞的計算可以完全並行執行，提高了計算效率。Vaswani 等人（2017）提出 Transformer 模型，該模型完全基於注意力層，沒有卷積或迴圈結構。他們報告該模型在英語-德語和英語-法語翻譯取得了當前最優的 BLEU 值。但 BLEU 值指標比較粗糙，無法幫助觀察不同架構如何改善機器翻譯質量。

為了解釋 BLEU 值的提高，之前的研究進行了理論論證。Gehring 等人（2017）和 Vaswani 等人（2017）都認為神經網路中共依賴因素（co-dependent element）之間的路徑長度會影響模型學習這些依賴關係的能力：路徑越短，模型學習此類依賴關係就越容易。這兩篇論文認為 Transformer 和 CNN 比 RNN 更擅長捕捉長距離依賴。

但是，這一斷言僅基於理論論證，並未經過實驗驗證。本文作者認為非迴圈網路的其它能力可能對其強大效能貢獻巨大。具體來說，本文作者假設 BLEU 值的提高取決於具備強大語義特徵提取能力的 CNN 和 Transformer。

該論文評估了三種流行的 NMT 架構：基於 RNN 的模型（下文用 RNNS2S 表示）、基於 CNN 的模型（下文用 ConvS2S 表示）和基於自注意力的模型（下文用 Transformer 表示）。受到上述關於路徑長度和語義特徵提取關係的理論陳述的啟發，研究者在主謂一致任務（需要建模長距離依賴）和詞義消歧（WSD）任務（需要提取語義特徵）上對三種模型的效能進行了評估。這兩項任務分別基於對照翻譯對（contrastive translation pair）測試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。

本論文的主要貢獻如下：

檢驗了這一理論斷言：具備更短路徑的架構更擅長捕捉長距離依賴。研究者在建模長距離主謂一致任務上的實驗結果並沒有表明，Transformer 或 CNN 在這方面優於 RNN。
通過實驗證明 Transformer 中注意力頭的數量對其捕捉長距離依賴的能力有所影響。具體來說，多頭注意力對使用自注意力機制建模長距離依賴是必要的。
通過實驗證明 Transformer 擅長 WSD，這表明 Transformer 是強大的語義特徵提取器。

論文：Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

為什麼使用自注意力機制？

論文連結：https://arxiv.org/pdf/1808.08946.pdf

摘要：近期，非迴圈架構（卷積、自注意力）在神經機器翻譯任務中的表現優於 RNN。CNN 和自注意力網路連線遠距離單詞的路徑比 RNN 短，有研究人員推測這正是其建模長距離依賴能力得到提高的原因。但是，這一理論論斷並未得到實驗驗證，對這兩種網路的強大效能也沒有其他深入的解釋。我們假設 CNN 和自注意力網路的強大效能也可能來自於其從源文字提取語義特徵的能力。我們在兩個任務（主謂一致任務和詞義消歧任務）上評估了 RNN、CNN 和自注意力網路的效能。實驗結果證明：1）自注意力網路和 CNN 在建模長距離主謂一致時效能並不優於 RNN；2）自注意力網路在詞義消歧方面顯著優於 RNN 和 CNN。

為什麼使用自注意力機制？

圖 1：NMT 中不同神經網路的架構。

主謂一致

主謂一致任務是評估模型捕捉長距離依賴能力的最流行選擇，曾在多項研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此，我們也使用該任務評估不同 NMT 架構的捕捉長距離依賴能力。

為什麼使用自注意力機制？

表 2：不同 NMT 模型的結果，包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗證集上的困惑度，以及長距離依賴的準確率。

為什麼使用自注意力機制？

圖 2：不同的 NMT 模型在主謂一致任務上的準確率。

為什麼使用自注意力機制？

圖 3：ConvS2S 模型和 RNNS2S 模型在不同距離處的結果。

為什麼使用自注意力機制？

圖 4：在小型資料集上訓練的 Transformer 和 RNNS2S 模型的結果。

WSD

主謂一致任務上的實驗結果展示了 CNN 和 Transformer 在捕捉長距離依賴方面並沒有優於 RNN，即使 CNN 和 Transformer 中的路徑更短。這一發現與上文提到的理論斷言相悖。但是，從 BLEU 值來看，這些架構在實驗中的表現都很不錯。因此，我們進一步在 WSD 任務上評估這些架構來驗證我們的假設：非迴圈架構更擅長提取語義特徵。

為什麼使用自注意力機制？

表 5：不同架構在 newstest 資料集和 ContraWSD 上的結果。PPL 指在驗證集上的困惑度。Acc 表示在測試集上的準確率。

什麼是注意力機制？
2024-04-07
通俗理解自注意力機制和多頭注意力機制
2024-12-09
自注意力機制(2)-多頭自注意層
2024-09-23
注意力機制
2024-04-07
為什麼 Redis 要有哨兵機制？
2022-05-19
Redis
注意力機制目前有什麼缺點和改進空間？
2020-08-04
三種Transformer模型中的注意力機制介紹及Pytorch實現：從自注意力到因果自注意力
2024-10-13
ORM模型PyTorch
【機器學習】李宏毅——自注意力機制(Self-attention)
2022-12-16
機器學習
attention注意力機制學習
2020-11-06
淺析注意力(Attention)機制
2024-11-17
自適應注意力機制在Image Caption中的應用
2018-05-10
APT
8.1 Attention（注意力機制）和Transformer
2020-01-08
ORM
深入理解圖注意力機制
2019-02-19
為什麼要有事件迴圈機制（Event Loop）
2018-06-23
事件OOP
計算機中為什麼要用二進位制
2022-12-07
計算機
umich cv-6-2 注意力機制
2023-10-31
計算機視覺中的注意力機制
2019-02-15
計算機視覺
哈佛大學提出變分注意力：用VAE重建注意力機制
2018-07-26
帶自注意力機制的生成對抗網路，實現效果怎樣？
2018-06-06
注意力機制下的啟用函式：自適應引數化ReLU
2020-02-29
函式
Linux Watchdog 機制是什麼
2024-03-05
Linux
目標檢測中的注意力機制
2018-12-03
注意力機制----RNN中的self-attention
2020-11-08
RNN
多頭注意力機制的python實現
2024-07-09
Python
解讀注意力機制原理，教你使用Python實現深度學習模型
2024-05-27
Python深度學習模型
Sigmoid注意力一樣強，蘋果開始重新審視注意力機制
2024-09-18
Sigmoid蘋果
深度學習中的注意力機制(Attention Model)
2018-11-05
深度學習
什麼是HTTP快取機制？
2022-06-13
HTTP快取
兜底機制——leader到底做了什麼？
2021-10-22
為什麼要做自動化？
2020-10-12
為什麼Proxy可以優化vue的資料監聽機制
2018-11-28
優化Vue
為什麼使用Python
2018-12-16
Python
什麼是Docker？為什麼使用docker？
2022-12-28
Docker
注意力機制在圖卷積中的應用
2019-04-15
卷積
鷹角單機買斷制RPG新作《來自星塵》長什麼樣？
2021-09-15
什麼是LRU快取淘汰機制
2020-11-13
快取
javascript的垃圾回收機制指的是什麼？
2021-08-02
JavaScript
javascript的垃圾回收機制指的是什麼
2021-07-22
JavaScript

為什麼使用自注意力機制？

相關文章