普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

機器之心發表於2018-08-29

引言

深度神經網路自然語言處理技術造成了深遠的影響,尤其是機器翻譯(Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Jean et al., 2015; LeCun et al., 2015)。可以將機器翻譯視為序列到序列的預測問題,在這類問題中,源序列和目標序列的長度不同且可變。目前的最佳方法基於編碼器-解碼器架構(Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al., 2015)。編碼器「讀取」長度可變的源序列,並將其對映到向量表徵中去。解碼器以該向量為輸入,將其「寫入」目標序列,並在每一步用生成的最新的單詞更新其狀態。基本的編碼器-解碼器模型一般都配有注意力模型(Bahdanau et al., 2015),這樣就可以在解碼過程中重複訪問源序列。在給定解碼器當前狀態的情況下,可以計算出源序列中的元素的概率分佈,然後使用計算得到的概率分佈將這些元素的特徵選擇或聚合在解碼器使用的單個「上下文」向量中。與依賴源序列的全域性表徵不同,注意力機制(attention mechanism)允許解碼器「回顧」源序列,並專注於突出位置。除了歸納偏置外,注意力機制還繞過了現在大部分架構都有的梯度消失問題

但現有的注意力機制建模能力有限,一般是對源表徵的權重求和(Bahdanau et al., 2015; Luong et al., 2015),在這些模型中,這裡的權重是源元素和目標元素的簡單匹配。注意力模組將相同的源詞編碼重新組合,在解碼時就無法重新編碼或重新解釋源序列。

為了克服這些侷限,我們提出了一種基於深度 2D 卷積神經網路的可替代神經 MT 架構。源序列和目標序列中的位置的積空間定義了用於定義網路的 2D 網格。遮蔽卷積核,使其無法訪問源自目標序列未來 token 的資訊,從而獲得與影象和音訊波形中常用的生成模型(Oord et al., 2016a,b)類似的自迴歸模型(autoregressive model)。相關說明請參見圖 1。

這種方法允許我們根據一堆 2D 卷積層學到深度特徵的層次關係,並從訓練過程中的並行運算受益。我們的網路的每一層都能根據目前生成的目標序列計算出源 token 的特徵,並利用這些特徵預測出下一個輸出 token。因此,我們的模型通過構造類似注意力的能力,使這種能力適用於網路的所有層,而不是「新增」一個注意力模型。

我們在 IWSLT 2014 的德譯英 (De-En) 和英譯德 (En-De) 任務上通過實驗驗證了模型。我們改良了目前最佳的具備注意力機制的編碼器-解碼器模型,同時,從概念上講我們的模型更加簡單,引數更少。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

圖 1:我們的模型中的卷積層隱藏了 3*3 的卷積核,這樣就可以只根據之前的輸出計算特徵。在一層(深藍色)和兩層(淺藍色)之後的感受野的圖示,還有正常的 3*3 卷積核視野的隱藏部分(灰色)。

論文:Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

論文連結:https://arxiv.org/pdf/1808.03867v1.pdf

現有的當前最佳機器翻譯系統都是基於編碼器-解碼器架構的,首先要對輸入序列進行編碼,然後根據輸入的編碼生成輸出序列。這兩者都有注意力機制注意力機制可以根據解碼器的狀態重新組合源 token 的固定編碼。我們提出了一種可替代的方法,這種方法依賴於跨越兩個序列的單個 2D 卷積神經網路。我們的網路的每一層都會根據當前生成的輸出序列重新編碼源 token。因此類似注意力機制的屬性適用於整個網路。我們的模型得到了非常出色的結果,比當前最佳的編碼器-解碼器系統還要出色,而且從概念上講我們的模型也更加簡單、引數更少。

卷積網路最廣為人知的應用是在視覺識別模型中(Oord et al., 2016a; Salimans et al., 2017; Reed et al., 2017; Oord et al., 2016c)。近期也有一些將卷積網路引入自然語言處理中的研究。第一個卷積方法是編碼由堆疊的詞向量組成的長度可變的序列,運用 1D 卷積,再用最大池化操作聚合(Collobert and Weston, 2008; Kalchbrenner et al., 2014; Kim, 2014)。就序列生成而言,Ranzato 等人(2016)、Bahdanau 等人(2017)以及 Gehring 等人(2017a)的研究將卷積編碼器和 RNN 解碼器融合。Kalchbrenner 等人(2016b)首次在編碼器-解碼器模型中引入了完整卷積過程,但他們沒有對當前最佳的迴圈架構中加以改進。Gehring 等人(2017b)在編碼器和解碼器模組中用了帶有線性門控單元的 1D CNN(Meng et al., 2015; Oord et al., 2016c; Dauphin et al., 2017)進行機器翻譯,得到的結果比深度 LSTM 要好。

基於 CNN 和基於 RNN 的模型之間的區別在於,基於 CNN 的模型的時序連線被置於網路的層之間,而非層內。相關概念圖請參見圖 2。這種在連線上顯而易見的微小差異可能造成兩種重要的結果。第一,這種連線使可視域在卷積網路的層間線性增長,但在迴圈網路的層中則是無邊界的。其次,RNN 中的啟用值只能以序列方式計算,但在卷積網路中則可以在時序維度上平行計算。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

圖 2:有兩個隱藏層的解碼器網路拓撲結構圖示,底部和上部的節點分別表示輸入和輸出。RNN 用的是水平方向的連線,卷積網路用的是對角方向的連線。這兩種方法都用了垂直連線。引數可跨時間步(水平方向)共享,但不跨層(垂直方向)共享。

實驗結果

我們將在本節中探索模型中的幾個引數所造成的影響,這幾個引數有:token 嵌入維度、深度、增長率和卷積核大小。我們也在源維度中對不同的聚合機制進行了評估,這些聚合機制有:最大池化、平均池化以及注意力機制

我們在每個給定的設定下都訓練了五個初始值不同的模型,並報告 BLEU 分數的平均值和標準差。我們還用了與 Vaswani 等人(2017)類似的方式,根據訓練的系統時間和 GPU 的單精度規格估計了每個模型的引數數量以及訓練過程中的計算成本。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

表 1:通過不同池化操作以及使用門控摺積單元訓練的模型(L=24,g=32,ds=dt=128)。

從表 1 可知,與用平均池化相比,在源維度上用最大池化時 BLEU 可以提高約 2 個點。用公式(3)中的普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構縮放平均表徵有助於提高模型效能,但最大池化的效能還是要優於平均池化。在每個卷積層的上方新增線性門控單元無法改善 BLEU 分數,但由於新增了額外的引數而增加了變數。獨立的自注意力(即加權平均池化)的表現比平均池化好一點,但是還是不如最大池化的表現好。將最大池化後得到的特徵(公式(2))和通過自注意力獲得的表徵(式(9))串聯在一起,可以輕微改善模型表現,但這一改善至關重要(從 33.70 到 33.81)。在我們餘下的實驗中,除非另行說明,否則我們都會用最大池化法簡化模型。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

圖 4:token 嵌入大小、層數(L)及增長率(g)產生的影響。

圖 4 所示是 token 嵌入大小、網路增長率及網路深度所產生的影響。token 嵌入大小和增長率 g 控制的是沿著源維度通過池化操作傳遞的特徵數量,可用於 token 預測。在源序列和目標序列中用的 token 嵌入大小都相同,即 d=d_t=d_s,網路預測出的 token 的特徵的總數量是 fL=2d+gL。我們可以從圖 4 中瞭解到,token 嵌入大小在 128 到 256 之間時,BLEU 分數在 33.5 和 34 之間。嵌入較小會迅速降低模型效能,嵌入為 64 時會使模型效能降至 32.2。增長率(g)對模型表現有重要影響,將其從 8 提高到 32,BLEU 可以增長超過 2.5 個點。g=32 之後模型效能達到飽和,模型只有微乎其微的改善。在模型效能和計算損失中進行取捨,我們在剩餘的實驗中都將採用 g=32。網路的深度對其表現也有重要的影響,當網路深度從 8 增長到 24 時,BLEU 分數增長了約 2 個點。當越過這個點後,由於過擬合,模型表現下降,這意味著我們在構造更深的網路之前應該增加 dropout 值或新增另一級正則化。我們的模型的感受野是由其深度和卷積核的大小控制的。在表 2 中,我們注意到在複雜程度相同、層數較少的情況下,狹窄的感受野比大一點的感受野表現更好,例如,將(k=3,L=20)和(k=5,L=12)相比較,或將(k=5,L=16)和(k=7,L=12)相比較。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

圖 5:不同的句子長度得到的 BLEU 分數。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

圖 6:我們的普適注意力模型(Pervasive Attention model)生成的隱式 BPE 的 token 級對齊。在最大池化聚合中我們將式(7)中的 α 視覺化,而在自注意力聚合中我們視覺化的是式(8)中的權重 ρ。

普適注意力:用於機器翻譯的2D卷積神經網路,顯著優於編碼器-解碼器架構

表 3:與目前最佳的 IWSLT 德譯英的機器翻譯結果進行比較。(*):用我們的方法得到的結果。(**):用 FairSeq(Gehring et al., 2017b)得到的結果。

相關文章