RealFormer: 殘差式 Attention 層的Transformer 模型

NLP論文解讀發表於2022-02-08

©原創作者 | 瘋狂的Max

01 背景及動機

Transformer是目前NLP預訓練模型的基礎模型框架,對Transformer模型結構的改進是當前NLP領域主流的研究方向。

Transformer模型結構中每層都包含著殘差結構,而殘差結構中最原始的結構設計是Post-LN結構,即把Layer Norm (LN) 放在每個子層處理之後,如下圖Figure 1(a)所示;而其他的一些預訓練模型如GPT-2,則將LN改到每個子層處理之前,被定義為Pre-LN,如下圖Figure 1(b),有論文[5]結果表明“Pre-LN”對梯度下降更加友好,收斂更快,更易於超參優化,但其效能總差於“Post-LN”。

為解決這個問題,本文作者提出 RealFormer 模型(Residual Attention Layer Transformer),如下圖Figure 1(c)所示,將殘差結構運用到attention層,使得模型對訓練超參更具魯棒性的同時,保證模型效能的提升。

而殘差結構來源於影像領域經典的Resnet模型[6],可以有效解決深層神經網路中的梯度彌散/擴散和網路退化的問題[7],NLP領域Transformer經典結構[2]同影像領域模型一樣,也擁有“窄而深”的模型,因此也當然可以通過殘差結構來達到優化網路的目的,這也是Transformer結構中本身就設計了殘差結構的原因。

具體來說,RealFormer相較於前面提到的兩種結構(“Pre-LN”和“Post-LN”)不同在於,模型在每層中計算所有頭的attention score時,加上了殘差結構,即本層的attention score加上之前層的attention score。

值得注意的是,直接在attention計算時增加跳連連線並不會增加指數級的運算量,因此其效率是相對可觀的。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

本文的主要貢獻在於:

1)RealFormer是一種在原始Transformer結構上的簡單改進,只需要修改幾行程式碼並且不需要過多的超參調整;

2)RealFormer的表現在不同規模的模型上都優於Post-LN和Pre-LN結構的模型;

3)RealFormer在包括GLUE在內的各種下游任務中提升了原始BERT的表現,並且當訓練輪數只有一半時也可以到達相應的最強基線模型標準;

4)作者通過量化分析的方式證明了RealFormer與基線BERT模型相比,每層的attention更為稀疏和強關聯,這樣的正則化效果也有利於模型的穩定訓練,並使得模型對超參調節更具有魯棒性。

02 模型方法

1.標準Transformer模型結構

Transformer由encoder和decoder組成,兩者的結構相似,以其encoder中一層來進行說明。Transformer層由2個子層構成,第一個子層包含多頭注意力模組和對應的殘差連線,第二個子層包含一個全連線的前向網路模組和對應的殘差連結。Post-LN和Pre-LN的區別在於,Layer Norm在殘差連線之前或之後。

2.殘差式Attention層的Transformer結構

RealFormer沿用了Post-LN的模型設計,只是在每個Transformer層計算多頭注意力事,加入前一層的Attention Scores矩陣。即計算第n層的注意力矩陣時,從公式(1)變為了公式(2)。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

RealFormer: 殘差式 Attention 層的Transformer 模型

 

實現以上計算方式的改變只需要在Transformer的模型程式碼中做很少的程式碼改動,並且網路中不止一種型別的attention模組時也適用。

比如,在機器翻譯模型中的encoder-encoder self-attention,encoder-decoder attention,decoder-decoder self-attention的模組都可以直接運用這樣的計算改進方案。

作者特別提到,之所以沿用Post-LN的結構,是因為在同等合理算力的限制下,Post-LN比Pre-LN表現更好,這也正如本文[1]Section 4部分闡述實驗結果時所論述的一樣。

03 實驗結果

作者將RealFormer模型,Post-LN結構模型、Pre-LN結構模型在預訓練任務和下游任務的表現進行了對比分析。

1.預訓練任務實驗結果

首先,從預訓練任務的表現結果來看,在不同規模的模型之下,RealFormer模型表現都優於其他兩種結構。而隨著模型規模的擴大,RealFormer結構的優勢表現的更為明顯,如下表Table 2所示。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

另外,作者推測越大的模型更難以訓練,而Post-LN的結構存在不穩定性。並且在xLarge的規模之下甚至會不收斂。RealFormer結構有助於模型的正則化和使得訓練更加穩定,如下圖Figure 2所示。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

2.下游任務實驗結果

三種模型在下游任務實驗結果如下表Table 4所示:

RealFormer: 殘差式 Attention 層的Transformer 模型

 

RealFormer: 殘差式 Attention 層的Transformer 模型

 

在GLUE的各項下游任務和SQuAD下游任務的實驗結果來看,RealFormer的表現是最佳的。

3.研究問題

1)在只有一半預訓練算力預算的基礎下,RealFormer效果如何?

在1M訓練步數的情況下,RealFormer的表現超越了Post-LN和Pre-LN。那麼在訓練算力限制更為嚴格的情況下,RealFormer表現是否也會更佳,因此作者進行了相關對比實驗,結果如下圖所示。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

結果表明,在訓練步數被限制為500K時,RealFormer在GLUE下游任務上的甚至優於訓練1M的Post-LN模型,而SQuAD下游任務上的表現也相差不多。

2)使用更大的學習率,RealFormer表現如何?

之前的一些論文表明Pre-LN相較Post-LN,更能從增加學習率中受益。受此啟發,作者沿用之前預訓練的步驟訓練BERT-Large,只是將學習率增加到2e-4,並用3種模型結構進行實驗。模型在MLM預訓練任務上的準確率如下圖所示:

RealFormer: 殘差式 Attention 層的Transformer 模型

 

可以看出:一方面,使用更大的學習率,Pre-LN和RealFormer表現都略有提升;另一方面,比起Pre-LN從73.21%提升到73.64%,RealFormer從73.94%提升到74.31%,提升獲益更為明顯。

3)如何量化RealFormer和基線Transformers的不同?

作者通過量化計算RealFormer結構中每層attention矩陣的交叉熵分佈,並與Pre-LN和Post-LN進行了對比,得出結論:1)RealFormer 在所有層中都比另外兩個模型方差更小,這就意味著其attention density更加不依賴於輸入;2)在RealFormer第9-11層的頂層中的attentions更為稀疏。作者推測正是以上兩點不同帶來了RealFormer結構的穩定性和更受益於微調訓練。

4)為正則化大模型,dropout是否會比RealFormer中的殘差式注意力更為有效?

作者實驗了在提高dropout率的情況下,三種模型的表現,其結果如下圖所示,RealFormer仍然表現優於另外兩種結構。但模型表現並不會隨著dropout的增加而提升,因此RealFormer的殘差結構的正則效果並不能被dropout所取代。

RealFormer: 殘差式 Attention 層的Transformer 模型

 

04 實驗結果

RealFormer模型在預訓練任務和GLUE和SQuAD兩個下游任務上的表現都超越了Post-LN和Pre-LN兩種模型結構。另外,在下游任務的表現上,RealFormer超越了訓練輪數2倍預訓練基線模型。通過量化分析,RealFormer無論是相比鄰的層之間的attention還是不同頭的attention,都更為稀疏。此外,RealFormer相對能從超參調整中更大程度提升模型效果。

參考文獻

[1] He R , Ravula A , Kanagal B , et al. RealFormer: Transformer Likes Residual Attention[J]. 2020.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008.

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186.

[4] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. 2019. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509.

[5] Xiong R , Yang Y , He D , et al. On Layer Normalization in the Transformer Architecture[J]. 2020.

[6] He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[7]殘差網路解決了什麼,為什麼有效?
https://zhuanlan.zhihu.com/p/80226180

 

私信我領取目標檢測與R-CNN/資料分析的應用/電商資料分析/資料分析在醫療領域的應用/NLP學員專案展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等乾貨學習資源。

相關文章