X-former:不止一面,你想要的Transformer這裡都有

NLP論文解讀發表於2022-02-06

©原創作者 | FLPPED

參考論文:

A Survey of Transformers

論文地址:

https://arxiv.org/abs/2106.04554

研究背景:

Transformer在人工智慧的許多領域取得了巨大的成功,例如自然語言處理,計算機視覺和音訊處理,也自然吸引了大量的學術和行業研究人員的興趣。

其最初是針對seq2seq的機器翻譯模型而設計的,在後續的其他工作中,以Transformer為基礎的預訓練模型,在不同的任務中取得了state-of-the-art 的表現,有關Transformer的變種也是層出不窮(“x-former”)。

本文將從傳統的vanilla Transformer入手,從模型結構改進、預訓練等兩個角度全面的介紹各種不同形式的x-former,並對其未來的可能發展方向提出可行的建議。

01 Vanilla Transformer

Vanilla Transformer[1]是一個seq2seq的模型結構,包含encoder和decoder兩個部分,每個部分由L個相同的block組成。其中每個encoder包含多頭注意力機制和piece-wise的前饋神經網路。

Decoder相比於encoder額外增加了cross-attention的模組,並且在自注意力機制中加入了mask,防止當前位置看到未來的資訊。

模型的具體組成如圖1所示。下面具體介紹幾個重要的模組:

Ø Attention 模組:

Transformer採用了Query-Key-Value(QKV) 組成的注意力機制,其計算公式如下所示。為了緩解softmax 在計算時產生的梯度消失問題,

query和key在做點乘時需要除以

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

圖1. Vanilla Transformer的模型示意圖

在Transformer內部中,共有三種不同形式的attention:

● Self-attention:encoder中,Q=K=V。

● Masked Self-attention: Decoder中,當前位置只能注意到其位置之前的資訊,通過將注意力矩陣做mask實現,如圖1所示。

● Cross-attention: query 來自於decoder中上一層的輸出,而K 和V使用的是encoder中的輸出。

Ø Position-wise FFN、Residual connection and Normalization

全連線:

X-former:不止一面,你想要的Transformer這裡都有

 

殘差連線:在每個模組之間,transformer採用了殘差連線的方法,並且都會經過layer normalization 層。

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

自注意力機制在Transformer中發揮著重要的作用,但在實際應用中也面臨著兩個挑戰:

(1) complexity:self-attention的時間複雜度是O(T2·D),在處理長序列問題上存在較大瓶頸。

(2) structural prior:self-attention沒有對輸入做輸入做任何結構偏差的假設,因此對於小資料集可能存在過擬合現象。

下面從這兩個方面的改進,進一步介紹Transformer的各種變體。

02 模型結構: Attention

2.1 Sparse Attention

Sparse attention 在計算attention matrix時不會attend 每個token,而是遵循下面的公式(6).根據確定sparse connection的方法又可以細分為 position-based 和 content-based 兩種。

X-former:不止一面,你想要的Transformer這裡都有

 

2.1.1 Position-based Sparse Attention

對於position-based sparse attention來說,其主要的特點在於attention matrix模式的設計,這裡首先介紹一下幾種具有代表性的模式:

Ø Global Attention

為了緩解稀疏注意力在中長距離依賴關係上模型能力的退化,這一類模式增加了一些全域性節點作為節點間資訊傳播的樞紐。這些全域性節點可以關注序列中的所有節點,並且整個序列也都會關注這些全域性節點。

Ø Band Attention

這一類attention 也可以成為區域性attention或者滑動視窗attention,設計的主要思路在於,由於大部分的資料都有很強的區域性關係特性,因此可以限制query只關注附近的一些節點從而做到稀疏化的效果。

Ø Dilated Attention

這種attention的方法與dilated CNN的方法十分相似,可以在不增加計算複雜度的情況下擴大感受野的大小,並且通過調整dilation 的間距可以擴充套件至strided attention.

Ø Random Attention

為了提高非區域性位置之間的聯絡,每個query隨機的選擇一些位置去attend.

Ø Block Local Attention

將整個序列劃分為幾個沒有重疊部分的block,每個block內部之間做attention.

提到的幾種attention matrix如下圖2所示。

X-former:不止一面,你想要的Transformer這裡都有

圖2 具有代表性的幾種sparse attention 模式

在實際提出的幾種變體中,其實往往是上面幾種模式的組合。

下面具體介紹幾個compound sparse attention的方法。

(1) Star Transformer[2]

Star Transformer使用了band attention 和global attention的組合方法,具體來說,文章中定義了一個global node 和頻寬為三的band attention, 因此任意一對不相連的節點之間通過一個共享的global node 相連線,位置相鄰的節點之間可以直接相連,如圖3(a)所示。

(2) Longformer[3]

Longformer 使用的是band attention 和內部global node attention的組合。在分類任務中,global node被選作[CLS]token;在問答任務中,所有question中的token被當作global nodes. 此外,在band attention之前的幾層block中,文章還使用了dilated attention以此來加大感受野,如圖3(b)所示。

(3) Extended Transformer Consturction(ETC)[4]

ETC使用了band attention和external global-node attention的組合,並且使用mask方法來處理結構化的輸入,如圖3(c)所示。

(4) BigBird[5]

BigBird中相比於上面提到的幾種模型,還使用了額外的random attention 來近似full attention, 如圖3(d)所示。並且通過理論分析,文章證明了使用sparse encoder 和decoder可以模擬任何圖靈機。

X-former:不止一面,你想要的Transformer這裡都有

圖3 幾種compound sparse attention 模式

(5)Extended Sparse Attention

除了上述幾種模式,還有一些針對特殊資料的擴充套件稀疏模式。對於文字資料,BP-Transformer[6] 構建了一個二叉樹,所有token都是葉子節點,其內部的節點為包含多個節點的span nodes. 其中二叉樹邊的構建是來自每個葉子節點和它相連的鄰居葉子節點和更高層的 span nodes, 與span nodes之間邊的連線可以獲取更長時間依賴的資訊。

下圖(a)展示了BP-Transformer的模式圖,其中全域性節點是分層組織的,任何一對 token 都與二叉樹中的路徑相連。

X-former:不止一面,你想要的Transformer這裡都有

圖4 Sparse attentions of BP-Transformer

2.1.2 Content-based Sparse Attention

(1) Reformer[7]

Reformer使用了Locality-sensitive hashing(LSH) 對每個query選擇對應的key-value對。

基本思想是,首先利用LSH方程去對query和key做hash,相似的有更高的概率放到相同的buckets中,只對相同hashing bucket裡的token做attention的計算。具體來說,LSH方程採用了random matrix方法,假設b為buckets的數量,對於一個random matrix R, 其size 為[Dk, b/2], 那麼LSH的計算方法為:

X-former:不止一面,你想要的Transformer這裡都有

 

LSH方法只允許第i個query attend 具有相同h值得key-value對。

X-former:不止一面,你想要的Transformer這裡都有

 

(2) Route Transformer[8]

相比於reformer,該方法採用了k-means聚類的方法對query和key進行聚類,每個query 只attend 屬於同一類cluster的keys. 聚類中心的向量根據被賦予向量的指數移動平均值來計算,同時除以cluster中數目的移動平均值,具體計算如下式所示。

X-former:不止一面,你想要的Transformer這裡都有

 

2.2 Linearized attention[9]

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

圖5 標準self-attention和linearized self-attention的計算複雜度

Attention 計算的一般形式為,

X-former:不止一面,你想要的Transformer這裡都有

 

這裡可將原始的指數內積的計算形式替換為核函式,從而提出新的計算方式,

X-former:不止一面,你想要的Transformer這裡都有

 

對於自迴歸的attention而言,上式中的累積和項可以通過上一個時間步的結果計算疊加而來,因此對於transformer的decoder來說,整個計算過程類似於RNN的計算過程。

在Linear Transformer中,linear map採用了一種簡單的計算方法,

X-former:不止一面,你想要的Transformer這裡都有

 

這種feature map的目的不是為了近似內積attention,但是通過實驗證明它和標準的Transformer的結果表象相當。

2.3 Query Prototyping和memory Compression

除了使用sparse attention或者核函式的linearized attention外,另一個改進的思路就是減少query和key-value對的數量。

2.3.1 Query Prototyping

Query Prototyping方法這裡主要以informer為例進行介紹。

Informer[10]的主要目標是通過改善自注意力機制的計算和記憶體開銷,從而使得Transformer能夠更有效的處理長序列資料。

主要創新點為:

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

圖6 informer的模型示意圖

Informer的模型框架圖如上圖所示。

左:編碼器接收大量的長序列輸入(綠色序列)。採用ProbSparse attention 來代替常規的self-attention。藍色梯形是自注意力的蒸餾操作來提取主要的attention,大大減小了網路規模。層疊加複製副本的操作增加了魯棒性。

右:解碼器接收長序列輸入,將target中元素填充為零,根據特徵圖的加權注意力組成,立即以生成方式預測輸出元素(橙色系列)

2.3.2 Attention with Compressed Key-Value Memory

相比於減少query數量的方法,這一類方法的主要特點在於通過減少key-value對的數量來減少複雜度。

這一領域較早的嘗試來自於Memory Compressed Attention(MCA),它是通過跨步卷積的方法來減少key和value的數量,減少的大小和kernel size k的數值有關,這種方法相比於之前提到區域性注意力而言,增加了對全域性上下文的捕捉。

Linformer[11] 利用線性投影將鍵和值從長度n投射到一個更小的長度的nk。這也將self attention的複雜性降低到線性。這種方法的缺點是必須假定輸入序列的長度,因此不能用於自迴歸的問題上。

在最新的研究工作中,由微軟提出的PoolingFormer[12] 將原始的全注意力機制修改為一個兩級注意力機制:第一級採用滑動視窗注意力機制,限制每個詞只關注近距離的鄰居;第二級採用池化注意力機制,採用更大的視窗來增加每個token 的感受野,同時利用池化操作來壓縮鍵和值向量,以減少要參加注意力運算的token數量。

這種結合滑動注意力機制和池化注意力機制的多級設計可以顯著降低計算成本和記憶體消耗,同時還能獲得優異的模型效能,模型的具體設計如下圖所示。

與原始的注意力機制相比,PoolingFormer 的計算和記憶體複雜度僅隨序列長度線性增加。

X-former:不止一面,你想要的Transformer這裡都有

圖7 PoolingFormer中兩階段self attention示意圖

左邊的block是第一級滑動視窗attention,右邊的block是第二級的池化attention

實驗結果方面,在長文件QA任務上,Poolingformer實現了新的state of art 表現,並且展現出了較強的模型優越性。

2.4 多頭機制的改進

多頭注意力的一大優勢在於它能夠共同關注來自不同子空間的不同位置的資訊。然而,目前還沒有一種機制可以保證不同的注意頭確實捕捉了不同的特徵。

為此,不同學者在這個問題上提供了兩大類改進的思路:

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

圖8 三種span masking 方法

2.5 其他模組級別的改進

2.5.1 Layer Normalization

層歸一化(LN)與殘差連線被認為是穩定深度網路訓練的一種機制(例如,緩解不理想的梯度和模型退化)。因此很多研究將注意力放在分析和改進LN模組,尤其是Layer normalization 放置的位置。

在vanilla Transformer中,LN層位於residual block之間,稱為post-LN。後來的Transformer實現將LN層放在注意力或FFN之前的殘差連線內,在最後一層之後設定一個額外的LN來控制最終輸出的大小,這被稱為pre-LN。Pre-LN[15]

已被許多後續的研究和實現所採用,pre-LN和post-LN的區別如圖所示

X-former:不止一面,你想要的Transformer這裡都有

圖9 Transformer encoder中 Pre-LN 和post-LN的對比

Xiong等人[16]從理論上研究了tranformer的梯度,並發現在post-LN transformer中,輸出層附近的梯度在初始化時很大,這可能是是沒有學習率warm-up的post-LN Transformer 訓練不穩定的原因。而Pre-LN Transformer則不存在同樣的問題。

因此,他們推斷並從經驗上驗證了warm-up階段在Pre-LN中被去掉。儘管Post-LN經常導致不穩定的訓練和發散,但它在收斂後通常優於pre-LN變體。通過理論和實證分析,Post-LN在訓練和發散方面的效果要好於pre-LN。

此外,還有學者認為梯度問題不是導致Post-Transformer訓練不穩定的直接原因,並且證實了post-LN中存在amplification 效應:在初始化時,對residual分支的依賴性較強,導致post-LN transformer的輸出偏移較大,從而導致不穩定的訓練。鑑於這一發現,他們引入了額外的引數以控制post-LN對residual的依賴性。

2.5.2 postion-wise的前饋神經網路的改進

儘管FFN的網路形式十分簡單,但是卻對Transformer的最終結果有重要影響。這裡簡單總結一下再這模組的改進。

Ø 通過將Transformer中的ReLU啟用函式換成Swish 函式,取得了在WMT2014英德資料集上的一致性提升。

Ø GPT在語言的預訓練模型中將ReLU替換為Gaussian Error Linear Unit(GELU)。

Ø 使用Gated Linear Units (GLU)替換ReLU,在預訓練實驗中也取得了更好的效果。

03 框架級別的變體

除了在模組層面為減輕計算開銷所做的努力外,還有部分研究試圖通過在更高層次上修改即框架上使Transformer成為輕量級的模型。

3.1 輕量化的改進Transformer

Lite Transformer[17]提出用雙分支結構替換Transformer中的每個注意力模組,其中一個分支使用attention捕獲長距離上下文,而另一個分支使用深度卷積和線性層捕獲區域性依賴。

該體系結構在模型大小和計算方面都是輕量級的,因此更適合於移動裝置。

作為最近的研究成果,更深更輕量的Transformer DeLighT[18]被提出,它能夠更有效地在每個Transformer Block中分配引數,這主要體現在:

(1) 在每個blcok中採用深度和輕量的DeLighT 變換。

(2)在block之間使用Block-wise Scaling, 允許在輸入附近有較淺和較窄的DeLighT Block,以及在輸出附近有較寬和較深的DeLighT Block。

X-former:不止一面,你想要的Transformer這裡都有

圖10 Transformer block 和DeLighT block以及DeFINE 和 DeLighT 變換示意圖

如上圖所示,DeFINE轉換(圖10c)和DeLighT轉換(圖10d)之間的關鍵區別是,DeLighT轉換更有效地在擴充套件層和簡化層中分配引數。

DeFINE在組線性變換中使用更少的組來學習更魯棒的表徵,與之不同的是,DeLighT transformation使用更多的組來學習更廣泛的表示,且引數更少。

DeLighT轉換獲得了與DeFINE轉換相當的效能,但引數卻少得多。標準的Transformer塊如圖10(a)所示。DeLighT變換先將維度輸入向量對映到高維空間(展開),然後利用N層群變換將其降為維度的輸出向量(降階)。

在expansion-reduction階段,DeLighT變換使用組線性變換(GLTs),因為它們通過從輸入的特定部分匯出輸出來學習區域性表示,比線性變換更有效。

為了學習全域性表徵,DeLighT變換使用特徵變換在組線性變換的不同組之間共享資訊,類似於卷積網路中的通道變換。

增加Transformer的表達能力和容量的一種標準方法是增加輸入維數。然而,線性增加也會增加標準Transformer塊中多執行緒注意力的複雜度。

與此相反,為了增加DeLighT塊的表現力和容量,本文使用expand和reduction階段來增加中間DeLighT轉換的深度和寬度。這使DeLighT能夠使用更小的維度和更少的操作來計算注意力。

在expansion階段,DeLighT transformation將輸入投影到高維空間,線性層為N/2層;在reduction階段,DeLighT變換使用剩餘的N−N/2 GLT層將維向量投影到維空間。

總的來說,DeLighT網路的深度是標準Transformer的2.5到4倍,但引數和操作更少。在機器翻譯和語言建模任務上的實驗表明,DeLighT在提高了基準Transformer效能的基礎上,平均減少了2到3倍的引數量。

3.2 自適應計算時間

Vanilla Transformer像大多數模型一樣,利用一個固定的或者可學習的計算步驟來處理每個輸入。

一種有趣且由前景的改進是在Transformer模型中引入自適應計算時間(Adaptive Computation Time,ACT)使計算時間以輸入為條件。

這種修改可能會產生以下優勢。

(1)對困難的例子進行特徵細化。對於難以處理的資料,淺表徵可能不足以完成當前的任務。更理想的做法是應用更多的計算來獲得一個更深更精的表徵。

(2)簡單例子的效率。當處理簡單的例子時,一個淺層的表示可能就足以完成任務了。在這種情況下,如果網路能夠學會用減少的計算時間來提取特徵,並減少計算時間顯然更有優勢。

Universal Transformer(UT)[19]包含了一個遞迴-深度機制,它可以反覆地迭代地完善所有符號的表示,使用一個深度共享的模組,如圖所示(a). 它還增加了一個每個位置的動態停止機制,在每個時間步驟中為每個符號計算一個停止概率。

如果一個符號的停止概率大於一個預定的閾值,那麼該符號的表示將在隨後的時間步中保持不變。當所有符號都停止時,遞迴就會停止。遞迴在所有符號停止或達到預定的最大步長時停止。

條件計算變換器(CCT)[20]在每個自我注意和前饋層增加了一個門控模組。

和前饋層增加一個門控模組,以決定是否跳過當前層,如圖(b)所示。作者還引入了一個輔助損失,鼓勵模型調整門控模組,使實際計算成本與可用計算預算相匹配.

X-former:不止一面,你想要的Transformer這裡都有

圖11 三種典型的ACT 模式

與UT中使用的動態停止機制類似,有一類工作致力於將層數適應於每個輸入,以實現良好的速度-精度權衡,這一類方法被稱為早退機制,如圖11(c)所示。

一個常用的技術是在每層增加一個內部分類器,並聯合訓練所有的分類器。這些方法的核心是用來決定是否在每一層退出的標準。例如,DeeBERT使用了當前層的輸出概率分佈的熵來決定是否退出該層。

3.3 使用分治策略的Transformer

處理長序列問題的另一類有效方法是使用分而治之的策略,即把一個輸入序列分解成更細的segments,這些segments可以被Transformer或Transformer模組有效處理。

在這裡介紹兩種有代表性的方法,即遞迴和分層Transformer,如圖12所示。

這類技術可以被理解為Transformer模型的包裝,其中Transformer作為一個基本的元件,被重複使用來處理不同的輸入segments.

X-former:不止一面,你想要的Transformer這裡都有

圖12 遞迴和分層 Transformer示意圖

Ø 遞迴Transformer

在遞迴Transformer中,保留了一個快取以納入歷史資訊。在處理一段文字時,網路從快取中讀取資訊作為額外的輸入。

在處理完成後,網路通過簡單地複製隱藏狀態或使用更復雜的機制將資訊寫入儲存器中。

這一過程如圖12(a)所示。

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

X-former:不止一面,你想要的Transformer這裡都有

 

Ø 層級Transformers

分層Transformer將輸入分層分解為更細粒度的元素。

低階別的特徵首先被送入Transformer encoder,產生輸出表示,然後彙總(使用池化或其他操作),形成高階別的特徵。

高階別的特徵然後進一步由高層的transformer處理。這類方法可以理解為一個層次化的抽象過程。

這種方法的概述如上圖12(b)。這種方法的優點是雙重的。

(1) 分層建模允許模型以有限的資源處理長的輸入;

(2) 它有可能產生更豐富的表徵,這對任務是有益的。

04 預訓練的Transformer

卷積網路和遞迴網路與Transformer的一個關鍵區別在於,Transformer不對資料的結構做任何假設,而是將區域性的歸納偏差納入其中。

一方面,這使得Transformer成為了一個非常通用的架構,有可能捕捉到不同範圍的依賴關係。

另一方面,這使得當資料有限時,Transformer容易出現過度擬合。緩解這個問題的一個方法是在模型中引入inductive bias。

最近的研究表明,在大型語料庫中預先訓練的Transformer模型可以學習到通用的語言表徵,有利於下游任務的完成。

這些模型使用各種自監督的目標進行預訓練,例如,根據其上下文預測一個被mask的單詞。在預訓練一個模型後,人們可以簡單地在下游資料集上對其進行微調,而不是從頭開始訓練一個模型。

為了說明在預訓練中使用transformer的典型方法,本文將其歸類如下:

Ø Encoder only。 BERT[22]是一個代表性的PTM,通常用於自然語言理解任務。它利用mask語言建模(MLM)和下句預測(NSP)作為自監督的訓練目標。RoBERTa[23]進一步調整了BERT的訓練,並刪除了NSP目標。因為它被發現會損害下游任務的效能。

Ø Decoder only。專注於對語言建模的Transformer解碼器進行預訓練。例如,生成性預訓練Transformer(GPT)[24]系列。GPT-2[25]和GPT-3[26]致力於擴充套件預訓練的Transformer解碼器,並且最近表明,大尺度的PTM可以對few-shot的問題也能有較好的表現。

Ø Encoder-Decoder。BART[27] 將 BERT 的denoising objective擴充套件到編碼器-解碼器架構。使用編碼器-解碼器結構的好處是,使得模型具有同時進行自然語言理解和生成的能力。

在這篇文章中,我們對X-former進行了全面的概述,並提出了一個新的分類方法。

大多數現有的工作從不同的角度改進了Transformer,如效率、泛化和應用等方面。這些改進包括納入結構先驗、設計輕量級架構,預訓練等等。儘管X-former已經證明了其在各種任務中的能力,但仍然存在不小的挑戰。

除了目前關注的問題(如效率和泛化),Transformer的進一步改進可參考以下幾個方向:

(1)理論分析。對Transformer相對於其他模型結構具有更優表現的更深層次的理論分析。

(2)除了attention意外的其他更好的全域性互動機制。

(3)對於多模態資料的更加統一的模型架構。

參考文獻

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In Proceedings of NeurIPS. 5998–6008.

[2] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, and Zheng Zhang. 2019. Star-Transformer. InProceedings of HLT-NAACL. 1315–1325.

[3] Iz Beltagy, Matthew E. Peters, and Arman Cohan. 2020. Longformer: The Long-Document Transformer. arXiv:2004.05150.

[4] Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, and Li Yang. 2020. ETC: Encoding Long and Structured Inputs in Transformers. In Proceedings of EMNLP. Online, 268–284.

[5] Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, and Amr Ahmed. 2020. Big Bird: Transformers for Longer Sequences. arXiv:2007.14062

[6] Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, and Zheng Zhang. 2019. BP-Transformer: Modelling Long-Range Context via Binary Partitioning. arXiv:1911.04070.

[7] Nikita Kitaev, Lukasz Kaiser, and Anselm Levskaya. 2020. Reformer: The Efficient Transformer. In Proceedings of ICLR.

[8] Aurko Roy, Mohammad Saffar, Ashish Vaswani, and David Grangier. 2020. Efficient Content-Based Sparse Attention with Routing Transformers. arXiv:2003.05997

[9] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and François Fleuret. 2020. Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. In Proceedings of ICML. 5156–5165.

[10] Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. 2021. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting. In Proceedings of AAAI

[11] Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, and Hao Ma. 2020. Linformer: Self-Attention with Linear Complexity. arXiv:2006.04768

[12] Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan Duan, and Weizhu Chen. 2021. Poolingformer:Long Document Modeling with Pooling Attention. arXiv:2105.04371

[13] Noam Shazeer, Zhenzhong Lan, Youlong Cheng, Nan Ding, and Le Hou. 2020. Talking-Heads Attention. CoRRabs/2003.02436 (2020). arXiv:2003.02436

[14] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Xiangyang Xue, and Zheng Zhang. 2020. Multi-Scale Self-Attention for Text Classification. In Proceedings of AAAI. 7847–7854.

[15] Alexei Baevski and Michael Auli. 2019. Adaptive Input Representations for Neural Language Modeling. In Proceedings of ICLR

[16] Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tie-Yan Liu. 2020. On Layer Normalization in the Transformer Architecture. In Proceedings of ICML.10524–10533.

[17] Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, and Song Han. 2020. Lite Transformer with Long-Short Range Attention. In Proceedings of ICLR

[18] Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. 2020. DeLighT: Very Deep and Light-weight Transformer. arXiv:2008.00623

[19] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Lukasz Kaiser. 2019. Universal Transformers. In Proceedings of ICLR.

[20] nkur Bapna, Naveen Arivazhagan, and Orhan Firat. 2020. Controlling Computation versus Quality for Neural Sequence Models. arXiv:2002.07106

[21] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, and Ruslan Salakhutdinov. 2019. TransformerXL: Attentive Language Models beyond a Fixed-Length Context. In Proceedings of ACL. Florence, Italy, 2978–2988.

[22] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of HLT-NAACL. Minneapolis, Minnesota, 4171–4186.

[23] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692

[24] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding by generative pre-training. (2018)

[25] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language Models are Unsupervised Multitask Learners. (2019).

[26] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan,Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. In Proceedings of NeurIPS. 1877–1901.

[27] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In Proceedings of ACL. 7871–7880.

 

私信我領取目標檢測與R-CNN/資料分析的應用/電商資料分析/資料分析在醫療領域的應用/NLP學員專案展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等乾貨學習資源。

相關文章