多項NLP任務新SOTA,Facebook提出預訓練模型BART​

AIBigbull2050發表於2019-12-10
2019-11-04 13:38:14

論文選自arXiv

作者:Mike Lewis等機器之心編譯參與:魔王、一鳴

FaceBook 近日提出了一個名為BART的預訓練語言模型。該模型結合雙向和自迴歸 Transformer 進行模型預訓練,在一些自然語言處理任務上取得了SOTA效能表現。

近日,Facebook 發表論文,提出一種為預訓練序列到序列模型而設計的去噪自編碼器 BART。BART 通過以下步驟訓練得到:1)使用任意噪聲函式破壞文字;2)學習模型來重建原始文字。BART 使用基於 Transformer 的標準神經機器翻譯架構,可泛化 BERT(具備雙向編碼器)、GPT(具備從左至右的解碼器)等近期出現的預訓練模型,儘管它非常簡潔。Facebook 研究人員評估了多種噪聲方法,最終通過隨機打亂原始句子的順序,再使用新型文字填充方法(即用單個 mask token 替換文字段)找出最優效能。

BART 尤其擅長處理文字生成任務,不過它在理解任務中的效能也不錯。在提供同等的訓練資源時,BART 可在 GLUE 和 SQuAD 資料集上實現與 RoBERTa 相當的效能,並在抽象對話、問答和文字摘要等任務中獲得新的當前最優結果,在 XSum 資料集上的效能比之前研究提升了 6 ROUGE。在機器翻譯任務中,BART 在僅使用目標語言預訓練的情況下,獲得了比回譯系統高出 1.1 個 BLEU 值的結果。研究人員還使用控制變數實驗複製了 BART 框架內的其他預訓練機制,從而更好地評估影響終端任務效能的最大因素。

論文連結:https://arxiv.org/pdf/1910.13461.pdf

引言

自監督方法在大量 NLP 任務中取得了卓越的成績。近期研究通過改進 masked token 的分佈(即 masked token 被預測的順序)和替換 masked token 的可用語境,效能獲得提升。然而,這些方法通常聚焦於特定型別和任務(如 span prediction、生成等),應用較為有限。

Facebook 的這項研究提出了新架構 BART,它結合雙向和自迴歸 Transformer 對模型進行預訓練。BART 是一個適用於序列到序列模型的去噪自編碼器,可應用於大量終端任務。預訓練包括兩個階段:1)使用任意噪聲函式破壞文字;2)學得序列到序列模型來重建原始文字。BART 使用基於 Tranformer 的標準神經機器翻譯架構,可泛化 BERT、GPT 等近期提出的預訓練模型。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

圖 1a:BERT:用掩碼替換隨機 token,雙向編碼文件。由於缺失 token 被單獨預測,因此 BERT 較難用於生成任務。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

圖 1b:GPT:使用自迴歸方式預測 token,這意味著 GPT 可用於生成任務。但是,該模型僅基於左側上下文預測單詞,無法學習雙向互動。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

圖 1c:BART:編碼器輸入與解碼器輸出無需對齊,即允許任意噪聲變換。使用掩碼符號替換文字段,從而破壞文字。使用雙向模型編碼被破壞的文字(左),然後使用自迴歸解碼器計算原始文件的似然(右)。至於微調,未被破壞的文件是編碼器和解碼器的輸入,研究者使用來自解碼器最終隱藏狀態的表徵。

模型

去噪自編碼器 BART 可將被破壞文件對映至原始文件。它是一個具備雙向編碼器(對被破壞文字使用)和從左至右自迴歸解碼器的序列到序列模型。至於預訓練,研究人員優化了原始文件的負 log 似然。

架構

BART 使用 (Vaswani et al., 2017) 提出的標準序列到序列 Transformer 架構,不過做了少許改動:按照 GPT 模型,將 ReLU 啟用函式更改為 GeLU,從 N (0, 0.02) 初始化引數。BART base 模型的編碼器和解碼器各有 6 層,large 模型中層數各增加到了 12。BART 架構與 BERT 所用架構類似,區別如下:1)解碼器的每個層對編碼器最終隱藏層額外執行 cross-attention(和 Transformer 序列到序列模型一樣);2)BERT 在詞預測之前使用了額外的前饋網路,而 BART 沒有。總之,BART 相比同等規模的 BERT 模型大約多出 10% 的引數。

預訓練 BART

BART 是通過破壞文件再優化重建損失(即解碼器輸出和原始文件之間的交叉熵)訓練得到的。與目前僅適合特定噪聲機制的去噪自編碼器不同,BART 可應用於任意型別的文件破壞。極端情況下,當源文字資訊全部缺失時,BART 也等同於語言模型。

  • token 掩碼:按照 BERT 模型,BART 取樣隨機 token,並用掩碼替換它們。
  • token 刪除:從輸入中隨機刪除 token。與 token 掩碼不同,模型必須確定缺失輸入的位置。
多項NLP任務新SOTA,Facebook提出預訓練模型BART

圖 2:向輸入新增不同的噪聲變換。這些變換是可組合的。

  • 文字填充:取樣多個文字段,文字段長度取決於泊松分佈 (λ = 3)。用單個掩碼 token 替換每個文字段。長度為 0 的文字段對應掩碼 token 的插入。
  • 句子排列變換:按句號將文件分割成多個句子,然後以隨機順序打亂這些句子。
  • 文件旋轉:隨機均勻地選擇 token,旋轉文件使文件從該 token 開始。該任務的目的是訓練模型識別文件開頭。

BART 模型微調

序列分類任務

序列分類任務中,編碼器和解碼器的輸入相同,最終解碼器 token 的最終隱藏狀態被輸入到新的多類別線性分類器中。該方法與 BERT 中的 CLS token 類似,不過 BART 在解碼器最後額外新增了一個 token,這樣該 token 的表徵可以處理來自完整輸入的解碼器狀態(見圖 3a)。

token 分類任務

對於 token 分類任務,研究人員將完整文件輸入到編碼器和解碼器中,使用解碼器最上方的隱藏狀態作為每個單詞的表徵。該表徵的用途是分類 token。

序列生成任務

由於 BART 具備自迴歸解碼器,因此它可以針對序列生成任務進行直接微調,如抽象問答和摘要。在這兩項任務中,資訊複製自輸入但是經過了處理,這與去噪預訓練目標緊密相關。這裡,編碼器的輸入是輸入序列,解碼器以自迴歸的方式生成輸出。

機器翻譯

研究人員用新的隨機初始化編碼器替換 BART 的編碼器嵌入層。該模型以端到端的方式接受訓練,即訓練一個新的編碼器將外來詞對映到輸入(BART 可將其去噪為英文)。新的編碼器可以使用不同於原始 BART 模型的詞彙。

源編碼器的訓練分兩步,均需要將來自 BART 模型輸出的交叉熵損失進行反向傳播。第一步中,研究人員凍結 BART 的大部分引數,僅更新隨機初始化的源編碼器、BART 位置嵌入和 BART 編碼器第一層的自注意力輸入投影矩陣。第二步中,研究人員將所有模型引數進行少量迭代訓練。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

圖 3:a:要想使用 BART 解決分類問題,編碼器和解碼器的輸入要相同,使用最終輸出的表徵。b:對於機器翻譯任務,研究人員訓練一個額外的小型編碼器來替換 BART 中的詞嵌入。新編碼器可使用不同的詞彙。

結果

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 1:預訓練目標對比。所有模型的訓練資料都是書籍和維基百科資料。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 2:大模型在 SQuAD 和 GLUE 任務上的結果。BART 的效能堪比 RoBERTa 和 XLNet,這表明 BART 的單向解碼器層不會降低模型在判別任務上的效能。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 3:在兩個標準摘要資料集上的結果。在這兩個摘要任務上,BART 在所有度量指標上的效能均優於之前的研究,在更抽象的 XSum 資料集上的效能較之前模型提升了 6 個百分點。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 4:BART 在對話回答生成任務上的效能優於之前研究。困惑度基於 ConvAI2 官方 tokenizer 進行了重新歸一化。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 5:BART 在難度較高的 ELI5 抽象問答資料集上取得了當前最優結果。

多項NLP任務新SOTA,Facebook提出預訓練模型BART

表 6:BART 和基線模型在機器翻譯任務上(使用資料集包括 WMT‘16 RO-EN 和回譯資料)的效能對比情況。BART 使用單語英文預訓練,效能優於強大的回譯基線模型。

https://www.toutiao.com/i6755321608589541896/


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667720/,如需轉載,請註明出處,否則將追究法律責任。

相關文章