NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

機器之心發表於2018-06-07

選自arXiv

機器之心編譯

參與:路、張倩

不久之前,NAACL 2018 最佳論文公佈,機器之心曾介紹了其中一篇(共四篇)。此文介紹了來自艾倫人工智慧研究所和華盛頓大學的研究者所著論文《Deep contextualized word representations》,該研究提出了一種新型深度語境化詞表徵,可對詞使用的複雜特徵(如句法和語義)和詞使用在語言語境中的變化進行建模(即對多義詞進行建模)。這些表徵可以輕鬆新增至已有模型,並在 6 個 NLP 問題中顯著提高當前最優效能。


1 引言

預訓練詞表徵(Mikolov et al., 2013; Pennington et al., 2014)是很多神經語言理解模型的關鍵部分。然而,學習高質量詞表徵非常有難度。它們應該完美建模單詞使用方面的複雜特徵(如句法和語義),以及單詞使用在不同語言環境下的變化(即建模一詞多義)。本論文介紹了一種新型深度語境化詞表徵(deep contextualized word representation),可以直接應對這些挑戰,且這種表徵能夠輕鬆整合進現有模型,極大地提升大量有難度的語言理解問題中每個用例的當前最優效能。

本論文提出的表徵與傳統的詞嵌入不同,每個 token 分配一個表徵——即整個輸入句子的函式。研究者使用從雙向 LSTM 中得到的向量,該 LSTM 是使用成對語言模型(LM)目標在大型文字語料庫上訓練得到的。因此,該表徵叫作 ELMo(Embeddings from Language Models)表徵。與之前學習語境化詞向量的方法(Peters et al., 2017; McCann et al., 2017)不同,ELMo 表徵是深層的,即它們是 biLM 所有內部層的函式。具體來說,對於每個任務,學習堆疊在每個輸入單詞上的向量線性組合,這可以顯著提升效能,效果優於僅使用 LSTM 頂層的表徵。

用這種方式組合內部狀態可以帶來豐富的詞表徵。研究者使用內在評價進行評估,結果顯示更高階別的 LSTM 狀態捕捉詞義的語境依賴方面(如它們不經修改就可以執行監督式詞義消歧任務,且表現良好),而較低階別的狀態建模句法結構(如它們可用於詞性標註任務)。同時揭示所有這些訊號是非常有益的,可以幫助學得的模型選擇對每個任務最有幫助的半監督訊號。

大量實驗證明 ELMo 表徵在實踐中效果優異。研究者首先展示可在六個不同且有難度的語言理解問題上(包括文字蘊涵、問答和情感分析等),將 ELMo 表徵輕鬆新增至現有模型。新增 ELMo 表徵可以顯著提高每個用例中的當前最優效能,包括將相對誤差降低 20%。對於允許直接對比的任務,ELMo 優於 CoVe(McCann et al., 2017),後者使用神經機器翻譯編碼器計算語境化表徵。最後,對 ELMo 和 CoVe 的分析結果顯示深層表徵優於僅從 LSTM 頂層獲取的表徵。本研究中訓練的模型和程式碼已公開,研究者期望 ELMo 為其他 NLP 問題提供類似的幫助。

3. ELMo:來自語言模型的嵌入

與廣泛使用的詞嵌入(Pennington et al., 2014)不同,ELMo 詞表徵是整個輸入句子的函式。這些表徵是在兩層 biLM 上使用字元卷積計算出來的,作為內部網路狀態的線性函式(如 3.2 所述)。這種設定允許我們進行半監督學習,在學習中,biLM 進行大規模的預訓練且能夠輕易整合進大量現有神經 NLP 架構。

3.2 ELMo

ELMo 是 biLM 中間層表徵的任務特定組合。對於每個 token t_k,L-layer biLM 計算一組表徵(包含 2L + 1 個)

NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

公式中的NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵是 token 層,對於每個 biLSTM 層,有NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵。為了包含在下游模型中,ELMo 將 R 中的所有層摺疊成單個向量,NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵。在最簡單的情況下,ELMo 只選擇頂層,NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵,如 TagLM(Peters et al., 2017)和 CoVe(McCann et al., 2017)。簡言之,研究者計算所有 biLM 層的任務特定權重:

NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

(1)中,s^task 是 softmax 歸一化權重,標量引數 γ^task 允許任務模型擴充套件至整個 ELMo 向量。在實踐中,γ 對優化過程有益(詳見補充材料)。鑑於每個 biLM 層的啟用函式都有不同的分佈,在一些情況下,γ 還有助於在加權之前對每個 biLM 層應用層歸一化(Ba et al., 2016)。

4 評估

NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

表 1:ELMo 增強神經模型和當前最優(SOTA)單個模型基線在六個 NLP 基準任務上的測試集效能對比。不同任務的效能指標不同:對於 SNLI 和 SST-5 是準確率,對於 SQuAD、SRL 和 NER 是 F1,對於 Coref 是平均 F1。由於 NER 和 SST-5 的測試集較小,研究者的報告結果是使用不同的隨機種子進行的五次執行的均值和標準差。「INCREASE」列是基線模型的絕對和相對改進。

NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

圖 1:基線和 ELMo 在 SNLI 和 SRL 上的效能對比,訓練集規模的變化幅度是 0.1% 到 100%。

論文:Deep contextualized word representations

NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵

論文連結:https://arxiv.org/pdf/1802.05365.pdf

摘要:在本論文中,我們介紹了一種新型深度語境化詞表徵,可對詞使用的複雜特徵(如句法和語義)和詞使用在語言語境中的變化進行建模(即對多義詞進行建模)。我們的詞向量是深度雙向語言模型(biLM)內部狀態的函式,在一個大型文字語料庫中預訓練而成。本研究表明,這些表徵能夠被輕易地新增到現有的模型中,並在六個頗具挑戰性的 NLP 問題(包括問答、文字蘊涵和情感分析)中顯著提高當前最優效能。此外,我們的分析還表明,揭示預訓練網路的深層內部狀態至關重要,可以允許下游模型綜合不同型別的半監督訊號。NAACL 2018 | 最佳論文:艾倫人工智慧研究所提出新型深度語境化詞表徵


相關文章