ACL 2019 | Few-shot Learning學習詞表外的詞表示

AMiner學術頭條發表於2019-07-24

論文原文:https://arxiv.org/pdf/1907.00505.pdf

論文背景 Background

現有的詞嵌入方法通常假設在語料中每個詞都出現足夠多次,這樣我們就可以透過詞的上下文獲得該詞的詞表示。但在現實世界的場景中,經常有些詞不會頻繁出現在訓練集中,這就為學習他們的詞表示帶來了挑戰。

為此,今天我們要介紹的這篇論文將學習詞表外詞表示看做few-shot迴歸問題,提出了一種新的基於層次關注的架構作為神經迴歸函式,利用該神經迴歸函式,從K個觀察值對單詞的上下文資訊進行編碼和聚合。此外,還可以利用模型不可知元學習(MAML)來快速有效地使學習模型適應新的語料庫

論文模型 Model

最近關於上下文詞表示的工作[1]表明,使用深度模型以自監督的方式捕捉語言特定的語義語法知識是可行的。在這些工作的啟發下,本文提出了一種分層上下文編碼(HiCE)架構,用於從上下文中提取和聚合資訊,並且可以輕鬆地合併上下文的形態特徵。

ACL 2019 | Few-shot Learning學習詞表外的詞表示

文中HiCE主要基於[2]提出的自注意編碼塊,每個編碼塊包含一個自注意層和一個逐點全連線層。這樣的編碼塊可以豐富序列輸入的互動並有效地提取本地和全域性資訊。

自關注(SA)是注意機制的變體,可以單獨參與序列,其表示式如下

ACL 2019 | Few-shot Learning學習詞表外的詞表示

在上式中,對於每一個head,首先透過三個不同的線性投影W將序列輸入矩陣x轉換為查詢-鍵-值矩陣,然後計算矩陣內積

ACL 2019 | Few-shot Learning學習詞表外的詞表示,再按序列輸入的維數的平方根進行縮放獲得序列的相互關注矩陣,最後使用計算的關注矩陣聚合值矩陣,得到aself,i作為第i個自注意向量。

將這些自注意向量結合起來與線性投影WO相乘,得到可以表示序列x相互關係的不同方面的SA(x):

ACL 2019 | Few-shot Learning學習詞表外的詞表示

自關注層之後是完全連線的前饋網路(FFN),其對序列輸入x的每個位置應用非線性變換。

如圖1所示,HiCE主要包括上下文編碼器和多上下文聚合器兩層。對於每個給定單詞wt及其K掩碼的支援上下文集合

ACL 2019 | Few-shot Learning學習詞表外的詞表示,較低階別的上下文編碼器(E)將每個句子st,k作為輸入,經過位置關注和自注意編碼塊,輸出編碼的上下文嵌入ACL 2019 | Few-shot Learning學習詞表外的詞表示。之後,多上下文聚合器透過另一個自關注編碼塊組合了多個編碼的上下文。由於上下文的順序可以是任意的,不應影響聚合,因此不需要在多上下文聚合器中應用位置注意。

為了解決訓練語料與實際使用的語言語義差異,本文采用模型不可知元學習(MAML)[3]來實現快速和穩健的適應。MAML不是簡單地微調DN上的神經迴歸函式Fθ,而是提供了一種學習微調的方法。也就是說,首先在DT上訓練模型以獲得更有希望的初始化,基於此,僅透過幾個示例對DN上的模型進行微調就可以很好地概括。

對於訓練時的每一次迭代,首先使用DT中的足夠資料進行梯度下降以學習更新的權重θ*

ACL 2019 | Few-shot Learning學習詞表外的詞表示

然後將θ*視為初始化權重,以最佳化DN中有限資料的θ。每個訓練集的最終更新可以表示為:(其中α和β都是兩個學習率超引數

ACL 2019 | Few-shot Learning學習詞表外的詞表示

上述最佳化可以用隨機梯度下降(SGD)進行。透過這種方式,從DT學到的知識可以提供良好的初始表示,可以透過DN中的一些示例進行有效微調,從而實現快速和穩健的自適應。

論文實驗 Test

本文在Chimera Benchmark上對詞嵌入以及一些下游任務(NER、POS tagging)進行了評估,實驗效果如下表所示,實驗表明,在DT上訓練的HiCE已經能夠利用可以透過不同域傳遞的一般語言知識,並且透過MAML的適應可以進一步縮小域差距並提高效能。

ACL 2019 | Few-shot Learning學習詞表外的詞表示

ACL 2019 | Few-shot Learning學習詞表外的詞表示

參考文獻

[1] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In NAACL-HLT, pages 2227–2237. Association for Computational Linguistics.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 6000–6010.

[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 1126–1135.

相關文章