A Dataset for Low-Resource Stylized Sequence-to-Sequence Generation
論文連結:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf
風格遷移是最近自然語言生成領域一個非常火的主題,隨著各項技術的提出,當前風格遷移演算法已經可以較好地對文字序列進行“情感極性”和“文字規範性”的遷移。然而,在很多的現實應用中,我們需要同時進行 Sequence2Sequence 和風格遷移兩個任務,例如在對話機器人之中,我們要求機器不但可以對使用者所輸入的對話給出相關的回覆,還可以保證回覆的規範性。
圖1:不同風格對話樣例
如圖1所示,當使用者諮詢關於 Windows 的問題時,應該給出的回覆是正規而禮貌的,而不是隨意而不禮貌的。為了研究當前演算法對此類問題的進展,我們提出了兩個資料集—— Machine Translation Formality Corpus(MTFC) 和 Twitter Conversation Formality Corpus(TCFC),分別研究機器翻譯風格遷移和對話風格遷移。
其中,MTFC 的任務定義為,給定一句中文口語,翻譯的結果應該為正規的英文書面語。為了完成這個任務,MTFC 包含從 Opensubtitle 下載並清洗的約1400萬中英互譯口語語料,以及 GYAFC 資料集中所包含的5萬英文非正規文字到正規文字的句對。而 TCFC 的任務定義為,給定一個推特(Twitter)風格的對話上文,給出正規而禮貌的對話回覆。TCFC 提供170萬的推特對話語料作為訓練資料。
為了驗證模型在這個任務的表現,MTFC 的驗證集和測試集分別包含2865和1412箇中文口語到英文書面語的句對(每一句中文口語提供4句英文書面語作為參照)。與之類似,TCFC 的驗證集和測試集分別包含980和978個樣例(每一個對話上文對應2個風格正規的對話回覆)。該論文還驗證了 Pivot Model、Teacher Student Model、Back-translation Model 三種基線模型的效果,其中 Back-translation 模型的表現最佳。
圖2:三種基線模型的效果
通過預訓練生成跨語種自然語言
Cross-Lingual Natural Language Generation via Pre-Training
論文連結: https://arxiv.org/abs/1909.10481
自然語言生成模型的訓練需要大規模的訓練資料,然而大多數的資料集都是以英語等資源豐富的語言提供的,限制了這些模型在其它語言上的應用。本篇論文提出了一種跨語言預訓練方法,使得我們可以將文字生成任務的監督訊號在不同語言間遷移,從而實現自然語言生成模型的跨語言的零樣本或少樣本學習。
在自然語言生成模型的跨域語言遷移中, 通常模型用英語進行訓練,然後在其它語言上進行測試. 以文字摘要為例:
圖3:文字摘要示例
本篇論文針對該問題的特點提出了預訓練模型 XNLG。XNLG 是一個序列到序列的 Transformer 模型,它的預訓練包括兩個階段:編碼預訓練、解碼預訓練,以及兩個維度:單語預訓練、跨語言預訓練,共計4個預訓練任務,如圖4所示:
圖4:XNLG 的預訓練任務
我們在跨語言零樣本問題生成/文字摘要任務(用英文訓練,在其它語言上測試)上進行了實驗,如圖5所示。結果表明,XNLG 可以超越基於機器翻譯的流水線模型。
圖5:跨語言零樣本問題生成/文字摘要任務實驗結果
此外,我們還實驗了在有不同數目的目標語言訓練資料的情況下,XNLG 的跨語言遷移效果的變化情況,如圖6所示。結果表明,在各種資料量上 XNLG 都能將源語言的知識遷移到目標語言上並且提升目標語言上的效果,尤其是當目標語言訓練資料量較少時。
圖6:跨語言遷移實驗結果
基於事實感知的句子切分改寫任務與置換不變訓練
Fact-aware Sentence Split and Rephrase with Permutation Invariant Training
論文連結:https://arxiv.org/pdf/2001.11383.pdf
句子切分改寫任務是將輸入的複雜長句轉化為多個語義等價的簡單短句,通常採用 seq2seq 模型在平行語料上進行訓練,這類方法主要面臨以下兩種問題:
1. 對於複雜長句,編碼器很難準確地捕捉到其中所陳述的事實,因此解碼出的簡單句經常會丟失資訊或者生成一些錯誤的事實表述(如圖7(a)所示);
2. 由於從複雜句中派生出的多個簡單句,可以以任何一種順序方式呈現,這種排列的隨機性會困擾 seq2seq 模型應該以怎樣的順序生成多個簡單短句(如圖7(b)所示)。
圖7:seq2seq 模型在句子切分改寫任務中面臨的問題示例
為了解決上述這些問題,本篇論文引入了基於事實感知的句子編碼 FaSE 以及置換無關訓練的策略 PIT。整個模型的框架如圖8所示,FaSE 藉助多工學習的方式使得編碼器編碼的特徵不僅用於句子切分改寫任務,同時還用於判斷從當前複雜句中是否可以推斷出給定的事實。引入事實判定的輔助任務使得模型能夠從複雜長句中更好地捕獲事實資訊,從而提高句子切分的準確率;PIT 策略被廣泛用於解決多談話者場景下語音分離任務中的標籤排序問題。在句子切分改寫任務中,我們引入 PIT 策略來尋找具有最小損失的排列順序作為優化的目標,從而緩解由於排列順序隨機性給 seq2seq 模型學習帶來的影響,從而使得整個訓練過程更加穩定。
圖8:模型框架
我們提出的方法在 WebSplit-v1.0 資料集上取得了較為顯著的結果,其中 FaSE 和 PIT 都分別帶來了明顯提升;我們還將其作為 OpenIE 任務的預處理部分,也顯著地提升了 Stanford OpenIE 的結果。
通過建模隱含的實體型別資訊來改進實體連結任務
Improving Entity Linking by Modeling Latent Entity Type Information
論文連結:https://arxiv.org/abs/2001.01447
實體連結(Entity Linking)任務旨在研究如何將文字中對實體有歧義的“提及” (mention) 連結到目標知識庫所對應的實體上去,其結果可以用來幫助許多與知識相關的任務,如問答、資訊抽取等。在研究方法上,實體連結任務經歷了從傳統的基於特徵工程的方法到目前基於神經網路的端到端方法的過渡。
目前一些先進的基於神經網路的實體連結模型容易將“提及”連結到型別不一致的實體上去。如圖9所示,本篇論文的基線方法 DeepED(Ganea and Hofmann 2017)錯誤地將提及 “Milwaukee” 連結到球隊型別的實體 Milwaukee_Brewers,儘管介詞 “In” 明顯地暗示 “Milwaukee” 應該指代地點型別的實體 Milwaukee。
圖9:基線方法 DeepED(Ganea and Hofmann 2017)在標準資料集 AIDA-CoNLL 開發集上的型別錯誤示例
基於這一觀察,本篇論文分析了其主要原因有兩方面:1)提及的上下文所蘊含的實體型別資訊建模不夠充分;2)實體的向量表示對實體型別不敏感。基於此,我們提出了一種簡單有效的基於預訓練語言模型的實體表示方法和一個基於 BERT 的實體相似度特徵,以更好地捕捉實體型別資訊。
本篇論文在標準資料集上通過領域內和領域間測試證明了模型的有效性。同時通過詳細的實驗分析,展示出論文所提出的方法真正糾正了大部分基線模型所產生的型別錯誤。
最後,論文通過在訓練中得到的模型所對應的上下文表示空間中檢索最鄰近上下文,直觀地展示出基於 BERT 的上下文表示更好地捕捉了隱含的實體型別資訊。
圖10:本篇論文和基線方法在上下文表示空間中的最鄰近上下文
Table2Analysis: 多維資料普適分析模式的建模與推薦
Table2Analysis: Modeling and Recommendation of Common Analysis Patterns for Multi-Dimensional Data
論文連結:https://www.microsoft.com/en-us/research/publication/table2analysis-modeling-and-recommendation-of-common-analysis-patterns-for-multi-dimensional-data/
圖11:多維資料普適分析的一個例項
從科學研究探索到商業智慧分析,在知識發現和決策自動化的過程中,我們常面對一個關鍵問題:對多維資料集(表格)進行分析時,大家通常如何從中提取出資訊?譬如圖11中的銷售資料(有日期、區域、銷售代表、銷售額四個維度),大多數分析師會進行哪些常見的分析呢?對此,本篇論文提出了 Table2Analysis 框架,從大量 Excel 使用者建立的(表格、分析)例子中學習普適的分析模式,並基於此對新的表格推薦語義上常見的資料分析。
Table2Analysis 是一個 table-to-sequence 的框架。首先我們定義了一種分析語言,將資料分析過程編碼為一系列的操作符,每個操作符可以是預定義的分析操作(如開始分析的一個部分、選定聚合函式等),也可以是選擇資料表格中的一個維度。舉例來說,“sum of sales by region”可以被表示成 [ANA][Sales][SEP][Region][Sum]。在分析語言的基礎上,推薦常見分析則可被抽象為:給定一個表格,生成由這個表格中的維度組成的操作符序列。
圖12:模型框架
要生成分析操作符序列,在 Table2Analysis 框架中我們採取了逐步一個個生成的方式,通過從大量使用者建立的(表格、分析)對中學到的語言模型(也即圖12中的動作值函式)來作為下一步選擇的啟發函式。但這種方式存在很多挑戰:輸入的操作符可能來自任何表格,有無限種可能性;簡單 seq2seq 的訓練方法在實際推斷時的曝光偏差;因為對操作符序列的嚴格語法要求,無法直接使用傳統自然語言處理中的很多模型和訓練方法……對此,我們對神經網路的輸入層進行了設計,並採用並行搜尋取樣的方法來減少曝光偏差。
在我們收集的一個大型表格資料集上,Table2Analysis 對資料透視表(PivotTable)推薦的召回率在 top-5 達到了0.78,top-1 也有0.65。這驗證了 Table2Analysis 框架的有效性。
用於神經機器翻譯的轉導整合學習
Transductive Ensemble Learning for Neural Machine Translation
論文連結:https://www.msra.cn/wp-content/uploads/2020/01/Transductive-Ensemble-Learning-for-Neural-Machine-Translation.pdf
整合學習(Ensemble learning)利用多個不同的模型,在測試階段用投票的方式對樣本進行判別。然而,我們觀察到,在神經機器翻譯(NMT)的任務中,當參加測試的模型的準確率很高時,整合學習將不會對最終結果帶來顯著提升。類似的現象在相關文獻也有所體現。因此,如何將多個強 NMT 模型整合起來得到更好的測試效果,是本篇論文研究的課題。我們提出了傳導整合學習模型(Transductive Ensemble Learning,簡記為 TEL),能夠通過訓練的方法,將多個強 NMT 模型整合到一個模型中,得到更好的測試效果。我們在 WMT 英語-德語翻譯和英語-芬蘭語翻譯上驗證了我們演算法有效性。特別地,我們在 WMT’16-WMT’18 英德翻譯任務上取得了當前最佳的效果。
在 TEL 模型中,我們將兩個語言空間記成 X 和 Y,將訓練集、驗證集和測試集記成 D_train={(x_i,y_i)}_(i=1)^(N_tr), D_valid={(x ̅_i,y ̅_i)}_(i=1)^(N_val), D_test={x_j^* }_(j=1)^(N_test)。注意我們可以得到測試集的輸入,但沒有對應的標籤。具體過程如下:
(A) 我們首先要在 D_train 上訓練,得到 K 個不同的模型。利用不同的隨機種子即可。將得到的模型記做 f_1,f_2,⋯,f_K 。
(B) 將驗證集和測試集中的樣本利用上述 K 個模型進行翻譯:D_v={(x,f_k (x))|x∈D_valid,k∈[K]}, D_t={(x,f_k (x))|x∈D_test,k∈[K]}。
(C)在 D_v∪D_t 上微調: -min∑_((x,y)∈D_v∪D_t) logP(y│x;f_0) 中 f_0 可以從 f_1,f_2,⋯,f_K 中任選一個作為初始化模型。當模型在驗證集上取得最佳效果時,訓練停止。
首先,我們在有標資料和利用 back-translation 做了資料增強的兩組設定下得到了如圖13所示的實驗結果。結果表明,我們的演算法 TEL 在不同的設定下都能夠取得一定的提高。
圖13: TEL 在 WMT 英語-德語翻譯和英語-芬蘭語翻譯上的實驗結果
最後,我們使用了更大規模的無標資料,在 WMT 英德互譯上取得了如下結果:
圖14:TEL 演算法在 WMT 英德互譯上的實驗結果
通過大量實驗,我們發現:(1)TEL 演算法可以提升很強的基準 NMT 模型;(2)TEL 演算法對 K 值具有魯棒性;(3)即使只有部分測試集的輸入,TEL 演算法仍然能夠取得一定翻譯效果的提高。詳細內容請參考論文。