EMNLP 2020 | 微軟亞洲研究院精選論文解讀

微軟研究院AI頭條發表於2020-11-16
多樣、可控且關鍵短語感知:一個新聞多標題生成的語料庫與方法

Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News Multi-Headline Generation

論文連結:https://arxiv.org/abs/2004.03875

新聞標題生成是文字摘要領域的一個子任務。文字摘要往往包含多個上下文相關的句子來涵蓋文件的主要思想,而新聞標題則要用一個簡短的句子來吸引使用者閱讀新聞。由於一篇新聞文章通常可以有多種合理的新聞標題,並且包含多個不同使用者感興趣的關鍵短語或主題。因此,同一篇新聞可以圍繞不同使用者感興趣的不同關鍵短語,生成多個新聞標題並根據使用者的興趣推薦具有不同新聞標題的新聞。同時,新聞多標題的生成也可以為新聞編輯提供輔助資訊。

傳統的新聞標題方法往往將新聞標題生成過程看作為是一對一的對映,即透過序列到序列模型,將輸入的新聞文章對映到輸出的新聞標題。由於一篇新聞有多種合理的標題,所以在訓練階段讓模型生成單個的 ground-truth 會缺乏進一步的指導資訊。而且在測試階段,單個的 ground-truth 也難以進行合理的自動評價。為了緩解這個問題,本文額外引入了關鍵短語輸入作為指導資訊,將一對一的對映轉換為二對一的對映。文章提出了一個關鍵短語敏感的新聞多標題生成方法,該方法包含兩個模組,關鍵短語生成模型和關鍵短語敏感的新聞標題生成模型。整體結構如圖1所示。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖1:關鍵短語敏感的新聞多標題生成

研究員們基於必應新聞(Bing News)搜尋引擎,利用使用者查詢、引擎返回的新聞標題和文章以及使用者基於查詢點選新聞的次數,去挖掘新聞中使用者感興趣的關鍵短語,並構造了 KeyAware News 資料集。該資料集包含18萬對齊的<使用者感興趣的關鍵短語,新聞標題,新聞文章>三元組資料。

對於關鍵短語敏感的新聞標題生成模型,基於 BERT 作為編碼器,Transformer 作為解碼器並帶有 copy 機制的新聞標題生成 BASE 模型,研究員們進一步探索了幾種在解碼器處引入關鍵短語資訊的模型結構,如圖2所示。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖2:關鍵短語敏感的新聞標題生成模型解碼器及其變體

對於新聞文章的關鍵短語生成,研究員們嘗試了 TF-IDF、Seq2seq 和 POS Tagging 等方法。他們透過實驗對比了關鍵短語生成的效果(表1),以及和多種基準方法與模型變體在生成標題的質量和多樣性上進行了人工評價和自動評價(表2)。並且透過一個基於檢索的實驗(表3),將生成的新聞標題作為新聞的搜尋鍵值,透過對應的使用者查詢去檢索新聞,來進一步測試生成新聞的質量和多樣性。大量的實驗結果證明了本文提出方法的有效性。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表1:關鍵短語生成方法結果對比

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表2:多標題生成結果對比

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表3:新聞檢索實驗結果對比

語義分割的思路解決不完整話語重寫任務:一種全新的觀點

Incomplete Utterance Rewriting as Semantic Segmentation

論文連結:https://arxiv.org/abs/2009.13166

程式碼連結:https://github.com/microsoft/ContextualSP

近些年單輪對話的理解已經取得了較大的進展,但多輪對話仍是學術界的一個難題。多輪對話的一大挑戰就在於使用者會丟擲語義不完整的問題,如省略實體或者透過代詞指代到對話歷史中的實體。這樣的挑戰推動了上下文理解方向的研究工作,包括早期端到端的上下文建模方法,和近期研究者們所關注的不完整話語重寫(Incomplete Utterance Rewriting)。

不完整話語重寫旨在將對話中語義不完整的句子重寫為一個語義完整的、可脫離上下文理解的句子,以恢復所有指代和省略的資訊。由於該任務的輸出嚴重依賴於輸入,已有工作絕大部分都是在複製網路的基礎上進行改進。而微軟亞洲研究院的研究員們另闢蹊徑地將該任務視為一個面向對話編輯的任務,並據此提出了一個全新的、使用語義分割思路來解決不完整話語重寫的模型。

在本篇論文中,研究員們提出了一個使用語義分割思路來預測編輯過程的模型 RUN (Rewriting U-shaped Network)。與傳統基於複製網路的生成模型不同,RUN 將不完整話語重寫視為面向對話編輯的任務: 對話中的語句片段可以插入到某個位置,或替換某個片段。圖3中展示了 A 和 B 之間的一個對話,其中最後一句“為什麼總是這樣”是一個語義不完整的語句,其重寫後的語句是“北京為什麼總是陰天”。這個示例中的重寫可以透過兩個簡單的編輯操作來刻畫,分別是把“北京”插入到“為”前,和用“陰天”替換“這樣”。實際上,由於該任務本身的性質,絕大多數重寫句都只需要用到原對話中的詞,這在一定程度上說明了面向對話編輯的合理性和普適性。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖3:面向對話編輯的一個示例

那麼,這個編輯任務與語義分割又有何聯絡呢?因為編輯動作涉及到的是分別來自對話歷史(c)和不完整話語(x)的兩個片段,所以很自然地可以將其想象成圖4中的詞級別的編輯矩陣,其中黃色代表插入操作,綠色代表替換操作,灰色則代表無操作。這樣詞級別的編輯矩陣與語義分割中的畫素級掩碼 (pixel-level mask,圖5右上側)是十分相似的。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖4:編輯操作可以視為二維平面上詞對詞的編輯矩陣

受這樣的類比啟發,如圖5所示,研究員們首先透過類似於注意力機制的方式構造了詞與詞之間的特徵圖矩陣。將該矩陣作為一個經典語義分割模型 U-Net (Ronneberger et al. 2015) 的輸入,可以得到詞級別的編輯矩陣。拿到編輯矩陣後,在原對話上執行編輯操作即可得到最終的重寫句。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖5:RUN 模型得到詞級別編輯矩陣的過程

在四個公開資料集上,微軟亞洲研究院研究員們的模型都取得了相似或更好的效能。表4和表5分別顯示了 Multi 和 Rewrite 資料集上的實驗結果。如圖所示,RUN 在幾乎所有指標上都達到了最先進的效能,顯著超過了各種基於 LSTM 和 Transformer 的複製網路變種 (如 L-Ptr-Gen 和 T-Ptr-λ)。此外,RUN 和 BERT 結合時顯示出了非常優越的效能,大幅度超過同樣利用 BERT 的 SOTA 模型。同時,RUN 的推理速度也大幅超過傳統模型,達到了將近4倍的加速比。目前,本篇論文相應的程式碼已經開源(https://github.com/microsoft/ContextualSP)。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表4:RUN 和 RUN+BERT 在資料集 Multi (Pan et al. 2019) 上的實驗結果

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表5:RUN 和 RUN+BERT 在資料集 Rewrite (Su et al. 2019)上的實驗結果

基於常識知識圖譜的多跳推理文字生成

Language Generation with Multi-Hop Reasoning on Commonsense Knowledge Graph

論文連結:https://arxiv.org/pdf/2009.11692v1.pdf

人類語言通常涉及各種常識知識。例如,當人類在講故事或者對日常生活中的場景進行解釋時,常常會聯絡相關的背景常識知識進行推理。目前將語言模型在大規模語料上預訓練,然後在下游任務上微調的正規化在許多文字生成任務上都取得了顯著的效果。儘管語言模型透過在大量語料上預訓練隱式地學習到了一定的知識,然而這種獲取知識的方式沒有顯式利用知識庫知識圖譜,因此較為低效。

在語言生成領域,目前已有的增強預訓練模型常識知識的方法是將預訓練模型在常識知識庫中的知識三元組上進行進一步的後訓練。本篇論文研究提出了利用更豐富的常識知識圖譜資訊,在文字生成時顯式地在知識圖譜中的關係路徑上進行多跳推理,並利用圖譜中的相關實體用於文字生成微軟亞洲研究院的研究員們在故事生成、解釋生成、溯因常識推理等任務上進行了實驗,自動文字生成評測指標和人工指標均表明所提出的模型能夠更好地在生成中利用常識知識。

本研究關注一類條件文字生成任務,即給定輸入源文字X,目標是生成一段目標文字 Y。研究員們額外增加了一個知識圖譜 G=(V,E) 的輸入為模型在生成時提供常識知識的資訊。圖6為模型框架圖。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖6:模型框架圖

模型分為四個部分:(a)使用預訓練的語言模型對上下文進行建模,根據輸入和當前生成的目標文字字首計算當前步驟的解碼器隱狀態。(b)使用圖卷積神經網路對輸入的知識圖譜進行編碼得到圖結構感知的實體向量表示和關係向量表示。(c)多跳推理模組結合實體表示、關係表示和當前的解碼器隱狀態,在知識圖譜上進行多跳推理,並在圖上計算歸一化的實體機率分佈。(d)利用解碼器隱狀態計算詞表上的機率分佈和複製機率,根據圖譜上實體分佈選擇複製相關的實體用於當前詞的生成。自動指標和人工評測均表明所提出的模型比現有基線模型取得了一定的提升。

告訴我如何再次提問:基於在連續空間可控式改寫的問句資料增廣

Tell Me How to Ask Again: Question Data Augmentation with Controllable Rewriting in Continuous Space

論文連結:https://arxiv.org/abs/2010.01475

資料增廣是一種常用的提升模型泛化能力的方法。相比旋轉、剪裁等影像資料常用的資料增廣方法,合成新的高質量且多樣化的離散文字相對來說更加困難。近年來,一些文字資料增廣方法被提出,這些方法大體可分為兩類,一類是透過替換、刪減、增添等操作對文字區域性進行修改以生成新的資料。另一類是利用模型生成新的資料,如利用翻譯模型的回譯、利用 Mask Language Model 合成新的資料、利用 GAN、VAE 等生成模型生成新的資料。然而,對於機器閱讀理解、問句生成、問答自然語言推理等涉及段落、答案和問句的任務,使用傳統的文字資料增廣方法單獨對問句或段落進行增廣可能會生成不相關的問句-段落資料對,對模型的效能提升幫助不大。

針對機器閱讀理解、問句生成、問答自然語言推理等任務的問句資料增廣,本篇論文將該類問句資料增廣任務看作是一個帶限制的問句改寫任務,即要讓改寫後的問句與原始文件和答案是相關的,並且希望生成與原始問句接近的不可回答(unanswerable)問句和可回答(answerable)問句。受連續空間修改的可控式改寫方法的啟發,研究員們提出了基於可控式改寫的問句增廣方法(Controllable Rewriting based Question Data Augmentation, CRQDA)。 

與在離散空間修改問句的方法不同,該方法在連續的詞向量空間,以機器閱讀理解模型作為指導對問句進行改寫。相比有監督的方法,該方法不需要成對的問句語料,就可以將可回答問句改寫為相似的不可回答問句。 

如圖7所示,CRQDA 包含兩個核心模組:1)基於 Transformer 的自編碼器,該模型將離散的問句文字對映到連續空間並重構問句。2)預先訓練好的抽取式機器閱讀理解模型。該模型與自編碼器的編碼器部分共享詞向量部分的引數,以確保二者的問句詞向量位於同一個連續空間。利用機器閱讀理解模型的輸出與目標標籤(想要可回答問句或不可回答問句)的誤差回傳得到的梯度資訊,作為問句在詞向量這一連續空間中進行修改的指導(改寫過程如圖8所示,具體改寫演算法如圖9所示)。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖7:CRQDA 模型結構

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖8:CRQDA 問句改寫過程

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖9:CRQDA 問句修改演算法

實驗在 SQuAD 2.0 資料集上與多種問句增廣方法和文字增廣方法進行了比較(見表6)。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表6:SQuAD 2.0 資料增廣方法對比

此外,實驗也進一步探索了使用增廣資料對不同機器閱讀理解模型效能的提升(表7)、使用不同資料對自編碼器進行訓練對 CRQDA 效能的影響(表8)以及使用不同設定生成增廣資料對模型效能的影響(表9)。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表7:CRQDA 對不同機器閱讀理解模型的效能提升

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表8:不同訓練資料對 CRQDA 的效能影響

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表9:CRQDA 不同增廣資料對效能的影響

進一步地,研究員們也將方法應用於問句生成任務(表10)和問答自然語言推理任務(表11)。大量實驗驗證了提出方法的有效性。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表10:CRQDA 對 SQuAD1.1 問句生成任務的效能提升

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

表11:CRQDA 對 QNLI 問答自然語言推理任務的效能提升

利用分層Transformer模型的注意力機制進行非監督性抽取式摘要

Unsupervised Extractive Summarization by Pre-training Hierarchical Transformers

論文連結:https://arxiv.org/abs/2010.08242

抽取式文字摘要的主要目的是從一篇長文章中選擇幾個可以概括文章主要內容的句子,將它們作為該文章的摘要。在沒有監督資訊的情況下,該問題通常被表示成對一篇文章中的句子的排序問題,在以前的工作中,常常是透過模型學習文章中句子的向量表徵,利用這些句子表徵和一些人為擬定的規則構造一個以句子為結點的圖,但這些規則有時候會導致選取結果在一定程度上很依賴句子在文章中的位置。

本文利用 Transformer 中的注意力機制對句子進行排序。為了學習句子層面的注意力係數,研究採用了分層的結構。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖10:編碼器的分層結構

研究員們採用了兩種預訓練方法來訓練該模型,Masked Sentences Prediction (MSP) 將文章中的某些句子掩蓋住,然後利用上下文恢復出被掩蓋的句子。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖11:MSP 示意圖

另一方面,為了減弱模型對於句子位置的依賴,研究員們提出了另一種預訓練方式 Sentence Shuffling (SS)。SS先將文章中的句子打亂,然後依次找出原文中的句子打亂後所在的位置。

EMNLP 2020 | 微軟亞洲研究院精選論文解讀

圖12:SS 示意圖,經過打亂後原文中的第1句話到了第3個位置,模型的第1個預測結果應該是3,同理,第2個預測結果應該是1。

經過以上兩種預訓練,在對句子排序時,研究員們將文章中的句子逐個掩蓋,然後利用其他句子恢復被掩蓋的句子(過程像 MSP 一樣)。之後利用恢復情況對當前被掩蓋的句子評分,同時用注意力係數評價其他句子在恢復當前句子的貢獻。最後,透過最終評分對句子進行排序,得分最高的三個句子被選作摘要。

該方法在 CNN/DM 資料集和 NYT 資料集上都取得了非常不錯的效果。並且經過驗證,這個方法可以更少地依賴於句子的位置。

相關文章