基於數值資料理解和重要資訊驗證的資料到文字生成模型

哈工大SCIR發表於2020-11-25
論文名稱:Enhancing Content Planning for Table-to-Text Generation with
Data Understanding and Verification
論文作者:龔恆,閉瑋,馮驍騁,秦兵,劉曉江,劉挺
原創作者:龔恆
論文連結:https://www.aclweb.org/anthology/2020.findings-emnlp.262.pdf
轉載須標註出處:哈工大SCIR

1.    簡介

資料到文字生成任務是文字生成的重要研究任務之一,其目標是根據輸入的結構化資料自動生成相關的描述性文字。以圖1為例,輸入的結構化資料是一場體育比賽中球員和球隊的一系列統計資料,輸出的是對應的賽事報導[1]。該類任務需要解決兩項挑戰[2]:如何從冗餘的結構化資料中選擇重要資訊(內容規劃階段)、如何用自然語言的形式正確地描述重要資訊(表層實現階段)。前人的工作[2]指出目前的主要瓶頸是內容規劃階段。本文中,我們針對內容規劃階段,提出了數值資料理解和重要資訊驗證模組,前者透過基於表格上下文的數值表示模組,為模型引入數值大小的概念,幫助模型更好地理解數值資料之間的關係,從而更好地挖掘重要資訊。後者,透過策略梯度方法,從內容選擇和排序等多個角度指導模型有針對性地最佳化自己的內容規劃能力。我們在兩個公開資料集上進行了實驗,在內容規劃類指標上證明了我們模型的有效性。

基於數值資料理解和重要資訊驗證的資料到文字生成模型圖1 任務示例,NCP是基線模型生成的結果,Gold是參考文字。Extracted Records是文字中提到的資料。

2.    背景和動機

這個任務上的模型可以分為兩大類:傳統的流水線模型和端到端模型。流水線模型[3,4]將整個任務劃分為多個階段,依次生成。其中,主要的階段包括內容規劃(stage 1,選擇和排序重要資訊)和表層實現(stage 2,用自然語言對重要資訊進行描述),而大多數端到端模型直接根據輸入的結構化資料,生成對應的文字[5,6,7,8,9]。Puduppully等人[2]提出了一個兩步生成模型(NCP),在保持端到端模型生成連貫文字的能力的同時,允許對模型的內容規劃能力進行顯式最佳化。他們的結果顯示,模型的內容規劃能力離它的上限還有很大的距離,也是制約整個資料到文字生成任務的瓶頸。根據我們的觀察,輸入的某項資料是否應當被提及和這項資料對應的數值相關,而NCP等模型將數值視為詞進行建模,缺少對數值關係的建模。以圖1為例,球員Lin得分18,在所在球隊中排名第2,他的相關統計資料應當屬於重要資料,但是卻被NCP忽略了,我們認為這與模型缺少在表格上下文中建模數值資訊間的關係有關。這還會影響到表層實現的效果。仍然以圖1為例,雖然Nets隊比Grizzlies隊得分高,但是NCP生成文字的時候卻說Grizzlies隊打敗了(defeated)Nets隊。另外,目前的模型採用最大化似然估計(MLE)的方法來最佳化內容規劃模組,缺少面向內容規劃的針對性的最佳化目標。

為了解決上面提到的問題,我們提出了數值資料理解和重要資訊驗證模組以增強模型的內容規劃能力。3.2和3.3對該方法進行了詳細介紹。

3.    方法

3.1 基線模型NCP

基線模型[2]將資料到文字生成過程用兩個神經網路進行建模。第一個神經網路首先建模表格內容,然後利用Pointer Network從表格中選擇和規劃出重要的資訊(Content Planning)。第二個神經網路規劃出的重要資訊為輸入,利用編碼器-解碼器模型生成文字。

3.2 數值資料理解模組

同樣的一個數值在不同的上下文中有不同的含義。例如,一位球員如果拿到了所在隊伍的最高分“23”分,那他的表現可以認為非常突出。但如果同球隊有另外一個球員拿到了“30”分,那拿到“23”分的這位球員的表現相對拿到“30”分的球員來說沒有那麼突出。有必要建模一個數值在不同上下文中的表示以及資料的大小關係。本文將不同型別的資料(例如得分、助攻、籃板等)視為不同的序列,每一個序列包括各位球員的同一類資料,採用Transformer encoder[10]建模資料間的關係。然後,利用ranking loss預訓練這個用來表示數值的Transformer encoder。預訓練目標是比較兩個數值對應的上下文表示,並分別進行打分,數值較高的上下文表示的得分應當比數值較低的得分高。最後利用數值的上下文表示替換基線模型中數值表示的embedding表示。

3.3    重要資訊驗證模組

針對內容規劃模組,我們定義了五項獎勵函式從不同角度衡量內容規劃結果的效果。實體重要性(EI)用來判斷選擇的一項資料描述的實體是否是重要的。實體召回率(ER)用來判斷有多少重要的實體被覆蓋了。資料重要性(RI)和資料召回率(RR)從資料的層次進行衡量。資料順序(RO)透過計算編輯距離來判斷內容規劃的順序是否自然(和參考文字進行對比)。五項獎勵函式透過策略梯度[11]的方法用來最佳化內容規劃模組。

基於數值資料理解和重要資訊驗證的資料到文字生成模型圖2 模型結構圖。1是我們提出的數值資料理解模組,3是重要資訊驗證模組,2是基線模型NCP的結構圖。

4.    實驗

4.1    資料集

我們採用公開的ROTOWIRE、MLB資料集進行訓練和測試。

4.2    評價指標

除了文字生成任務上常用的基於N-Gram匹配計算的BLEU值以外,Wiseman[1]等人提出透過訓練一個資訊抽取模型,從生成的文字中抽取三元組,和表格以及參考文字進行對比進行評價,得到RG、CS和CO三類指標。其中,RG透過對比生成的文字中抽取三元組和表格中的資訊判斷生成的內容是否正確。CS透過對比生成的文字中抽取三元組和參考文字中抽取三元組,判斷生成的內容包含重要資訊的能力,CO透過計算生成文字中抽取的三元組和參考文字中抽取的三元組的編輯距離判斷生成的文字對於資訊的排列是否自然。

4.3    實驗結果

我們對比了基線模型、基於模版生成的結果、該資料集上的其他模型等,我們的模型(DUV)在內容規劃類指標(內容選擇指標CS F1%和內容排序指標CO)超過了其他模型,驗證了我們模型在內容規劃上的有效性。

表1 實驗結果

基於數值資料理解和重要資訊驗證的資料到文字生成模型

4.4    生成案例

圖3生成的案例體現了我們模型(DUV)生成的文字中的一些優勢:
  1. 相比基線模型NCP(圖1),正確地提到得分更高的Nets隊打敗了Grizzlies隊。
  2. 相比基線模型NCP和ENT模型,在覆蓋所有重要球員(紅色標註)的情況下,過濾了大部分不重要的資料(藍色標註)。
  3. 比較內容規劃結果(Planning)和生成文字中提到的資訊(Extracted),生成的文字能夠比較好地如實反映內容規劃階段選出的重要資訊,印證了這項任務的主要瓶頸是內容規劃

基於數值資料理解和重要資訊驗證的資料到文字生成模型圖3 生成案例

5.    結論

本文中,我們針對資料到文字生成的內容規劃問題提出了數值資料理解和重要資訊驗證模組,實驗結果表明我們的模型相比之前的模型在內容規劃能力上得到提升。

參考文獻

[1] Sam Wiseman, Stuart Shieber, and Alexander Rush. Challenges in data-to-document generation. EMNLP 2017.

[2] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text generation with content selection and planning. AAAI 2019.

[3] Karen Kukich. Design of a knowledge-based report generator. ACL 1983.

[4] Kathleen R McKeown. Text generation: using discourse strategies and focus constraints to generate natural language text. 1985.

[5] Liunian Li and Xiaojun Wan. Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism. COLING 2018.

[6] Feng Nie, Jinpeng Wang, Jin-Ge Yao, Rong Pan, and Chin-Yew Lin. Operation-guided neural networks for high fidelity data-to-text generation. EMNLP 2018.

[7] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text Generation with Entity Modeling. ACL 2019.

[8] Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, and Hiroya Takamura. Learning to Select, Track, and Generate for Data-to-Text. ACL 2019.

[9] Heng Gong, Xiaocheng Feng, Bing Qin, Ting Liu. 2019. Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time). EMNLP 2019.

[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NIPS 2017.

[11] Richard S Sutton and Andrew G Barto. Introduction to reinforcement learning, volume 135. 1998.

相關文章