論文名稱:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification 論文作者:龔恆,閉瑋,馮驍騁,秦兵,劉曉江,劉挺 原創作者:龔恆 論文連結:https://www.aclweb.org/anthology/2020.findings-emnlp.262.pdf 轉載須標註出處:哈工大SCIR
1. 簡介
2. 背景和動機
這個任務上的模型可以分為兩大類:傳統的流水線模型和端到端模型。流水線模型[3,4]將整個任務劃分為多個階段,依次生成。其中,主要的階段包括內容規劃(stage 1,選擇和排序重要資訊)和表層實現(stage 2,用自然語言對重要資訊進行描述),而大多數端到端模型直接根據輸入的結構化資料,生成對應的文字[5,6,7,8,9]。Puduppully等人[2]提出了一個兩步生成模型(NCP),在保持端到端模型生成連貫文字的能力的同時,允許對模型的內容規劃能力進行顯式最佳化。他們的結果顯示,模型的內容規劃能力離它的上限還有很大的距離,也是制約整個資料到文字生成任務的瓶頸。根據我們的觀察,輸入的某項資料是否應當被提及和這項資料對應的數值相關,而NCP等模型將數值視為詞進行建模,缺少對數值關係的建模。以圖1為例,球員Lin得分18,在所在球隊中排名第2,他的相關統計資料應當屬於重要資料,但是卻被NCP忽略了,我們認為這與模型缺少在表格上下文中建模數值資訊間的關係有關。這還會影響到表層實現的效果。仍然以圖1為例,雖然Nets隊比Grizzlies隊得分高,但是NCP生成文字的時候卻說Grizzlies隊打敗了(defeated)Nets隊。另外,目前的模型採用最大化似然估計(MLE)的方法來最佳化內容規劃模組,缺少面向內容規劃的針對性的最佳化目標。
為了解決上面提到的問題,我們提出了數值資料理解和重要資訊驗證模組以增強模型的內容規劃能力。3.2和3.3對該方法進行了詳細介紹。
3. 方法
3.1 基線模型NCP
3.2 數值資料理解模組
3.3 重要資訊驗證模組
4. 實驗
4.1 資料集
4.2 評價指標
4.3 實驗結果
表1 實驗結果
4.4 生成案例
相比基線模型NCP(圖1),正確地提到得分更高的Nets隊打敗了Grizzlies隊。 相比基線模型NCP和ENT模型,在覆蓋所有重要球員(紅色標註)的情況下,過濾了大部分不重要的資料(藍色標註)。 比較內容規劃結果(Planning)和生成文字中提到的資訊(Extracted),生成的文字能夠比較好地如實反映內容規劃階段選出的重要資訊,印證了這項任務的主要瓶頸是內容規劃。
5. 結論
參考文獻
[1] Sam Wiseman, Stuart Shieber, and Alexander Rush. Challenges in data-to-document generation. EMNLP 2017.
[2] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text generation with content selection and planning. AAAI 2019.
[3] Karen Kukich. Design of a knowledge-based report generator. ACL 1983.
[4] Kathleen R McKeown. Text generation: using discourse strategies and focus constraints to generate natural language text. 1985.
[5] Liunian Li and Xiaojun Wan. Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism. COLING 2018.
[6] Feng Nie, Jinpeng Wang, Jin-Ge Yao, Rong Pan, and Chin-Yew Lin. Operation-guided neural networks for high fidelity data-to-text generation. EMNLP 2018.
[7] Ratish Puduppully, Li Dong, and Mirella Lapata. Data-to-text Generation with Entity Modeling. ACL 2019.
[8] Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, and Hiroya Takamura. Learning to Select, Track, and Generate for Data-to-Text. ACL 2019.
[9] Heng Gong, Xiaocheng Feng, Bing Qin, Ting Liu. 2019. Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time). EMNLP 2019.
[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NIPS 2017.
[11] Richard S Sutton and Andrew G Barto. Introduction to reinforcement learning, volume 135. 1998.