Understanding Dataset Design Choices for Multi-hop Reasoning

記憶力退化的玲玲醬發表於2020-11-20

Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 閱讀筆記

記錄論文中幾個有趣的實驗。

1.單句包含答案實驗

首先做了一個簡單的實驗,給模型輸入一個句子以及問題,模型輸出該句包含問題對應答案的概率。然後在這兩個資料集上分別訓練了這麼一個模型,再測試,發現超過一半的樣例都成功判斷出了包含答案的句子。

實驗結果表明:不進行多跳推理就可以定位答案。這可能是由於模型具有簡單的詞彙匹配功能。

【思考】:答案預測是以命名的實體為驅動的,從而淺層的匹配功能就能完成答案的預測。能否設計出不以實體為驅動的問題?或者設計出能夠產生實體層面干擾的distractor sentences?

2.可以可以不看文章直接答

對於wikihop 資料集,只給模型問題以及候選答案集合,不給定文章,讓模型預測答案。

實驗結果:

給只問題就選擇答案,準確率竟然達到了59.70!

3.Span-based vs. Multiple-choice

HotpotQA是一個span式的資料集,而Wikihop則是一個多選的資料集。作者把hotpotQA(distractor setting)中的不包含答案的其餘9個文件中抽取出一個實體,這9個實體和答案組成候選答案集合,從而將HotpotQA改造成多選資料集。然後對於Wikihop資料集,作者也將其改造成了span式的資料集,具體的改造方法是:把所有文件連線起來,第一次出現答案的位置就是gold span。

實驗結果:

做了實驗之後發現,在HotpotQAWikihop-Span(基於答案抽取的Wikihop)上得分都比較低,而在HotpotQA-MC(多選擇式的hotpotQA)Wikihop上的結果都挺高的。

作者經過分析得到了以下結論:
(1)當訓練集和測試集都是多選資料集的時候,模型(注意是論文中進行實驗的模型)就不會多跳推理
(2)Span式的資料集更加 具有挑戰性,但仍然有一些問題不需要多跳推理也能回答
(3)給多選式資料集增加選項並不能從本質改變這一現象 (如上圖)
(4)Span式的訓練資料更加健壯(powerful)

相關文章