Understanding Dataset Design Choices for Multi-hop Reasoning
Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 閱讀筆記
記錄論文中幾個有趣的實驗。
1.單句包含答案實驗
首先做了一個簡單的實驗,給模型輸入一個句子以及問題,模型輸出該句包含問題對應答案的概率。然後在這兩個資料集上分別訓練了這麼一個模型,再測試,發現超過一半的樣例都成功判斷出了包含答案的句子。
實驗結果表明:不進行多跳推理就可以定位答案。這可能是由於模型具有簡單的詞彙匹配功能。
【思考】:答案預測是以命名的實體為驅動的,從而淺層的匹配功能就能完成答案的預測。能否設計出不以實體為驅動的問題?或者設計出能夠產生實體層面干擾的distractor sentences?
2.可以可以不看文章直接答
對於wikihop 資料集,只給模型問題以及候選答案集合,不給定文章,讓模型預測答案。
實驗結果:
給只問題就選擇答案,準確率竟然達到了59.70!
3.Span-based vs. Multiple-choice
HotpotQA
是一個span式的資料集,而Wikihop
則是一個多選的資料集。作者把hotpotQA
(distractor setting)中的不包含答案的其餘9個文件中抽取出一個實體,這9個實體和答案組成候選答案集合,從而將HotpotQA
改造成多選資料集。然後對於Wikihop
資料集,作者也將其改造成了span式的資料集,具體的改造方法是:把所有文件連線起來,第一次出現答案的位置就是gold span。
實驗結果:
做了實驗之後發現,在HotpotQA
和Wikihop-Span(基於答案抽取的Wikihop)
上得分都比較低,而在HotpotQA-MC(多選擇式的hotpotQA)
和Wikihop
上的結果都挺高的。
作者經過分析得到了以下結論:
(1)當訓練集和測試集都是多選資料集的時候,模型(注意是論文中進行實驗的模型)就不會多跳推理
(2)Span式的資料集更加 具有挑戰性,但仍然有一些問題不需要多跳推理也能回答
(3)給多選式資料集增加選項並不能從本質改變這一現象 (如上圖)
(4)Span式的訓練資料更加健壯(powerful)
相關文章
- Understanding Recursion
- diff output understanding
- Understanding JSON SchemaJSON
- Understanding LSTM Networks
- JavaScript datasetJavaScript
- LISA: Reasoning Segmentation via Large Language ModelSegmentation
- Understanding Buffer Overflow Bugs
- Understanding System Statistics(zt)
- Understanding Linux CPU statsLinux
- 【Dataset】Maple-IDS - Network Security Malicious Traffic Detection Dataset
- Mmdetection dataset pipline
- tensorflow dataset APIAPI
- 【譯】Understanding NodeJS Event LoopNodeJSOOP
- Understanding HBase and BigTable 譯文
- Understanding React `setState` 翻譯React
- ICLR2021-1:MULTI-HOP ATTENTION GRAPH NEURAL NETWORKSICLR
- image-classification-dataset
- Pytorch Dataset入門PyTorch
- 閱讀論文:《Compositional Attention Networks for Machine Reasoning》Mac
- 利用詞向量進行推理(Reasoning with word vectors)
- 5-Overview-Understanding Kubernetes ObjectsViewObject
- Dataset和Dataloader的使用
- [Javascript] Understanding JavaScript Proxies with Symbol.toPrimitiveJavaScriptSymbolMIT
- Understanding ODIS Component Protection for VW/Audi Vehicles
- Understanding the linux kernel Chapter 6 Timing MeasurementsLinuxAPTREM
- Reading and Understanding Systemstate Dumps (Doc ID 423153.1)
- dataset、setAttribute()和getAttribute() 區別
- flink batch dataset 的基本操作BAT
- 理解梅爾譜圖 Understanding the Mel Spectrogram
- [譯]深入理解JVM Understanding JVM InternalsJVM
- DDRG翻譯.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
- sample, choices: 從list中隨機選擇無重複的元素隨機
- MLE 5217 : Take-Home Dataset Classification
- CS209A Analysis of the Olympic Historical Dataset
- 05-快速理解SparkSQL的DataSetSparkSQL
- Spark SQL學習——DataFrame和DataSetSparkSQL
- design for failureAI
- Design ten