融合外部知識的常識問答

哈工大SCIR發表於2020-11-10

1.摘要

本文介紹常識問答任務,主要關注融合外部知識的常識問答模型。首先介紹幾個常識問答的基準評測資料集,然後總結了一些在常識推理中常用的結構化和非結構化知識庫,最後根據知識的融合方式介紹了三類融合外部知識的常識問答模型:使用預訓練融合常識知識、使用關係網路融合常識知識和使用神經網路融合外部知識。

2.正文

當人類回答一個問題時,我們經常會不自覺地利用關於空間關係、因果關係、科學事實和社會習俗等常識和背景知識。例如,如果問“當李明聽到割草機的聲音時,他最有可能位於哪裡?”,我們可以推斷出割草機離李明很近,李明很有可能在街道旁行走。這種型別的知識對人類來說似乎微不足道,但是這超出了當前的自然語言理解(NLU)系統的能力範圍。為了讓機器也具有常識推理能力,很多學者在解決需要常識的問答任務時都引入了外部知識,既期望模型能夠利用外部知識作出正確的判斷,也期望模型能夠給出使用到的顯式的、可解釋的證據。引入的外部知識可以是結構化的知識圖譜(如ConceptNet),也可以是非結構化的文字語料(如Wikipedia)。接下來我們分為三部分,首先介紹幾個常識問答資料集評測基準,然後介紹在常識推理中常用的結構化和非結構化知識庫,最後根據知識融合的方式介紹近幾年提出的融合外部知識的常識問答模型。

2.1常識問答資料集

當前大多數問答模型主要關注的問題型別是事實類問題(factoid questions),這種型別的問題答案往往能直接在原文中找到,然而如何基於常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。資料集 CommonsenseQA[1]、CosmosQA[2]等相繼被提出便是為了促進該方向的發展。

(1) CommonsenseQA

CommonsenseQA資料集由以色列特拉維夫大學構建,是一個多項選擇題的常識問答資料集,它需要不同型別的常識知識來預測正確的答案,是極具有挑戰性的資料集。為了確保使用常識知識來回答問題,每個問題都包含來自ConceptNet的一個實體,每個問題對應一個正確答案和四個干擾答案。利用像ConceptNet這樣的大型常識知識圖,不僅可以確保問題直接針對常識關係,而且可以確保問題所需的常識知識領域在日常使用中相當全面。資料集共12102個問題(訓練集/驗證集/測試集:9741/1221/1140),資料格式如圖1所示。

融合外部知識的常識問答圖1 CommonsenseQA示例(問句中綠色粗體是source concept;答案中的藍色字型是從ConceptNet中取樣的target concepts,其中有一個正確答案,紅色和紫色字型分別是從ConceptNet中取樣的和人工編寫的干擾concept)(2) CosmosQA

CosmosQA資料集包含35600個需要常識閱讀理解的問題,大約94%的問題需要常識,這是所有需要理解段落的QA基準中所見比例最高的。其專注於解決需要跨越上下文、而不是定位指定片段的推理問題。其主要特點為:

  • 上下文段落中的任何地方都沒有明確提到正確的答案,因此需要透過常識推斷在各行之間進行閱讀
  • 選擇正確的答案需要閱讀上下文段落

圖2給出了資料集中的一個例子:

融合外部知識的常識問答圖2 CosmosQA示例(3) PIQA

PIQA[3]專注於日常生活中的物理常識,偏愛非典型的解決方案。圖3展示了PIQA的示例。PIQA 資料集由 16,000 多個訓練的QA對組成,另外分別提供了約2K和3K進行開發和測試。目的長度平均為7.8個單詞,正確和不正確的解決方案平均長度為21.3個單詞,正確和不正確解決方案所使用的單詞之間至少有85%的重疊。透過對名詞、動詞、形容詞、副詞出現的詞頻統計,驗證了資料集確實是和物理現象強相關的。比如,出現詞頻最高的形容詞中包括狀態(乾燥的、乾淨的、燙的)、形狀(小的、鋒利的、平坦的)、形式(快速的、仔細的),這些屬性通常決定了解決方案的正確與否。

融合外部知識的常識問答圖3 PIQA資料集示例(左邊的問答更側重於物體的屬性,右邊的問答從技術角度而言都是對的,但是側重於更方便可取)(4)SOCIAL IQA

Social IQA[4]是第一個面向社交情況常識推理的大規模基準,包含38000個覆蓋日常情形中社交情感和智慧的多選問題,涵蓋了關於在情境中描述人們的行為的各種型別的推斷,對於基於預訓練語言模型的現有問答模型具有挑戰性。值得注意的是,SOCIAL IQA也可以作為常識知識遷移學習的資源,在多個常識推理任務(Winograd Schemas,COPA)上達到了最好的結果。資料集示例如圖4所示。

融合外部知識的常識問答圖4 SOCIAL IQA資料集示例(5) OpenBookQA

OpenBookQA[5]資料集解決了先前QA資料集的一些缺點,較早的資料集通常不需要外部知識或推理即可解決,而確實需要外部知識的領域又很難捕獲。OpenBookQA包含大約6,000個多項選擇的問題,需要結合科學事實或常識知識來回答,如圖5中的示例。OpenBookQA提供了約1300個科學事實的“open book”,每個事實都與問題直接相關,作者希望可以使用外部資源來支援回答問題。

融合外部知識的常識問答圖5 OpenBookQA資料集示例2.2外部知識庫

(1) ConceptNet

ConceptNet[6]是一個已成功應用於NLI系統中的常識知識庫。最早源於MIT媒體實驗室的Open Mind Common Sense(OMCS)專案,OMCS專案是由著名AI專家Marvin Minsky於1999年創立,該專案從線上使用者那裡收集了free text的常識知識。這個語義網絡最初包含超過160萬條常識知識,這些知識表示為300,000個實體節點之間的連結,但是後續版本對其進行了擴充套件並新增了更多功能。最新版本的ConceptNet 5.5包含800萬個節點之間的2100萬個連結,並增加了Cyc,WordNet和DBpedia等其他資源,它包括來自多語言資源的知識,以及來自其他知識圖譜的知識的連結。與Cyc相比,ConceptNet採用了非形式化、更加接近自然語言的描述;與連結資料和谷歌知識圖譜相比,ConceptNet比較側重於詞與詞之間的關係。與WordNet相比,包含的關係型別多。ConceptNet完全免費開放,並支援多種語言。

融合外部知識的常識問答圖6 ConceptNet示例(2) ATOMIC

ATOMIC[7]是一個包含87萬條推理常識的知識圖譜,包含870k條推理常識,相較於常見的基於本體論分類條目的知識圖譜,該知識庫專注於“if...then...”關係的知識。作者提出了9種型別的因果聯絡來區分原因-效果、主體-主題、自願-非自願、行動-心理狀態。例如:事件“x防禦了y的攻擊”,我們能夠馬上推理出 x的動機是“保護自己”、 x這麼做的先決條件是接受了一定的防身技巧、 x可能的特點是強壯勇敢。事件的結果可能是:x會感覺生氣並報警、 y可能會覺得害怕並想要逃走。透過生成式訓練,作者發現神經網路模型可以從該圖譜中獲取簡單的常識推理能力。

融合外部知識的常識問答圖7 ATOMIC示例(3) GenericsKB

GenericsKB[8]是AI2提出的包含340萬個通用句子的大型非結構化知識庫,通用句子是指表達一般事實的語句,例如“Dogs bark”和“Trees remove carbon dioxide from the atmosphere”。這是第一個包含天然存在的通用句子的大型資源庫,而不是抽取或眾包的三元組,因此富含高質量、一般性、語義完整的陳述。GenericsKB主要從三個大型文字源中提取:Waterloo語料庫、Simple Wikipedia和ARC語料庫。其中的所有句子均帶有主題詞,上下文句子和學習到的置信度評分。GenericsKB-Best中還提供了一個經過過濾的高質量子集,其中包含1,020,868個句子。

融合外部知識的常識問答圖8 GenericsKB示例(4) Wikipedia

任何自然語言的文字甚至網頁都可以視為非結構化知識的來源。Wikipedia就是一個常用的大型非結構化知識庫,Wikipedia語料庫包含有關各種領域的440萬篇文章,並且都是人工編纂的。由Wikipedia延伸出的一個知識庫是WikiData[9],WikiData的目標是構建一個免費開放、多語言、任何人或機器都可以編輯修改的大規模連結知識庫。WikiData由維基百科的組織者於2012年啟動,繼承了Wikipedia的眾包協作的機制,但與Wikipedia不同,WikiData支援的是以三元組為基礎的知識條目(Items)的自由編輯。一個三元組代表一個關於該條目的陳述(Statements)。例如可以給“地球”的條目增加“<地球,地表面積是,五億平方公里>”的三元組陳述。

2.3融合外部知識的常識問答模型

我們按照知識的融合方式將模型分為使用預訓練融合常識知識、使用關係網路融合常識知識和使用神經網路融合外部知識三種型別。

(1)使用預訓練融合常識知識

預訓練語言模型,如BERT、GPT等,在很多工上都取得了很好的效果,但很少明確地包含常識知識。最近的研究表明,只需在大型預訓練模型上融合常識知識進行繼續訓練或者微調就能達到一個很好的效果。

如Ye等人[10]提出了一種將常識知識整合到語言模型中的預訓練方法,使用align、mask、select(AMS)方法,自動構造了一個常識相關的多項選擇問答資料集,用於預訓練神經語言表示模型。AMS方法如下:

  • 首先,從ConceptNet中挑選一些三元組:非英文去掉;調整RelateA和IsA關係三元組到正常比例,因為在ConceptNet中這兩種關係佔比較高;三元組中,至少有一個實體包含四個單詞以上,或者兩個實體之間的編輯距離少於4;
  • 然後基於每個三元組中的兩個實體詞去Wikipedia中搜尋包含這兩個詞的句子;(align)
  • 在該句子中,使用[QW]遮掩兩個實體中的一個,構成question,mask的詞為標註答案;(mask)
  • 基於三元組中的mask之外的詞去ConceptNet搜尋,找4個包含這兩個詞的三元組作為干擾。如果大於4個,隨機選4個,反之過濾掉;(select)

舉個例項:

表1 使用AMS構造資料的一個例子

融合外部知識的常識問答

為了節省時間和成本,作者使用bert-base/bert-large初始化引數,結果在當時的CommonsenseQA 、 Winograd Schema Challenge以及 GLUE任務的幾個句子分類和推理任務上取得了sota。在顯著改善常識相關的NLP任務的同時,也沒有降低預訓練模型的語言表示能力。

Wang等人[11]研究了將知識注入諸如BERT和RoBERTa之類的大型預訓練模型中的問題。現有方法通常會在注入知識時更新預訓練模型的原始引數。但是當注入多種知識時,它們可能會遭受災難性的遺忘。為了解決這個問題,作者提出了K-ADAPTER,它保持了固定的預訓練模型的原始引數,並支援持續的知識注入。以RoBERTa為預訓練模型,K-ADAPTER具有用於每種注入知識的神經介面卡(adapter),就像是連線到RoBERTa的外掛,如圖6所示。

融合外部知識的常識問答圖9 K-ADAPTER模型架構圖在不同的介面卡之間沒有資訊流,因此以分散式方式有效地訓練了不同的介面卡。模型注入了兩種知識,包括從Wikipedia和Wikidata上自動對齊的文字三元組獲得的基礎知識,以及從依存分析獲得的語言知識。透過三個知識驅動型任務(總共六個資料集)的實驗結果(包括關係分類,實體型別和問題回答)表明,每個介面卡都可以提高效能,並且兩個介面卡的組合都可以帶來進一步的改進。探索性實驗進一步表明K-ADAPTER比RoBERTa捕獲了更豐富的事實和常識知識,在CosmosQA上的表現與Multi-task 的結果相比也有明顯的提升。

這裡對比一下最近提出的一系列將知識融入預訓練模型的方法,如表2所示:

表2 將知識融入預訓練模型的方法對比

融合外部知識的常識問答

儘管大規模的預訓練語言模型取得了成功,但在經過微調的模型和人類表現之間仍然存在巨大的效能差距,而且這些模型不能提供可解釋的證據,因為無法明確說明使用到了訓練語料庫中的哪些知識,只是隱式學習了這些知識。

(2)使用關係網路融合常識知識

融合外部知識的常識問答

融合外部知識的常識問答

圖10 KagNet模型的內部結構圖

融合外部知識的常識問答

融合外部知識的常識問答圖11 KagNet模型可解釋的一個示例首先選擇關注度最高的概念對,然後檢視每個選定對的(一個或兩個)排名最高的路徑。以這種方式定位的路徑與推理過程高度相關,並且建模時諸如“fountain”之類的嘈雜概念將減少。實驗結果在當時的CommonsenseQA上取得了SOTA。

(3)使用神經網路融合常識知識

雖然關係網路可以建模多跳關係,在關係路徑上應用注意力機制也能提供良好的可解釋性,但是關係網路建模路徑的可擴充套件性受節點數量和路徑長度的限制,因為路徑數量隨節點的數量是多項式增加的,隨路徑長度是指數級增加的。相比之下,神經網路透過其訊息傳遞機制享有更好的可伸縮性。

Lv等人[14]提出了一個融合異構知識源的基於神經網路的常識問答模型。作者從結構化知識基礎(即ConceptNet)和Wikipedia純文字中提取證據,併為這兩個來源構造圖以獲取證據的關係結構,如圖9和圖10所示。

融合外部知識的常識問答圖12 從ConceptNet的證據中構建的Concept-Graph

融合外部知識的常識問答圖13 從Wikipedia證據中構建的Wiki-Graph

基於這些圖,作者提出了一種基於圖的推理方法,該方法由基於圖的上下文詞表示學習模組和基於圖的推理模組組成,如圖11所示。


融合外部知識的常識問答圖14 Lv等人提出的模型結構圖第一個模組利用圖結構資訊來重新定義單詞之間的距離,以學習更好的上下文單詞表示。第二個模組採用圖卷積網路將鄰居資訊編碼為節點的表示形式,並透過圖注意力機制彙總證據以預測最終答案。在CommonsenseQA資料集上的實驗結果表明,在兩種知識源上基於圖的方法都可以改善基線模型,並且在CommonsenseQA資料集上達到了最高的準確性。

雖然神經網路有很好的可擴充套件性,但我們仍不想丟棄RN的路徑可解釋性,於是Feng等人[15]就提出了一種多跳圖關係網路(MHGRN),所提出的推理模組統一了基於路徑的推理方法和神經網路,實現了更好的可解釋性和可伸縮性。MHGRN透過保留訊息傳遞公式從圖網絡繼承了可伸縮性,透過引入結構化關係注意機制對訊息傳遞路徑進行建模,從而保留了基於路徑的模型的可解釋性。模型結構如圖12所示。

融合外部知識的常識問答圖15 MHGRN模型的結構圖模型的主要動機是在單層內執行多跳訊息傳遞,以允許每個節點直接參與其多跳鄰居,也就是賦予GNN直接建模路徑的能力,從而進行多跳關係推理。為此,MHGRN直接在所有長度不超過topK的關係路徑上傳遞訊息,其中K是一個超引數。最後在CommonsenseQA和OpenbookQA資料集上的實驗結果表明了其有效性和可擴充套件性,圖13是來自CommonsenseQA的可解釋的兩個示例。在左側的示例中,模型將問題實體和答案實體連結在鏈中以支援推理,而右側的示例模型利用未提及的實體來彌合問題實體和答案實體之間的推理差距。
融合外部知識的常識問答圖16 來自CommonsenseQA的兩個可解釋示例3.總結

本文依次介紹了常識問答任務基準評測資料集、常用的外部知識庫以及使用不同方式融合外部知識的常識問答模型。儘管大規模的預訓練語言模型取得了成功,但在經過微調的模型和人類表現之間仍然存在巨大的效能差距,而且這些模型不能提供可解釋的證據;使用關係網路可以建模多跳關係,在關係路徑上應用注意力機制也能提供良好的可解釋性,但是關係網路建模路徑的可擴充套件性受節點數量和路徑長度的限制;神經網路透過其訊息傳遞機制享有更好的可伸縮性,但其推理是在節點級進行,與建模路徑級推理鏈不相容;而將基於圖的模型與基於路徑的模型融合在一起,既能保持圖的可擴充套件性,又能增加模型的透明度和可解釋性。

對於未來工作,一方面,需要外部知識的常識推理任務的核心難點在於如何在外部知識庫中快速檢索相關的知識,並有效地、可解釋地應用在模型中;另一方面,如何設計一個指標衡量常識推理模型的可解釋性。AI2的VCR dataset給了一個比較簡單有效的方案,在傳統的多選題型別QA任務上加上一個對於正確選項的正確解釋的選擇題。如果我們要求模型在兩個任務上都答對,則同時衡量了模型的正確性和可解釋性[16]。但對於常識問答的可解釋性似乎需要更復雜、合理的評價方式。

參考資料

[1]

Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant.  2019. Commonsenseqa: A question an-swering challenge targeting commonsense knowledge.   InProceedings of the 2019 Conference of the NorthAmerican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers), pages 4149–4158.

[2]

Lifu Huang, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi.  2019.  Cosmos qa: Machine reading compre-hension with contextual commonsense reasoning. InProceedings of the 2019 Conference on Empirical Methodsin Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP), pages 2391–2401.

[3]

Bisk, Y.;Zellers, R.; Le Bras, R.; Gao, J.; and Choi, Y. 2020.PIQA: Reasoning about Physical Commonsense in NaturalLanguage. InAAAI.

[4]

Sap, M.; Rashkin, H.; Chen, D.; Le Bras, R.; and Choi, Y.2019c.  Social IQA: Commonsense Reasoning about SocialInteractions. InProceedings of the 2019 Conference on Em-pirical Methods in Natural Language Processing and the 9thInternational  Joint Conference  on  Natural  Language  Pro-cessing (EMNLP-IJCNLP), 4453–4463.

[5]

Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal.  2018.  Can a suit of armor conduct electricity?a new dataset for open book question answering. InProceedings of the 2018 Conference on Empirical Methodsin Natural Language Processing, pages 2381–2391.

[6]

Speer, R.; Chin, J.; and Havasi, C. 2017. Conceptnet 5.5: Anopen multilingual graph of general knowledge. In AAAI.

[7]

Maarten Sap, Ronan Le Bras, Emily Allaway, ChandraBhagavatula, Nicholas Lourie, Hannah Rashkin, Bren-dan Roof, Noah A Smith, and Yejin Choi.  Atomic:  anatlas of machine commonsense for if-then reasoning. InAAAI, volume 33, pages 3027–3035, 2019.

[8]

Sumithra Bhakthavatsalam, Chloe Anastasiades, and Peter Clark. 2020. Genericskb: A knowledge base of generic statements. arXiv preprintarXiv: 2005.00660.

[9]

WikiData官網:https://www.wikidata.org/wiki/Wikidata:Main_Page

[10]

Zhi-Xiu Ye, Qian Chen, Wen Wang, and Zhen-Hua Ling. Align, mask and select: A simple method for incorporating commonsense knowledge into language representation models. CoRR,abs/1908.06725, 2019. URL http://arxiv.org/abs/1908.06725.

[11]

Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu Ji, Guihong Cao, Daxin Jiang,and Ming Zhou. 2020b.K-adapter: Infusing knowledge into pre-trained models with adapters.CoRR,abs/2002.01808.

[12]

Adam Santoro, David Raposo, David G Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia,and Timothy Lillicrap. A simple neural network module for relational reasoning. InAdvances in neuralinformation processing systems, pp. 4967–4976, 2017.

[13]

Lin, B. Y.; Chen, X.; Chen, J.; and Ren, X. 2019. KagNet: Knowledge-Aware Graph Networks for Commonsense Rea-soning. In EMNLP/IJCNLP.

[14]

Shangwen Lv, Daya Guo, Jingjing Xu, Duyu Tang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, GuihongCao, and Songlin Hu.  2019.  Graph-based reasoning over heterogeneous external knowledge for commonsensequestion answering.In AAAI.

[15]

Feng, Y.; Chen, X.; Lin, B. Y.; Wang, P.; Yan, J.; and Ren, X.  2020. Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering. In EMNLP.

[16]

https://www.zhihu.com/question/312388163/answer/600712686

相關文章