達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

達觀資料DataGrand發表於2022-12-06

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

達觀資料與同濟大學聯合共建的“知識圖譜與語義計算聯合實驗室”,近期釋出了圍繞新冠肺炎的多跳問答資料集和智慧問答系統,該資料集基於COVID-19的七個方面(即百科、防控、物資、診療、健康、流行病、英雄)進行資料集梳理並進一步生成1跳(1-hop)、2跳(2-hop)、3跳(3-hop)的問答資料集,智慧問答的主題涉及病理、症狀、藥物等相關的問題。其中論文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》發表於期刊《Data Intelligence》。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖1 《Data Intelligence》及發表論文的部分技術展示


主要研究貢獻如下:

  1. 很少存在針對COVID-19管理的全面的KGQA資料集,尤其是缺乏針對多跳問題的資料集。受益於OpenKG-COVID19,我們推匯出了一個大型多跳中文COVID-19 KGQA資料集COKG-DATA。它包含豐富的知識,為構建優質的問答系統提供了重要基礎。

  2. 引入COKG-QA來證明在多跳KGQA任務中嵌入投影機制和模式資訊的重要性。更準確地說,透過投影方法將來自不同空間的實體、模式和問題的嵌入轉移到一個共同的空間中,以對齊重要特徵。此外,實體嵌入與其型別嵌入相結合,以預測指定型別的答案。透過實驗證明了COKG-QA是非常有效的,並且對於進一步推廣到新領域知識也是值得借鑑的。

  3. 為了滿足人們對COVID-19諮詢服務的需求,基於COKG-QA開發了一個使用者友好的互動式應用系統。該系統不僅提供準確和可解釋的問題答案,而且易於使用,並具有智慧提示和建議功能。


新冠肺炎多跳問答資料集COKG-DATA

我們根據OpenKG推出的OpenKG-COVID19的七個子KG(即百科、防控、物資、診療、流行病、英雄)來組織COKG-DATA,人們每天更容易問到這些子KG中的資訊。COKG-DATA是一個新的具有挑戰性的問答基準,包含有關疾病、症狀、藥物等相關的單跳問題和多跳問題。基於龐大而多樣的COKG-DATA資料集,結合多跳KGQA技術,可以滿足人們在大流行期間的複雜查詢需求。我們花費大量時間基於OpenKG-COVID19清理資料並收集多跳問題。


01 七大子KG

  1. 百科KG,讓我們對SARS-CoV-2和COVID-19有個大致瞭解,以及相關的病毒和疾病資訊。

  2. 防控KG,為各地個人、團體提供政府釋出的預防指南。

  3. 物資KG,圍繞疫情期間的物資供應情況展開,涵蓋日常防護用品、醫療器械、藥品等。

  4. 診療KG和健康KG是互補的,以利用關於各種疾病、藥物、症狀、檢查方法和治療醫院的COVID-19相關知識。

  5. 流行病KG,運用流行病學的一般技術,研究疾病的分佈及影響因素,探究疾病的成因,闡明流行病的規律,以有效地控制和根除疾病。

  6. 英雄KG,以新冠病毒專家為核心延展至履歷、成果、事件、戰役等各類概念。


02 資料清洗

為了確保QA資料集的質量,我們清理了OpenKG-COVID19中的一些異常情況的資料,並刪除了對QA來說不實用的三元組,包括一些三元組包含空字串、標點實體或無用數字;一些三元組組成的比較奇怪的問題,例如,⟨新華醫院的醫生,在新華醫院工作⟩;一些三元組中的頭實體與尾實體相同的問題,例如具有“別名”關係的三元組。此外,OpenKG-COVID19中還存在包括對稱性和反轉在內的關係模式。我們為OpenKG-COVID19的這些關係模式擴充套件了三元組。經過資料清洗和關係擴充套件後,知識圖譜資料集包含112246個實體、209個關係和787056個三元組。

03 資料構造

我們利用OpenKG-COVID19的選定子圖中的事實三元組作為1-hop資料。此外,我們手動為2-hop問題設計了47個關係,為3-hop問題設計了23個關係,其中組合的關係必須合理自然。具體來說,在2-hop關係中,前關係的範圍必須與後關係的域相同。例如,“selected drug”關係的範圍是“drug”,必須與2-hop關係“Selected drug Usage and dosage”中的“usage and dosage”域一致。相同的規則適用於3-hop關係收集過程。與多跳資料集MetaQA類似,我們使用Helsinki-NLP Opus-MT專案中的神經翻譯模型以引入具有相同含義的更多樣化和自然的陳述。利用Opus-mt-zh-en模型將句子從中文翻譯成英文,然後使用opus-mt-zh-en將句子翻譯回中文。此外,為了從頂層建立一個大規模的統一知識庫,完成了實體對齊和關係對齊,以消除不一致問題。

04 校驗資料

為了確保COKG-DATA資料及中的問題相對時自然且有意義,我們招募了四名志願者來檢查資料集的質量,他們的研究領域均為知識圖譜和問答方向。經過清理後的OpenKG-COVID19資料,按照關係對問題進行排序,然後成比例的隨機抽取問題樣本。這四名志願者被要求用三個選項對抽樣問題進行評分:1表示奇怪;2表示自然;3表示有意義。我們透過這個人工評分過程,刪除或修改了奇怪的問答對,對COKG-DATA進行了四次最佳化。最後一輪的取樣數為4000,志願者的平均得分為2.8,證明了COKG-DATA是高質量的。

05 資料集統計

COKG-DATA每個跳數問題的最終統計結果如表1所示。COKG-DATA將會保持與OpenKG-COVID19的同步更新,為使用者提供更充分的知識。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

表1 COKG-DATA統計資料


新冠肺炎多跳問答技術COKG-QA


  IRQA& KGQA

在COVID-19相關資訊的獲取上,基於COVID-19 知識的問答系統作為一種便捷的互動方式受到越來越多的人的歡迎。COVID-19 QA現有兩種正規化:資訊檢索問答(Information Retrieval Question Answering,IRQA)和知識圖譜問答(Knowledge Graph Question Answering,KGQA)。

1. COVID-19 IRQA

COVID-19 IRQA 系統基於文字問答對,透過計算資料集中提出的問題和問題/答案之間的相似性來獲得答案,如WULAI-QA、CAiRE-COVID、COVIDASK。IRQA系統可以自然地回答人們經常提出的簡單問題。WULAI-QA(Web Understanding and Learning with AI,WULAI)是一個動態的基於文件的問答系統,圖2是其整體系統架構圖。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖2 WULAI-QA整體架構圖


WULAI-QA主要有四部分構成:

  1. 特徵工程(Feature Engineering)部分可以使用自定義過濾器和多種強大的特徵來快速過濾不相關的文件;

  2. 檢索器(Retriever)部分可以分別對問題?和文件?進行編碼,並計算問題與過濾後的文件集中每個文件的相似度分數?(?|?)。然後選擇TOP(?)個文件作為候選文件;

  3. 閱讀器(Reader)部分將問題?和文件?連線在一起,並以機率?(?|?,?)從文字中抽取答案?;

  4. 使用者反饋(User Feedback)部分包括三部分資料:正確答案、相關文件和滿意度分數。其中正確答案和相關文件的註釋可以更新閱讀器和檢索器模型,而滿意度分數用於更新檢索器模型。為了適應COVID-19相關資訊的快速擴充套件,WULAI-QA 透過合併穩健和定製的特徵來過濾掉不相關的文件。此外,將使用者反饋輸入到到檢索器模型和閱讀器模型中,以提高線上部署期間的效能。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖3 CAiRE-COVID系統架構圖


CAiRE-COVID(Center for Artificial Intelligence Research,CAiRE)是香港科技大學開發的一個實時QA和多文件摘要系統,旨在透過回答社群的高優先順序問題並總結與問題相關的重要資訊,以應對在 COVID-19上發表的大量科學文章的挖掘挑戰。

其架構圖如圖3所示,由三個主要模組組成:

  1. 文件檢索器(Docement Retriever)

  2. 相關片段選擇器(Relevant Snippet Selector)

  3. 以查詢為中心的多文件摘要器(Query-focused Multi-Document Summarizer)

它將資訊抽取與最先進的QA和以查詢為中心的多文件摘要技術相結合,在給定查詢的情況下從現有文獻中查詢和高亮顯示檢索到的片段。同時還提出了以查詢為中心的抽象和提取多文件摘要方法,以提供與問題相關的更多相關資訊。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖4 COVIDASK整體過程


COVIDASK一個結合了生物醫學文字挖掘和QA技術來實時提供問題答案的QA系統,利用有監督和無監督的方法使用 DENSPI和 BEST提供資訊豐富的答案。圖4是其整體流程圖,首先預先索引了CORD-19中包含的研究論文中的所有短語,並使用它們來構建DENSPI 模型,還使用並高亮顯示了PubMed中的生物醫學命名實體來構建 BEST。


2. COVID-19 KGQA       

在KGQA方面目前已經有諸多研究成果,主要包括三種型別:基於邏輯的方法、基於路徑的方法和基於嵌入的方法。


1)基於邏輯的方法

       該方法由於具有高精度和可解釋性強的優點而被廣泛討論。GQE(Graph Query Embedding)、Query2Box 、BETAE將查詢表示為有向無環計算圖,以生成邏輯形式的查詢嵌入。


GQE是一種基於嵌入的框架,可以有效地預測不完整知識圖譜上的聯合查詢問題。GQE 背後的關鍵思想是將圖節點嵌入到低維空間中,並將邏輯運算子表示為該嵌入空間中學習的幾何操作(例如,平移、旋轉)。經過訓練後,可以使用模型來預測哪些節點可能滿足任何有效的聯合查詢,即使查詢涉及的未觀察到的邊。而且這個預測是非常高校的,時間複雜度與查詢中的邊數成線性關係,並且與輸入網路的大小成常量。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖5 GQE框架概覽


如圖5所示,GQE過程是,給定一個輸入查詢q,根據它的DAG結構表示這個查詢,然後使用左側的演算法生成基於這個 DAG 的查詢的嵌入。左側的演算法從查詢錨節點的嵌入開始,迭代應用幾何運算P和I生成與查詢對應的嵌入q。最後,可以使用生成的查詢嵌入來預測節點滿足查詢的可能性,例如,透過嵌入空間中的最近鄰搜尋。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖6 Query2Box推理流程


Query2Box也是一個基於嵌入的框架,用於在大規模和不完整的知識圖譜中使用∧、∨和∃運算子對任意查詢進行推理。如圖6是QueryBox的推理流程,(A)中,對於給定的聯合查詢語句“Where did Canadian citizens with Turing Award graduate?”,解析後使用依賴圖進行表示;(B)中是計算圖的示例,其指定了為(A)中的查詢語句獲取一組答案的推理過程。(C)中是知識圖譜空間的示例,其中綠色節點(實體)表示查詢語句的答案。粗體箭頭表示與(A)中的查詢圖匹配的子圖。D)中,KG的節點可以嵌入到向量空間中。然後根據計算圖(B)獲得查詢嵌入的執行操作:從兩個節點TuringAward和Canada開始,應用Win和Citizen投影運算子,然後是交集運算子(表示為黃色和橙色的陰影交集框)和另一個投影運算子,得到查詢的最終嵌入,是一個綠色框,查詢的答案是框內的實體。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖7  BETAE回答一階邏輯查詢的過程


BETAE是一種機率嵌入框架,用於回答KG上的任意一階邏輯(first-order logic, FOL)查詢,也是第一個可以處理一整套FOL運算的方法,涵蓋合取(∧)、析取(∨)和取反 (¬)操作。圖8顯示了查詢語句“給定查詢語句“List the presidents of European countries that have never held the World Cup”處理過程。該查詢可以表示為三個術語的結合:(1)“位於(歐洲,V)”,查詢所有歐洲國家;(2)“¬Held(World Cup, V)”,查詢所有從未舉辦過世界盃的國家;(3)“總統(V,V?)”,它找到給定國家的總統。為了回答這個查詢語句,首先定位實體“Europe”,然後透過關係“Located”遍歷KG以識別一組歐洲國家。實體“World Cup”也需要類似的操作來獲取主辦世界盃的國家。然後需要對第二組進行補充,以確定從未舉辦過世界盃的國家,並將補充與歐洲國家組相交。最後一步是將關係“President”應用於生成的交集,以找到國家總統列表,從而給出查詢答案。


2)基於路徑的方法

該方法將問題中的主題實體沿著多個KG三元組搜尋以找到答案實體或關係。其中很重要的是路徑排序演算法(Path Ranking Algorithm,PRA),PRA旨在透過直接在KG上自動學習語義推理規則來提高KG的覆蓋率。PRA使用基於重新啟動的推理機制的隨機遊走來執行多個有界深度優先搜尋過程以查詢關係路徑。結合基於彈性網路的學習,PRA然後使用監督學習選擇更合理的路徑。然而,PRA在完全離散的空間中執行,這使得評估和比較KG中的相似實體和關係變得困難。為了緩解PRA的搜尋空間大的問題,除了DeepPath、NSM的方法之外,還有其它一些研究工作圍繞將KG推理視為順序路徑決策過程來展開。


DeepPath是一種KG推理的強化學習(Reinforcement Learning,RL)方法,使用基於翻譯的知識嵌入方法來編碼RL代理的連續狀態,代理透過對關係進行取樣,透過增量步驟的方式擴充套件其路徑。為了更好地指導RL代理學習關係路徑,DeepPath使用策略梯度訓練和一個新穎的獎勵函式,以提升準確性、多樣性和效率。


NSM(Neural State Machine)採用師生網路來學習中間監督訊號,主要思想是訓練一個專注於多跳 KBQA 任務本身的學生網路,同時訓練另一個教師網路在中間推理步驟提供(偽)監督訊號(即我們任務中的推斷實體分佈) 改善學生網路。NSM主要由指令部分和推理部分組成。指令元件將指令向量傳送到推理元件,而推理元件推斷實體分佈並學習實體表示。


3)基於嵌入的方法

該方法透過評估問題嵌入和候選答案嵌入之間的相似性以獲得正確答案。比較應用廣泛的是EmbedKGQA方法,透過預訓練模型表示問題,並透過ComplEx表示知識圖嵌入,並透過ComplEx的評分函式選擇答案。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖8 EmbedKGQA概覽


如圖8所示,EmbedKGQA具有三個模組:

  • KG嵌入模組學習輸入KG中所有實體的嵌入;

  • 問題嵌入模組學習問題的嵌入;

  • 答案選擇模組透過結合問題和關係相似性分數來選擇最終答案。

EmbedKGQA使用嵌入使其更有效地處理KG稀疏性。此外,由於EmbedKGQA將所有實體都視為候選答案,因此它不會受到現有多跳KGQA方法的有限鄰域無法訪問問題的影響。

另外像關係圖卷積網路方法聚合KG中特定多重關係的嵌入來預測答案。當然,還有一些基於嵌入方法結合文字語料庫的研究也備受關注。
綜上可以看出,KGQA相對於IRQA可以處理更復雜的QA問題。同時,我們也看到,人們在日常資訊獲取過長中也不再滿足於提出一些簡單的問題,例如“COVID-19患者的臨床症狀是什麼?”。他們更傾向於表達複雜的多跳問題,比如“有哪些相關疾病與COVID-19症狀相似?”這樣的2跳問題,以及“如何檢查與COVID-19症狀相似的相關疾病?”的3跳問題。
引入KGQA,可以更大程度的滿足人們的日常資訊所求,提升人們獲取資訊的體驗和效率,值得投入更多資源進行深入地探索研究。


COVID-19 & KGQA

基於COVID-19資料集,引入KGQA方法可以回答涵蓋結構KG上的多個關係的複雜問題。此外,KGQA技術可以推理QA任務中的新知識。研究人員在不同方向上開展了大量的研究工作,也取得了挺好的進展。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖9 COVID-19 KG的模式


中國科學技術資訊研究所的Ding Kai等人研發了COVID-19 QA系統。首先是基於COVID-19資料集設計了KG的模式,如圖9所示,並從文字中抽取知識。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖10 QA系統處理流程


然後設計了一個基於規則的分類器,以識別當使用者輸入一個問題後的查詢意圖,接著,基於匹配模板的方式將問題轉化為Cypher查詢,最終從KG中找到答案並返回,整個過程如圖10所示。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖11 Covid-on-the-Web概覽


Covid-on-the-Web專案提供了較豐富的工具和資料,如圖11所示,透過調整和組合工具來處理、分析和豐富“COVID-19 開放研究資料集”(CORD-19),讓生物醫學研究人員能夠訪問、查詢和理解COVID-19相關文獻。CORD-19語料庫收集了50000多篇與冠狀病毒相關的全文科學文章。該資料集包含兩個主要知識圖譜,除了展示CORD-19語料庫中提到的命名實體,並連結到DBpedia、Wikidata和其他BioPortal詞彙表,還可以展示從ACTA提取的引數,旨在幫助臨床醫生分析臨床試驗並做出決定。另外,在這個資料集上,還提供了幾個基於Corese Semantic Web平臺、MGExplorer視覺化庫以及Jupyter Notebook技術的視覺化和探索工具。
達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖12 處理流程圖


北京林業大學的Sun Yuze等人研究並構建了一個基於知識圖譜的COVID-19問答系統。其問答功能是透過基於樸素貝葉斯演算法的模板匹配實現的。處理流程如圖12所示,對於輸入的問題,系統首先進行實體識別,利用實體型別標註結合實體相似度匹配來識別使用者問題中的實體。然後系統預測使用者的提問意圖,並使用訓練好的問題分類器預測類別數。最後利用Cypher查詢圖資料庫,生成並輸出答案。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖13 基於疾病知識圖譜的問答系統最佳化框架


吉林大學的李賀等人提出了一種基於疾病知識圖譜的自動問答系統最佳化策略,如圖13所示,在疾病知識圖譜構建的基礎上,結合AC多模式匹配演算法和語義相似度計算實現使用者自然語言提問中實體識別,綜合考慮構建知識圖譜的疾病資料集和問題語料的醫療高頻詞特徵確定系統要回答的問題類別,然後採用人工標註和AC多模式匹配演算法實現使用者問題類別和系統問題類別的匹配,最後透過將匹配的實體和問題類別封裝成分類字典方式轉換成資料庫查詢語言,獲取相關問題答案。其中COVID-19 知識圖譜的視覺化結果圖14所示。 


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖14 COVID-19知識圖譜(部分)


為了使框架不侷限於預定義的規則,航天工程大學的Pei Zhongmin等人提出了一種基於知識嵌入方法TranE的相對通用的QA框架,如圖15所示。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖15 中文領域KGQA框架


該框架由問題分析、答案推理和答案生成三部分組成。首先,問題分析模組透過遮蔽無效字元獲得問題實體和關係。然後,答案推理模組結合時序邏輯和排列組合策略計算可能實體的TransE嵌入。最後,答案生成模組計算知識圖中候選答案與實體的餘弦相似度,將推理路徑和答案實體返回給使用者。


在公共KG的基礎上,基於自然語言處理技術,已有一些KGQA系統,以幫助人們方便地獲取有關COVID-19的資訊。儘管這些QA系統是為COVID-19開發的,但它們無法為使用者的各種問題提供最佳解決方案。


現有方法如GRAFT-Net、PullNet等通常使用單獨的模型來表示知識圖譜和問題,帶來的問題是來自不同空間的異構嵌入需要適配到一個公共空間。此外,在當前的多跳KGQA任務中,如EmbedKGQA,表徵KG結構特徵的模式相關資訊已被忽略。作為重要的先驗知識的模式資訊,有助於搜尋指定型別的正確實體。更重要的是,公共COVID-19 KGs受到知識稀疏性的影響,尤其當這些知識是人們每天都希望獲得的,會進一步影響下游QA任務的質量和使用者體驗。 


COKG-QA

為了減輕人們對COVID-19大流行引起的健康問題諮詢方面的焦慮,我們提出COKG-QA(multi-hop Question Answering over COVID-19 Knowledge Graphs),如圖17所示,透過對EmbedKGQA模型的升級,以提高KGQA的效能。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖16 COKG-QA系統架構圖 


1.COKG-QA總體介紹

KG中的例項三元組可以表示為⟨h, r, t⟩,其中h表示頭實體,t表示由關係r連結的尾實體。給定一組實體E和關係R,G是一組三元組K,使得K ⊆ E × R × E。KGQA的任務是對於一個自然語言方式提問的問題q,搜尋 KG中的答案實體,包括基於KG上的多跳關係進行搜尋。受EmbedKGQA的啟發,在我們的方法中同樣使用了KG嵌入模組(KG Embedding Module )、問題嵌入模組(Question Embedding Module)和答案選擇模組(Answer Selection Module)。透過新增嵌入投影(Embedding Projection)和模式感知模組(Schema-Aware Module)在COKG-DATA上擴充套件EmbedKGQA。此外,在推理時新增了一個主題實體感知過濾器(Topic-Entity-Aware Filter)來預測僅與所討論的主題實體相關的答案實體。流程如圖17所示。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖17 COKG-QA流程圖


2.COKG-QA主要模組介紹

1)嵌入投影

將不同模型生成的嵌入視為異構的。與例項級別的三元組一樣,⟨s h, r, s t⟩ 是模式級別的三元組,其中s h代表頭型別,s t代表由關係r連結的尾型別。s h, s t ∈ E'的模式嵌入也透過ComplEx方法訓練以強化搜尋答案,但模式模型和例項模型是分開訓練的。更重要的是,問題嵌入是由預訓練模型RoBERTa產生的,它利用了另一種技術正規化。因此,這三個嵌入是異構的。儘管透過單獨的模型有助於保持模式、例項和問題的特徵,但很難在最終的 KGQA模型中對嵌入表示進行建模。全連線(Fully Connected, FC)線性層可以維護和投射遷移學習中的重要特徵,尤其是當源域和目標域完全不同時。因此,在轉移到一個公共空間之前對這些嵌入進行投影是合理的。我們分別定義了問題嵌入、實體嵌入、模式嵌入如式(1)(2)(3)所示。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統


其中 eq是問題嵌入, en是由例項三元組訓練得到的實體嵌入, e's-n是由模式級別三元組產生的實體型別嵌入。


2)模式感知模組

現有的KGQA方法只關注KG中的例項事實,忽略了模式中構造良好的先驗知識。模式包含一個知識圖譜的有價值的結構資訊,它定義了這些概念和概念的屬性。KG中的實體透過實體型別連結到它們相應的概念。透過引入模式感知模組將實體嵌入與相應的實體型別嵌入相結合,這將有助於過濾指定型別的答案實體。這足以讓模型瞭解主題實體的型別以及答案實體的型別。具體來說,問題中的主題實體表示和作為答案的尾部實體表示是透過新增相應的實體型別嵌入來構造的。使用RoBERTa嵌入的問題表示不能對模式級別的關係嵌入進行編碼,因為在實際應用中沒有問題的關係型別標籤。但是我們將實體型別與給定的問題連線起來,以暗示該問題與某個實體型別相關,如圖15中所示的輸入,具體表述如式(4)和(5)所示。

達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統


其中∅是ComplEx的評分函式, Eh是主題實體嵌入, E's-h是其對應的型別嵌入, Eâ表示正確的答案實體, Eh表示負樣的實體, σ E是答案實體集。所有這些嵌入都會透過嵌入投影模組進行轉換。


3)主題實體感知過濾器

因為我們收集的COKG-DATA非常大,所以需要新增一個過濾器來獲取主題實體相關的實體,包括像EmbedKGQA這樣的在推理時的1-hop、2-hop和3-hop實體,以預測更相關的答案實體。我們首先使用3-hop數在主題實體及其多跳實體之間進行對映,然後基於最佳訓練模型預測多跳實體之間的答案。


3.COKG-QA實驗

在表2所示,在COKG-DATA資料集上將EmbedKGQA和TransferNet與COKG-QA進行了準確率資料對比。COKG-QA在1-hop、2-hop、3-hop問題上的資料表現優於EmbedKGQA,而TransferNet在1-hop和2-hop問題上的表現優於COKG-QA。但是TransferNet在3-hop問題中的準確率最低。TransferNET關注問題的不同部分,在每一步搜尋對應的關係,這使得它對圖中每一跳關係的質量和數量都很敏感。因此,我們假設COKG-DA他的少量3-hop資料導致TransferNET效能不佳。然而,EmbedKGQA和COKG-QA都將多跳KGQA任務視為鏈路預測,在KG嵌入模組中將多跳關係作為單個關係。例如,“併發症||常用藥物||用法用量”、“藥物||藥物成分”和“注意事項”的每一個關係都被視為一個單一的關係,放在一個三元組中。因此COKG-QA避免了現實世界中非常普遍的資料不平衡問題,並對神經模型提出了挑戰。更重要的是,TransferNET計算複雜度高,記憶體儲存問題,因為它計算一個實體被多次啟用為答案實體的機率,這也會影響推理速度。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

表2 不同模型在COKG-DATA上的對比資料

 


新冠肺炎COKG-QA問答系統互動

透過大量實驗表明COKG-QA技術的卓越效能,同時我們也設計了一個基於COKG-QA的互動式Web QA應用系統。透過友好的互動設計以改善使用者體驗。

 

01 答案的可解釋性

與大多數直接給出答案的KGQA系統不同,我們的系統將解釋多跳問題的中間上下文,以使多跳問題的答案具有可解釋性。將透過計算ComplEx分數,根據最佳訓練模型推斷出答案。但是基於EmbedKGQA模型的答案是不可理解的。例如,2-hop問題“小兒顱內腫瘤推薦的藥物種類有哪些”的答案是“工傷的化學藥、處方藥和醫保藥”,這會給使用者帶來類似“與上述答案中提到的藥物型別相對應的相應推薦藥物是什麼?”。換句話說,人們不僅想得到最終的答案,還想弄清楚中間結果是什麼。所以我們提供了一個可以解釋的答案“小兒顱內腫瘤甘油果糖注射液的推薦藥物是化學藥物;小兒顱內腫瘤推薦用藥吡拉西坦葡萄糖注射液是醫保工傷用藥……”。

可解釋響應的過程如下:

  • 當QA系統收到多跳問題時,首先識別主題實體

  • 隨後,根據問題和識別出的頭部對分數進行排名,得到非直接尾部答案

  • 為了得到一個可解釋的最終答案,我們需要尋找中間關係,得到中間實體。過濾掉資料集中標記的具有相同標題和答案的問題和相應的多跳關係。此外,我們選擇與資料集中具有相同多跳關係或與使用者問題最相似的問題對應的可解釋答案作為最終答案


02 答案來源

我們用對應的URL給出答案的來源,幫助使用者追蹤上下文,這也增加了系統的可信度。我們系統的答案來源透過在選定的子圖中提供圖名來提供結果。如果使用者的問題涉及多個連結圖,則會顯示多個圖名稱。示例如圖18所示。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖18 COKG-QA系統中的使用者友好功能


03 使用反饋

我們設計了點贊和點踩按鈕來鼓勵使用者提供反饋,這些反饋將用於改進COKG-QA模型。當使用者給予正面反饋時,系統會隨機生成一個感謝句。當使用者點踩時,會彈出一個氣泡,併為使用者顯示三個選項:錯誤答案、不完整答案和自定義意見。自定義選項為使用者提供了靈活提出建議的空間,並進一步受益於提高 QA 系統的有效性。
 

04 易用性

許多醫學術語對於使用者來說並不常見或難以記住,例如疾病名稱和治療方法。自動輸入提示功能對於提高系統的可用性具有重要意義和實用性。我們的系統在很多場景下都支援自動補全。例如,使用者可以只使用一個單詞、拼音、多個單詞的首字母,甚至是模糊搜尋。輸入框中的提示可以擴大使用者查詢的焦點,幫助完成使用者想問的問題,如圖19所示。此外,我們的系統還可以推薦與主題實體相關的問題,讓使用者可以探索更多關於原始問題。


達觀資料聯合同濟大學釋出新冠肺炎知識圖譜資料集及智慧問答系統

圖19 COKG-QA系統的可用性 


以上是對圍繞新冠肺炎的多跳問答資料集和智慧問答技術的聯合研究成果的介紹。除此以外,達觀資料與同濟大學以聯合實驗室為契機,依託雙方產業與學術優勢,圍繞知識圖譜與語義計算,在人才培養、學術研究、技術研發、科技成果轉化等方面不斷深入探索,聯合申報了國家聯合基金專案、上海市人工智慧科技支撐專項等科研專案,聯合釋出了第二十一屆中國計算語言學大會(CCL 2022)技術評測任務-汽車工業故障模式關係抽取,開展了多場前沿技術在產業化化應用的會議交流,實現多領域、多層級深入合作,共同引領知識圖譜與語義計算領域技術創新以及產業化程式。



圖20 左:著名知識圖譜專家、同濟大學百人計劃、設計創意學院特聘研究員王昊奮教授 右:達觀資料CEO陳運文



   參考文獻:

[1] Du H, Le Z, Wang H, et al. COKG-QA: Multi-hop question answering over COVID-19 knowledge graphs[J]. Data Intelligence, 2022, 4(3): 471-492.

[2] Zhang Y, Zhang X, Hu Y, et al. Wulai-qa: Web understanding and learning with ai towards document-based question answering against covid-19[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 898-901.

[3] Su D, Xu Y, Yu T, et al. CAiRE-COVID: A question answering and query-focused multi-document summarization system for COVID-19 scholarly information management[J]. arXiv preprint arXiv:2005.03975, 2020.

[4] Lee J, Yi S S, Jeong M, et al. Answering questions on COVID-19 in real-time[J]. arXiv preprint arXiv:2006.15830, 2020.

[5] Ding K, Han H, Li L, et al. Research on question answering system for covid-19 based on knowledge graph[C]//2021 40th Chinese Control Conference (CCC). IEEE, 2021: 4659-4664.

[6] Michel F, Gandon F, Ah-Kane V, et al. Covid-on-the-Web: Knowledge graph and services to advance COVID-19 research[C]//International Semantic Web Conference. Springer, Cham, 2020: 294-310.

[7] Sun H, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[J]. arXiv preprint arXiv:1809.00782, 2018.

[8] Li He, Liu Jiayu, Li Shiyu,et al. Optimizing Automatic Question Answering System Based on Disease Knowledge Graph[J]. Data Analysis and Knowledge Discovery, 2021, 5(5): 115-126.

[9] Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proceedings of the 58th annual meeting of the association for computational linguistics. 2020: 4498-4507.

[10] Reese J T, Unni D, Callahan T J, et al. KG-COVID-19: a framework to produce customized knowledge graphs for COVID-19 response[J]. Patterns, 2021, 2(1): 100155.

[11] Pei Z, Zhang J, Xiong W, et al. A General Framework for Chinese Domain Knowledge Graph Question Answering Based on TransE[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1693(1): 012136.

[12] Hamilton W, Bajaj P, Zitnik M, et al. Embedding logical queries on knowledge graphs[J]. Advances in neural information processing systems, 2018, 31.

[13] Ren H, Hu W, Leskovec J. Query2box: Reasoning over knowledge graphs in vector space using box embeddings[J]. arXiv preprint arXiv:2002.05969, 2020.

[14] Ren H, Leskovec J. Beta embeddings for multi-hop logical reasoning in knowledge graphs[J]. Advances in Neural Information Processing Systems, 2020, 33: 19716-19726.

[15] He G, Lan Y, Jiang J, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 553-561.

[16] Xiong W, Hoang T, Wang W Y. Deeppath: A reinforcement learning method for knowledge graph reasoning[J]. arXiv preprint arXiv:1707.06690, 2017.

[17] Shi J, Cao S, Hou L, et al. TransferNet: An effective and transparent framework for multi-hop question answering over relation graph[J]. arXiv preprint arXiv:2104.07302, 2021.

[18] Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//International conference on machine learning. PMLR, 2016: 2071-2080.


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2926691/,如需轉載,請註明出處,否則將追究法律責任。

相關文章