論文淺嘗 | 區分概念和例項的知識圖譜嵌入方法

開放知識圖譜發表於2019-01-19

640?wx_fmt=png

連結:https://arxiv.org/pdf/1811.04588.pdf

 

知識圖譜的表示學習最近幾年被廣泛研究,表示學習的結果對知識圖譜補全和資訊抽取都有很大幫助。本文提出了一種新的區分概念和例項的知識圖譜表示學習方法,將上下位關係與普通的關係做了區分,可以很好的解決上下位關係的傳遞性問題,並且能夠表示概念在空間中的層次與包含關係。本文的主要貢獻有三點:(1)第一次提出並形式化了知識圖譜嵌入過程中概念與例項區分的問題。(2)提出了一個新的嵌入模型TransC模型,該模型區分了概念與例項,並能處理isA關係的傳遞性。(3)基於YAGO新建了一個用於評估的資料集。


Background

傳統的表示學習方法沒能區分概念(concept)和例項(instance)之間的區別,而是多數統一看作實體(entity),而概念顯然和例項不是同一個層次的,統一的表示是有欠缺的。更重要的是,之前的方法多數無法解決上下位關係傳遞性的問題,這是不區分概念和例項表示的弊端。本文創造性的將概念表示為空間中的一個球體,例項為空間中的點,通過點和球體的空間包含關係和球體間的包含關係來表示上下位關係,這種表示可以很自然地解決上下位關係傳遞性的問題。下圖是一個區分了概念,例項的層次關係圖。

640?wx_fmt=png

Model

通常在人們的腦海裡,概念都是通過層級的方式組織起來的,而例項也應歸屬於與它們各自對應的概念,受此啟發,本文提出了 TransC 模型來處理概念和例項區分的問題。在 TransC 模型裡,每一個概念都被表示成一個球體,而每一個例項都被表示到與對應概念相同的語義空間中。概念與例項以及概念與概念之間的相對位置分別通過 instanceOf 關係與 subClassOf 關係來刻畫。InstanceOf 關係用來表示某個例項是否在概念所表示的球體中,subClassOf 關係用來表示兩個概念之間的相對位置,文中提出了四種可能的相對位置:

640?wx_fmt=png

1

如圖1所示,(a)、(b)、(c)、(d)分別表示兩個概念所表示球體的相對位置,其中m為球體半徑,d 為兩個球體中心的距離,SiSj 分別表示概念i與概念j所表示成的球體。對於 instanceOf 關係與 subClassOf 關係,文中有比較巧妙的設計以便保留 isA 關係的傳遞性,即 instanceOf-subClassOf 的傳遞性通過640?wx_fmt=png來體現,而 subClassOf-subClassOf 的傳遞性通過640?wx_fmt=png來體現,其中 (i, r_e, c) 表示InstanceOf三元組,(c_i, r_c, c_j) 表示SubClassOf三元組。

文中設計了不同的損失函式去度量embedding空間中的相對位置,然後用基於翻譯的模型將概念,例項以及關係聯合起來進行學習。在文中主要有三類triple,所以分別定義了不同的損失函式。

    InstanceOf Triple表示:對於一個給定的 instanceOf triple,如果它是正確的,那麼i就應該被包含在概念c所表示的球體s裡。而實際上,除了被包含以外,很顯然還有一種相對位置就是例項i在球體sP,m)之外,損失函式設計為:640?wx_fmt=png

    SubClassOf Triple表示:對於一個給定的 subClassOf triple (c_i, r_c, c_j) ,首先定義兩個球中心之間的距離:640?wx_fmt=png按照圖1所示的四種關係,還有另外三種損失函式需要定義。(1)按照圖1中(b)表示的相對位置,兩個球是分開的,損失函式表示為:640?wx_fmt=png2)兩個球相交,如圖1中(c)所示,損失函式表示為640?wx_fmt=png,與(1)類似。(3)完全包含關係,如圖1中(d)所示,損失函式表示為:640?wx_fmt=png(減小mj,增大mi

    Relational Triple 表示:對於一個relational triple (h, r, t) TransC利用TransE模型的訓練方式來得到實體和關係的向量,所以損失函式定義為:640?wx_fmt=png

    對於模型的訓練,分別用640?wx_fmt=png640?wx_fmt=png來表示正確和錯誤的三元組,根據以上幾類損失函式,可以對應得到以下幾類損失:

對於instanceOf triples,損失表示為640?wx_fmt=png,對於subClassOf triples,損失表示為640?wx_fmt=png,對於 relational triples,損失表示為640?wx_fmt=png,最後,模型的最終損失函式為以上幾類損失的線性組合,即640?wx_fmt=png

Experiment

以往的大多數模型都用FB15KWN18來作為評估的資料集,但這兩個資料集並不很適合文中的模型,而YAGO資料集不僅含了許多概念而且還有不少例項,所以作者構建了一個YAGO資料集的子集YAGO39K來用作試驗評估。

實驗分別在連結預測,三元組分類以及instanceOfsubClassOf關係的三元組分類這幾項任務上進行,實驗結果如下:

   連結預測與三元組分類結果:

640?wx_fmt=png

instanceOf triple分類結果:

640?wx_fmt=png

subClassOf triple分類結果:

640?wx_fmt=png

實驗結果表明,TransC模型在相關任務上與其它模型相比有較為顯著的提升。

 

Conclusion

本文從Ontology層面對知識表示學習進行了較為深入的研究,提出了新的知識圖譜嵌入模型TransC模型,該模型將例項、概念以及關係嵌入到同一個空間中以便用來處理isA關係的傳遞性。在實驗部分,作者還建立了一個用來評估模型的新資料集YAGO39K。實驗結果表明TransC模型在大多數任務上要優於傳統的翻譯模型。對於文中將概念表示成球體的想法似乎還可以繼續探討,作者將會繼續尋找適合表示概念的方式。另外,每個概念在不同的三元組裡可能會有不同的表示,如何進一步地將概念的多意性表達出來也是一個值得探究的方向。在傳統的知識工程領域,知識是通過schema組織起來的,有較強的邏輯性,但在語義計算層面相比向量來說沒有優勢,最近有不少將二者相結合的工作(給語義的向量計算披上邏輯的外衣)值得關注一下。

 

論文筆記整理:張良,東南大學博士,研究方向為知識圖譜,自然語言處理。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

640?wx_fmt=jpeg

點選閱讀原文,進入 OpenKG 部落格。

相關文章