論文淺嘗 | 區分概念和例項的知識圖譜嵌入方法
連結:https://arxiv.org/pdf/1811.04588.pdf
知識圖譜的表示學習最近幾年被廣泛研究,表示學習的結果對知識圖譜補全和資訊抽取都有很大幫助。本文提出了一種新的區分概念和例項的知識圖譜表示學習方法,將上下位關係與普通的關係做了區分,可以很好的解決上下位關係的傳遞性問題,並且能夠表示概念在空間中的層次與包含關係。本文的主要貢獻有三點:(1)第一次提出並形式化了知識圖譜嵌入過程中概念與例項區分的問題。(2)提出了一個新的嵌入模型TransC模型,該模型區分了概念與例項,並能處理isA關係的傳遞性。(3)基於YAGO新建了一個用於評估的資料集。
Background
傳統的表示學習方法沒能區分概念(concept)和例項(instance)之間的區別,而是多數統一看作實體(entity),而概念顯然和例項不是同一個層次的,統一的表示是有欠缺的。更重要的是,之前的方法多數無法解決上下位關係傳遞性的問題,這是不區分概念和例項表示的弊端。本文創造性的將概念表示為空間中的一個球體,例項為空間中的點,通過點和球體的空間包含關係和球體間的包含關係來表示上下位關係,這種表示可以很自然地解決上下位關係傳遞性的問題。下圖是一個區分了概念,例項的層次關係圖。
Model
通常在人們的腦海裡,概念都是通過層級的方式組織起來的,而例項也應歸屬於與它們各自對應的概念,受此啟發,本文提出了 TransC 模型來處理概念和例項區分的問題。在 TransC 模型裡,每一個概念都被表示成一個球體,而每一個例項都被表示到與對應概念相同的語義空間中。概念與例項以及概念與概念之間的相對位置分別通過 instanceOf 關係與 subClassOf 關係來刻畫。InstanceOf 關係用來表示某個例項是否在概念所表示的球體中,subClassOf 關係用來表示兩個概念之間的相對位置,文中提出了四種可能的相對位置:
圖1
如圖1所示,(a)、(b)、(c)、(d)分別表示兩個概念所表示球體的相對位置,其中m為球體半徑,d 為兩個球體中心的距離,Si 與 Sj 分別表示概念i與概念j所表示成的球體。對於 instanceOf 關係與 subClassOf 關係,文中有比較巧妙的設計以便保留 isA 關係的傳遞性,即 instanceOf-subClassOf 的傳遞性通過來體現,而 subClassOf-subClassOf 的傳遞性通過來體現,其中 (i, r_e, c) 表示InstanceOf三元組,(c_i, r_c, c_j) 表示SubClassOf三元組。
文中設計了不同的損失函式去度量embedding空間中的相對位置,然後用基於翻譯的模型將概念,例項以及關係聯合起來進行學習。在文中主要有三類triple,所以分別定義了不同的損失函式。
InstanceOf Triple表示:對於一個給定的 instanceOf triple,如果它是正確的,那麼i就應該被包含在概念c所表示的球體s裡。而實際上,除了被包含以外,很顯然還有一種相對位置就是例項i在球體s(P,m)之外,損失函式設計為:
SubClassOf Triple表示:對於一個給定的 subClassOf triple (c_i, r_c, c_j) ,首先定義兩個球中心之間的距離:按照圖1所示的四種關係,還有另外三種損失函式需要定義。(1)按照圖1中(b)表示的相對位置,兩個球是分開的,損失函式表示為:(2)兩個球相交,如圖1中(c)所示,損失函式表示為,與(1)類似。(3)完全包含關係,如圖1中(d)所示,損失函式表示為:(減小mj,增大mi)
Relational Triple 表示:對於一個relational triple (h, r, t) ,TransC利用TransE模型的訓練方式來得到實體和關係的向量,所以損失函式定義為:
對於模型的訓練,分別用和來表示正確和錯誤的三元組,根據以上幾類損失函式,可以對應得到以下幾類損失:
對於instanceOf triples,損失表示為,對於subClassOf triples,損失表示為,對於 relational triples,損失表示為,最後,模型的最終損失函式為以上幾類損失的線性組合,即。
Experiment
以往的大多數模型都用FB15K和WN18來作為評估的資料集,但這兩個資料集並不很適合文中的模型,而YAGO資料集不僅含了許多概念而且還有不少例項,所以作者構建了一個YAGO資料集的子集YAGO39K來用作試驗評估。
實驗分別在連結預測,三元組分類以及instanceOf與subClassOf關係的三元組分類這幾項任務上進行,實驗結果如下:
連結預測與三元組分類結果:
instanceOf triple分類結果:
subClassOf triple分類結果:
實驗結果表明,TransC模型在相關任務上與其它模型相比有較為顯著的提升。
Conclusion
本文從Ontology層面對知識表示學習進行了較為深入的研究,提出了新的知識圖譜嵌入模型TransC模型,該模型將例項、概念以及關係嵌入到同一個空間中以便用來處理isA關係的傳遞性。在實驗部分,作者還建立了一個用來評估模型的新資料集YAGO39K。實驗結果表明TransC模型在大多數任務上要優於傳統的翻譯模型。對於文中將概念表示成球體的想法似乎還可以繼續探討,作者將會繼續尋找適合表示概念的方式。另外,每個概念在不同的三元組裡可能會有不同的表示,如何進一步地將概念的多意性表達出來也是一個值得探究的方向。在傳統的知識工程領域,知識是通過schema組織起來的,有較強的邏輯性,但在語義計算層面相比向量來說沒有優勢,最近有不少將二者相結合的工作(給語義的向量計算披上邏輯的外衣)值得關注一下。
論文筆記整理:張良,東南大學博士,研究方向為知識圖譜,自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點選閱讀原文,進入 OpenKG 部落格。
相關文章
- 整合文字和知識圖譜嵌入提升RAG的效能
- 01 知識圖譜概論
- KDD 2019 | JOIE:聯合知識圖譜例項和本體概念的通用表示學習
- Go知識圖譜討論帖Go
- 知識圖譜|知識圖譜的典型應用
- 知識圖譜01:知識圖譜的定義
- 關於知識圖譜,各路大神最近都在讀哪些論文?
- 知識圖譜學習記錄--知識圖譜概述
- 知識圖譜之知識表示
- 【知識圖譜】 一個有效的知識圖譜是如何構建的?
- 領域綜述 | 知識圖譜概論(一)
- go 知識圖譜Go
- OI知識圖譜
- 知識圖譜技術的新成果—KGB知識圖譜介紹
- [知識圖譜構建] 一.Neo4j圖資料庫安裝初識及藥材供應圖譜例項資料庫
- 知識圖譜和行業領域的結合產物-KGB知識圖譜介紹行業
- 論文入選 CCNIS 2020 | 基於知識圖譜的威脅識別詳解
- 知識圖譜的應用
- 5篇頂會論文帶你瞭解知識圖譜最新研究進展
- 近期知識圖譜頂會論文推薦,你都讀過哪幾篇?
- 知識圖譜的知識從哪裡來
- 知識圖譜學習
- Http/2知識圖譜HTTP
- 開源知識圖譜
- 知識圖譜應用
- NLP知識總結和論文整理
- 解碼知識圖譜:從核心概念到技術實戰
- ACL 2019開源論文 | 基於Attention的知識圖譜關係預測
- 知識圖譜的發展概述
- 知識圖譜入門——知識表示與知識建模
- KGB知識圖譜的功能和特色介紹
- 美團大腦:知識圖譜的建模方法及其應用
- 學習筆記 - 知識圖譜的符號表示方法筆記符號
- KGB知識圖譜,利用科技解決傳統知識圖譜問題
- 知識圖譜丨知識圖譜賦能企業數字化轉型
- 【知識圖譜】知識圖譜實體連結無監督學習框架框架
- 大規模圖嵌入 | 論文快訊
- 論文研究區域圖的製作方法:ArcGIS