知識圖譜01:知識圖譜的定義

大雄沒有叮噹貓發表於2020-10-05
公眾號:資料探勘與機器學習筆記

知識圖譜(knowledge graph)是以圖的形式表現客觀世界中的實體(概念、人、事物)及其之間的關係的知識庫。2012年,谷歌提出了知識圖譜的概念,自此,知識圖譜得到了廣泛的關注和應用研究,現已發展成為語義搜尋、智慧問答、決策支援等智慧服務的基礎技術一。

知識圖譜是以圖的形式表現客觀世界中的實體(概念)及其之間關係的知識庫. 知識圖譜的研究起源
於語義Web. 在2000年的XML大會上, Tim Berners Lee提出了語義Web的理念, 目標是為Web網頁新增語義, 支援機器自動處理, 以提供諸如資訊代理、搜尋代理、資訊過濾等語義服務. 此後, 網際網路逐步從僅包含網頁與網頁之間超連結的文件全球資訊網轉變為包含大量描述各種實體和實體之間豐富關係的資料全球資訊網.基於關鍵詞的傳統搜尋引擎技術也逐漸開始新增語義搜尋功能. 2005年, 美國Metaweb公司成立, 致力於開發用於Web語義服務的開放共享的世界知識庫.Metaweb基於諸如維基百科、美國證券交易委員會等的公開資料集, 提取現實世界中的實體(人或事物)及其之間的關係, 然後以圖結構儲存在計算機中. 2010年穀歌收購了Metaweb, 獲得其語義搜尋技術, 並於2012年提出知識圖譜的概念.

1.知識圖譜相關概念

1.1 本體與知識圖譜

本體(ontology)是共享概念模型的顯式說明[1], 描述概念與概念間的關係; 是語義Web的關鍵技術, 用於為Web網頁新增語義. 語義Web理念中的本體與知識圖譜, 二者密切相關. 本體描述概念及概念間的關係,是大多數知識圖譜的模式層, 是知識圖譜的概念模型和邏輯基礎.

知識圖譜與本體的相同之處和不同之處:

同:二者都通過定義後設資料以支援語義服務;都可以使用RDFS、OWL等描述語言來定義;二者涉及到的關鍵技術也相似:實體抽取、關係抽取、語義解析、知識儲存、融合方法等。

異:知識圖譜更靈活,支援通過新增自定義的標籤劃分事物的類別;本體側重概念模型的說明, 能對知識表示進行概括性、抽象性的描述, 強調的是概念以及概念之間的關係. 知識圖譜更側重描述實體關係, 在實體層面對本體進行大量的豐富與擴充.

可以認為, 本體是知識圖譜的抽象表達, 描述知識圖譜的上層模式; 知識圖譜是本體的例項化, 是基於本體的知識庫。

1.2 知識地圖

知識地圖(knowledge map)將特定組織內的知識索引通過“地圖”的形式串聯在一起,
揭示相關知識資源的型別、特徵以及相互關係[4,5],知識地圖的主要功能在於實現知識的快速檢索、共享和再重用, 充分有效地利用知識資源[6]. 知識地圖是關於知識的來源的知識
[7]. 知識並非儲存在知識地圖中, 而是儲存在知識地圖所指向的知識源中. 知識地圖指向的知識源包含資料庫、檔案以及擁有豐富隱性知識的專家或員工.

1.3 科學知識圖譜

科學知識圖譜(mapping knowledge domain)是用來顯示知識演化程式和知識結構的圖形化與序列化的知識譜系[8].

image-20201005203330219

2. 知識圖譜的構成

知識圖譜由資料層(data layer)和模式層(schema layer)兩部分構成

2.1 模式層

模式層是知識圖譜的概念模型和邏輯基礎, 對資料層進行規範約束. 多采用本體作為知識圖譜的模式層, 藉助本體定義的規則和公理約束知識圖譜的資料層. 也可將知識圖譜視為例項化了的本體, 知識圖譜的資料層是本體的例項. 如果不需支援推理, 則知識圖譜(大多是自底向上構建的)可以只有資料層而沒有模式層. 在知識圖譜的模式層, 節點表示本體概念, 邊表示概念間的關係.

2.2 資料層

在資料層, 事實以“實體-關係-實體”或“實體-屬性-屬性值”的三元組儲存, 形成一個圖狀知識庫. 其中, 實體是知識圖譜的基本元素, 指具體的人名、組織機構名、地名、日期、時間等. 關係是兩個實體之間的語義關係, 是模式層所定義關係的例項. 屬性是對實體的
說明, 是實體與屬性值之間的對映關係. 屬性可視為實體與屬性值之間的hasValue關係, 從而也轉化為以“實體-關係-實體”的三元組儲存. 在知識圖譜的資料層, 節點表示實體, 邊表示實體間關係或實體的屬性.

3. 知識圖譜的分類

3.1 構建過程是否依賴自動抽取技術

  • 早期的本體,如WordNet、CYC、HowNet等

    大多由專業人士手工構建, 規模較小; 但其知識質量高, 能夠確保準確性與完整性

  • 從開放的網際網路資訊中自動抽取實體與關係構建的, 如YAGO、DBPedia等

    規模大; 但因其資料來源的複雜多樣及自動抽取演算法的不完全準確, 可能會有大量不完整資訊、噪聲等.

3.2 覆蓋範圍

  • 通用知識圖譜

    通用知識圖譜(generic knowledge graph)描述全面的常識性的知識, 主要應用於語義搜尋, 對知識的準確度要求不高, 如百科類的DBpedia、zhishi.me和語言學類
    的WordNet、大詞林等. 通用知識圖譜強調知識的廣度, 大多采用自底向上的方式構建, 側重實體層的擴充,因此也導致其大部分較難構建規範的本體層。

  • 行業知識圖譜

    面向特定領域, 能夠進行知識推理, 實現輔助分析及決策支援等功能, 如
    GeoNames[22]、中醫醫案知識圖譜等. 行業知識圖譜對專業性與準確度的要求高, 這也要求其必須有嚴格的本體層模式, 通常採用自底向上與自頂向下結合的方式進行構建.

image-20201005204644925

image-20201005204709859

image-20201005204746716

image-20201005204810735

上述內容主要來源於文獻[1]

參考:

[1]黃恆琪,于娟,廖曉,席運江.知識圖譜研究綜述.計算機系統應用,2019,28(6):1–12. http://www.c-s-a.org.cn/1003-3254/6915.html

在這裡插入圖片描述

相關文章