知識圖譜學習記錄--知識圖譜概述

qq_35755674發表於2020-12-19

僅此記錄本人在知識圖譜學習路上的筆記,僅供參考
參照書目為《知識圖譜概念與技術》肖仰華等著

知識圖譜概述

本文主要包含以下內容:…

知識圖譜的基本概念

知識圖譜(Knowledge Graph)概念由Goole公司從2012年提出,隨著大資料人工智慧技術的飛速發展,知識圖譜技術發展迅速,其內涵也越來越豐富。
狹義的知識圖譜特指一類知識表示,本質上是一種大規模語義網路。而廣義的知識圖譜是大資料知識工程一系列技術的總稱,在一定程度上指代大資料知識工程這一新興學科。
“知識圖譜”剛提出時是Goole為了支撐其語義搜尋而建立的知識庫。而隨著知識圖譜技術應用的神話,知識圖譜已經成為大資料時代最重要的知識表示形式。作為一種知識表示形式,知識圖譜是一種大規模語義網路,包含實體、概念及其之間的各種語義關係。 舉個例子,我,陳某作為一個實體,我是一名學生,學生就是一個概念。
知識圖譜本質上是語義網路;且其規模巨大,這是知識圖譜與傳統語義網路的根本區別。
語義網路是一種以圖形化的形式通過點和邊表達知識的方式,點和邊為其基本組成元素。語義網路中的可以是實體、概念和值。簡要介紹這三個概念的意思。
實體也可以稱為物件(Object)和例項(Instance)。實體是概念的例項。關於實體的定義在學術界內至今都沒有形成共識。這裡用黑格爾的一句話“能夠獨立存在的,作為一切屬性的基礎和萬物本源的東西”來分析。簡單說就是不對其他東西產生依賴就能存在。比如說體重,僅僅說體重是沒有意義的,它需要具體到某一個人,作為這個人的屬性而存在;單純的學生也是沒有意義的,它是一個概念,它們都需要一個明確指向,某學生陳某的體重,這樣的指向才是有意義的。
概念概念又被稱為類別、類等。比如“學生”不是指特定一個人,一類人,這一類人有著相同或相似的描述模板,從而構成一個概念。概念是一些資訊概念化或者範疇化後的產物,比如我在健身房的一系列動作顯然和健身這一概念相關。範疇主要指將特定實體歸類到相應類別的過程,比如,我可以歸類到研究生這一類別中。
每個實體都具有一定的屬性值。它可以是任何型別的資料。比如我的身高是1.73米,我國國土面積為960萬平方千米,這屬於數值型別;今天是2020年某月某日,這是日期型別;我的英文名是abcdefg,這是文字型別,等等。
知識圖譜中的可以分為屬性與關係兩類。屬性描述實體某方面的特性,是人們認知世界、描述世界的基礎。 當實體的屬性仍是實體時,該屬性實質上就是關係,因此關係可以認為是一類特殊的屬性。 很多應用中並未將屬性和關係作區分,都是混合使用。關係對於知識圖譜上的多步遍歷以及沿著語義關係的長程推理十分重要。顯然知識的推理必然會結束,當知識圖譜上的推理操作遇到一個屬性時,意味著此次推理的結束。 比如想知道我的姐姐的職業,需要在知識圖譜中從我沿著姐弟關係找到我姐姐,再沿著職業這個屬性找到答案。

前面經常提到語義網路,那麼知識圖譜和傳統的語義網路有什麼區別?這個問題解釋了知識圖譜的存在價值。知識圖譜和傳統語義網路最明顯的區別是其規模巨大,此外還有其語義更豐富、質量更精良、結構更友好等特性上。這些有點也會導致一些缺點:高質量模式缺失(提升知識圖譜的規模往往會付出質量方面的代價)、封閉世界假設不再成立(CWA,其認為資料庫或知識庫中不存在或為觀測到的事實都為不成立的事實,而實際上缺失的事實並非是假的)、大規模自動化知識獲取成為前提(知識圖譜規模巨大,實現需要依賴自動化知識獲取)。
除了語義網路外,知識圖譜和本體的區別也是值得分析的。本體刻畫了人們認知一個領域的基本框架,側重於對存在進行規定和刻畫,其提出的動機是為了知識的共享與複用以及資料的互聯和互通。本體一般是不包含資料例項的框架,而知識圖譜包含實大量實體與關係的例項,因此在建設知識圖譜的初期,模式的定義實質上是在完成本體定義的任務。

知識圖譜的歷史沿革

以知識圖譜為代表的大資料知識工程的產生具有歷史必然性。
早期的人工智慧專家認為機器和人工智慧的本質都是符號的操作和運算。傳統知識工程解決的都是具有規則明確、應用封閉的特點,比如幾何定理證明。這一侷限性歸根結底是由於其對人為干預的嚴重依賴。這意味著傳統的專家系統需要藉助大量的人力參與。以下是傳統知識工程的侷限性:隱性知識和過程知識等難以表達(很多知識從根本上是很難表徵的)、知識表達的主觀性與不一致性(每個人對知識的表示都帶有主觀因素,因此會導致不一致)、知識難以完備(開放性應用的知識無窮無盡)、知識更新困難(知識具有時效性,如我是學生這一事實是在我畢業前才有效,能否及時更新關係到知識庫在實際應用中是否有效)。
傳統知識工程在知識表示與獲取方面的祝福哦缺陷限制了知識應用的效果。這一結果的根本原因在於,傳統知識工程難以適用於開放性應用(只要應用不是絕對封閉的,開放性應用很容易超出預先設定的知識庫邊界)。而常識的需求也使傳統知識工程應用愈發困難。常識使每個人都熟知的難以言表的知識(關於常識定義問題仍存在爭議)。比如一個人要麼是男人要麼是女人。但是機器不知道,這就導致機器的知識難以和人的思考達到相似的效果。
如今的網際網路具有規模巨大、精度要求相對不高(搜尋引擎不需要保證每個關鍵詞檢索都為100%正確的)、知識推理簡單(搜一個x教授,系統給我們推薦其代表論文等資訊,這是因為x教授因其學術造詣而聞名)三個特點,這也導致其很容易超出專家預設好的知識庫邊界。為了解決該問題,知識圖譜出現宣告了只是共同工程進入大資料時代,這也給知識圖譜的發展帶來了新的機遇。具體表現在三個方面:1)資料、算力和模型的飛速發展使得大規模自動化知識獲取稱為可能。2)眾包技術使得知識的規模化驗證成為可能。3)高質量的使用者生成內容提供了高質量知識庫來源。大資料知識工程勢必承擔起突破傳統知識工程在知識庫規模與質量等方面的瓶頸和歷史使命。

知識圖譜的研究意義

知識圖譜的研究價值體現在它是實現認知智慧的基石。其重要性主要體現在三個方面:1)知識圖譜使能機器語言認知。自然語言有歧義性、多樣性,語義理解有模糊性和上下文依賴性。人類的語言理解是建立在認知能力基礎上的。我們和一個西方人將中文笑話,他們聽不懂,反過來他們和我們講我們也體會不到幽默之處,這是背景知識不同導致的,因此機器理解自然語言也需要背景知識。2)知識圖譜賦能可解釋人工智慧。 人們搜尋一個“如何”、“為什麼”和“怎麼做”的問題時,需要的是機器解釋這一具體事件的完整過程或其中的緣由,而不是僅僅需要一個答案。比如我搜尋如何從廣州去北京,結果應該告訴我從何地以何種的方式(火車、汽車、飛機等)坐幾號運輸工具到何地下及它們所需的花費,這是智慧的非常重要的體現。知識圖譜的出現使這些描述成為可能。比如我們認為鳥會飛是因為它有翅膀,這是在用關係解釋其會飛的原因。這體現人類在用概念、屬性、關係這些基本認知去解釋現象和事實3)知識有助於增強機器學習的能力。 一隻貓和狗,想要判斷需要大量資料訓練。而我們學習高效使我們能夠適應開放環境。這意味著我們的學習不是從零開始的,因為人類擅長結合豐富的先驗知識展開學習

知識圖譜的應用價值

機器智慧化的過程本質上是人腦不斷解放的過程,我們的目的就是讓機器像人一樣思考,人工智慧的廣泛應用也對知識圖譜提出了不一樣的需求。
資料分析:大資料的精準和精細分析需要知識圖譜。精準體現在準確性上,在機器缺乏背景知識的情況下這種精準難以實現。之前比較火的王寶強離婚案發生前,某平臺熱搜前三的關鍵詞為‘王寶強’,‘王寶寶’,‘寶強’,顯然這三者都是同一人,由於機器缺乏我們人類的背景知識,他不知道這三者為同一人,所以達不到精準分析的目的。而精細分析是另一個重要領域,這能讓我們更深入瞭解所搜尋的資訊。
智慧搜尋:智慧搜尋需要知識圖譜。體現在精準的搜尋意圖理解、搜尋物件複雜化和多元化、搜尋力度多元化、跨媒體協同搜尋。
智慧推薦:智慧推薦需要知識圖譜。主要體現在場景化推薦、冷啟動階段下的推薦、跨領域推薦。
此外還有自然人機互動決策支援(為決策提供深層、潛藏關係的發現和推理)。

知識圖譜的分類

知識圖譜中的知識可分為事實知識、概念知識、詞彙知識、常識知識。
知識圖譜的領域可分為行業知識圖譜(DKG)和通用知識圖譜(GKG),從範圍上可以簡單地認為DKG的範疇擴大後即為GKG。其區別主要體現在知識表示、知識獲取和知識應用三個層面。如下表所示。

DKGGKG
知識表示廣度
深度
粒度
知識獲取質量要求苛刻
專家參與重度輕度
自動化程度
知識應用推理鏈條
應用複雜性複雜簡單

GKG和DKG的關係密切,主要體現在:1)隱喻知識是通過隱喻或者類比從通用只是發展而來的。2)GKG和DKG相互支撐。一方面,GKG可以給DKG提供高質量的種子事實,GKG可以提供領域模式。DKG建立後也可以反哺GKG。
最後是關於一些典型的具有代表性的知識圖譜,就不再贅述。

相關文章