知識圖譜的發展概述

哈工大SCIR發表於2017-10-16

作者:哈工大SCIR博士生薑天文

“知識圖譜(Knowledge Graph)”的概念由Google公司在2012年提出[1],是指其用於提升搜尋引擎效能的知識庫。與近年來其他學者相同,本文中的“知識圖譜”泛指知識庫專案,而非特指Google的知識圖譜專案。

知識圖譜的出現是人工智慧對知識需求所導致的必然結果,但其發展又得益於很多其他的研究領域,涉及專家系統、語言學、語義網、資料庫,以及資訊抽取等眾多領域,是交叉融合的產物而非一脈相承。

知識圖譜的發展概述

圖1 多領域共同促進知識圖譜發展  

知識圖譜的早期發展

早在上個世紀70年代,專家系統(Expert Systems)作為人工智慧的重要分支,是指利用知識和推理過程來解決那些藉助人類專家知識才能得已解決的問題的計算機程式[2]。八十年代,專家系統的發展激增,日本的五代機專案就是在這期間開始的,專家系統是其核心部分。專家系統一般由兩部分組成:知識庫與推理引擎。人類專家提供知識,再將這種顯式的知識對映並儲存到知識庫中用來推理。

Cyc是這一期間較為出色的專案[3],由Douglas Lenat在1984年設立,旨在收集生活中常識知識並將其編碼整合到一個全面的本體知識庫。Cyc知識庫中的知識使用專門設計的CycL進行表示。同其他專家系統一樣,Cyc不僅包括知識,而且提供了非常多的推理引擎,支援演繹推理和歸納推理。目前Cyc知識庫涉及50萬條概念的500萬條常識知識。OpenCyc是其開放出來免費供大眾使用的部分知識,包括24萬條概念的約240萬條常識知識。

對詞彙的理解是解讀自然語言的關鍵,語言學家所創造的詞典為人類而非機器的閱讀提供了便利,雖然有電子詞典的存在,但機器仍無法很好的從中獲取詞彙含義。1985年,普林斯頓大學認識科學實驗室在心理學教授喬治·A·米勒的指導下開始建立和維護名為WordNet的英語字典[4],旨在為詞典資訊和現代計算提供更加有效的結合,為計算機程式提供可讀性較強的線上詞彙資料庫。在WordNet中,名詞、動詞、形容詞以及副詞被按照認知上的同義詞分組,稱為synsets,每一個synset表徵一個確定的概念。synset之間透過概念語義以及詞彙關係連結。在漢語中,類似的典型代表有《同義詞詞林》[15]及其擴充套件版[16]、知網(HowNet)[17]等,都是從語言學的角度,以概念為最基本的語義單元構建起來的可以被計算機處理的漢語詞典。

這些早期的知識圖譜都是利用相關領域專家進行人工構建,具有很高的準確率和利用價值,但是其構建過程耗時耗力而且存在覆蓋性較低的問題。

連結資料與基於百科知識的知識圖譜構建

1989年全球資訊網的出現,為知識的獲取提供了極大的方便,1998年,全球資訊網之父蒂姆·伯納斯·李再次提出語義網(Semantic Web),其初衷是讓機器也同人類一樣可以很好地獲取並使用知識[5,6,7]。不同於人工智慧中訓練機器使之擁有和人類一樣的認知能力,語義網直接向機器提供可直接用於程式處理的知識表示[5]。但語義網是一個較為宏觀的設想並且其設計模型是“自頂向下”的,導致其很難落地,學者們逐漸將焦點轉向資料本身。2006年,伯納斯·李提出連結資料(Linked Data)的概念,鼓勵大家將資料公開並遵循一定的原則(2006年提出4條原則,2009年精簡為3條原則)將其釋出在網際網路中[8,9],連結資料的宗旨是希望資料不僅僅釋出於語義網中,而需要建立起資料之間的連結從而形成一張巨大的連結資料網。其中,最具代表性的當屬2007年開始執行的DBpedia專案[10],是目前已知的第一個大規模開放域連結資料。

DBpdia專案最初是由柏林自由大學和萊比錫大學的學者發起的,其初衷是緩解語義網當時面臨的窘境,第一份公開資料集在2007年時釋出,透過自由授權的方式允許他人使用。Leipzig等學者[10]認為在大規模網路資訊的環境下傳統“自上而下”地在資料之前設計本體是不切實際的,資料及其後設資料應當隨著資訊的增加而不斷完善。資料的增加和完善可以透過社群成員合作的方式進行,但這種方式涉及資料的一致性、不確定性,以及隱式知識的統一表示等諸多問題。Leipzig等人[10]認為探尋這些問題最首要並高效的方式就是提供一個內容豐富的多後設資料語料,有了這樣的語料便可以極大推動諸如知識推理、資料的不確定管理技術,以及開發面向語義網的運營系統。朝著連結資料的構想,DBpedia知識庫利用語義網技術,如資源描述框架(RDF)[18],與眾多知識庫(如WordNet、Cyc等)建立連結關係,構建了一個規模巨大的連結資料網路。

知識圖譜的發展概述

圖2 以DBpedia為核心的連結資料網路

2001年,一個名為維基百科(Wikipedia)的全球性多語言百科全書協作計劃開啟[11],其宗旨是為全人類提供自由的百科全書,在短短几年的時間裡利用全球使用者的協作完成數十萬詞條(至今擁有上百萬詞條)知識。維基百科的出現推動了很多基於維基百科的結構化知識的知識庫的構建,DBpedia[10]、Yago[12]等都屬於這一類知識庫。

Yago是由德國馬普研究所於2007年開始的專案,針對當時的應用僅使用單一源背景知識的情況,建立了一個高質量、高覆蓋的多源背景知識的知識庫。前面介紹的專家構建的WordNet擁有極高的準確率的本體知識,但知識覆蓋度僅限於一些常見的概念或實體;相比之下,維基百科蘊含豐富的實體知識,但維基百科多提供的概念的層次結構類似標籤結構並不精確,直接用於本體構建並不適合。Yago的主要思路是將WordNet與維基百科二者的知識結合,即利用WordNet的本體知識補充維基百科中實體的上位詞知識,從而獲取大規模高質量、高覆蓋的知識庫。截至目前,Yago擁有超過1千萬實體的1.2億條事實知識,同時近些年也構建起了與其他知識庫的連結關係。

DBpedia主要透過社群成員來定義和撰寫準確的抽取模版,從維基百科中抽取結構化資訊(如,infobox)構建大規模知識庫,另外本體(即知識庫的後設資料、schema)的構建也是透過社群成員合作完成的。由於維基百科是社群撰寫,其知識表達難免有不一致的情況,DBpedia利用mapping技術與抽取模版來實現知識描述的統一與一致性。另外,為了實現知識的更新與擴增,DBpedia開發DBpediaLive來保持與維基百科的同步。在2016年發行的版本中,DBpedia擁有超過6百萬實體及其數十億事實知識,其中人工構建的本體庫包含760種類別資訊。同時,DBpedia擁有大量的跨語言知識,共擁有除英語外的66億其他語言事實知識。

2007年,Freebase[13]開始構建,類似維基百科,其內容主要來自其社群成員的貢獻,但與維基百科最大的不同之處在於Freebase中都是結構化的知識,在維基百科中人們編輯的是文章,而在Freebase中編輯的是知識。在Freebase中,使用者是其主要核心,除了對實體的編輯,使用者也參與本體庫的構建、知識的校對,以及與其他知識庫的連結工作。除人工輸入知識,Freebase也主動匯入知識,如維基百科的結構化知識。Freebase擁有大約2千萬實體,目前被Google公司收購,Freebase的API服務已經關閉但仍提供資料的下載。

2012年,考慮到維基百科中大部分的知識都是非結構組織起來的,帶來諸多問題(如:無法對知識進行有效的搜尋與分析,進而知識無法得到很好的重用,甚至存在知識的不一致性的現象),維基媒體基金會推出Wikidata專案[14],一個類似於Freebase的大規模社群成員合作知識哭,旨在用一種全新的方式管理知識以克服以上的存在於維基百科中的問題。

以上所介紹的知識圖譜都是基於英文語言的,即使是多語言知識圖譜也是以英文為主語言,其他語言知識是用過跨語言知識(如,語言間連結(ILLs)、三元組對齊(TWA))連結得到。近些年,國內推出了大量以中文為主語言的知識圖譜,它們主要都是基於百度百科和維基百科的結構化資訊構建起來的。如上海交通大學的zhishi.me[19]、清華大學的XLore[20]、復旦大學的CN-pedia[21]。2017年,由國內多所高校發起cnSchema.org專案[23],旨在利用社群力量維護開放域知識圖譜的Schema標準。

基於自由文字的開放域知識圖譜構建

上述介紹的知識圖譜的構建方式包括人工編輯和自動抽取,但自動抽取方法主要是基於線上百科中結構化資訊而忽略了非結構化文字,而網際網路中大部分的資訊恰恰是以非結構化的自由文字形式呈現。與連結資料發展的同期,很多基於資訊抽取技術的知識獲取方法被提出,用以構建基於自由文字的開放域知識圖譜。

2007年,華盛頓大學Banko等人[24]率先提出開放域資訊抽取(OIE),直接從大規模自由文字中直接抽取實體關係三元組,即頭實體、關係指示詞,以及尾實體三部分,類似於語義網中RDF規範的SPO結構。在OIE提出之前,也有很多面向自由文字的資訊抽取被提出,但這些方法主要的思路都是為每個目標關係訓練相應的抽取器。這類傳統的資訊抽取方法在面對網際網路文字中海量的關係類別時無法高效工作,即為每個目標關係訓練抽取器時不現實的,更為嚴重的是很多情況下面對海量的網路文字我們無法事先明確關係的型別。OIE透過直接識別關係片語(relation phrases)也稱關係指示詞,即顯式表證實體關係的片語,來抽取實體關係。基於OIE的指導思想,華盛頓大學陸續推出TextRunner[24]、Reverb[25]、OLLIE[26]等基於自由文字的開放域三元組抽取系統;以及卡耐基梅隆大學的NELL系統[27,29]、德國馬普研究中心的PATTY等[28]。這些系統有的需要自動構造標註的訓練語料,進而從中提取關係模版或訓練分類器;有的則依據語法或句法特徵直接從分析結果中抽取關係三元組。接下來,本文將簡要介紹下具有代表性的Reverb和NELL系統的實現思想。

Reverb針對之前的OIE系統中存在的兩個問題:不連貫抽取與資訊缺失抽取,提出句法約束:對於多詞語關係片語,必須以動詞開頭、以介詞結束,並且是由句子中毗鄰的單片語成。該約束可以有效緩解以上兩個問題造成的抽取失敗。進一步,為了避免由句法約束帶來的冗長的並且過於明確的關係指示詞,Reverb引入了啟發式的詞法約束。總的來說,Reverb提出了兩個簡單卻高效的約束,在面向英文自由文字的開放域知識抽取中取得了不錯的效果,很具啟發意義。

never-ending learning 被定義為是一種不同於傳統的機器學習方式[29],透過不斷地閱讀獲取知識,並不斷提升學習知識的能力以及利用所學知識進行推理等邏輯思維。NELL就是一種這樣的智慧體,其任務是學習如何閱讀網頁以獲取知識。

NELL的輸入有:

·        定義了類別和二元關係的初始本體庫;

·        對於每個類別和關係的訓練種子資料;

·        網頁資料(從預先準備好的網頁集合中獲取、每天從Google搜尋API獲取);

·        偶爾的人工干預,

NELL每天24小時不停歇的進行如下操作:

·        從網頁中閱讀(抽取)知識事實用以填充知識庫,並移除之前存在於知識庫中不正確知識事實,每個知識具有一定的置信度以及參考來源;

·        學習如何比前一天更好地閱讀(抽取)知識事實,

NELL從2010年1月開始進行上述閱讀過程,目前所產生的知識庫已經擁有超過8千萬的相互連結的事實,以及上百萬學習到的短語。

知識圖譜的發展概述

圖3 NELL knowledge fragment

自動構建的開放域中文實體知識圖譜——《大詞林》

上述所介紹的OIE系統大多專注於對開放域實體關係三元組的抽取,但忽略了對於知識圖譜不可或缺的同時也是至關重要的本體庫的構建,即知識圖譜後設資料或稱為Schema的構建,是為三元組賦以語義的關鍵。2014年,由哈爾濱工業大學社會計算與資訊檢索研究中心發起的《大詞林》專案,面向包括自由文字的多資訊源對實體的類別資訊進行自動抽取並層次化,進而實現對實體上下位關係體系的自動構建,而上下位關係體系正是本體庫的核心組成之一。

《大詞林》的構建不需要領域專家的參與,而是基於多資訊源自動獲取實體類別並對可能的多個類別進行層次化,從而達到知識庫自動構建的效果。同時也正是由於《大詞林》具有自動構建能力,其資料規模可以隨著網際網路中實體詞的更新而擴大,很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極為有限的問題。

另外,相比以往的類別體系知識庫,《大詞林》中類別體系的結構也更加靈活。如《同義詞詞林(擴充套件版)》中每個實體具有具備五層結構,其中第四層僅有程式碼表示,其餘四層由程式碼和詞語表示,而《大詞林》中類別體系結構的層數不固定,依據實體詞的不同而動態變化,如“哈工大”一詞有7層之多,而“中國”一詞有4層;另外,《大詞林》中的每一層都是用類別詞或實體詞表示。

知識圖譜的發展概述

圖4 《大詞林》中“哈工大”的類別體系圖(左)和“中國”的類別體系圖(右)

自2014年11月27日上線,《大詞林》不斷新增中文實體及其層次化類別資訊,自動構建開放域實體知識庫。目前,《大詞林》中包括約900萬實體、約17萬類別;平均每個命名實體有1.77個不同粒度的優質類別;上下位關係超過1千萬對,其中實體與上位詞之間的上下位關係與上位詞之間的上下位關係準確率均達到90%以上。

《大詞林》(http://www.bigcilin.com/)系統網站支援使用者查詢任意實體,並以有向圖的形式展現實體的層次化類別,同時支援以目錄方式供使用者瀏覽部分公開的知識庫。人工智慧中關鍵的一步是知識的獲取與構建,《大詞林》作為基於上下位關係的中文知識庫,隨著網際網路中實體詞的增加不斷擴充其資料規模,並即將加入實體間關係、實體屬性等網狀關係結構,這對於基於知識庫的智慧系統無疑是一筆巨大的寶藏。

參考文獻

[1] Singhal A. Introducing the knowledgegraph: things, not strings[J]. Official google blog, 2012.

[2] Feigenbaum E A. Expert systems in the1980s[J]. State of the art report on machine intelligence.Maidenhead:Pergamon-Infotech,1981.

[3] Lenat D B, Prakash M, Shepherd M. CYC:Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI magazine, 1985, 6(4): 65.

[4] Miller G A. WordNet: a dictionary browser[J]. Information in Data, 1985: 25-28.

[5] Berners-Lee T. Semantic web roadmap[J]. 1998.

[6] Berners-Lee T, Hendler J, Lassila O.The semantic web[J]. Scientific american, 2001, 284(5): 28-37.

[7] Shadbolt N, Berners-Lee T, Hall W. Thesemantic web revisited[J]. IEEE intelligent systems, 2006, 21(3): 96-101.

[8]Berners-Lee T.Linked data-designissues[J]. http://www.w3.org/DesignIssues/LinkedData.html, 2006.

[9] Berners-Lee T. The next web[J]. TED.com, 2009.

[10] Auer S, Bizer C, Kobilarov G, et al.Dbpedia: A nucleus for a web of open data[J]. The semantic web, 2007: 722-735.

[11] Wales J, Sanger L. Wikipedia: The free encyclopedia[J]. Accessed via 

http://en.wikipedia.org/wiki/Main_Page (27 November 2011), 2001.

[12] Suchanek F M, Kasneci G, Weikum G.Yago: a core of semantic knowledge[C] //Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 697-706.

[13] Bollacker K, Cook R, Tufts P.Freebase: A shared database of structured general human knowledge[C]//AAAI.2007, 7: 1962-1963.

[14] Vrandečić D. Wikidata: a new platformfor collaborative data collection[C] //Proceedings of the 21st International Conference on World Wide Web. ACM, 2012: 1063-1064.

[15] 梅家駒. 同義詞詞林[M]. 上海辭書出版社,1983.

[16] 《同義詞詞林(擴充套件版)》:https://www.ltp-cloud.com/download/

[17] 董振東, 董強. 知網簡介[J].1999-09-23.[2004-03-06]. http://www.keenage.com, 1999.

[18] Swick R R. Resource Description Framework (RDF) Model and Syntax Specification W3C Recommendation[J]. W3c Recommendation World Wide Web Consortium, 1999.

[19] Niu, X.; Sun, X.; Wang, H.; Rong, S.;Qi, G.; and Yu, Y. 2011. Zhishi. me-weaving chinese linking open data. TheSemantic Web–ISWC 2011 205–220.

[20] Wang, Z.; Li, J.; Wang, Z.; Li, S.;Li, M.; Zhang, D.; Shi, Y.; Liu, Y.; Zhang, P.; and Tang, J. 2013. Xlore: Alarge- scale english-chinese bilingual knowledge graph. In Pro- ceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume1035, 121–124. CEUR- WS. org.

[21] Xu, B.; Xu, Y.; Liang, J.; Xie, C.;Liang, B.; Cui, W.; and Xiao, Y. 2017. Cn-dbpedia: A never-ending chinese knowledge extraction system. In International Conference on In- dustrial,Engineering and Other Applications of Applied In- telligent Systems, 428–438.Springer.

[22] 《大詞林》專案官網:http://www.bigcilin.com

[23] cnSchema官網:http://cnschema.org

[24] Michele Banko, Michael J Cafarella,Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI, volume 7, pages 2670– 2676, 2007.

[25] Anthony Fader, Stephen Soderland, andOren Etzioni. Identifying relations for open information extraction. InProceedings of the Conference on Empirical Methods in Natural Language Processing, pages 1535–1545. Association for Computational Linguistics, 2011.

[26] Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni, et al. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages523–534. Association for Computational Linguistics, 2012.

[27] Andrew Carlson, Justin Betteridge,Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr, and Tom M Mitchell. Towardan architecture for never-ending language learning. In AAAI, volume 5, page 3,2010.

[28] Ndapandula Nakashole, Gerhard Weikum,and Fabian Suchanek. Patty: a taxonomy of relational patterns with semantictypes. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages1135–1145. Association for Computational Linguistics, 2012.

[29] T. Mitchell, W. Cohen, E. Hruschka, P.Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J.Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A.Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A.Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.

本期責任編輯:趙森棟

本期編輯:吳洋


相關文章