為知識的海洋繪製地圖 —— 利用CirroData-Graph圖資料庫構建知識圖譜

雲端計算頻道發表於2022-05-30

  人類對世界的認知日益廣博、精深,如何將浩如煙海的知識有效組織和整理,方便高效儲存和查詢是一個重要問題。知識圖譜(Knowledge Graph)的概念應運而生,簡單的說知識圖譜就是一個具有有向圖結構的知識庫,是由實體、關係和屬性組成的一種資料結構。正因為具備這種特性,知識圖譜資料的儲存一般採用圖資料庫(Graph Database)。

  CirroData-Graph是東方國信基於開源專案Apache HugeGraph開發的一套分散式圖資料庫,可以幫助企業快速的構建圖模型資料,在知識圖譜這種典型的應用場景中也起到了重要的支撐作用。本文將通過介紹CirroData-Graph在東方國信自主研發的知識圖譜產品 ——“先知”平臺中的應用,幫助大家更好的理解圖資料庫的功能與特性。

  關於知識圖譜

  將《哈利.波特》中的人物關係用知識圖譜表示

  知識圖譜(Knowledge Graph)本質上是一種基於圖模型的關聯網路知識表達。知識圖譜將實體抽象為頂點,將實體之間的關係抽象為邊,通過結構化的形式對知識進行建模和描述,並將知識視覺化。

  知識圖譜一般可以分為兩類:

  通用知識圖譜:側重構建行業常識性的知識,並用於搜尋引擎和推薦系統。

  行業知識圖譜:主要面向企業,通過構建不同行業、企業的知識圖譜,對企業內部提供知識化服務。

  知識圖譜的構建方式通常為“自上而下”和“自下而上”兩種:

  自上而下:需要先定義好本體(schema),再基於輸入資料完成資訊抽取到圖譜構建的過程。適用於專業知識方面圖譜的構建,比如企業知識圖譜、面向領域專業使用者使用。

  自下而上:從開放的關聯資料中抽取置信度高的知識,或從非結構化文字中抽取知識,完成知識圖譜構建,更適合常識性知識,比如人名、機構名等通用知識圖譜的構建。

  關於圖資料庫

  圖資料庫源起尤拉的圖理論,基本含義是以“圖“這種資料結構儲存和查詢資料,而不是儲存圖片的資料庫。

  圖資料庫以圖論為理論基礎,使用圖模型,將關聯資料的實體作為頂點(Vertex)儲存,關係作為邊(Edge)儲存,解決了資料複雜關聯帶來的嚴重隨機訪問問題。邊是圖資料庫中的關鍵概念,在關係型資料庫或文件儲存資料庫中,沒有對邊的抽象概念進行直接實現。圖資料庫屬於NoSQL資料庫。

  圖資料庫在處理複雜關係上有著天然優勢,在海量資料的多對多的複雜實體聯絡場景中有著異常突出的效能表現。在處理關聯資料時,圖資料庫有三個非常突出的技術優勢:高效能、靈活、敏捷。

  高效能:圖資料庫相較於關係型資料庫和其它非關係型資料庫,在處理深度關聯資料時,具有絕對的效能提升;

  彈性資料模型:圖資料庫提供了極其彈性的資料模型,可以根據業務變化實時對資料模型進行修改,資料庫的設計者無需計劃資料庫未來用例的詳細資訊;

  敏捷開發:圖資料庫的資料建模非常直觀,而且支援測試驅動開發模式,每次構建時可進行功能測試和效能測試,符合當今最流行的敏捷開發需求,極大地提高了生產和交付效率。

  圖資料庫的應用場景多樣並不斷豐富,其在海量資料探勘、複雜關聯分析、實時查詢等方面具有較大優勢。如果說知識圖譜是圖資料庫最為基礎的底層應用場景,充分利用了其圖模型在儲存和查詢的優勢為多行業提供知識服務,那麼金融風控、社交應用等則是更具有行業特點的高階應用場景。

  在知識圖譜中,圖資料庫具有儲存和查詢兩方面的技術優勢:

  從儲存來看,圖資料庫提供了靈活的設計模式。知識圖譜中儲存了多樣、海量的資料。在關係型資料庫中所有的資料庫模式都需要提前定義,後續改動代價高昂。而圖模型中,只需要重新增加模式定義,再區域性調整圖資料,便可完成在原有的資料來源上增加標籤或新增屬性。

  從查詢來看,圖資料提供了高效的關聯查詢。在用圖資料庫儲存的知識圖譜中,可以通過查詢實體的邊和其邊上的標籤(即聯絡)來快速獲取與其相聯絡的另一實體,而不用再進行各種表的關聯操作,關係查詢的效率顯著提高。

  作為圖資料庫的底層應用,知識圖譜可為多種行業提供服務,具體應用場景例如電商、法律、醫療、智慧家居等多個領域的決策系統、推薦系統、智慧問答等。

  關於“先知”與CirroData-Graph

  “先知”平臺是東方國信自主研發的集一站式圖譜構建、知識管理、開放服務及視覺化智慧應用為一體的智慧認知中臺套件,圍繞知識圖譜在各領域的深化應用需求,以標準化為紐帶,提供完整的圖譜構建、管理、服務及智慧應用的工具套件。

  通過“先知”,無論是結構化資料、非結構化資料還是半結構化資料,企事業單位都可以自主使用工具,高效地進行知識抽取,挖掘資料資產的價值,提高使用者效率,賦能行業使用者知識化轉型,從而為組織提供由資料驅動到知識驅動輔助決策的認知躍遷。“先知”可廣泛用於多行業多領域,如軍工、公安、稅務、金融、醫療、保險等,並提供了整套的解決方案。

  “先知”平臺底層採用分散式圖資料庫CirroData-Graph進行支撐,平臺採用分散式架構,對於大批量非結構化資料的結構化提取可以根據實際的資料量大小,橫向擴充套件物理伺服器,以滿足大資料量的處理需求。此外,對單臺伺服器的容錯和故障報警都做了運維和回滾機制,保障單臺節點問題不會擴充套件到整個叢集中,不會影響其它節點的工作。

  CirroData-Graph是東方國信基於開源專案Apache HugeGraph研發的企業版分散式圖資料庫,可以幫助企業快速構建圖模型資料,同時在圖相關的應用場景中幫助企業提升開發效率。CirroData-Graph基於Apache TinkerPop3框架搭建,支援Gremlin查詢語言,支援百億級節點和關係的快速匯入,並提供毫秒級的關聯關係查詢能力,並可與Hadoop、Spark等大資料平臺整合以進行離線分析。

  在國產化生態適配方面,目前CirroData-Graph分散式圖資料庫已經與華為鯤鵬晶片完成了相容性測試互認證,獲得華為鯤鵬計算領域OpenLab授予的鯤鵬技術認證照。雙方產品相互相容,整體執行穩定,能夠滿足使用者的效能需求。

  此外CirroData-Graph還具備以下特性:

  易用:CirroData-Graph支援Gremlin圖查詢語言與RESTful API,同時提供圖檢索常用介面,具備功能齊全的周邊工具,輕鬆實現基於圖的各種查詢分析運算;

  高效:CirroData-Graph在圖儲存和圖計算方面做了深度優化,提供多種批量匯入工具,輕鬆完成百億級資料快速匯入,通過優化過的查詢達到圖檢索的毫秒級響應;支援數千使用者併發的線上實時操作;

  通用:CirroData-Graph支援Apache Gremlin標準圖查詢語言和Property Graph標準圖建模方法,支援基於圖的OLTP和OLAP方案;整合Apache Hadoop及Apache Spark大資料平臺;

  可擴充套件:支援分散式儲存、資料多副本及橫向擴容,內建多種後端儲存引擎,也可外掛式輕鬆擴充套件後端儲存引擎;

  開放:CirroData-Graph程式碼開源(Apache 2 License),客戶可自主修改定製。

  高效的圖計算引擎:CirroData-Graph

  “先知”平臺利用CirroData-Graph圖計算引擎,支援通過圖資料間的關係對資料節點進行分析,建模為富含語義的異構資訊網路進而支撐業務應用。

  先知內建圖挖掘演算法,包括PageRank、程度中心性、親密度中心性、中介中心性等中心性計算和尋路演算法,以及社群檢測演算法等,內建分析模型如群體分析、核心節點分析、位置關鍵度0分析、關係緊密度分析、活動頻繁度分析等。

  CirroData-Graph強大的圖計算引擎和內建功能,有效地降低了異構網路分析的複雜度,提升了分析效能,確保了圖計算的高效性和分析效率。

  目前CirroData-Graph分散式圖資料庫已經在不同行業的知識圖譜專案中進行試用,之後我們將針對這些圖資料庫的案例陸續進行介紹。


來自 “ CirroData ”, 原文作者:CirroData;原文連結:https://mp.weixin.qq.com/s/iuB-BmanA68ewgKBu-0o5A,如有侵權,請聯絡管理員刪除。

相關文章