Toggle navigation
IT人
IT人
墨天輪沙龍 | 北京大學李文傑:面向知識圖譜應用的圖資料庫系統gStore
enmotech
發表於
2022-07-14
資料庫
> 在6月8日舉辦的[【墨天輪資料庫沙龍第七期—開源生態專場】](https://www.modb.pro/tag/%E5%A2%A8%E5%A4%A9%E8%BD%AE%E6%95%B0%E6%8D%AE%E5%BA%93%E6%B2%99%E9%BE%99-%E5%BC%80%E6%BA%90%E7%94%9F%E6%80%81%E4%B8%93%E5%9C%BA?type=knowledge)中,北京大學重慶大資料研究院圖資料庫與知識圖譜實驗室副主任、北京大學王選計算機研究所全職博士後 **李文傑**老師分享了《**面向知識圖譜應用的圖資料庫系統gStore**》主題演講,本文為整理內容。 **導讀** 大家好,我是來自北京大學的李文傑,我今天分享的主題是《面向知識圖譜應用的圖資料庫系統[gStore](https://www.modb.pro/wiki/539?0714)》,內容將從以下幾個方面展開:圖資料行業背景、gStore圖資料庫系統、gStore開源之路。 ### 圖資料庫行業背景 #### 1、大資料與人工智慧推動圖資料庫發展 隨著大資料、人工智慧時代的到來,圖資料庫及知識圖譜也應運而生並逐漸發展。 **圖資料充分體現了大資料的關聯性,擁有廣泛的應用場景**。圖資料能夠關聯資訊,使之成為知識,同時圖資料能夠很清晰揭示覆雜的模式,用於挖掘人、物和實體之間的潛在不易觀察的行為和聯絡。 在人工智慧領域,圖資料也發揮著巨大的作用。認知智慧作為人工智慧中重要的分支,知識圖譜便是認知智慧的資料基礎,因此以圖資料庫為代表的知識圖譜逐漸獲得了廣大的關注。  *圖1 知識圖譜資料的儲存與查詢* #### 2、圖資料庫的優勢 為什麼隨著大資料與人工智慧的發展,圖資料能夠迅速火熱?主要是基於它獨特的優勢。首先,在關聯查詢的條件下,圖資料庫表現出效能方面的優勢,能夠支援秒級多跳查詢。除此之外,圖資料庫也具有優秀的表達能力,能夠構建與檢索複雜的人物關係,實現“按圖索驥”。 正是因為它的獨特優勢,近年來圖資料一枝獨秀成為近幾年資料管理軟體發展最為快捷的資料管理軟體型別。  *圖2 圖資料在 DB-Engines 上的發展趨勢* ### gStore圖資料庫系統 不管是關係型資料庫還是圖資料庫,中國公司在核心資料管理引擎技術上存在缺位的現狀,“**打造圖資料管理系統的中國芯**”也成為了我們的願景。 從2011年開始,北京大學王選計算機所資料管理實驗室開始研發面向知識圖譜的圖資料庫管理系統,到目前為止,gStore已經走過了11年的時間,它有著**源頭創新**、**自主可控**、**標準系統**、**系統優越**的核心技術。 gStore面向知識圖譜應用,採用了RDF模型。在**2011年的頂級會議VLDB上,子圖匹配的搜尋查詢方法被gStore團隊首次提出**,從此奠定了gStore的核心是自主研發的原生的資料庫管理系統。 不管是從儲存模式還是儲存結構的角度,gStore都是自主研發的資料庫管理系統。  *圖3 gStore實現了源頭創新* gStore同樣也獲得了國外業內同行的認可,在國外第三方的測試中,gStore 在效能與查詢時間上表現出了優勢。  *圖4 gStore在測試中的表現結果展示* 除了技術認可,gStore在學術上做的貢獻也得到了認定。圍繞著gStore核心技術,團隊發表國際資料庫領域頂級期刊會議論文(包括SIGMOD,VLDB等)35篇,被國內外學術同行引用超過2000次。  *圖5 gStore的學術認定* ### gStore開源之路 #### 1、研發歷程及產品生態 接下來我們一起回顧 gStore 的研發歷程。 gStore的研究論文最早發表在資料庫領域頂級國際會議VLDB 2011上,在論文中提出利用子圖匹配的方法來構建圖資料庫系統。2017年,gStore 0.7版本在Github上開源。一直到今天,gStore也保持著至少一月一次的程式碼提交頻率。  *圖6 gStore研發歷程* 目前gStore 開發團隊研發了**gBuilder、gAnswer、gWorkbench、gMaster、gCloud等系列產品,初步形成了圍繞著知識圖譜應用的產品棧**。  *圖7 gStore 產品生態* #### 2、為什麼選擇開源? 接下來講講gStore的開源之路。為什麼選擇開源,我們基於以下兩個方面的考慮: 首先gStore作為一款自主研發的圖資料庫產品,在孵化期階段需要**獲取國家科技資金支援,完成產品原型及關鍵理論研究**。 其次我們希望gStore透過開源的方式吸引一批技術愛好者以及特定客戶,從而選**擇關鍵客戶及應用場景進行技術及場景驗證與探索核心引擎產品化及商業化**。 目前圖資料庫的發展正處於成長期,我們經常會花很多時間向客戶介紹“什麼是圖資料庫”,社會大眾對圖資料庫的不瞭解是這個領域面臨的一個普遍性問題。因此我們迫切的需要從開源以及社群建設等途徑,打造大眾社會對圖資料庫的認知。  *圖8 gStore 目前的階段及為未來發展* #### 3、gStore 開源建設與策略 gStore在開源建設上持續努力,積極與各個社群平臺展開合作。  *圖9 gStore 合作的開源平臺與社群* 作為一款開源專案,gStore有較為寬鬆的開源策略,我們採用BSD開源協議,同時在GitHUB 與gitee上有最新的原始碼可供下載。 我們參考Neo4j 的方式實行開源版與企業版並行。相較於開源版,企業版具有如最短路、環路檢測、K跳可達、PageRank等圖分析演算法的高階功能,同時還具有分散式部署的能力。  *圖10 gStore 開源策略* #### 4、gStore 未來計劃 gStore在發展過程中,對於開發者而言存在著一些問題,借這個機會與業界同仁一起來探討。 第一個問題是**開發者使用不易**。目前專案中參與程式碼貢獻的更多是高校的老師與學生,同時程式碼的體量較大,大約為十多萬行,其中包塊專案研發者自己設計的相關資料結構、索引結構。因此這樣的程式碼對於開發者學習與研究而言,較為吃力。 第二個問題是**學習資料較少**。開發者能夠學習和參考使用的的資料不足,也因此導致GitHub等平臺star和fork不足。因此gStore的研發團隊也在整理類似於openGauss核心原始碼分析的核心手冊與檔案,同時也會增加使用者手冊以及產品宣傳的工作,從而改善學習資料較少的現狀。 第三個問題是**內部溝通較少**,開發者內部針對gStore的討論未搭建完善的平臺,大家互通有無連線不足。  *圖11 gStore 目前存在的問題* 基於以上的問題,gStore的開源計劃將從兩個方面進行重點開源最佳化,增加gStore相關使用學習資料以及增加共享機制。  *圖12 gStore 後期開源計劃* 我今天的分享就到這裡,謝謝大家! > 更多精彩內容,歡迎大家觀看現場影片回放與會議資料 影片回放:[https://www.modb.pro/video/6497](https://www.modb.pro/video/6497?0714) 會議資料:[https://www.modb.pro/doc/64475](https://www.modb.pro/doc/64475?0714) --- - 檢視原文:[https://www.modb.pro/db/429809](https://www.modb.pro/db/429809?0714) - 檢視【國產資料庫沙龍】開源生態專場文章、影片回放資源:[https://www.modb.pro/topic/412121](https://www.modb.pro/topic/412121?0714) 欲瞭解更多可以進入[墨天輪社群](https://www.modb.pro/?0714),圍繞資料人的學習成長提供一站式的全面服務,打造集新聞資訊、線上問答、活動直播、線上課程、文件閱覽、資源下載、知識分享及線上運維為一體的統一平臺,持續促進資料領域的知識傳播和技術創新。 關注官方公眾號: 墨天輪、 墨天輪平臺、墨天輪成長營、資料庫國產化 、資料庫資訊
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69933133/viewspace-2905723/,如需轉載,請註明出處,否則將追究法律責任。
最新文章
Brand Finance:2023年中國醫藥榜單
基於TOTP演算法的Github兩步驗證2FA(雙因子)機制Python3.10實現
.NET應用如何防止被反編譯
卷積導向快速傅立葉變換(FFT/NTT)教程
ArcGIS地圖投影與座標系轉換的方法
鞏固系統韌性三個基礎策略
Vue原始碼學習(八):生命週期呼叫
軟體設計模式系列之十八——迭代器模式
libwebp影像庫漏洞已在攻擊中被利用,CVSS評級滿分
白話區塊鏈是什麼
Mac系統監視器:iStat Menus for Mac中文版
如何遠端獲取汙水處理裝置資料並進行遠端程式設計除錯