從小眾到火爆,圖資料庫能為我們解決什麼問題?

qing_yun發表於2021-11-25

電信詐騙越來越猖狂,與詐騙犯鬥智鬥勇進行反欺詐,疫情流調,在人潮人海中快速找到密接人員……這背後很可能都有資料庫當紅炸子雞圖資料庫的技術支撐。

什麼是圖資料庫?圖資料庫能解決什麼問題?是否圖資料庫要替代關係型資料庫?在日前DTCC2021中國資料庫技術大會上,IT168&ITPUB採訪了開源分散式圖資料庫廠商歐若數網PD & CR吳敏,就相關問題進行了探討。

圖資料庫領域的中國力量

從上圖DB-Engines資料庫流行度變化可以看到,圖資料庫一枝獨秀成為近10年來關注度增長最快的資料庫,也吸引了投資者的青睞,目前為止資料庫領域最大單筆融資就誕生在圖資料庫。從2021年8月到11月,三個月時間DB-Engines收錄的圖資料庫產品數量從32家增加到36家,可見其火爆程度,其中有4家國產圖資料庫產品上榜,歐若數網Nebula Graph排名15。在圖資料庫領域,國內外基本處於同一起跑線。

圖資料庫並不是儲存影像的資料庫,圖資料庫是用點和邊來表達資料之間的關係,是更自然的儲存方式,更專注於物件之間的關聯。歐若數網認為,資料間的關聯關係將會是下一個重要的業務增長點,而快速挖掘資料背後的關聯價值便是提升業務價值的關鍵。Gartner釋出的2020年十大科技趨勢預測中,關聯關係被認為是一切資料分析產生價值的基礎。專注於資料關聯關係的圖資料庫成為刻畫及利用資料關係最佳的基礎設施,而傳統的關係型資料庫產品已經很難勝任這種海量複雜的分析需求,這也是圖資料庫能夠快速發展的核心因素之一。

2018年歐若數網成立,創始團隊來自於Facebook、阿里巴巴、華為等國內外各大知名公司,在圖資料庫、大資料等領域有豐富的開發和業務經驗。公司於2019年5月正式開源釋出分散式圖資料庫Nebula Graph AlphaV1.0版本,同年12月上線首個商業版本,並被DB-Engines收錄,成為目前DB-Engines排名最高的中國圖資料庫產品。

吳敏介紹,Nebula Graph在立項之初,團隊便定了四個目標:規模、生產、OLTP、開源生態,而這 4 個目標直至今日依舊影響 Nebula Graph 產品規劃。

規模方面,考慮到未來資料庫處理的資料規模會很大,摩爾定律失效,而單機情況並不能很好地應對海量資料爆發式增長,便研究分散式資料庫是如何處理資料。此外,資料規模大時,圖資料分析屬性多,Nebula Graph 採用屬性圖模型設計,支援上百屬性。

生產方面,Nebula Graph針對生產工業級別的資料量萬億點邊資料量而設計,做到工業級別可用。此外,還考慮查詢語言如何設計,更好滿足視覺化、可程式設計、運維等要求。

OLTP方面,Nebula Graph初始設計目標是優先考慮 TP 場景,即使到今天也是一樣,Nebula Graph 是一個線上、高併發、低延遲的圖資料庫。

開源方面,Nebula Graph先有開源版本後有商業的企業版本,除了構建開源技術社群、開發者生態之外,也對接了大資料生態,以及與圖計算、訓練框架進行結合。

Nebula Graph之所以能夠在DB-Engines排名那麼靠前,在於當初設計時立足未來的長遠規劃,更在於實現。吳敏強調,Nebula Graph 採用儲存計算分離架構,計算層和儲存層可以根據各自的情況彈性擴容、縮容,使水平擴充套件成為可能。此外,Nebula Graph 具有低延時、高併發特性,整個核心程式碼採用 C++ 編寫,保證了執行效率。其次,Nebula Graph 做了很多並行和非同步執行的優化。第三是計算下推,在分散式系統裡面,硬體上網路對整體效能的影響最大,所以資料搬遷很低效。比如,1 萬條資料最終過濾出 100 條,相當於 99% 的網路傳輸浪費掉。Nebula Graph採用移動計算,將計算下推到儲存層,同樣在1萬條資料中過濾出100條,直接在儲存層做完過濾再回傳計算層,速度提升100 倍。此外,架構和產品特性之外,Nebula Graph 作為一款開源的分散式圖資料庫,社群活躍度極高,問題響應速度快,也是排名靠前的一個重要因素。

開源是今年資料庫發展的一個重要趨勢,“在圖領域,開源是一件很常見的事,反而閉源並不常見。因為圖本身在過去幾年是個小領域,只是最近慢慢地火起來。所以,選擇開源是一個挺好的 Branding,建立自己技術品牌的方式。再者,開源的方式可以吸引更多的人來用它,同更多的人交流圖技術,促進彼此思考。以及,在使用者使用過程中,反饋過來的使用建議能迭代、快速完善產品。”吳敏表達了他對開源的思考。

Gartner的分析師預計,到2022年,企業圖形處理和圖形資料庫將以每年100%的速度增長,到2023年,將促進30%的組織的決策。

圖資料庫的落地與挑戰

在DTCC2021中國資料庫技術大會上,圖資料庫專場廣受關注,讓我們更能感受到圖資料庫的火爆,目前圖資料庫已經在很多場景有了落地。

以Nebula Graph為例,目前Nebula Graph的使用者覆蓋金融、網際網路、政府、製造業、物聯網、人工智慧、商業智慧、機器學習等多個領域。2021 年是 Nebula Graph 商業化元年,也是 Nebula 企業使用者突破 200 大關的一年。

吳敏介紹,金融領域典型的場景有反欺詐、反洗錢,實時甄別高風險資金流動等。網際網路的典型場景有智慧助理、本地生活化推薦、威脅情報分析、反作弊、資料治理等;政府可能涉及到公安技偵、疫情防控中的密接分析等。

比如眾安保險將Nebula Graph用於反欺詐社群發現場景,知乎將Nebula Graph作為反作弊工具,有效防止使用者刷贊等作弊行為,快手將Nebula Graph用於安全情報平臺,提供給多個業務部門使用等。

而根據今年10月IDC釋出的《IDC TechBrief:圖資料庫》,從全球來看,圖資料的使用仍處於早期階段,市場飽和度不足5%。

毫無疑問圖資料庫有非常廣闊的市場前景,但是當下的起步階段,市場上也有一些質疑聲音,有人指出圖資料庫應用場景太少,很多關係型資料庫也能做,包括金融場景在內的很多場景是為了用而用。吳敏特別強調,同關係型資料庫相比,圖資料庫有天然的優勢,點邊結構的資料庫是天然貼近現實世界,能直觀表達現實世界中的實體及其對應關聯關係,這點在找尋資料關聯關係的場景下尤其明顯,在資料規模到達一定量級之後,查詢資料的多層關聯關係,關係型資料庫的效能遠低於圖資料庫,根據天然的圖資料結構特點能快速返回查詢結果。

“我一直沒覺得圖資料庫的市場和關係型資料庫市場有多大的重疊,也沒啥競爭關係,雖然當前,取的名字都叫‘資料庫’。更多場景應用在探索階段,有些行業已經有明確用途了,有些行業下定論還有點早,也許再過兩三年回頭看,可以大概知道。”吳敏認為現在下結論還為時尚早。他指出,雖然,目前圖資料庫還存在許多挑戰需要解決,比如資料的完備性、一致性,分散式事務的支援以及 OLAP 和 OLTP 融合等。但是圖資料庫這個領域目前為止還保持了穩定的增速,已經在一些數字化較高的行業得到了不錯的滲透。從市場的角度看,在更廣更深的領域取得關鍵系統應用是極為重要的事,這也更依賴於全行業的努力。

從使用門檻的角度看,Nebula Graph 自研的圖資料庫查詢語言 nGQL 是種類SQL語言,對於開發人員比較友好,極易上手。自V2.0版本開始,nGQL逐步相容openCypher 9標準。吳敏認為,隨著 GQL 標準的制定,對於提升行業標準化,降低使用者學習和遷移成本會有很大的幫助。

對於正在發展初期的圖資料庫而言,需要全行業共同努力,一起呵護,既看到優勢也看到不足,積跬步以致千里,期待圖資料庫更多的落地。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2844061/,如需轉載,請註明出處,否則將追究法律責任。

相關文章