當紅炸子雞圖資料庫商業化落地“雞肋”?

qing_yun發表於2022-05-31

圖資料庫是什麼?幾年前,有開發者誤以為是儲存圖片的資料庫。如今圖資料庫已經成為資料庫領域的明星,吸引巨頭佈局,受到越來越多的人關注以及資本青睞。激進者甚至認為,“NoSQL和NewSQL都不是真正的下一代資料庫,關係型資料庫後真正的下一代資料庫是圖資料庫。”

然而,有些人指出圖資料庫雖然火熱,但是商業化落地“雞肋”,談來談去說的最多的還是金融領域的落地,仍是小眾。

圖資料庫市場現狀如何?有多大前景?有哪些機遇和落地挑戰?本文將進行探討。

來勢洶洶的圖資料庫

年初,在某職場社交平臺上,有人詢問圖資料庫和時序資料庫哪個更有前景,引發討論,毫無疑問,這是兩個時下最熱門的資料庫種類。DB-Engines網站資料顯示,圖資料庫成為近十年來最受歡迎的資料庫,緊隨其後的是時序資料庫。

圖1

圖資料庫以圖論為理論基礎,使用圖模型,將關聯資料的實體作為頂點(vertex)儲存,關係作為邊(edge)儲存,解決了資料複雜關聯帶來的嚴重隨機訪問問題。有人指出圖資料庫與傳統關係型資料庫是圖和表的差別,圖資料庫是用點和邊來表達資料之間的關係,更專注於物件之間的關聯。

按照資料模型分類,圖資料庫屬於NoSQL的一種。千禧年網際網路的發展帶來資料量激增和資料種類多元化發展,催生了NoSQL資料庫的發展。

2007年第一款商用圖資料庫Neo4j在瑞典成立公司,開啟了圖資料庫商業化探索之旅。同年,iPhone手機面市,開啟了通往移動網際網路時代的大門,“雲大物移”等新技術的發展使得很多領域積累了大量圖資料,據悉,Facebook的社交網路在2011年已超過8億頂點。表達資料關係的圖資料庫順勢而起。圖1中DB-Engines資料庫流行度變化趨勢可以看到,圖資料庫自2013年起海闊憑魚躍,來勢洶洶。

螞蟻集團圖資料庫TuGraph負責人洪春濤指出,引起圖資料庫快速發展主要有以下幾個原因,一方面大資料技術走向成熟,形成大量資料積累,使得資料之間的關聯關係變得更清晰,從而為關聯資料的應用奠定了基礎。另一方面,大資料技術大規模應用之後,使用簡單模型獲得的收益越來越小,促使企業開始尋求使用更復雜的關聯模型來改進業務效果。再者,資料和業務需求的發展也推動了技術的發展,經過十多年的發展,圖迭代分析系統已經基本成熟,圖資料庫方面也湧現了一批不錯的產品。

圖資料庫的發展在2017年迎來重要的里程碑,亞馬遜在這一年推出圖資料庫Neptune,巨頭的加入證明圖資料庫是一個有前途的市場。同年,國內第一家商業圖資料庫公司創鄰科技成立,拉開了國產圖資料庫商業化發展序幕,如今已有近20款國產圖資料庫產品。

在圖資料庫發展過程中,老牌資料庫廠商也做了佈局,比如,Oracle推出Oracle Spatial and Graph,國內傳統資料庫廠商達夢成立子公司推出圖資料庫產品蜀天夢圖GDM等。

資本為圖資料庫領域送來大量彈藥助推市場發展,2021年初,TigerGraph完成1.05億美元融資,6月,Neo4j獲得3.25億美元的F輪融資,成為資料庫史上最大單筆融資,Neo4j投後估值達20億美元,將圖資料庫的發展推向一個小高潮,Neo4j聯合創始人兼CEO Emil Eifrem 甚至認為這是資料庫市場的一個轉折點。

需求、技術、資本各方的推動,使得圖資料庫成為當紅炸子雞。在去年DTCC資料庫技術大會上,圖資料庫專場受到廣泛關注,會場滿座之餘仍有不少人站著聽講。一位嘉賓演講結束後,有參會者問起了求職機會。

資本和人才流向哪裡,哪裡就有未來。研究機構也給予了好的預期,Gartner的分析師預計,到2022年,企業圖形處理和圖形資料庫將以每年100%的速度增長,到2023年,將促進30%的組織的決策。市場調查機構Reports and Data最新資料指出,2027年圖資料庫全球市場規模將達74億美元。

然而,在熱火朝天的圖資料庫另一面,我們也看到仍然有求職者會猶豫,也有業內人士吐槽,圖資料庫商業化落地“雞肋”,仍是小眾,這麼多年談得最多的還是金融領域。是這樣嗎?

商業化落地探索更多場景

不像文件資料庫、雲資料倉儲已經有跑出來的上市公司,圖資料庫賽道經過近20年發展,還沒有獨立的上市公司,市場還處在培育耕耘期。甚至說方興未艾都有點早,算不上“興”。但如一點陣圖資料庫創業者所說“還是有進步,至少談到圖資料庫不會認為是儲存圖片的資料庫了。”

在眾多圖資料庫參與者中,有出於自身需求而入局的大廠,首要落地場景是企業自身業務,比如Twitter推出FlockDB,Twitter使用FlockDB來儲存社交圖(誰關注誰,誰遮蔽誰)和二級索引,國內位元組跳動推出ByteGraph,應用於抖音、廣告、推薦、風控等產品線,目前還未對外商用,螞蟻集團TuGraph用在支付寶等業務,已經對外商用。

目前,圖資料庫在金融領域落地最廣泛,而且有不少國內圖資料庫廠商從金融業切入,或者重點發力金融業。這不難理解,一方面,金融業數字化水平高,資料量大,資料準備充足,有適合圖資料庫落地的眾多應用場景。比如反欺詐、反洗錢、信用卡追逃、股權穿透等。另一方面,金融業普遍有錢。

如在反洗錢方面,據估計,全球洗錢交易佔全球GDP的2%至5%,即每年約1-2萬億美元。隨著犯罪分子使用更高超的洗錢手段,如今,許多機構能夠獲得有助於揭示非法活動的資料,但卻無法將資料與其中的關係聯絡在一起,關係型資料庫在關聯查詢方面存在瓶頸。

根據信通院《圖資料庫白皮書》,當資料規模變大且資料間關係隨之變得複雜時,使用關係模型檢索時需要多個表的屬性執行連線操作,資料寫入時也需考慮外來鍵約束,從而導致較大的額外開銷,產生嚴重的效能問題,因此傳統關係型資料庫更適合實體聯絡為一對一或一對多的應用場景。而圖資料庫則在處理複雜關係上有著天然優勢,在海量資料的多對多的複雜實體聯絡場景中有著異常突出的效能表現。

來源:信通院《圖資料庫白皮書》

金融業的反欺詐、反洗錢場景資料量大,關係複雜,且需要深度查詢,是圖資料庫的典型用武之地。實際上,除了金融業,在其他行業圖資料庫也有不少應用場景。比如,電信行業,圖可以和機器學習結合,幫助客戶進行電信反欺詐,實時識別出欺詐電話;能源行業,可以構建電網一張圖,進行潮流分析;通用行業,圖可以進行資料治理中的資料血緣分析、實體解析;供應鏈領域的上下游分析進行風控管理等。

專家們一致認為,圖資料庫發展還在起始階段,處在技術爆發前的前夜,推進商業化落地還有很多需要完善的地方。目前圖資料庫落地場景還處於探索的階段,在具體場景當中,會用到哪些演算法,需要哪些特性,使用者事先並不知道,有些行業已經有明確用途,有些行業下定論還有點早。

與關係型資料庫相比,圖資料庫目前仍是小眾。在體量上根本不是一個量級,根據Gartner的資料,關係型資料庫市場 2018年達到375億美元,且仍然保持10%的快速增長。

圖資料庫應用在新業務場景,也可以替換部分關係型資料庫場景。從業者對圖資料庫與關係型資料庫的關係擁有不同態度,Neo4j首席科學家Jim Webber接受IT168&ITPUB採訪時強調,圖資料庫是一種通用型資料庫,“基本上原本用關聯式資料庫實現的專案或者方案,80%都可以用圖資料庫來實現。”TigerGraph聖地亞哥創新中心負責人鬱介斌在去年接受採訪時更為激進地指出,“5-10年後,圖資料庫可能會徹底取代傳統關係型資料庫!”他認為關係型資料庫後真正的下一代資料庫是圖資料庫。歐若數網PD & CR吳敏對圖資料庫的發展保持樂觀,但沒有那麼激進,他認為圖資料庫市場和關係型資料庫市場沒有多大重疊,也沒什麼競爭關係。

洪春濤的觀點相對溫和,他認為,從表達能力上來說,屬性圖模型可以覆蓋關係資料模型。因此關係資料模型能表達的邏輯,用屬性圖都能表達。如果圖資料庫足夠成熟,從技術上可以替代關係型資料庫。不過,關係資料模型已經是一個深入人心的模型,對現有的很多問題,關係型資料庫都有成熟的解決方案。因此對一些已有問題,關係型資料庫都會是更低成本的方案。“圖資料庫會替代掉部分關聯式資料庫,最終市場份額一定比現在大,但不會完全替代掉關聯式資料庫。”洪春濤強調。

技術逐漸走向成熟

在技術層面,根據信通院《圖資料庫白皮書》,經過十多年的發展,圖資料庫已經歷了底層儲存、架構等技術方面的重大變革,由最初的單機圖資料庫向分散式大規模圖資料庫發展。

Graph1.0時代(2007年-2010年):小規模原生圖儲存。以Neo4j為代表,採用原生圖的方式實現了圖儲存,獲得了比關係型資料庫快得多的複雜關聯資料查詢效能。

Graph2.0時代(2010年-至今):分散式大規模圖儲存。隨著大資料和物聯網的蓬勃發展,資料本身的豐富程度增加,資料之間的關聯性增多,擴充套件性成為資料庫行業共同的痛點,分散式架構的興起催生了很多的分散式圖資料庫專案。在這一發展階段,支援分散式大規模圖儲存是關注的重點,圖儲存是否以原生的方式實現,不再是那麼重要的問題,例如OrientDB 選擇了支援原生圖儲存,自研了分散式圖資料儲存模組,而JanusGraph則是在其他資料庫(Cassandra、HBase等)之上封裝實現圖的語義。通過支援在通用硬體上進行水平擴充套件(ScaleOut),分散式圖資料庫具備了在海量關聯關係資料的儲存與實時深度查詢上絕佳的效能。

在去年DTCC大會圖資料庫專場中,嘉賓們不約而同講到萬億大圖以及大規模圖處理問題,這是當下圖資料庫技術發展的熱點和難點。目前,圖資料庫還是比較新的領域,落地場景探索需要一個過程。專家們認為,圖資料庫的發展還存在一些挑戰需要解決:

·技術挑戰——滿足據據的完備性、一致性,分散式事務的支援以及 OLAP 和 OLTP 融合等。

·生態挑戰——生態發展不夠成熟。一方面圖資料庫行業缺乏標準,查詢語言ISO GQL預計還需要一年左右才能發出第一個標準,這也導致生態發展更慢。另一方面,人才儲備不足,市場上很難找到能把業務問題抽象成圖問題的人才,運維人才也不足。

·配套工具——需要大量配套工具。

·安全和隱私挑戰——圖資料庫在安全和隱私方面可能會有困難。需要實施更嚴格的安全和訪問措施。由於圖資料庫更傾向於對映關係,隨著各國對資料隱私保護越來越重視,相關法律法規陸續推出,這種結構可能會引起隱私問題,例如揭示一個客戶或顧客以及與他們有關的每一個其他潛在客戶或顧客的更多裸露檢視。實施圖資料庫的企業應該格外小心,以確保這些資料庫的訪問方式和資料庫本身的安全。

·資料完整性影響——圖資料庫簡化了資訊之間的關聯方式。在此過程中,通過縮短或壓縮關係(與遍歷關係型資料庫中的許多表相比),圖資料庫中的所有資料都要準確,這一點尤為重要。一個不正確的對齊關係可以直接導致不正確的資料,而在關係型資料庫中,不正確的資料可能會在巢狀查詢期間遇到障礙,丟擲錯誤,然後解決問題。因此,在使用圖資料庫時,資料完整性顯得尤為重要。

國產圖資料庫的機遇

雖然國內第一家商業圖資料庫成立時間較海外晚了十年,但站在技術爆發前夜,海內外圖資料庫的發展基本處在同一起跑線上,參與GQL制定,解決大規模圖處理的挑戰,甚至在某些領域如與新硬體融合方面,國內處於領先地位。截止2022年5月12日,DB-Engines收錄了37款圖資料庫,其中有5款國產圖資料庫上榜,包括歐若數網Nebula Graph、百度智慧雲HugeGraph、華為雲GraphBase、創鄰科技Galaxybase和星環科技StellarDB。

如海外圖資料庫市場一樣,國內圖資料庫江湖大概有巨頭、創業公司、學院派、傳統資料庫廠商、跨界廠商五類,巨頭多是出於自身業務研發,比如百度智慧雲的HugeGraph、螞蟻集團TuGraph等;創業公司如歐若數網Nebula Graph、創鄰科技Galaxybase和星環科技StellarDB等;學院派中科院孵化的中科知道PandaDB和北大的gStore;傳統資料庫廠商如達夢蜀天夢圖GDM;跨界廠商如國家電網推出的電力專用圖資料庫GridGraph。

不同陣營各有千秋。有專家認為巨頭自身有成熟的業務,在圖資料庫領域會有不少競爭力。創業公司在產品和技術方面深耕,打造壁壘,且能夠快速進行創新迭代,但需要找到對應的市場和目標客戶。

值得一提的是,國內圖資料庫市場已經出現了整合。2020年螞蟻集團收購了費馬科技,對產品進行整合,形成螞蟻集團圖資料庫TuGraph,並對外開放商用。

由於更大的資料規模和業務複雜性,中國市場被視為前景廣闊大有作為的市場,誕生了眾多本土圖資料庫品牌,同時也吸引Neo4j、TigerGraph等來華開展業務。

對於資料庫這樣的基礎軟體,研發週期長,前沿技術攻克難,更需要產學研用多方合作。海外有的圖資料庫廠商在學術氛圍濃厚的地方建立創新中心,方便與學術前沿交流攻克技術難題,也便於培養技術人才。國內圖資料庫正在通過產學研用多方合作共謀發展。

近兩年開源成為資料庫技術發展趨勢,開源在生態建設以及真實場景打磨等方面有其優勢。部分圖資料庫品牌選擇開源發展。5月10日,百度宣佈將HugeGraph捐贈給 Apache 軟體基金會,成為 Apache 孵化專案,有人認為本次捐贈將促使國產圖資料庫走向世界。不過目前國產圖資料庫品牌選擇開源仍是少數派,也有相關負責人表示“正在謹慎考慮開源”。

隨著國內數字經濟發展,信創浪潮下,對自主可控有更嚴格的要求,國產圖資料庫迎來新的發展機遇。如某證券公司建立自主可控的新一代一站式圖譜平臺,使用星環科技StellarDB替換了Neo4j。

國家政策層面也為圖資料庫的發展帶來指引,去年工信部發布了《“十四五”軟體和資訊科技服務業發展規劃》,明確提出關鍵基礎軟體補短板,在資料庫方面要突破全記憶體高速資料引擎、高可靠資料儲存引擎、分散式資料處理與任務排程架構、大規模並行圖資料處理等關鍵技術。推動高效能資料庫在金融、電信、能源等重點行業關鍵業務系統應用。

國產圖資料庫面臨著國產化機遇,也會選擇出海謀求發展。很多人相信,在中國這樣一個場景足夠豐富複雜,規模足夠大的市場,似乎沒有理由鍛造不出世界前列的圖資料庫產品。

想要抓住歷史機遇,國產圖資料庫更需苦練內功,打磨產品與技術,一同推動查詢語言標準化建設,完善生態,構建差異化競爭優勢。正所謂行者常至,為者常成。

參考資料:

中國信通院《圖資料庫白皮書》;

https:/ /

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2898062/,如需轉載,請註明出處,否則將追究法律責任。

相關文章