證券圖譜平臺國產化替代實踐

qing_yun發表於2022-04-27

近兩年,圖資料庫成為最熱門的資料庫品類之一,圖資料庫(Graph database) 並非指儲存圖片的資料庫,而是以圖這種資料結構儲存和查詢資料。與關係型資料庫的表不同,圖資料庫用點和邊表達資料之間的關係,圖天然表達關係的特性在資料智慧時代有了用武之地,廣泛應用在金融行業反欺詐、反洗錢等場景。

國產化浪潮下,不少企業機構將圖資料庫國產化提上了日程,有的已經落地實踐。不過相較於傳統的關係型資料庫,圖資料庫市場依然很新,方興未艾的圖資料庫是一個怎樣的江湖?企業選型時會關注哪些因素?金融機構有哪些落地?本文將通過某券商圖譜平臺國產化替代實踐為大家帶來國內圖資料庫的落地探索。

方興未艾的圖資料庫江湖

圖資料庫可以分為原生圖資料庫和非原生圖資料庫。原生圖資料庫以Neo4j為代表,在儲存層針對性做了優化,使得儲存會比較便於遍歷查詢,最終能夠實現比較深度遍歷;而非原生的圖資料庫可能會以NoSQL資料庫如HBase作為儲存層。與原生圖對應的是多模圖資料庫,以ArangoDB為代表;按照圖模型可以大概分為屬性圖和RDF(俗稱三元組),目前業界更多使用屬性圖,因為它比較能實際反映業務場景,與網路相關的地方更多會使用RDF,Neo4j和星環科技StellarDB都是屬性圖;業界主流圖查詢語言是Neo4j開源的openCypher和Apache的Gremlin,前者為宣告式語言,後者為命令式語言,目前圖查詢語言還沒有形成統一的標準(GQL相關草案可能今年推出)。

國內2018左右開始出現圖資料庫產品,不過,Neo4j以其活躍的社群和廣泛的流行度成為很多企業的入門級圖資料庫產品。也是在2018年,某券商從Neo4j入門開始接觸圖資料庫,“那個時候對圖有個基本的認識,就覺得好像圖是萬能的很強大。”他們表示說。

2018年開始,該券商基於Neo4j社群版逐步構建了企業知識圖譜、反洗錢知識圖譜和後設資料知識圖譜,構建APOC演算法庫、路徑計算、社團發現等演算法,在集團客戶畫像、風險事件報告、科創板關聯發現、可疑交易發現等業務場景落地。比如集團客戶畫像,主要是用來識別統一客戶;科創板關聯發現,發現利益輸送關係提醒業務等。

但隨著資料量的不斷增加以及管理要求的不斷提高,原來的圖資料庫在效能等方面出現瓶頸,給企業帶來很大的管理和成本壓力。

國產化替代,圖資料庫選型關注什麼?

據悉,隨著圖譜在該券商深入應用,Neo4j社群版出現了一些問題,一是不支援多例項應用,每個應用都要單獨伺服器部署,不便於管理;二是對計算資源有限制,所用Neo4j社群版限制一臺機器,最多使用4個核心,在10億級資料量下資料處理能力出現瓶頸,此外社群版沒有副本概念,不能滿足高可用需求;三是缺乏統一管理需求,無法做到統一資源管理許可權管理。雖然Neo4j 4.0以上版本支援分散式叢集,也升級了一些功能。但是結合國產化浪潮,在國家提出的2+8安全管控體系中,金融業首當其衝,金融信創大潮為銀行、證券等金融機構提出了自主可控需求,打造安全可控體系。該券商決定採購國產化一站式圖譜平臺作為信創落地,最終實現自主可控。

該券商整個國產化替代經歷了明確需求、密集調研、邀請招標、服務落地四個階段。

2021年4月,專案正式啟動,該券商對於此次圖資料庫選型設定了准入條件,核心要求符合信創要求,產品有自主研發能力,並在功能上滿足公司要求。

信創方面,在自主研發能力基礎上重點需要滿足四方面要求,一是公司要有信創資質認證,是信創工作委員會成員單位;二是產品通過信通院測試和認證,包括在伺服器、作業系統上相容性認證,以及獲得基礎能力專項測評證照;三是滿足國產作業系統相容,產品要有在同型號國產作業系統上執行的成功案例,獲得相容性驗證,有適配證明;四是滿足國產伺服器相容,產品要有在同款國產伺服器(CPU)上執行的成功案例,獲得相容性驗證,有適配證明。

功能方面,首先是圖查詢語言,能夠相容原Neo4j的openCypher語言,該券商認為openCypher有望成為業界標準;二是選用原生圖資料庫,認為原生圖在關係遍歷和路徑搜尋中有較好效能,且要求自研點、邊儲存技術,不能是依賴第三方閉源或開源的非自主可控儲存系統,比如基於HBase開發的儲存便不符合要求;三是滿足多圖管理,且支援隔離,相互不干擾;四是要求提供豐富的圖演算法,且都有自主智慧財產權;五是高效能運算要求能夠支援12度以上的關聯查詢,實現秒級返回;五是管理工具方面,要求有統一的管理工具,比如對叢集執行的資源,CPU進行監控,提供操作審計返回;六是批量資料載入要足夠快,支援任務排程等。

經過POC測試以及招標評選,最終星環科技方案脫穎而出,以其圖資料庫StellarDB和知識圖譜平臺Sophon KG打造國產化圖譜解決方案。

為什麼是星環StellarDB?

圖資料庫作為一個新興資料庫類別,國內有不少玩家,包括一些網際網路巨頭都有佈局。為什是StellarDB勝出?

StellarDB能夠勝出,既有時代給予的國產化機遇,但是打鐵還需自身硬,更重要的是產品自身足夠強大。在該券商看來,StellarDB是一款自主研發多年的分散式圖資料庫,已經通過信通院《圖資料庫基礎能力評測》測試,並擁有多項專利,在國產適配方面,可相容銀河麒麟、中標麒麟等國產作業系統。券商也比較看重其強大的特性,儲存引擎和計算引擎都是自主研發,比如儲存引擎是分散式、多分割槽,支援多圖管理,多副本預設每個圖三副本,可以支援高可用,索引、快取能提高查詢效率,支援萬億資料;計算引擎分散式執行,支援10層以上深度分析,支援30種圖演算法等;圖查詢語言支援openCypher並做了優化,同時也支援SQL語言;企業級功能中的叢集/任務監控可以監控整個CPU、記憶體、網路I/O等情況,也可以監控單個任務執行情況,還包括資料許可權認證、資料加密等。再加上與其知識圖譜平臺Sophon KG組成的一站式解決方案,更能滿足券商一站式圖譜平臺需求。

經過與星環科技的深入合作,該券商國產化圖譜平臺建設完成,效果顯著。軟硬體實現了國產化,能夠滿足自主可控要求;圖譜平臺從單機分應用部署變成分散式叢集的一站式圖譜平臺;新平臺也擁有了便捷管理工具;演算法效能明顯提升,集團演算法效能提升4倍,科創板關聯演算法效能提升2倍;由原來的依賴第三方排程工具到現在的統一排程以及API介面管理;由原來依賴社群,到現在星環科技提供全天候服務等。“我們基本上實現了鳥槍換大炮的一個過程。”

總結與展望

展望未來,該券商表示受外部環境等多種因素影響,國產化是大勢所趨,金融業會繼續在自主可控要求下繼續推進國產化程式。他認為國產圖資料庫大部分是在2018年後興起,目前還不是很成熟,處在中原逐鹿階段,而以星環科技為代表的國內廠商已經取得技術突破,正緊抓時代機遇。

具體到自身,該券商未來會繼續深入推進國產化替代,打造業務便捷的圖譜平臺,他們強調場景化應用是關鍵,由於圖資料庫是比較新的技術,更需要技術去引領業務去構建一些場景。未來希望將圖譜與Sophon KG提供的AI相結合,打造一站式圖計算和機器學習融合平臺,最終實現以技術驅動業務轉型創新,打造券商行業國產化標杆。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2888939/,如需轉載,請註明出處,否則將追究法律責任。

相關文章