Katana Graph認為大圖工作負載需要大的雲硬體

qing_yun發表於2022-06-07

根據Gartner的資料,到2025年,80%的資料和分析創新都將使用圖技術,比2021年的10%將有大幅增長。Katana Graph是希望在這個蓬勃發展的市場中分得一杯羹的公司之一,它正在透過開發一個能夠利用分散式硬體的進步來壓縮大型圖形工作負載的圖資料庫平臺,為自己開闢一個位置。

Katana Graph由德克薩斯大學奧斯汀分校的兩位電腦科學教授、技術長Chris Rossbach和執行長Keshav Pigali於2020年共同創立。Rossbach曾是VMware研究小組的成員,他的學術研究集中在虛擬化、加速器和並行架構等領域,而Pigali專門從事並行程式設計和分散式計算。

雖然這家位於奧斯汀的公司相當年輕,但Katana Graph的圖資料庫技術來源於其聯合創始人幾十年前的研究,該公司的首席業務官Farshid Sabet說。

“公司的價值體現在資料較大時。當你必須做非常深入的分析時,當你透過節點並做更深的跳轉時,計算強度會呈指數增長。”Sabet說。

分散式圖

Katana Graph的分散式平行計算框架由三部分組成,包括一個流式分割槽器、一個圖計算引擎和一個通訊引擎。分割槽器負責將資料分配到叢集的各個節點,而計算引擎負責協調和安排各節點的工作。同時,通訊引擎使各節點能夠有效地完成工作。

Katana Graph為圖資料帶來多個引擎(圖片來源:Katana Graph)

在加入Katana Graph之前,Sabet曾在Movidius和英特爾工作過,他說,該公司對如何很好地建立一個分散式圖形資料庫的問題有了新的認識。他表示這使得Katana Graph能夠以圖形競爭對手無法比擬的規模和速度工作。

“很多人在劃分圖形方面採取了一種簡單的[方法]。”Sabet告訴Datanami,“但隨著圖的規模越來越大,新的案例不斷出現,其中一些假設並不成立。”

Sabet介紹,公司的核心智慧財產權存在於框架的圖通訊部分,這一層面的進步使Katana Graph能夠高速執行非常大的圖形工作負載。Sabet說,它們還使該平臺能夠以資料流風格同時執行不同的工作負載,類似於Databricks的運作方式。

Katana Graph提供了四種查詢圖中資料的方式,包括Graph Queries(上下文搜尋);Graph Analytics(路徑查詢、中心性和社群檢測);Graph Mining(模式發現);以及Graph AI(預測)。

開發人員可以在Katana Graph中使用Cypher對工作流程進行程式設計,Cypher是最初由Neo4j開發的圖程式語言,後來被開源。許多圖資料庫供應商支援Cypher。Katana Graph還支援Python和C++,Sabet說。

硬體提升

Sabet介紹,Katana Graph可以利用不同型別的硬體,包括CPU、GPU、FPGA和ARM晶片。該軟體還可以支援英特爾的Optane記憶體和加速器。但Katana Graph的分散式性質使它與眾不同。

“我們在過去九年裡做了很多工作……能夠利用分散式記憶體,甚至一些不同型別的記憶體,”Sabet說。“這些[圖形]環境中的大多數只在CPU上執行,在這個儲存器中。Nvidia有一些東西可以在一個GPU和一臺機器中執行。如果你想把這些結合在一起[以實現可擴充套件性],那麼唯一的方法是不僅要支援多種硬體,還要支援統一處理圖形的分散式硬體。”

據Sabet說,Katana Graph的核心技術最初是在UT-Austin的高效能運算(HPC)基礎設施上開發和測試的。這些機器有大量的記憶體,這在十年前是非常昂貴的,但對於解決高階科學和技術問題是必要的。

隨著記憶體成本的下降,特別是在公有云環境中,它為使用者執行分析和人工智慧工作負載提供了新的可能性,而這些工作負載在以前的商業領域成本高昂。這對Katana Graph有利,它已被證明可以擴充套件到256個節點和超過35億個節點和1280億條邊的圖形(該公司說,它被設計為可以擴充套件到1萬億條邊)。

“圖形確實是計算和記憶體密集型的,”Sabet說,“10年前、12年前的超級計算機,就是我們今天的伺服器。這就是為什麼公司在這方面做得非常好。”

十幾年前,許多開發人員都在研究如何降低應用程式的CPU記憶體。“這在12年前是正確的決定,”Sabet說。“但是這些人[Rossbach和Pigali]並沒有這種限制。他們考慮的是我們需要什麼才能解決這個問題。”

GNN不斷增長

Katana Graph的一個優勢是開發人員能夠將他們已經使用XG Boost和PyTorch等框架構建的機器學習和AI模型納入Katana Graph平臺,Sabet說。

“我們可以將所有這些結合起來,而不需要你改變任何東西或重新修改演算法。你使用那些現有的框架,現有的庫,並在[你的]機器學習之上新增,”他說。“你要確保開發人員對他們所擁有的環境感到滿意。”

圖形神經網路,或稱GNN,結合了深度學習和圖資料庫的力量,是目前一個特別令人感興趣的領域。與訓練卷積或遞迴神經網路來識別影像或字串中的模式不同,GNN可以識別和利用構成圖的資料元素的連線性模式。

他說,GNN的準確性、效能和成本優勢目前正在獲得大量的追隨者。例如,生物醫學研究人員可以使用在Katana Graph中執行的GNN來識別新的蛋白質,這些蛋白質在圖資料庫中被表達為一個錯綜複雜的分子集合。“你訓練它去尋找那個蛋白質組,”Sabet說。

Sabet介紹,除了生物醫學研究人員之外,Katana Graph還吸引了金融服務領域的興趣。欺詐檢測是一個典型的圖資料庫用例,Katana Graph在這些領域中佔有一定的份額。

“有很多技術可用於欺詐檢測。但這個可以預測可能發生的欺詐行為,而且準確度更高,”他說。“他們想要機器學習演算法的更新版本,如XGBoost和其他技術”。他指出,GNN提供了這種更新的版本。

Katana Graph的第三個重點領域是網路安全。由於網際網路上有如此多的網路訊號在飛舞,圖形分析帶來了一個強大的工具,可以幫助人們連線這些點,並讓不懷好意者保持警惕。Sabet說,該公司的成立部分得益於與DARPA的合作,將這些訊號整合在一起。

Katana Graph有一些付費客戶,並有一個不錯的渠道,可以獲得更多的客戶。該公司在2021年完成了2850萬美元A輪融資。據Sabet說,這使公司在一年內從不到20名員工發展到近100名員工。

“我們有來自各個不同領域的專家在[加入公司],”他說。“大多數員工都是工程方面的,但商業方面也一直在增長。我們已經能夠從我們的競爭對手[如]TigerGraph、Neo、谷歌和微軟那裡聘請到非常有能力的人。”

該公司的軟體目前只在雲端使用,公司計劃很快推出雲端管理產品。

來自 “ https://www.datanami.com/2022/06/02/big-graph-work ”,原文連結:http://blog.itpub.net/69925873/viewspace-2899281/,如需轉載,請註明出處,否則將追究法律責任。

相關文章